Zvolebnieva sa nám, volebná kampaň je už v plnom prúde, rovnako ako aj vianočné prípravy. Z médií sa dozvedáme kto na koho čo naryl, kto si s kým písal alebo dovolenkoval. Ale na podstatné veci nezostáva miesto a čas.
Ako analytika, a teda racionálne rozmýšlajúceho človeka, ma tieto politické telenovely absolútne nezaujímajú. Rozhodol som sa teda, že sa na voľby pozriem cez dáta.
Volebné dáta sa dajú ľahko získať na stránke Štatistického úradu. Ako to však zvyčajne býva, dáta zverejnené sú, ale formát sa rok od roka líši. Okrem toho spraviť pohodlný dataframe z excelovských tabuliek so zjednotenými bunkami nie je práve tá najľahšia úloha. Ale po takmer 700 riadkoch kódu v R sa to podarilo a všetky volebné výsledky na úrovni obcí od roku 2004 boli spojené do jedného veľkého datasetu c 584 859 riadkami a 24 stĺpcami.
Dáta zo ŠÚ trebalo ešte trochu upraviť, keďže jedny a tie isté strany mohli od volieb k voľbám meniť svoje názvy.
Napríklad, dnes už zosnulá SDKÚ mala vo volebných dátach nasledujúce názvy: SDKÚ, SDKÚ-DS, Slovenská demokratická a kresťanská únia — Demokratická strana
Ku každej strane som priradil, kde sa približne náchádza na politickej mape. Či je ľavicová, liberálna, konzervatívna, kresťanská, národná alebo regionálna (menšinová). Je to len približné delenie, keďže slovenské strany (bohužiaľ) nie sú ideálne ideologicky vyhranené a často lavíruju medzi niekoľkými hodnotovými prúdmi v snahe osloviť čo najviac voličov. Taký SMER, napríklad, je niekedy ľavicový, niekedy národný a niekedy sa tvári aj kresťansky.
Aby sme mohli odpovedať na túto otázku, vytvoríme z volebných dát nasledujúcu matricu: v riadkoch budú strany v konkrétnych voľbách (napríklad SaS v roku 2010), stĺpce budú predstavovať obce a v prieniku riadku a stĺpca zapíšeme podiel hlasov. Výsledná tabuľka vyzerá takto
Pre každú stranu v každých voľbách sme tak vytvorili vektory v 2927 rozmernom priestore (práve toľko máme na Slovensku obcí). Teraz môžeme vypočítať kosínus uhla medzi dvoma vektormi, ktorý bude predstavovať ich podobnosť. A keďže vektor predstavuje stranu v každých voľbách, práve sme vypočítali podobnosť strán vo voľbách na základe ich voličskej podpory.
Výsledná tabuľka podobnosti vyzerá takto:
Napríklad SDKÚ vo voľbách do NR SR v roku 2006 sa podobá na
SDKÚ vo voľbách do NR SR v roku 2010 94%
SDKÚ vo voľbách do Europarlamentu v roku 2009 89%
SDKÚ vo voľbách do Europarlamentu v roku 2004 87%
SaS vo voľbách do NR SR v roku 2010 86%
Milana Kňažka v prezidentských voľbách v roku 2014 86%
A takto by sa dalo pokračovať ďalej. Ako vidíme v roku 2006 mala SDKÚ silné voličské jadro, ktoré volilo rovnako od roku 2004 až po rok 2010. A v roku 2014 práve bývalí voliči SDKÚ volili Milana Kňažka. Tiež môžeme vidieť, že v roku 2010 časť voličov SDKÚ prešla k Slobode a Solidarite.
No dobre, SDKÚ bola v roku 2006 už celkom etablovaná strana, ktorá bola 8 rokov vo vláde. A čo tak nejaká nová strana, napríklad OĽaNO v roku 2012. Pozrime sa na koho sa podobali Obyčajní ľudia:
SaS vo voľbách do NR SR v roku 2010 89%
Radoslava Procházku v prezidentských voľbách v roku 2014 87%
OĽaNO vo voľbách do NR SR v roku 2016 86%
SDKÚ vo voľbách do NR SR v roku 2010 84%
Andreja Kisku v prezidentských voľbách v roku 2014 84%
Ako vidno, Obyčajní ľudia lovia v pravicových vodách, pritom medzi ich voličmi sú konzervatívci aj liberáli.
Samozrejme, bolo by skvelé sa pozrieť na všetky strany v každých voľbách. To by som ale asi písal tento článok až do volieb.
Treba teda nájsť spôsob, ako by sa dali predstaviť vektory v 2927-rozmernom priestore na 2D grafe. Taký spôsob existuje a nazýva sa t-SNE (t-Distributed Stochastic Neighbor Embedding). Tento algoritmus pomôže znížiť rozmery nášho priestoru, zachovávajúc čo najviac informácií (aj keď samozrejme, veľkú časť informácií pri krátení dimenzií stratíme).
Takto vyzerajú strany a kandidáti na Prezidenta, ktoré získali 5% a viac percent na volebnej (interaktívnej) 2D “mape”.
Toto je, bohužial, len obrázok, interaktívny graf je dostupný tu. Pri premiestnení kurzora nad bodku uvidíte aká strana v akých voľbách je tam umiestnená. Čím väčšia bodka, tým viac percent strana alebo kandidát získali vo voľbách
O čom nám hovorí tento graf
Voliči regionálnych (menšinových) strán sa výrazne líšia od všetkých ostatných. SMK, ako aj MOST-HÍD majú podobných voličov.
KDH a Františko Mikloško májú tiež dosť odlišných od ostatných strán voličov, ktorí ich stabilne volia.
Ostatné strany sú dosť blízko seba, hlavne ale môžeme vidieť že ľavicové (čítaj SMER) a národné strany (SNS, HZDS, ĽSNS) sú si bližšie ako strany konzervatívne a liberálne (pravicové alebo “anti-Fico”)
ĽSNS volia ľudia, ktorí tiež volia alebo volili SNS, HZDS a Štefana Harabina v posledných prezidentských voľbách
Prezidentskí kandidáti Iveta Radičová v roku 2009, Andrej Kiska v roku 2014 a Zuzana Čaputová v roku 2019 oslovovali podobných voličov.
PS-SPOLU vo voľbách do Europarlamentu v roku 2019 volili bývalí voliči SDKÚ.
OĽaNO, SaS a SME Rodina majú podobných voličov aj napriek tomu, že hodnotovo sú to dosť odlišné strany. Spája ich však anti-SMER rétorika, čo je asi pre ich voličov to najdôležitejšie.
Algoritmus nám teda pekne hodnotovo klasterizoval strany len na základe podielu hlasov v každej slovenskej obci. To znamená, že volebné preferencie strán sú v každej obci relatívne stabilné.
Matricu, ktorú sme použili vyššie na výpočet podobnosti strán, môžeme obrátiť a vypočítať podobnosť obcí na základe toho ako volili vo voľbách za posledných 15 rokov.
Pozrime sa napríklad kde volia podobne ako v bratislavskom Starom Meste.
Bratislava — Karlova Ves 99%
Bratislava — Nové Mesto 99%
Bratislava — Ružinov 99%
Bratislava — Záhorská Bystrica 99%
Bratislava — Devín 98%
A takto to pokračuje ďalej až kým sa nám neminú bratislavské mestské časti a “satelitné” dediny. Potom nasledujú košické mestské časti.
Košice — Vyšné Opátske 97%
Košice — Sever 97%
Košice — Staré Mesto 97%
No, to nebolo veľmi zaujímavé.
Vyberieme teda nejaké menšie východoslovenské mesto, napríklad moje rodisko — Lipany (okres Sabinov).
Sabinov 97%
Odorín 97%
Pečovská Nová Ves 97%
Stropkov 97%
Spišské Vlachy 97%
To už je zaujímavejšie. Z okresu Sabinov tu máme len Sabinov a Pečovskú Novú Ves. Odorín je pri Spišskej Novej Vsi, Spišské Vlachy tiež. Stropkov je vzdialený takmer 80km od Lipian.
Podobný graf, ako je uvedený vyššie by sa dal spraviť aj pre obce, bol by však ťažko čitateľný. Posunieme sa teda o jednu administratívnu úroveň vyššie, do okresov, ktorých máme na Slovensku 79.
Toto je, bohužial, len obrázok, interaktívny graf je dostupný tu. Pri premiestnení kurzora nad bodku uvidíte aký okres je tam umiestnený.
Vpravo hore sa nachádzajú južné okresy, ktoré väčšinou volia maďarské strany.
Vpravo dole sú spolu bratislavské a košické okresy, a tiež okres Senec
Banská Bystrica volí podobne ako Bratislava a Košice a dosť sa tým líši od ostatných okresov v banskobystrickom kraji.
Nasledujú blízke k Bratislave okresy Pezinok, Malacky a Skalica
Zaujímavý je okres Poprad, ktorý je svojimi volebnými preferenciami podstatne bližsí Bratislave a Košiciam než ostatným okresom v prešovskom kraji.
Vľavo dole vidíme 3 prešovské a 4 žilinské okresy, ktoré preferujú kresťanské strany
Ostatné okresy su priemiešané v ľavej hornej časti grafu, a najzaujímavejší je asi len klaster prešovských okresov, ktoré volia veľmi podobne.
Aj na úrovni okresov sa nám teda podarilo na základe volebných dát získať dosť realistickú mapu volebných preferencií.
Do volieb máme ešte ďaleko a môj výskum volebných dát sa ešte len začal.
Plánujem sa pozrieť na to v akých okresoch a obciach stabilne vyhráva jedna strana, a teda nemá vôbec zmysel tam robiť kampaň, a o aké sa treba stranám biť.
Posvietim si tiež na programy volebných strán a s pomocou textovej analytiky zistím čo strany považujú za najdôležitejšie v svojich programoch, ako veľmi sa podobajú programy rôzných strán a o čom vlastne hovoria.
Pokusím sa tiež zistiť aké sociálno-demografické a ekonomické faktory vplývajú na volebné preferencie strán.
Ak sa Vám článok zapáčil budem rád akejkoľvek reakcii z Vašej strany. Ak nie, tobôž!
Text je súčasťou Refresher Blogu, nie je redakčným obsahom. Administrátorov môžete kontaktovať na [email protected].
Chceš vedieť, keď dataanalytics pridá nový blog?
Zadaj svoj mail a dostaneš upozornenie. Kedykoľvek sa môžeš odhlásiť.