# Vizualizácia výsledkov volieb na mieru

Nielen štát nám v súčasnosti poskytuje veľké množstvo dát, ktoré novinári, marketéri či analytici využívajú svojej práci. Kľúčom k ich interpretácii môže byť napríklad aj vizualizácia na mape Slovenska. Práve to vieme dosiahnuť pomocou jazyka Python a knižnice Folium veľmi rýchlo a jednoducho.

## Komu pomôže vizualizácia?
Vizualizácia dát môže využiť obrovské množstvo profesií. Zoberme si takého marketéra politickej strany - možno bude chcieť oslovovať voličov, u ktorých má vyššiu šancu na úspech na základe toho, aké strany strany volili v minulosti. V poslednom období sa taktiež hovorí viac aj o [dátových novinároch](https://dennikn.sk/blog/462494/co-robi-datovy-novinar-otestovali-vizualizacie-dat/), medzi ktorých patril aj Ján Kuciak. Tí využívajú vizualizáciu nie len na analýzu, ale aj priamo v článkoch. Kým v zahraničí je dátová žurnalistika štandard, na Slovensku sa iba pomaly rozbieha. A zabúdať netreba ani na osobné využitia, napríklad pre rodičov, ktorí práve vyberajú školu svojmu dieťaťu a chceli by si okolité školy spolu s ich hodnotením zobraziť prehľadne na mape.

---

## Knižnice

Budeme používať knižnice:
- Pandas (načítanie a úprava samotných dát)
- Folium (vizualizácia na mape)

Všetky knižnice sú inštalovateľné cez ``pip``, používame Python3.6 a novší.

In [233]:
import pandas as pd
import folium
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter

---

## Načítanie datasetu

Samotný dataset stiahneme zo stránky [Štatistického úradu Slovenskej republiky](http://volby.statistics.sk/). Preklikáme sa cez podstránku *Údaje na stiahnutie* a zvolíme *VOĽBY DO NÁRODNEJ RADY SR* pre rok *2016*. Následne sa vypíše asi 20 rôznych datasetov, my vyberieme ``Výsledky hlasovania pre politické subjekty podľa obcí - PAR_2016_tab09.csv`` a súbor uložíme do adresára *datasets*.

In [150]:
data = pd.read_csv('datasets/PAR_2016_tab09.csv') # Načítanie datasetu do notebooku

Zobrazíme si dataset, aby sme vedeli, ako tabuľka s dátami vyzerá.

In [151]:
data.head(40) # Vypíše prvých 40 riadkov, aby sme si vedeli spraviť lepší prehľad o dátach

Unnamed: 0,Kód kraja,Kraj,Kód obvodu,Obvod,Kód okresu,Okres,Kód obce,Obec,Počet platných hlasov spolu,Názov politického subjektu,Podiel platných hlasov v %,"Podiel voličov, ktorí využili právo prednostného hlasovania v %",Počet platných hlasov,"Počet voličov, ktorí využili právo prednostného hlasovania"
0,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,#SIEŤ,722,7240,1895,1372
1,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,DS - Ľudo Kaník,5,7333,15,11
2,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,KDH,528,8700,1385,1205
3,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,KOALÍCIA SPOLOČNE ZA SLOVENSKO,4,6363,11,7
4,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,KSS,20,6666,54,36
5,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,MKDA-MKDSZ,1,7500,4,3
6,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,MOST - HÍD,1242,8794,3259,2866
7,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,OBYČAJNÍ ĽUDIA a nezávislé osobnosti (OĽANO - ...,1544,9143,4050,3703
8,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,Odvaha - Veľká národná a proruská koalícia,8,7272,22,16
9,1,Bratislavský kraj,101,Bratislava,101,Bratislava I,528595,Bratislava - Staré Mesto,26227,PD,14,8157,38,31


Keď si dáta prezrieme, zitíme, že pre každú obec máme až 23 záznamov - jeden riadok pre výsledky každej politickej strany.

In [152]:
data.info() # Zobrazí názvy stĺpcov a ďalšie informácie

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44895 entries, 0 to 44894
Data columns (total 14 columns):
 #   Column                                                           Non-Null Count  Dtype 
---  ------                                                           --------------  ----- 
 0   Kód kraja                                                        44895 non-null  int64 
 1   Kraj                                                             44895 non-null  object
 2   Kód obvodu                                                       44895 non-null  int64 
 3   Obvod                                                            44895 non-null  object
 4   Kód okresu                                                       44895 non-null  int64 
 5   Okres                                                            44895 non-null  object
 6   Kód obce                                                         44895 non-null  int64 
 7   Obec                                             

In [153]:
# Vypíše počet politických strán
len(data['Názov politického subjektu'].unique())

23

In [154]:
# Vypíše názvy politických strán
list(data['Názov politického subjektu'].unique())

['#SIEŤ',
 'DS - Ľudo Kaník',
 'KDH',
 'KOALÍCIA SPOLOČNE ZA SLOVENSKO',
 'KSS',
 'MKDA-MKDSZ',
 'MOST - HÍD',
 'OBYČAJNÍ ĽUDIA a nezávislé osobnosti (OĽANO - NOVA)',
 'Odvaha - Veľká národná a proruská koalícia',
 'PD',
 'SDKÚ-DS',
 'SKOK!',
 'SME RODINA - Boris Kollár',
 'SMER-SD',
 'SMK-MKP',
 'SNS',
 'STRANA MODERNÉHO SLOVENSKA (SMS)',
 'SZS',
 'SaS',
 'TIP',
 'VZDOR',
 'ĽS Naše Slovensko',
 'ŠANCA']

## Vyhľadanie obcí s najväčšou podporou pre danú politickú stranu
Prvú vec, ktorú sa posnažíme nájsť v dátach, je, ktoré obce mali percentuálne najväčšiu podporu pre zadanú stranu a ktoré naopak najmenšiu.

Aby sme našli obce, kde má strana *SMER-SD* najväčšiu podporu, musíme si odfiltrovať ostatné záznamy pre iné politické strany - to spravíme podmienkou ``data['Názov politického subjektu'] == 'SMER-SD'``. Následne na usporiadanie hodnôt použijeme sunkciu  podľa ``sort_values`` - prvým parametrom je stĺpec, podľa ktorého chceme zoraďovať zázamy (v našom prípade ``Podiel platných hlasov v %``) druhý parameter určuje, že chceme zoraďovať zostupne (``ascending=False``). Keďže nám stačí iba prvých 5 záznamov, použijeme príkaz ``head(5)``.

In [155]:
# Vypíše 5 obcí s *najväčším* podielom hlasov pre stranu SMER-SD
data[data['Názov politického subjektu'] == 'SMER-SD'].sort_values('Podiel platných hlasov v %', ascending=False).head(5)

Unnamed: 0,Kód kraja,Kraj,Kód obvodu,Obvod,Kód okresu,Okres,Kód obce,Obec,Počet platných hlasov spolu,Názov politického subjektu,Podiel platných hlasov v %,"Podiel voličov, ktorí využili právo prednostného hlasovania v %",Počet platných hlasov,"Počet voličov, ktorí využili právo prednostného hlasovania"
42577,8,Košický kraj,804,Rožňava,808,Rožňava,526266,Slavec,201,SMER-SD,995,9000,20,18
13463,4,Nitriansky kraj,404,Nové Zámky,404,Nové Zámky,503029,Andovce,766,SMER-SD,992,8026,76,61
25613,6,Banskobystrický kraj,605,Veľký Krtíš,610,Veľký Krtíš,516473,Veľká Ves nad Ipľom,202,SMER-SD,990,7500,20,15
40598,8,Košický kraj,803,Michalovce,807,Michalovce,528633,Oborín,314,SMER-SD,987,10000,31,31
23945,6,Banskobystrický kraj,604,Rimavská Sobota,609,Rimavská Sobota,514993,Janice,71,SMER-SD,985,10000,7,7


Ak by sme chceli nájsť naopak obce s najmenšou podporou pre danú stranu, stačí zoradiť výsledko vzostupne ``ascending=True``.

In [156]:
# Vypíše 5 obcí s *najmenším* podielom hlasov pre stranu SMER-SD
data[data['Názov politického subjektu'] == 'SMER-SD'].sort_values('Podiel platných hlasov v %', ascending=True).head(5)

Unnamed: 0,Kód kraja,Kraj,Kód obvodu,Obvod,Kód okresu,Okres,Kód obce,Obec,Počet platných hlasov spolu,Názov politického subjektu,Podiel platných hlasov v %,"Podiel voličov, ktorí využili právo prednostného hlasovania v %",Počet platných hlasov,"Počet voličov, ktorí využili právo prednostného hlasovania"
23706,6,Banskobystrický kraj,604,Rimavská Sobota,609,Rimavská Sobota,514764,Gemerské Dechtáre,169,SMER-SD,59,10000,1,1
24287,6,Banskobystrický kraj,604,Rimavská Sobota,609,Rimavská Sobota,515353,Radnovce,273,SMER-SD,73,10000,2,2
23475,6,Banskobystrický kraj,604,Rimavská Sobota,609,Rimavská Sobota,514501,Barca,133,SMER-SD,75,10000,1,1
24722,6,Banskobystrický kraj,604,Rimavská Sobota,609,Rimavská Sobota,515779,Vlkyňa,127,SMER-SD,78,10000,1,1
40046,8,Košický kraj,803,Michalovce,807,Michalovce,528137,Beša,211,SMER-SD,94,5000,2,1


## Vykreslovanie na mape

In [157]:
# Vykreslenie čistej mapy vycentrovanej na Slovensko
m = folium.Map(
    location=[48.730556, 19.457222], # Určíme si koordináty stredu mapy
    zoom_start=8,  # Ako odzoomovaná má byť mapa
    tiles='OpenStreetMap'  # Ako podklad používame bezplatné OpenStreetMap mapy
)

m # Vykreslí mapu do Jupyter Notebooku

In [230]:
# Vykreslenie čistej mapy vycentrovanej na Slovensko
m = folium.Map(
    location=[48.730556, 19.457222], # Určíme si koordináty stredu mapy
    zoom_start=8,  # Ako odzoomovaná má byť mapa
    tiles='OpenStreetMap'  # Ako podklad používame bezplatné OpenStreetMap mapy
)

geolocator = Nominatim(user_agent="elections_2016")

for i in data[data['Názov politického subjektu'] == 'ĽS Naše Slovensko'].sort_values('Podiel platných hlasov v %', ascending=False).head(100).index:
    nazov_obce = data[data.index==i]['Obec'].to_string(index=False)

    location = geolocator.geocode(nazov_obce, country_codes='SK', timeout=20)
    folium.Marker(
        radius=1000,
        location=[location.latitude, location.longitude],
        popup='<b>{}<b>'.format(
            nazov_obce
        ),        
        icon=folium.Icon(icon='graduation-cap', prefix='fa', color="green"),
        fill=True,
        fill_opacity="1",

    ).add_to(m)
    
    print(i)

m # Vykreslí mapu do Jupyter Notebooku

9289
26578
26957
4501
12078
32351
33407
36966
31943


KeyboardInterrupt: 

## GPS koordináty

In [None]:
gps_coordinates = pd.read_csv('datasets/gps_coordinates.csv') # Načítanie datasetu do notebooku

In [None]:
gps_coordinates = pd.DataFrame(columns=['Obec', 'Longitude', 'Latitude'])

In [246]:
# Vykreslenie čistej mapy vycentrovanej na Slovensko

geolocator = Nominatim(user_agent="elections_2016")
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)

for i, nazov_obce in enumerate(list(data['Obec'].unique())):
   
    if not nazov_obce in list(gps_coordinates['Obec']):    
        location = geocode(nazov_obce, country_codes='SK', timeout=20)
        gps_coordinates = gps_coordinates.append({'Obec': nazov_obce, 'Longitude': location.longitude, 'Latitude': location.latitude}, ignore_index=True)

In [242]:
def get_latitude(city):
    return float(gps_coordinates[gps_coordinates['Obec'] == city].Latitude.to_string(index=None))

def get_longitude(city):
    return float(gps_coordinates[gps_coordinates['Obec'] == city].Longitude.to_string(index=None))

In [241]:
# gps_coordinates.to_csv("datasets/gps_coordinates.csv")

In [None]:
# gps_coordinates.to_csv("datasets/gps_coordinates.csv")

---

In [171]:
list(gps_coordinates['Obec'])

['Bratislava - Staré Mesto',
 'Bratislava - Podunajské Biskupice',
 'Bratislava - Ružinov',
 'Bratislava - Vrakuňa',
 'Bratislava - Nové Mesto',
 'Bratislava - Rača',
 'Bratislava - Vajnory',
 'Bratislava - Devín',
 'Bratislava - Devínska Nová Ves',
 'Bratislava - Dúbravka',
 'Bratislava - Karlova Ves',
 'Bratislava - Lamač',
 'Bratislava - Záhorská Bystrica',
 'Bratislava - Čunovo',
 'Bratislava - Jarovce',
 'Bratislava - Petržalka',
 'Bratislava - Rusovce',
 'Borinka',
 'Gajary',
 'Jablonové',
 'Jakubov',
 'Kostolište',
 'Kuchyňa',
 'Láb',
 'Lozorno',
 'Malacky',
 'Malé Leváre',
 'Marianka',
 'Pernek',
 'Plavecké Podhradie']

In [200]:
float(gps_coordinates[gps_coordinates['Obec'] == 'Borinka'].Longitude.to_string(index=None))

17.135971