<a href="https://colab.research.google.com/github/Stanleynista/Political-data/blob/main/US_president_elections_visualization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visualizando dados de eleições nos EUA


Neste projeto inspirado em um vídeo do canal [Programação Dinâmica](https://www.youtube.com/channel/UC70mr11REaCqgKke7DPJoLg), irei realizar uma análise exploratória dos dados históricos das eleições americanas e expor estas análises usando o pacote de visualização Cloropleth Maps Plotly. O dataset foi obtido diretamente da página MIT Eletion Lab, uma iniciativa do MIT que busca facilitar o acesso aos dados de diversas eleições americanas. Nesta análise irei focar nos dados de eleições presidenciais mais recentes. Deixo as referências abaixo.


---






Referências:
US President Elections 1976-2016: https://electionlab.mit.edu/data

Cloropleth Maps Plotly: https://plotly.com/python/choropleth-maps/

Drop Duplicates Pandas: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html

Sobre as Eleições Americanas: https://en.wikipedia.org/wiki/United_States_Electoral_College#:~:text=In%2048%20of%20the%2050,in%20each%20of%20their%20congressional




In [None]:
# Importando o pacote para análise do dataset

import pandas as pd

In [None]:
# Lendo o arquivo CSV baixado do MIT Election Lab

us_elections = pd.read_csv('/content/drive/My Drive/Colab Datasets/1976-2016-president.csv')

## Análise Exploratória dos Dados

O conjunto de dados contém 3740 linhas e 14 colunas. Como você pode ver abaixo, os dados podem ser agrupados por vários critérios como ano, Estado, Candidato, Partido, votos totais e voto no candidato.

In [None]:
print('Formato do dataset', us_elections.shape)

Formato do dataset (3740, 14)


In [None]:
# Visualizando como ficam os dados no dataframe

us_elections.head(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
0,1976,Alabama,AL,1,63,41,US President,"Carter, Jimmy",democrat,False,659170,1182850,20171015,
1,1976,Alabama,AL,1,63,41,US President,"Ford, Gerald",republican,False,504070,1182850,20171015,
2,1976,Alabama,AL,1,63,41,US President,"Maddox, Lester",american independent party,False,9198,1182850,20171015,


In [None]:
us_elections.tail(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
3737,2016,Wyoming,WY,56,83,68,US President,Blank Vote,,False,2661,258788,20171015,
3738,2016,Wyoming,WY,56,83,68,US President,"Castle, Darrell L.",constitution party,False,2042,258788,20171015,
3739,2016,Wyoming,WY,56,83,68,US President,Over Vote,,False,278,258788,20171015,


In [None]:
# Setando uma regra que irá facilitar a visualização por ano

selected_year = 2008
us_elections_sel_year = us_elections[us_elections.year == selected_year]

In [None]:
us_elections_sel_year.sample(5)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
2899,2008,Minnesota,MN,27,41,33,US President,"Calero, Roger",socialist workers,False,790,2910369,20171015,
2951,2008,New Mexico,NM,35,85,66,US President,"Baldwin, Charles """"Chuck""""",constitution party,False,1597,830158,20171015,
2786,2008,District of Columbia,DC,11,53,55,US President,"McCain, John",republican,False,17367,265853,20171015,
3056,2008,Washington,WA,53,91,73,US President,"Harris, James",socialist workers,False,641,3036878,20171015,
2758,2008,Colorado,CO,8,84,62,US President,"Obama, Barack H.",democrat,False,1288576,2401361,20171015,


In [None]:
# Instalação necessária do pacote plotly para a análise gráfica que irei realizar

!pip install -U plotly

Requirement already up-to-date: plotly in /usr/local/lib/python3.6/dist-packages (4.13.0)


# Votos totais por Estado

Irei plotar um gráfico com os votos totais por Estado americano no eleição selecionada na variável 'selected_year'. Os dados apresentados estão na casa dos milhões (MM) e os estados com mais votos adotam uma coloração mais forte.

In [None]:


import plotly.graph_objects as go

df = us_elections_sel_year.drop_duplicates(subset=['state'])

fig = go.Figure(data=go.Choropleth(
    locations=df['state_po'], # Spatial coordinates
    z = df['totalvotes'].astype(float), # Data to be color-coded
    locationmode = 'USA-states', # set of locations match entries in `locations`
    colorscale = 'Reds',
    colorbar_title = "Total Votes by State",
))

fig.update_layout(
    title_text = 'Total voters by state - {}'.format(selected_year),
    geo_scope='usa', # limite map scope to USA
)

fig.show()

In [None]:
df = us_elections_sel_year.sort_values(by=['state','candidatevotes']).drop_duplicates(subset=['state'],keep='last' )
df.sample(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
2866,2008,Maine,ME,23,11,2,US President,"Obama, Barack H.",democrat,False,421923,731163,20171015,
2886,2008,Michigan,MI,26,34,23,US President,"Obama, Barack H.",democrat,False,2872579,5001596,20171015,
2925,2008,Nevada,NV,32,88,65,US President,"Obama, Barack H.",democrat,False,533736,967848,20171015,


In [None]:
df['candidate'] = df['candidate'].astype('category')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 51 entries, 2728 to 3073
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   year            51 non-null     int64   
 1   state           51 non-null     object  
 2   state_po        51 non-null     object  
 3   state_fips      51 non-null     int64   
 4   state_cen       51 non-null     int64   
 5   state_ic        51 non-null     int64   
 6   office          51 non-null     object  
 7   candidate       51 non-null     category
 8   party           51 non-null     object  
 9   writein         51 non-null     bool    
 10  candidatevotes  51 non-null     int64   
 11  totalvotes      51 non-null     int64   
 12  version         51 non-null     int64   
 13  notes           0 non-null      float64 
dtypes: bool(1), category(1), float64(1), int64(7), object(4)
memory usage: 5.4+ KB


In [None]:
df['candidate'].cat.codes

2728    0
2732    0
2738    0
2744    0
2751    1
2758    1
2774    1
2778    1
2785    1
2790    1
2804    0
2809    1
2817    0
2823    1
2831    1
2836    1
2846    0
2851    0
2857    0
2866    1
2871    1
2878    1
2886    1
2892    1
2900    0
2907    0
2913    0
2918    0
2925    1
2932    1
2937    1
2947    1
2953    1
2965    1
2970    0
2975    1
2983    0
2985    1
2992    1
2998    1
3006    0
3012    0
3017    0
3020    0
3025    0
3033    1
3042    1
3049    1
3057    0
3063    1
3073    0
dtype: int8

# Vencedores por Estado

Irei plotar um gráfico com os candidatos vencedores por Estado americano na eleição do ano de 2008, sendo o Partido Democrata (Obama) representado pela sua cor característica, o azul e o Partido Republicano (McCain) representado também por sua cor característica, o vermelho.

In [None]:
import plotly.graph_objects as go


fig = go.Figure(data=go.Choropleth(
    locations=df['state_po'], # Spatial coordinates
    z = df['candidate'].cat.codes, # Data to be color-coded
    locationmode = 'USA-states', # set of locations match entries in `locations`
    colorscale = [[0.0, 'rgb(184,0,0)'],[1.0,'rgb(0,0,184)'] ],
    colorbar_title = "Winner Candidate",
    text =  df['candidate']
))

fig.update_layout(
    title_text = 'Winners by state - {}'.format(selected_year),
    geo_scope='usa', # limite map scope to USA
)

fig.show()

# Um cenário alternativo

E se excluíssemos deste dataset as informações dos dois partidos hegemonicos dos EUA? Irei verificar cenários alternaticos para os anos 2012 e 2016 sem os partidos Democrata e Republicano e tentar identificar uma terceira via junto aos eleitores americanos.



---



In [None]:
# Selecionando dados da eleição do ano de 2012

selected_year = 2012
us_elections_sel_year = us_elections[us_elections.year == selected_year]

us_elections_sel_year.sample(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
3104,2012,California,CA,6,93,71,US President,,,True,23249,13038547,20171015,
3196,2012,Louisiana,LA,22,72,45,US President,"Tittle, Sheila """"Samm""""",we the people,False,1767,1994065,20171015,
3080,2012,Alabama,AL,1,63,41,US President,"Obama, Barack H.",democrat,False,795696,2074338,20171015,


In [None]:
# Criando um dataframe alternativo excluindo Republicanos e democratas

alternative_elections = us_elections_sel_year.loc[us_elections_sel_year['party'] != 'republican']

alt_elections = alternative_elections.loc[alternative_elections['party'] != 'democrat']

alt_elections.sample(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
3361,2012,Vermont,VT,50,13,6,US President,,,True,2043,299290,20171015,
3144,2012,Florida,FL,12,59,43,US President,"Barnett, Andre",reform party,False,820,8474179,20171015,
3115,2012,Colorado,CO,8,84,62,US President,"La Riva, Gloria Estella",socialism and liberation party,False,317,2569516,20171015,


In [None]:
alt_df = alt_elections.sort_values(by=['state','candidatevotes']).drop_duplicates(subset=['state'],keep='last' )
alt_df

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
3081,2012,Alabama,AL,1,63,41,US President,,independent,False,18706,2074338,20171015,
3085,2012,Alaska,AK,2,94,81,US President,"Johnson, Gary",libertarian,False,7392,300495,20171015,
3090,2012,Arizona,AZ,4,86,61,US President,"Johnson, Gary",libertarian,False,32100,2299254,20171015,
3095,2012,Arkansas,AR,5,71,42,US President,"Johnson, Gary",libertarian,False,16276,1069468,20171015,
3100,2012,California,CA,6,93,71,US President,"Johnson, Gary",libertarian,False,143221,13038547,20171015,
3107,2012,Colorado,CO,8,84,62,US President,"Johnson, Gary",libertarian,False,35545,2569516,20171015,
3123,2012,Connecticut,CT,9,16,1,US President,"Johnson, Gary",libertarian,False,12340,1558204,20171015,
3128,2012,Delaware,DE,10,51,11,US President,"Johnson, Gary",libertarian,False,3882,413890,20171015,
3132,2012,District of Columbia,DC,11,53,55,US President,"Stein, Jill",d.c. statehood green,False,2458,293764,20171015,
3137,2012,Florida,FL,12,59,43,US President,"Johnson, Gary",libertarian,False,44726,8474179,20171015,


In [None]:
alt_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50 entries, 3081 to 3390
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   year            50 non-null     int64  
 1   state           50 non-null     object 
 2   state_po        50 non-null     object 
 3   state_fips      50 non-null     int64  
 4   state_cen       50 non-null     int64  
 5   state_ic        50 non-null     int64  
 6   office          50 non-null     object 
 7   candidate       47 non-null     object 
 8   party           49 non-null     object 
 9   writein         50 non-null     bool   
 10  candidatevotes  50 non-null     int64  
 11  totalvotes      50 non-null     int64  
 12  version         50 non-null     int64  
 13  notes           0 non-null      float64
dtypes: bool(1), float64(1), int64(7), object(5)
memory usage: 5.5+ KB


In [None]:
alt_df['party'] = alt_df['party'].astype('category')
alt_df['candidate'] = alt_df['candidate'].astype('category')

In [None]:
alt_df['candidate'].cat.codes

3081   -1
3085    1
3090    1
3095    1
3100    1
3107    1
3123    1
3128    1
3132    4
3137    1
3150    1
3153    1
3159    1
3164    1
3169    1
3173    1
3182    1
3187    1
3193    1
3204    0
3210    1
3215    1
3221    4
3225    2
3238    1
3244    1
3248    1
3252    1
3257    1
3262    1
3268    1
3278    1
3284    3
3294    1
3298    1
3304    1
3314    1
3321    1
3325    1
3333    1
3338    1
3342   -1
3347    1
3352    1
3360    1
3366    1
3372    1
3380    1
3385   -1
3390    1
dtype: int8

# Gráfico de vencedores por Estado - 2012

Irei plotar um gráfico com os candidatos vencedores por Estado americano na eleição do ano de 2016, excluindo da disputa os partidos Democrata e Republicano.

In [None]:
import plotly.graph_objects as go


fig = go.Figure(data=go.Choropleth(
    locations=alt_df['state_po'], # Spatial coordinates
    z = alt_df['candidate'].cat.codes, # Data to be color-coded
    locationmode = 'USA-states', # set of locations match entries in `locations`
    colorscale = [[0.0, 'yellow'], [1.0,'black']],
    colorbar_title = "Alternative Winner Candidate",
    text =  alt_df['candidate']
))

fig.update_layout(
    title_text = 'Winner by state without Republicans & Democrats- {}'.format(selected_year),
    geo_scope='usa', # limite map scope to USA
)

fig.show()



In [None]:
alt_df['party'].value_counts()


libertarian                42
independent                 3
green                       1
democratic-farmer-labor     1
d.c. statehood green        1
conservative                1
Name: party, dtype: int64

In [None]:
alt_df.groupby('candidate').sum()

Unnamed: 0_level_0,year,state_fips,state_cen,state_ic,writein,candidatevotes,totalvotes,version,notes
candidate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Blank Vote,2012,23,11,2,0,11578,724758,20171015,0.0
"Johnson, Gary",84504,1211,2403,1786,0,1122775,104397948,847182630,0.0
"Obama, Barack H.",2012,27,41,33,0,1546167,2936561,20171015,0.0
"Romney, Mitt",2012,36,21,13,0,262035,7116784,20171015,0.0
"Stein, Jill",4024,37,87,78,0,24355,5024725,40342030,0.0


Vemos uma vitória bastante contundente do Partido Libertário neste cenário alternativo excluindo os dois partidos hegemônicos dos EUA. 

Neste cenário o presidente americano eleito seria o candidato Gary Johnson do Libertarian Party com preferência de 42 Estados e cerca de 1,12 milhões de votos.

In [None]:
# Selecionando dados da eleição do ano de 2016

selected_year = 2016
us_elections_sel_year = us_elections[us_elections.year == selected_year]

alternative_elections = us_elections_sel_year.loc[us_elections_sel_year['party'] != 'republican']

alt_elections = alternative_elections.loc[alternative_elections['party'] != 'democrat']

alt_elections.sample(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
3707,2016,Virginia,VA,51,54,40,US President,"McMullin, Evan",independent,False,54054,3982752,20171015,
3594,2016,Nevada,NV,32,88,65,US President,None Of The Above,,False,28863,1125385,20171015,
3505,2016,Iowa,IA,19,42,31,US President,,,True,17746,1565580,20171015,


In [None]:
alt_df = alt_elections.sort_values(by=['state','candidatevotes']).drop_duplicates(subset=['state'],keep='last' )
alt_df.sample(3)

Unnamed: 0,year,state,state_po,state_fips,state_cen,state_ic,office,candidate,party,writein,candidatevotes,totalvotes,version,notes
3678,2016,South Dakota,SD,46,45,37,US President,"Johnson, Gary",libertarian,False,20850,370093,20171015,
3433,2016,Colorado,CO,8,84,62,US President,"Johnson, Gary",libertarian,False,144121,2780220,20171015,
3682,2016,Tennessee,TN,47,62,54,US President,,independent,False,100618,2508027,20171015,


In [None]:
alt_df['party'] = alt_df['party'].astype('category')
alt_df['candidate'] = alt_df['candidate'].astype('category')
alt_df['candidate'].cat.codes

3397    0
3402    0
3409    0
3419    0
3427    0
3433    0
3453    0
3458    0
3462   -1
3469    0
3476    0
3480    0
3487    1
3492    0
3497    0
3504    0
3514    0
3519    0
3526    0
3531    0
3537    0
3546    0
3553    0
3560    0
3570    0
3577    0
3583    0
3588    0
3593    0
3599    0
3606    0
3615    0
3623    2
3635    0
3640    0
3647   -1
3652    0
3655    0
3660    0
3665    0
3671    0
3678    0
3682   -1
3686    0
3691    1
3697   -1
3706    0
3712    0
3720    0
3725    0
3734    0
dtype: int8

# Gráfico de vencedores por Estado - 2016

Irei plotar um gráfico com os candidatos vencedores por Estado americano na eleição do ano de 2016, excluindo da disputa os partidos Democrata e Republicano.



In [None]:
import plotly.graph_objects as go


fig = go.Figure(data=go.Choropleth(
    locations=alt_df['state_po'], # Spatial coordinates
    z = alt_df['candidate'].cat.codes, # Data to be color-coded
    locationmode = 'USA-states', # set of locations match entries in `locations`
    colorscale = [[0.0, 'yellow'], [1.0,'black']],
    colorbar_title = "Alternative Winner Candidate",
    text =  alt_df['candidate']
))

fig.update_layout(
    title_text = 'Winner by state without Republicans & Democrats- {}'.format(selected_year),
    geo_scope='usa', # limite map scope to USA
)

fig.show()


In [None]:
alt_df['party'].value_counts()


libertarian             44
no party affiliation     2
independent              2
conservative             1
Name: party, dtype: int64

In [None]:
alt_df.groupby('candidate').sum()

Unnamed: 0_level_0,year,state_fips,state_cen,state_ic,writein,candidatevotes,totalvotes,version,notes
candidate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
"Johnson, Gary",88704,1229,2447,1803,0,3984805,118525975,887524660,0.0
"McMullin, Evan",4032,65,169,130,0,315808,1821572,40342030,0.0
"Trump, Donald J.",2016,36,21,13,0,292392,7802084,20171015,0.0


Vemos outra vitoria expressiva do Partido Libertário neste cenário alternativo quando excluimos os dois partidos hegêmicos dos EUA, neste cenário Gary Johnson seria reeleito levando 44 Estados com quase 4 milhões de votos dos eleitores americanos e consolidando a posição de 3º partido mais votado nas eleições americanas da última década.

---



# Conclusão

---



### *Uma América Libertária*



Após análise dos dados das eleições americanas de 1976 a 2016 disponibilizados pelo **MIT Eletion Lab**, podemos criar um modelo para observar números de votos absolutos e vencedor por estado, além de determinar o ano a se observar.


Pude criar uma situação hipotética excluindo das disputas de 2012 e 2016 os dois maiores partidos do país, Democrata e Republicano, partidos esses que praticamente dominam a cena política americana hegemonicamente desde sua independência e constituição enquanto república.

Podemos observar neste cenário improvável, que o candidato a obter mais votos seria o candidato do Partido Libertário (Libertarian), Gary Johnson em ambos os pleitos. O mais curioso dessa análise é observar uma importante evolução no número de votos do candidato libertário do ano de 2012 para o ano de 2016, saltando de pouco mais de 1 milhão de votos para quase 4 milhões, ou seja, praticamente quadruplicando seu eleitorado em um país marcado por um abismo gigante que separa os dois partidos principais de todos os demais.

Alguns pontos nem tão importantes mas interessantes ficam para análises futuras, seja de eleições anteriores às analisadas, seja do pleito de 2020. Os libertários se consolidaram mais uma vez como terceiro partido mais votado na eleição de 2020? Continuaram em evolução quanto ao número absoluto de votos? Com relação ao passado, quando dispontaram como terceiro partido mais votado? Como ação futura, podemos considerar realizar uma predição de votos que o partido pode receber nas eleições do ano de 2024, o que acham?




---




