# Python para el análisis de datos
## Introducción a las Ciencias Sociales Computacionales
## Facultad de Ciencias Sociales, Universidad de Buenos Aires, 2023
### Juan Manuel Pérez y Rodolfo Elbert

Click acá para abrir en Colab

![Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/jmperez/iscsc/blob/master/01_icsc_regresion.ipynb)

En esta notebook vamos a analizar datos de las últimas PASO (Agosto 2023), obtenidos del [Observatorio de La Izquierda Diario](https://observatorio.laizquierdadiario.com/consultas). 


Inspirado un poco en este análisis de ["Los Mitos del votante de Milei"](https://medium.com/@VoteBetta/los-mitos-del-votante-de-milei-ae497168535) -- de otro docente de la casa.


## Datos tabulares

En primer lugar, vamos a usar la librería `pandas` para leer los datos de un archivo `csv` y mostrarlos en pantalla.

[pandas](https://pandas.pydata.org/) es una librería de Python para el análisis de datos. En particular, nos permite trabajar con datos tabulares (filas y columnas) de manera muy eficiente y fácil, del estilo de las tablas de Excel. Para quienes tengan experiencia en R, `pandas` es el equivalente a los DataFrame

Un `csv` (comma separated values) es un archivo de texto plano que contiene datos separados por comas. Es un formato muy común para guardar datos tabulares (similar al .xlsx)

In [1]:
!pip install seaborn pandas statsmodels



In [2]:
import pandas as pd

# Si corren local, usar esta línea
# df = pd.read_csv('../data/pba_paso_2023.csv')

df = pd.read_csv('https://raw.githubusercontent.com/finiteautomata/csc-2023/main/data/pba_paso_2023.csv')

  df = pd.read_csv('https://raw.githubusercontent.com/finiteautomata/csc-2023/main/data/pba_paso_2023.csv')


Vamos a ver algunos elementos de esta tabla.

In [3]:

df.head(20)

Unnamed: 0.1,Unnamed: 0,cod_categoria,nom_categoria,cod_distrito,nom_distrito,cod_seccion,nom_seccion,cod_circuito,nom_circuito,cod_lugar,...,nom_mesa,cod_tipo_voto,nom_tipo_voto,cod_agrupacion_int,cod_agrupacion,nom_agrupacion,orden,votos,porcentaje,cant_sublistas
0,0,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,134,134,UNION POR LA PATRIA,0,82,33.61,2
1,1,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,132,132,JUNTOS POR EL CAMBIO,0,75,30.74,2
2,2,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,135,135,LA LIBERTAD AVANZA,0,70,28.69,1
3,3,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,136,136,FRENTE DE IZQUIERDA Y DE TRABAJADORES - UNIDAD,0,13,5.33,2
4,4,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,133,133,HACEMOS POR NUESTRO PAIS,0,3,1.23,1
5,5,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,94,94,PROYECTO JOVEN,0,1,0.41,3
6,6,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,13,13,MOVIMIENTO AL SOCIALISMO,0,0,0.0,1
7,7,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,20,20,UNION DEL CENTRO DEMOCRATICO,0,0,0.0,1
8,8,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,40,40,MOVIMIENTO LIBRES DEL SUR,0,0,0.0,1
9,9,1,PRESIDENCIALES,2,Buenos Aires,61,La Matanza,626,626,5951,...,00001X,p,positivo,95,95,FRENTE PATRIOTA FEDERAL,0,0,0.0,1


¿Qué columnas tiene? ¿Cuántas filas? ¿Qué tipo de datos tiene cada columna?



In [None]:
df.info()

¿Cómo vemos qué valores tiene una columna en particular? ¿Y una fila? ¿Qué valores únicos tiene una columna?

Vamos a preguntarle todo esto a ChatGPT.



In [None]:
# Preguntar a ChatGPT

df["nom_seccion"]

In [None]:
df["nom_seccion"].value_counts()

Obtener la primer fila

Obtener todas las filas de La Matanza

Obtener todos los votos positivos o blancos

Obtener todos los votos positivos o blancos de la siguiente sección

In [None]:
seccion = [
    "La Matanza",
    "La Plata",
    "Lomas de Zamora",
    "Merlo",
    "Lanús",
    "Moreno",
    "Morón",
    "Luján",
    "Marcos Paz",
]

df = df[df["nom_seccion"].isin(seccion)]
df = df[(df["nom_tipo_voto"] == "positivo") | (df["nom_tipo_voto"] == "blancos")]


In [None]:
df

In [None]:
# Pivot table

df_pivot = df.pivot_table(index="nom_mesa", columns="nom_agrupacion", values="votos", aggfunc="sum")

df_pivot

In [None]:

# Agrego una columna con el total de votos
df_pivot["total"] = df_pivot.sum(axis=1)


Vamos a usar la librería `matplotlib` para hacer un histograma de la cantidad de votos por mesa.

In [None]:
from matplotlib import pyplot as plt

plt.hist(df_pivot["total"], bins=40)

Hay algunas mesas con muy pocos votos. Saquémoslas del análisis.

In [None]:
df_pivot["total"] > 100

In [None]:
# Saquemos las que tienen menos de 100 votos

df_pivot = df_pivot[df_pivot["total"] > 100]

In [None]:

renames = {
    "LA LIBERTAD AVANZA": "LLA",
    "FRENTE DE IZQUIERDA Y DE TRABAJADORES - UNIDAD": "FIT",
    "UNION POR LA PATRIA": "UxP",
    "JUNTOS POR EL CAMBIO": "JUNTOS",
    "PRINCIPIOS Y VALORES": "PYV",
    "FRENTE LIBER.AR": "LIBER.AR",
    "HACEMOS POR NUESTRO PAIS": "HACEMOS",
    "MOVIMIENTO IZQUIERDA JUVENTUD Y DIGNIDAD": "MIJD",
    "UNION DEL CENTRO DEMOCRATICO": "UCD",
    "FRENTE PATRIOTA FEDERAL": "BIONDINI",
}

# Saco los NaN

df_pivot = df_pivot.dropna()
df_pivot = df_pivot[(df_pivot.T != 0).any()]


# Calculo porcentajes
df_non_normalized = df_pivot.copy()

df_pivot = df_pivot.div(df_pivot.sum(axis=1), axis=0)

# Rename columns

df_pivot = df_pivot.rename(columns=renames)


df_pivot

In [None]:
# Box plots de los porcentajes

df_pivot.boxplot(figsize=(20, 10))


Hagamos un mapa de calor de las correlaciones entre los votos a las distintas fuerzas.

In [None]:
corr = df_pivot.corr()

# Plot heatmap

import seaborn as sns

sns.heatmap(
    corr,
    xticklabels=corr.columns.values,
    yticklabels=corr.columns.values,
    cmap="viridis"
)

In [None]:
import statsmodels.api as sm
import matplotlib.pyplot as plt
import numpy as np

# Fit linear model with constant for log log model

y = "LLA"
x = "UxP"


df_reg = df_pivot[[x, y]].copy()

df_reg = df_reg[(df_reg[y] > 0.05) & (df_reg[x] > 0.05)]

X = sm.add_constant(df_reg[x])
model = sm.OLS(df_reg[y], X).fit()

print(model.summary())

plt.scatter(df_reg[x], df_reg[y])

plt.plot(X, model.predict(X), color='red', linewidth=3)

plt.xlim(0, df_reg[x].max() + 0.1)
plt.xlabel(x)
plt.ylabel(y)

In [None]:
import statsmodels.api as sm
import matplotlib.pyplot as plt
import numpy as np

# Fit linear model with constant for log log model

y = "LLA"
x = "JUNTOS"


df_reg = df_pivot[[x, y]].copy()

df_reg = df_reg[(df_reg[y] > 0.05)]# & (df_reg[x] > 0.05)]

X = sm.add_constant(df_reg[x])
model = sm.OLS(df_reg[y], X).fit()

print(model.summary())

plt.scatter(df_reg[x], df_reg[y])

plt.plot(X, model.predict(X), color='red', linewidth=3)

plt.xlim(0, df_reg[x].max() + 0.1)
plt.xlabel(x)
plt.ylabel(y)

## Resultados 2021

In [None]:
df_2021 = pd.read_csv("https://raw.githubusercontent.com/finiteautomata/csc-2023/main/data/pba_2021.csv")

df_2021.info()

In [None]:
df_2021_la_matanza = df_2021[df_2021["seccion_nombre"] == "La Matanza"]

df_2021_la_matanza

In [None]:
df_2021_la_matanza["mesa_id"]

In [None]:
df[["cod_mesa", "nom_mesa"]]

In [None]:
df["mesa_id"] = df["cod_mesa"].apply(lambda x: int(x[:-1]))

In [None]:
df_la_matanza = df[df["nom_seccion"] == "La Matanza"]

In [None]:
df_2021_la_matanza["mesa_id"].unique()

In [None]:
df_la_matanza["mesa_id"].unique()

## Ejercicios:

1. Analizar qué pasó con el voto en blanco
2. Buscar qué pasó en mesas donde alguna fuerza sacó 0 votos
3. Intentar reproducir votos 2021 vs votos 2023 (no garantizo que sea posible)
4. Lo que les interese más :-)
