# 0. Exploración inicial de datos (EDA) - Notebook

In [None]:
#Imports
import os
import sqlite3
import pandas as pd

## 1. EDA Nº1 - Exploración de resultados de elecciones generales

In [42]:
# Ruta relativa desde el proyecto
relative_path = os.path.join('..', 'data', 'processed', 'resultados_elecciones.sqlite')

# Verificar si el archivo existe
if not os.path.exists(relative_path):
    raise FileNotFoundError(f"❌ Archivo no encontrado: {relative_path}")

# Conectarse a la base de datos
conn = sqlite3.connect(relative_path)

# Verificar tablas
tables = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conn)
print("Tablas disponibles:")
print(tables)


Tablas disponibles:
                   name
0  resultados_generales


In [None]:
dfa = pd.read_sql("SELECT * FROM resultados_generales", conn)

# EDA básica
print(dfa.head())

print(dfa.tail())

print(dfa.shape)

print(dfa.dtypes)

print(dfa.isnull().sum())

dfa_porcentajes = dfa[dfa['Dato'].isin(['Votantes a las 14:00', 'Votantes a las 18:00', 'Votantes'])]

stats = dfa_porcentajes.groupby('Dato')['Porcentaje'].describe()
print(stats)

     Mes   Año                   Dato     Valor  Porcentaje ¿GobiernoFormado?  \
0  Marzo  1979              Población  37757534         NaN                Si   
1  Marzo  1979   Votantes a las 14:00   9665733       36.02                Si   
2  Marzo  1979   Votantes a las 18:00  15250686       56.83                Si   
3  Marzo  1979  Total censo electoral  26836490         NaN                Si   
4  Marzo  1979               Votantes  18259192       68.04                Si   

  PartidoFormadorGobierno  
0                     UCD  
1                     UCD  
2                     UCD  
3                     UCD  
4                     UCD  
       Mes   Año                   Dato     Valor  Porcentaje  \
98   Julio  2023   Votantes a las 18:00  18671607       53.13   
99   Julio  2023   Votantes a las 20:00  24744016       70.41   
100  Julio  2023  Total censo electoral  37469458         NaN   
101  Julio  2023               Votantes  24952447       66.59   
102  Julio  2023    

## 2. EDA Nº2 - Exploración de participación de elecciones por municipio

In [41]:
# Ruta relativa desde el proyecto
relative_path = os.path.join('..', 'data', 'processed', 'Elecciones_Consolidadas.sqlite')

# Verificar si el archivo existe
if not os.path.exists(relative_path):
    raise FileNotFoundError(f"❌ Archivo no encontrado: {relative_path}")

# Conectarse a la base de datos
conn = sqlite3.connect(relative_path)

# Verificar tablas
tables = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conn)
print("Tablas disponibles:")
print(tables)

Tablas disponibles:
                             name
0          resultados_municipales
1  resultados_municipales_Cleaned


In [12]:
dfb = pd.read_sql("SELECT * FROM resultados_municipales", conn)

# EDA básica
print(dfb.head(10))

print(dfb.tail())

print(dfb['Participación'])

print(dfb.shape)

print(dfb.dtypes)

print(dfb.isnull().sum())

    Año    Mes                               Nombre_de_Comunidad  \
0  None   None                                              None   
1  None   None                                              None   
2  1979  Marzo  Congreso | Marzo 1979 | Resultados por municipio   
3  1979  Marzo                                              None   
4  1979  Marzo                                              None   
5  1979  Marzo                               Nombre de Comunidad   
6  1979  Marzo                    Andalucía                        
7  1979  Marzo                    Andalucía                        
8  1979  Marzo                    Andalucía                        
9  1979  Marzo                    Andalucía                        

   Codigo_de_Provincia             Nombre_de_Provincia  Codigo_de_Municipio  \
0                 None                            None                 None   
1                 None                            None                 None   
2             

## 3. EDA Nº3 - Exploración de renta por municipio

In [40]:
# Ruta relativa desde el proyecto
relative_path = os.path.join('..', 'data', 'processed', 'Datos_Renta_Municipios.sqlite')

# Verificar si el archivo existe
if not os.path.exists(relative_path):
    raise FileNotFoundError(f"❌ Archivo no encontrado: {relative_path}")

# Conectarse a la base de datos
conn = sqlite3.connect(relative_path)

# Verificar tablas
tables = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conn)
print("Tablas disponibles:")
print(tables)

Tablas disponibles:
                             name
0          Datos_Renta_Municipios
1  Datos_Renta_Municipios_Cleaned


In [14]:
dfc = pd.read_sql("SELECT * FROM Datos_Renta_Municipios", conn)

# EDA básica
print(dfc.head())

print(dfc.tail())

# Verificar valores únicos en la columna 'Indicadores de renta media'

print(dfc['Indicadores de renta media'].unique())

print(dfc.shape)

print(dfc.dtypes)

print(dfc.describe)


               Municipios Distritos Secciones    Indicadores de renta media  \
0  01001 Alegría-Dulantzi      None      None  Renta neta media por persona   
1  01001 Alegría-Dulantzi      None      None  Renta neta media por persona   
2  01001 Alegría-Dulantzi      None      None  Renta neta media por persona   
3  01001 Alegría-Dulantzi      None      None  Renta neta media por persona   
4  01001 Alegría-Dulantzi      None      None  Renta neta media por persona   

   Periodo   Total  Municipio_Limpio  
0     2022  15.116  ALEGRíA-DULANTZI  
1     2021  14.647  ALEGRíA-DULANTZI  
2     2020  13.969  ALEGRíA-DULANTZI  
3     2019  14.299  ALEGRíA-DULANTZI  
4     2018  13.361  ALEGRíA-DULANTZI  
           Municipios Distritos Secciones   Indicadores de renta media  \
390619  52001 Melilla      None      None  Renta bruta media por hogar   
390620  52001 Melilla      None      None  Renta bruta media por hogar   
390621  52001 Melilla      None      None  Renta bruta media por hoga

## 4. EDA Nº4 - Exploración de renta y participación

In [37]:
# Ruta relativa desde el proyecto
relative_path = os.path.join('..', 'data', 'processed', 'Renta_y_Participacion.sqlite')

# Verificar si el archivo existe
if not os.path.exists(relative_path):
    raise FileNotFoundError(f"❌ Archivo no encontrado: {relative_path}")

# Conectarse a la base de datos
conn = sqlite3.connect(relative_path)

# Verificar tablas
tables = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conn)
print("Tablas disponibles:")
print(tables)

Tablas disponibles:
                    name
0  Renta_y_Participacion


In [None]:
# Cargar la tabla
dfd = pd.read_sql("SELECT * FROM Renta_y_Participacion", conn)

# Convertir participación a numérico si es necesario
if dfd['Participación'].dtype == 'object':
    dfd['Participación'] = pd.to_numeric(dfd['Participación'], errors='coerce')

print("\n Dimensiones del DataFrame:")
print(dfd.shape)

print("\n Columnas y tipos de datos:")
print(dfd.dtypes)

print("\n Valores nulos por columna:")
print(dfd.isnull().sum())

print("\n Estadísticas descriptivas:")
display(dfd.describe(include='all'))

print("\n Cuartiles de renta media:")
print(dfd['Cuartil_Renta_Media'].value_counts().sort_index())

print("\n Cuartiles de renta mediana:")
print(dfd['Cuartil_Renta_Mediana'].value_counts().sort_index())

print("\n Correlaciones:")
display(dfd[['Participación', 'Renta_Media', 'Renta_Mediana_Hogar']].corr())



 Dimensiones del DataFrame:
(22041, 8)

 Columnas y tipos de datos:
Municipio                 object
Año                        int64
Mes_Elecciones            object
Participación            float64
Renta_Media              float64
Renta_Mediana_Hogar      float64
Cuartil_Renta_Media       object
Cuartil_Renta_Mediana     object
dtype: object

 Valores nulos por columna:
Municipio                0
Año                      0
Mes_Elecciones           0
Participación            0
Renta_Media              0
Renta_Mediana_Hogar      0
Cuartil_Renta_Media      0
Cuartil_Renta_Mediana    0
dtype: int64

 Estadísticas descriptivas:


Unnamed: 0,Municipio,Año,Mes_Elecciones,Participación,Renta_Media,Renta_Mediana_Hogar,Cuartil_Renta_Media,Cuartil_Renta_Mediana
count,22041,22041.0,22041,22041.0,22041.0,22041.0,22041,22041
unique,5998,,4,,,,4,4
top,MOYA,,Junio,,,,Q1,Q1
freq,8,,5933,,,,5645,7333
mean,,2017.400481,,0.74266,10940.888662,14354.033392,,
std,,1.741325,,0.067095,2326.257575,3265.526652,,
min,,2015.0,,0.0,3281.0,5250.0,,
25%,,2016.0,,0.7006,9237.0,12250.0,,
50%,,2019.0,,0.7469,10718.0,13650.0,,
75%,,2019.0,,0.7895,12325.0,16450.0,,



 Cuartiles de renta media:
Cuartil_Renta_Media
Q1    5645
Q2    5611
Q3    5487
Q4    5298
Name: count, dtype: int64

 Cuartiles de renta mediana:
Cuartil_Renta_Mediana
Q1    7333
Q2    3834
Q3    6204
Q4    4670
Name: count, dtype: int64

 Correlaciones:


Unnamed: 0,Participación,Renta_Media,Renta_Mediana_Hogar
Participación,1.0,0.092832,0.07017
Renta_Media,0.092832,1.0,0.930615
Renta_Mediana_Hogar,0.07017,0.930615,1.0
