# üß† Proyecto de final de m√≥dulo

En este proyecto final recopilaremos los conocimientos adquiridos durante este primer m√≥dulo y nos centraremos en las habilidades de los distintos roles implicados en la construcci√≥n y an√°lisis de los conjuntos de datos. Dentro del ciclo de vida del dato nos hemos centrado en tres aspectos clave:

* üîß **Data Engineering**: Construir conjuntos de datos acorde a las necesidades de nuestro negocio. Empleando herramientas como Python y todas sus extensiones, webscrapping y consultas de APIs. Junto con SQL y ser capaz de modelar tablas en nuestro destino, podemos organizar la informaci√≥n para que no solo sea √∫til hoy sino en el futuro de nuestro negocio.
* üîç **Data Scientist**: Ser capaz de analizar los datos para entender su correcta construcci√≥n, poblaci√≥n que representan nuestras muestras. Posibles problemas y sesgos implicados en la recolecci√≥n de los datos, etc. Empleando similares herramientas pero enfocado en paquetes clave (Jupyter, Pandas, Numpy, Plotly) podemos crear evidencias que nos lleven a una mejor comprensi√≥n del contexto de los datos.
* üìä **Data Analyst**: Ser capaz de condensar toda la informaci√≥n presente en nuestro sistema y present√°rsela a usuarios clave de forma que el mensaje sea claro y conciso, atractivo y lo menos sesgado posible. Para ello, las herramientas clave ser√°n las plataformas de BI y las bases de datos que soportar√°n las operaciones requeridas por estas soluciones.

Para poner a prueba nuestras habilidades en estos roles tomaremos como punto de partida los datos accesibles en multitud de plataformas sobre las **elecciones europeas** . 

#### Nuestro empleador requiere que analicemos los datos obtenidos para entender el contexto pol√≠tico y las posibles tendencias que puedan surgir de cara a las pr√≥ximas elecciones tanto europeas como locales.

In [3]:
# importamos las librer√≠as necesarias:
import pandas as pd
from sqlalchemy import create_engine
import numpy as np
import csv
from io import StringIO

Construiremos nuestra Base de Datos MySQL en el servidor de [Aiven](https://aiven.io/).

In [None]:
# Conectamos con el servidor:

engine = create_engine(f"mysql+pymysql://{user}:{password}@{host}:{port}/{db}")
con = engine.connect()

# Pese a que en su origen no aparezca, es necesario a√±adir el "+pymysql", y recomendable borrar los car√°cteres tras el nombre de la base de datos!

Y m√°s adelante, tras el proceso de **Data Scientist**, crearemos y gestionaremos las tablas mediante la herramienta [DBeaver](https://dbeaver.com/) tras importarlas.  
  
La seccion final (**Data Analyst**) constara de cuatro versiones o an√°lisis realizados en base a los cuales se realizar√°n distintos procesos de busqueda y limpieza de datos. Dichas fases ser√°n las siguientes:  
+ **V1: Datos actuales generales y nacionales**
+ **V2: Comparaci√≥n con el pasado**
+ **V3: Comparaci√≥n econ√≥mica (PIB per capita), top1 vs bottom1**
+ **V4: Comparaci√≥n auton√≥mica vs nacional**

## üîß **Data Engineering**  

Comencemos por recopilar datos para la primera versi√≥n o an√°lisis. Para ello, usaremos como fuente de informaci√≥n, [la plataforma de la UE](https://results.elections.europa.eu/es/), la cual nos servir√° tambi√©n para obtener los datos necesarios para las segunda y tercera versiones o an√°lisis.  

Estructura de los csv que descargar de dicha plataforma (sin relaciones a√∫n), tras un primer vistazo:  
![tablas y contenido](./img/diagrama_es_2024.png)  
  
Todas las columnas de "update_status" y "update_time" son irrelevantes de cara a an√°lisis, por lo que las eliminaremos durante el proceso de limpieza de datos (secci√≥n Data Scientist). Adem√°s, podr√≠an venir bien un par de tablas extra, en las que especifiquemos los valores de los "languaje_id", "country_id" y "division_id", asignando a dichas columnas como claves for√°neas.

Para la cuarta versi√≥n o an√°lisis, es decir, la relacionada con los datos locales, usaremos los siguientes datos: [Datos de Euskadi](https://datos.gob.es/es/catalogo?q=elecciones+europeas&sort=score+desc%2C+metadata_created+desc), cuya estructura es muy desapropiada para un .csv com√∫n:  
    
![imagen csv euskadi](./img/eus.png)

## üîç **Data Scientist**
#### En la primera versi√≥n de la entrega, nos centraremos en un espectro general de la Union y en el nacional.

In [None]:
groups = pd.read_csv("data/groups.csv", sep=";", index_col=False)
print(groups["ID"].unique().__len__())

10


In [None]:
parlamento = pd.read_csv("data/eu.csv", sep=";", index_col=False)
print(parlamento["GROUP_ID"].unique().__len__())

9


Parece que existe un grupo o coalici√≥n sin asientos en el parlamento europeo. Por ello tambi√©n crearemos una tabla de clave primaria para m√∫ltiples claves for√°neas de otras tablas.

In [None]:
grupos = groups["ID"].unique()
print(grupos)

['EPP' 'SD' 'ECR' 'Renew' 'Theleft' 'GREENSEFA' 'PfE' 'ESN' 'NI' 'Others']


Tenemos identificadas las coaliciones politicas.  
  
Vamos a por las regiones o divisiones europeas!

In [None]:
parties = pd.read_csv("data/parties.csv", sep=";", index_col=False)
parties_copia = parties.copy()


In [None]:
print(parties["DIVISION_ID"].unique().__len__()) 
# 30 divisiones/pa√≠ses pero s√≥lo hay 27 Estados miembros de UE! A identificar los sobrantes y eliminarlos!

# FBE (European Banking Federation)
# GBE (Governing Body Endorsement)
# WBE (Direcci√≥n General de Presupuesto, o DG BUDG)

30


In [None]:
valores_a_eliminar = ["FBE", "GBE", "WBE"]
parties_copia = parties_copia[~parties_copia["DIVISION_ID"].isin(valores_a_eliminar)]
print(parties_copia["DIVISION_ID"].unique().__len__())

27


In [None]:
divisiones = parties_copia["DIVISION_ID"].unique()
print(divisiones)

['BE' 'BG' 'CZ' 'DK' 'DE' 'EE' 'IE' 'EL' 'ES' 'FR' 'IT' 'CY' 'LV' 'LT'
 'LU' 'HU' 'MT' 'NL' 'AT' 'PL' 'PT' 'RO' 'SI' 'SK' 'FI' 'SE' 'HR']


Ya tenemos la lista de Estados Miembro de la Uni√≥n Europea!
Desde [este enlace](https://vlex.es/vid/abreviaturas-oficiales-paises-union-591203078) conseguimos los nombres de los pa√≠ses de cada abreviatura, y de ah√≠ crearemos una lista con la que poder completar nuestra tabla de divisiones (ID, NAME)

In [None]:
nombres = ["Belgica", "Bulgaria", "Republica Checa", "Dinamarca", "Alemania", "Estonia", "Irlanda", "Grecia", "Espanya", "Francia", "Italia", "Chipre", "Letonia", "Lituania", "Luxemburgo", "Hungria", "Malta", "Paises Bajos", "Austria", "Polonia", "Portugal", "Rumania", "Eslovenia", "Eslovaquia", "Finlandia", "Suecia", "Croacia"]

In [None]:
division = [{"ID": i, "NAME": n} for i, n in zip(divisiones, nombres)]
print(division)

[{'ID': 'BE', 'NAME': 'Belgica'}, {'ID': 'BG', 'NAME': 'Bulgaria'}, {'ID': 'CZ', 'NAME': 'Republica Checa'}, {'ID': 'DK', 'NAME': 'Dinamarca'}, {'ID': 'DE', 'NAME': 'Alemania'}, {'ID': 'EE', 'NAME': 'Estonia'}, {'ID': 'IE', 'NAME': 'Irlanda'}, {'ID': 'EL', 'NAME': 'Grecia'}, {'ID': 'ES', 'NAME': 'Espanya'}, {'ID': 'FR', 'NAME': 'Francia'}, {'ID': 'IT', 'NAME': 'Italia'}, {'ID': 'CY', 'NAME': 'Chipre'}, {'ID': 'LV', 'NAME': 'Letonia'}, {'ID': 'LT', 'NAME': 'Lituania'}, {'ID': 'LU', 'NAME': 'Luxemburgo'}, {'ID': 'HU', 'NAME': 'Hungria'}, {'ID': 'MT', 'NAME': 'Malta'}, {'ID': 'NL', 'NAME': 'Paises Bajos'}, {'ID': 'AT', 'NAME': 'Austria'}, {'ID': 'PL', 'NAME': 'Polonia'}, {'ID': 'PT', 'NAME': 'Portugal'}, {'ID': 'RO', 'NAME': 'Rumania'}, {'ID': 'SI', 'NAME': 'Eslovenia'}, {'ID': 'SK', 'NAME': 'Eslovaquia'}, {'ID': 'FI', 'NAME': 'Finlandia'}, {'ID': 'SE', 'NAME': 'Suecia'}, {'ID': 'HR', 'NAME': 'Croacia'}]


Al igual que con los pa√≠ses, para identificar los idiomas y sus abreviaturas necesitaremos informaci√≥n externa, concretamente de [este enlace](https://omegat.sourceforge.io/manual-latest/es/appendix.languages.html).

In [None]:
language = pd.read_csv("data/labels.csv", sep=";")
print(language["LANGUAGE_ID"].unique().__len__()) # 24 idiomas

24


In [None]:
idiomas = language["LANGUAGE_ID"].unique()
print(idiomas)

['BG' 'ES' 'CS' 'DA' 'DE' 'ET' 'EL' 'EN' 'FR' 'GA' 'HR' 'IT' 'LV' 'LT'
 'HU' 'MT' 'NL' 'PL' 'PT' 'RO' 'SK' 'SL' 'FI' 'SV']


In [None]:
nom_idi = ["Bulgaro", "Espanyol", "Checo", "Danes", "Aleman", "Estonio", "Griego Moderno", "Ingles", "Frances", "Irlandes", "Croata", "Italiano", "Leton", "Lituano", "Hungaro", "Maltes", "Holandes", "Polaco", "Portugues", "Rumano", "Eslovaco", "Esloveno", "Finlandes", "Sueco"]

In [None]:
language = [{"ID": i, "NAME": n} for i, n in zip(idiomas, nom_idi)]
print(language)

[{'ID': 'BG', 'NAME': 'Bulgaro'}, {'ID': 'ES', 'NAME': 'Espanyol'}, {'ID': 'CS', 'NAME': 'Checo'}, {'ID': 'DA', 'NAME': 'Danes'}, {'ID': 'DE', 'NAME': 'Aleman'}, {'ID': 'ET', 'NAME': 'Estonio'}, {'ID': 'EL', 'NAME': 'Griego Moderno'}, {'ID': 'EN', 'NAME': 'Ingles'}, {'ID': 'FR', 'NAME': 'Frances'}, {'ID': 'GA', 'NAME': 'Irlandes'}, {'ID': 'HR', 'NAME': 'Croata'}, {'ID': 'IT', 'NAME': 'Italiano'}, {'ID': 'LV', 'NAME': 'Leton'}, {'ID': 'LT', 'NAME': 'Lituano'}, {'ID': 'HU', 'NAME': 'Hungaro'}, {'ID': 'MT', 'NAME': 'Maltes'}, {'ID': 'NL', 'NAME': 'Holandes'}, {'ID': 'PL', 'NAME': 'Polaco'}, {'ID': 'PT', 'NAME': 'Portugues'}, {'ID': 'RO', 'NAME': 'Rumano'}, {'ID': 'SK', 'NAME': 'Eslovaco'}, {'ID': 'SL', 'NAME': 'Esloveno'}, {'ID': 'FI', 'NAME': 'Finlandes'}, {'ID': 'SV', 'NAME': 'Sueco'}]


Ya tenemos la lista de idiomas a los que se traducen los documentos en la Uni√≥n Europea!  
   
Ahora creemos nuestras nuevas tablas para tras todo el proceso de limpieza y ajuste de datos, poder importarlas al DBeaver.

In [None]:
# Las divisiones/pa√≠ses de la Uni√≥n:

with open("./data_final/division.csv", "w", newline="") as csvfile:
    fieldnames = ["ID", "NAME"]
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()
    writer.writerows(division)

In [None]:
# Las idiomas de la Uni√≥n:

with open("./data_final/language.csv", "w", newline="") as csvfile:
    fieldnames = ["ID", "NAME"]
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()
    writer.writerows(language)


Una vez creadas las que ser√°n 3 de nuestras tablas base, vayamos adecuando las dem√°s. Como dijimos en la secci√≥n anterior, existen en varias tablas (eu, turnout-eu, turnout-country, pais-result-parties, pais-groups y pais-parties) 2 columnas sin importancia para el an√°lisis, por lo que nos desprenderemos de ellas en las pr√≥ximas celdas.

In [None]:
# tabla eu

df = pd.read_csv("./data/eu.csv", sep=";")

columnas_deseadas = ["GROUP_ID", "SEATS_TOTAL", "SEATS_PERCENT_EU"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/eu.csv", index=False)

In [None]:
# tabla turnout-eu

df = pd.read_csv("./data/turnout-eu.csv", sep=";")

columnas_deseadas = ["YEAR", "RATE"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/turnout-eu.csv", index=False)

In [None]:
# tabla turnout-country

df = pd.read_csv("./data/turnout-country.csv", sep=";")

columnas_deseadas = ["YEAR", "COUNTRY_ID", "RATE"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/turnout-country.csv")

In [None]:
# tabla es-results-parties

df = pd.read_csv("./data/es-results-parties.csv", sep=";")

columnas_deseadas = ["PARTY_ID", "TYPE", "VOTES_PERCENT"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/es-results-parties.csv", index=False)

In [None]:
# tabla es-parties

df = pd.read_csv("./data/es-parties.csv", sep=";")

columnas_deseadas = ["PARTY_ID", "TYPE", "SEATS_TOTAL", "GROUP_ID"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/es-parties.csv")

In [None]:
# tabla es-groups

df = pd.read_csv("./data/es-groups.csv", sep=";")

columnas_deseadas = ["GROUP_ID", "SEATS_TOTAL", "SEATS_PERCENT_EU"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/es-groups.csv", index=False)

Tras este proceso de limpieza de columnas, nos quedan a√∫n unas tablas (parties, groups) fuera de la carpeta "data_final".

In [None]:
# tabla de parties

columnas_deseadas = ["DIVISION_ID", "ID", "TYPE", "ACRONYM", "LABEL", "MEMBER_OF_COALITION", "COALITION_MEMBERS"]
df_filtrado = parties_copia[columnas_deseadas]

df_filtrado.to_csv("./data_final/parties.csv", index=False)

Para poder realizar un an√°lisis m√°s profundo de las tendencias, tanto locales como internacionales, a√±adiremos dos columnas que detallen la orientaci√≥n y la ideolog√≠a de cada uno de los grupos pol√≠ticos o coaliciones que forman parte del parlamanto de la Uni√≥n Europea.

In [None]:
# tabla de groups

df_filtrado = groups[groups["LANGUAGE_ID"] == "ES"]

orientacion = [
    "Centro-derecha",
    "Centro-izquierda",
    "Derecha a derecha moderada",
    "Centro, liberal-progresista",
    "Izquierda a extrema izquierda",
    "Centro-izquierda / ecologista",
    "Extrema derecha / ultraconservadora",
    "Extrema derecha / ultranacionalista",
    "",
    ""
]

ideologia = [
    "Conservadurismo moderado, democracia cristiana, econom√≠a social de mercado, europe√≠smo",
    "Socialdemocracia, progresismo, estado del bienestar, europe√≠smo",
    "Conservadurismo euroesc√©ptico, soberanismo, liberalismo econ√≥mico",
    "Liberalismo, europe√≠smo, derechos civiles, econom√≠a de mercado",
    "Socialismo, comunismo democr√°tico, anticapitalismo, ecologismo, eurocr√≠tica",
    "Ecologismo, federalismo europeo, derechos humanos, progresismo",
    "Nacionalismo, soberanismo, antiinmigraci√≥n, euroescepticismo radical",
    "Soberanismo duro, nacionalismo, anti-UE, identidad cultural",
    "",
    ""
]

df_filtrado["ORIENTACION"] = orientacion
df_filtrado["IDEOLOGIA"] = ideologia

df_filtrado.to_csv("./data_final/groups.csv", index=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado["ORIENTACION"] = orientacion
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado["IDEOLOGIA"] = ideologia


Ahora ya s√≠, los ajustes y la limpieza han terminado. Nos quedar√≠a una estructura como esta:  
![tablas relaciones y contenido](./img/diagrama_final.png) 

#### Y hasta aqu√≠ la limpieza de datos de la primera versi√≥n de entrega.
---
#### En la segunda versi√≥n, se agregar√°n tablas de pasadas elecciones (concretamente del a√±o 1994, tras la unificaci√≥n alemana) nacionales para comparar las tendencias pasadas con las actuales.

In [None]:
# Empecemos con las regiones o divisiones:

parties_1994 = pd.read_csv("data/parties-1994.csv", sep=";", index_col=False)
parties_1994_copia = parties_1994.copy()

In [None]:
print(parties_1994["DIVISION_ID"].unique().__len__())
# igual que en la versi√≥n anterior, nos encontramos con valores que no representan a paises, sino organizaciones

17


In [None]:
divisiones_1994 = parties_1994_copia["DIVISION_ID"].unique()
print(divisiones_1994) # tres valores que no estaban en la lista de parties de 2024, habr√° que crear una nueva tabla, o a√±adirlos a la ya existente

['BE' 'FBE' 'GBE' 'WBE' 'DK' 'DE' 'IE' 'EL' 'ES' 'FR' 'IT' 'LU' 'NL' 'PT'
 'UK' 'NI' 'GB']


In [None]:
no_coincidentes = []

for elemento in divisiones_1994:
    if elemento not in divisiones:
        if elemento not in no_coincidentes:
            no_coincidentes.append(elemento)

print(no_coincidentes)

['FBE', 'GBE', 'WBE', 'UK', 'NI', 'GB']


In [None]:
valores_a_eliminar = ["FBE", "GBE", "WBE", "UK"] 
# "UK" representa la union de los valores en "NI" y "GB", por lo que impedir√≠a la creacion de una clave primaria al repetirse los valores de la columna ID
parties_1994_copia = parties_1994_copia[~parties_1994_copia["DIVISION_ID"].isin(valores_a_eliminar)]
print(parties_1994_copia["DIVISION_ID"].unique().__len__())

13


In [None]:
valores_a_eliminar = ["UK90"] # se repite sin necesidad, obstaculizando el proceso de creaci√≥n de la tabla en base a clave primaria
parties_1994_copia = parties_1994_copia[~parties_1994_copia["ID"].isin(valores_a_eliminar)]

In [None]:
with open("./data_final/division.csv", "a", newline="") as csvfile:
    writer = csv.writer(csvfile)

    datos1, datos2, datos3 = ["UK", "Reino Unido"], ["NI", "Irlanda del Norte"], ["GB", "Gran Bretanya"]

    writer.writerow(datos1)
    writer.writerow(datos2)
    writer.writerow(datos3)

Tabla de divisiones actualizada!  
  
Vamos con los partidos politicos nacionales.

In [None]:
columnas_deseadas = ["DIVISION_ID", "ID", "TYPE", "ACRONYM", "LABEL", "MEMBER_OF_COALITION", "COALITION_MEMBERS"]
df_filtrado = parties_1994_copia[columnas_deseadas]

df_filtrado.to_csv("./data_final/parties-1994.csv", index=False)

Partidos nacionales limpiados!  
  
Vamos con los antiguos grupos politicos.

In [None]:
groups_1994 = pd.read_csv("data/groups-1994.csv", sep=";", index_col=False, keep_default_na=False) # para evitar que borre "NA" al detectarlo como NaN


In [None]:
# tabla de groups de 1994

df_filtrado = groups_1994[groups_1994["LANGUAGE_ID"] == "ES"]

df_filtrado.to_csv("./data_final/groups-1994.csv", index=False) 

Grupos o coaliciones terminadas!  
  
Vamos con el borrado de columnas que ya hicimos anteriormente en las tablas equivalentes de 2024.

In [None]:
# tabla eu

df = pd.read_csv("./data/eu-1994.csv", sep=";", keep_default_na=False)

columnas_deseadas = ["GROUP_ID", "SEATS_TOTAL", "SEATS_PERCENT_EU"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/eu-1994.csv", index=False)

In [None]:
# tabla es-groups-1994

df = pd.read_csv("./data/es-groups-1994.csv", sep=";", keep_default_na=False)

columnas_deseadas = ["GROUP_ID", "SEATS_TOTAL", "SEATS_PERCENT_EU"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/es-groups-1994.csv", index=False)

In [None]:
# tabla es-parties-1994

df = pd.read_csv("./data/es-parties-1994.csv", sep=";", keep_default_na=False)

columnas_deseadas = ["PARTY_ID", "TYPE", "SEATS_TOTAL", "GROUP_ID"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/es-parties-1994.csv", index=False)

#### Y hasta aqu√≠ la limpieza de datos de la segunda versi√≥n de entrega.
---
#### En la tercera versi√≥n, se agregar√°n tablas de las √∫ltimas elecciones de otros pa√≠ses, para comparar sus posibles distintas tendencias en base a su situaci√≥n econ√≥mica. M√°s concretamente, se trabajar√° con las tablas del top1 y bottom1 del [ranking europeo de PIB per capita](https://datosmacro.expansion.com/paises/grupos/union-europea). En dicho ranking, vemos c√≥mo Espa√±a se situa ligeramente por debajo de la media, lo cual tambi√©n podr√° ser de utilidad para la comparativa.  
  
![top3_eu](./img/top3_pib_eu.png)
![bottom3_eu](./img/bot3_pib_eu.png)  
   
Empecemos con los partidos nacionales de Luxemburgo (LU) y Bulgaria (BG).

In [None]:
# tabla lu-results-parties

df = pd.read_csv("./data/lu-results-parties.csv", sep=";")

columnas_deseadas = ["PARTY_ID", "TYPE", "VOTES_PERCENT"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/lu-results-parties.csv", index=False)

In [None]:
# tabla lu-parties

df = pd.read_csv("./data/lu-parties.csv", sep=";")

columnas_deseadas = ["PARTY_ID", "TYPE", "SEATS_TOTAL", "GROUP_ID"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/lu-parties.csv", index=False)

In [None]:
# tabla lu-groups

df = pd.read_csv("./data/lu-groups.csv", sep=";")

columnas_deseadas = ["GROUP_ID", "SEATS_TOTAL", "SEATS_PERCENT_EU"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/lu-groups.csv", index=False)

Luxemburgo terminado.  
  
A por las tablas de Bulgaria.

In [None]:
# tabla bg-results-parties

df = pd.read_csv("./data/bg-results-parties.csv", sep=";")

columnas_deseadas = ["PARTY_ID", "TYPE", "VOTES_PERCENT"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/bg-results-parties.csv", index=False)

In [None]:
# tabla bg-parties

df = pd.read_csv("./data/bg-parties.csv", sep=";")

columnas_deseadas = ["PARTY_ID", "TYPE", "SEATS_TOTAL", "GROUP_ID"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/bg-parties.csv", index=False)

In [None]:
# tabla bg-groups

df = pd.read_csv("./data/bg-groups.csv", sep=";")

columnas_deseadas = ["GROUP_ID", "SEATS_TOTAL", "SEATS_PERCENT_EU"]
df_filtrado = df[columnas_deseadas]

df_filtrado.to_csv("./data_final/bg-groups.csv", index=False)

#### Y hasta aqu√≠ la limpieza de datos de la tercera versi√≥n de entrega.
---
#### En la cuarta y √∫ltima versi√≥n, se agregar√°n tablas de las √∫ltimas elecciones de la comunidad aut√≥noma de Euskadi, seccionada por sus 3 provincias, para comparar sus tendencias con las nacionales.

In [None]:
with open("./data/xls0000192_c.csv", "r", encoding="latin1") as f:
    lines = f.readlines()

# Busquemos el √≠ndice donde comienzan realmente las filas de candidaturas
for i, line in enumerate(lines):
    if line.startswith("EH BILDU"):
        candidaturas_start = i
        break

# Extraemos las filas de candidaturas
candidature_rows = []
for line in lines[candidaturas_start:]:
    if line.strip() == "" or set(line.strip()) == {";"}:
        break
    candidature_rows.append(line.strip())

In [None]:
eus = pd.read_csv(StringIO("\n".join(candidature_rows)), sep=";", header=None)

In [None]:
# Asignamos nombres a nuestras columnas
eus.columns = [
    "Candidatura", 
    "Votos_Euskadi", "Percent_Euskadi", 
    "Votos_Araba", "Percent_Araba", 
    "Votos_Bizkaia", "Percent_Bizkaia", 
    "Votos_Gipuzkoa", "Percent_Gipuzkoa"
]

In [None]:
# eliminamos comas y convertimos a float/int
for col in eus.columns[1:]:
    if col.startswith("Votos"):
        eus[col] = eus[col].astype(str).str.replace(".", "", regex=False).astype(int)
    else:
        eus[col] = eus[col].str.replace(",", ".", regex=False).astype(float)

In [None]:
# Creamos los tres DataFrames por provincia
df_araba = eus[["Candidatura", "Votos_Araba", "Percent_Araba"]].copy()
df_bizkaia = eus[["Candidatura", "Votos_Bizkaia", "Percent_Bizkaia"]].copy()
df_gipuzkoa = eus[["Candidatura", "Votos_Gipuzkoa", "Percent_Gipuzkoa"]].copy()
df_eus = eus[["Candidatura", "Votos_Euskadi", "Percent_Euskadi"]].copy()

In [None]:
df_eus.to_csv("./data_final/eus-eus.csv", index=False)
df_araba.to_csv("./data_final/eus-araba.csv", index=False)
df_bizkaia.to_csv("./data_final/eus-bizkaia.csv", index=False)
df_gipuzkoa.to_csv("./data_final/eus-gipuzkoa.csv", index=False)

Tras el proceso de limpieza y ajuste de las tablas implicadas en las cuatro versiones del an√°lisis, el diagrama detallado de la base de datos final ser√≠a el siguiente:  
  
![diagrama absoluto](./img/diagrama_cuatro_versiones.png)  
  
Como podemos ver, consta de 3 secciones no relacionadas entre s√≠, ya sea por los diferentes integrantes pol√≠ticos de cada √©poca o entorno sociocultural.

## üìä **Data Analyst**

En esta secci√≥n, utilizaremos [Preset](https://preset.io/), una herramienta que nos permite crear un entorno de desarrollo personalizado para nuestro proyecto.  
  
Comenzaremos con un "brain storming" de posibles gr√°ficos o dise√±os a realizar, y luego procederemos a crear un entorno de desarrollo para implementarlos. En caso de no poder realizar alguno, lo adaptaremos en la medida de lo posible.

+ **Brain Storming**:
    - Semicirculo/Donutpie con coaliciones EU actuales
    - Gr√°fico participaci√≥n por pa√≠s (y EU total)... o mapa de calor?
    - Reparto de esca√±os nacionales en barra apilada... votos por partido?
    - ...
    - Gr√°fico de barras comparando participaci√≥n nacional
    - Barra apilada esca√±os
    - ...
    - Espa√±a cerca de valor medio europeo, a√±adir a comparaci√≥n?
    - Gr√°ficos barras comparativo esca√±os por grupo europeo y pa√≠s
    - Tabla de partidos con votos y grupo europeo (por pa√≠s)
    - ...
    - Barras apiladas comparativo esca√±os por grupo europeo y provincia/comunidad
  
  
+ **V1: Datos actuales generales y nacionales**
  
![v1](./img/v1.png)

+ **V2: Comparaci√≥n con el pasado**

![v2](./img/v2.png)

+ **V3: Comparaci√≥n econ√≥mica (PIB per capita) internacional, top1 vs bottom1**

![v3](./img/v3.png)

+ **V4: Comparaci√≥n auton√≥mica vs nacional**

![v4](./img/v4.png)


## ‚úÖ Conclusiones
  
+ **V1: Datos actuales generales y nacionales**
    - <u>Participaci√≥n</u>: Espa√±a, al igual que veremos m√°s adelante con el PIB per capita, se situa ligeramente por debajo de la media europea (46.39% vs 50.74%).
    - <u>Orientaci√≥n</u>: en ambos √°mbitos, el partido o coalici√≥n que m√°s esca√±os ha conseguido, se situa en el centro-derecha (EU: EPP, ES: PP), seguido por un centro-izquierda (EU: SD, ES: PSOE), dos de derecha extrema o derecha moderada (EU: Pfe y ECR, ES: VOX y SALF) y como quinta fuerza se situa la izquierda o centro-izquierda (EU: Renew,ES: Podemos).  
    - <u>Tendencia</u>: se nota gran tendencia al centro, al conformismo social, con mas vertientes hacia la derecha que izquierda. La comodidad econ√≥mica o la sensaci√≥n de la misma podr√≠an justificar dicha tendencia.
+ **V2: Comparaci√≥n con el pasado**
    - <u>Participaci√≥n</u>: en Espa√±a ha ca√≠do seriamente (entormo al 30%) el inter√©s por participar en elecciones europeas desde hace 30 a√±os, pese a la subida de las anteriores elecciones en 2019. Sin embargo, en Europa el descenso no ha sido tan notorio (10%).
    - <u>Orientaci√≥n</u>: hace 3 d√©cadas exist√≠an menos opciones de voto y por ello menos vertientes pol√≠ticas estaban cubiertas, sin embargo, las 2 mayores fuerzas pol√≠ticas (PP, PSOE) han mantenido sus puestos a lo largo del tiempo, seguidos anta√±o por la izquierda, en vez de por la extrema derecha como ahora.  
    Sin embargo, en Europa el centro-izquierda (PSE del 1994, SD del 2024) estaba posicionado por delante del actual l√≠der (PPE del 1994, EPP del 2024); la tercera fuerza era tambi√©n de la extrema derecha (ELDR de 1994, Pfe del 2024), pero la izquierda se hacia notar en el cuarto puesto (GUE) en vez de en el quinto de 2024 (Renew).
    - <u>Tendencia</u>: En Espa√±a, la tendencia era m√°s hacia la izquierda que hoy en d√≠a pese a dominar los del centro en todo momento. En Europa tambi√©n se nota que la izquierda y centro-izquierda ten√≠an mayor presencia que hoy en d√≠a. 
+ **V3: Comparaci√≥n econ√≥mica (PIB per capita) internacional, top1 vs bottom1**
    - <u>Participaci√≥n</u>: parece ser que a mayor PIB per capita, mayor cercan√≠a se siente por participar en relaci√≥n a decisiones internacionales, ya que Luxemburgo (82.29%) casi hasta duplica a Espa√±a (46.39%) y ni qu√© decir de Bulgaria (33.78%). 
    - <u>Orientaci√≥n</u>: en los tres pa√≠ses, la coalici√≥n que m√°s esca√±os ha recibido es la misma (EPP, centro-derecha).  
    Si bien en Luxemburgo no podemos realizar un an√°lisis m√°s profundo debido el l√≠mite de esca√±os que se le otorga (debido a la poblaci√≥n), podemos observar que las dem√°s coaliciones que obtienen esca√±o (SD, ECR, Renew, GREENSEFA), coinciden con el orden de la Uni√≥n Europea, salvo por la ausencia de la extrema derecha (Pfe).  
    Por parte de Bulgaria, lidera igualmente el centro-derecha (EPP), seguido muy de cerca en este caso de la quinta fuerza europea (Renew), orientada tambi√©n al centro-derecha y despu√©s la extrema derecha (ESN), √∫ltima en el rango europeo. El centro izquierda (SD) tiene presencia minoritaria con 2 respecto a los 15 que recibe la derecha en todas sus variantes.
    - <u>Tendencia</u>: pese a la cl√°sica asociaci√≥n en nuestras mentes de pobreza con izquierda revolucionaria, los datos nos muestran que a menor PIB per capita, mayor tendencia a la derecha, y a mayor PIB per capita, mayor tendencia al centro, o centro-izquierda. 
+ **V4: Comparaci√≥n auton√≥mica vs nacional**
    - <u>Participaci√≥n</u>: pese a no reflejarse en el dashboard, tanto a nivel nacional como auton√≥mico existen niveles similares de compromiso con Europa (ES: 46.39%, EUS: 50.8%). El dato auton√≥mico est√° disponible en el archivo .csv del que hemos obtenido los datos referentes a los votos.
    - <u>Orientaci√≥n</u>: en las elecciones auton√≥micas, el movimiento de izquierda e independentista (EH BILDU), supera a los dos grandes partidos nacionales (PSOE en segundo lugar y PP en cuarto), y entre ellos se colocar√≠a el anta√±o independentista partido de derecha auton√≥mico (PNV), haciendo ver que importan m√°s a la sociedad los grupos locales que los nacionales. 
    Ambos partidos locales, consiguieron un esca√±o en el parlamento europeo; EH BILDU integrado en TheLeft (y la agrupaci√≥n nacional "Ahora rep√∫blicas"), s√©ptima potencia europea (izquierda a izquierda extrema) y PNV integrado en Renew (y la agrupaci√≥n nacional "CEUS"), quinta potencia europea (centro-derecha). 
    En las tres provincias de Euskadi, vemos una intensa pelea entre los ya mencionados l√≠deres auton√≥micos, EH BILDU (lider en Gipuzkoa), PSOE (l√≠der en Bizkaia y Araba), y PNV (segundo en Bizkaia y tercero en las dem√°s). 
    - <u>Tendencia</u>: a nivel general en la comunidad aut√≥noma de Euskadi se ve una clara tendencia a la izquierda (EH BILDU + PSOE = 52.45%), seguido por el centro-derecha (PNV + PP = 34.08%). 
    A nivel provincial, como ya hemos mencionado, la constante pelea entre la izquierda (EH BILDU) y derecha (PNV) local junto con el centro izquierda nacional (PSOE), es muy notoria pese a que el centro-derecha nacional (PP) tambi√©n tenga fuerza en Araba (porcentaje doble que en Gipuzkoa).