# Análisis de Datos de Contaminación y Reciclaje en Europa

En este proyecto, realizamos un análisis sobre los niveles de contaminación, tasas de reciclaje, y generación de residuos en países europeos. En este primer notebook cargamos los datos de las diferentes furentes de datos, los limpiamos y juntamos en los df que necesitaremos para el analisis.
Utilizaremos funciones definidas en `functions.py` para cargar, limpiar y procesar los datos.

In [1]:
from functions import *

pd.set_option('display.max_columns', None)

## Procesamiento de Datos de Tasas de Reciclaje

Primero, cargamos y procesamos los datos de tasas de reciclaje utilizando la función `process_recycling_data` definida en `functions.py`.

In [2]:
# Procesar datos de tasas de reciclaje
recycling_rates = process_recycling_data('data_to_clean/tasas_reciclaje')
recycling_rates

Unnamed: 0,Country,Year,recycling_rate
0,Austria,2013,57.7
1,Austria,2014,56.3
2,Austria,2015,56.9
3,Austria,2016,57.6
4,Austria,2017,57.8
...,...,...,...
271,Sweden,2018,45.8
272,Sweden,2019,46.6
273,Sweden,2020,38.3
274,Sweden,2021,39.5


### Explicación del Procesamiento de Tasas de Reciclaje

1. **`process_recycling_data(filepath)`**: Esta función carga los datos de tasas de reciclaje desde un archivo CSV, filtra los datos para el rango de años entre 2013 y 2022, selecciona las columnas relevantes, renombra las columnas, reemplaza los códigos de países con nombres completos, filtra para conservar solo los países listados, ordena los datos por país y año, y reinicia el índice del DataFrame.

## Procesamiento de Datos de Generación de Residuos

A continuación, procesamos los datos de generación de residuos utilizando la función `process_waste_generation_data`. Los datos están disponibles cada dos años.

In [3]:
# Procesar datos de generación de residuos
waste_generation = process_waste_generation_data('data_to_clean/generacion_residuos.gz')
waste_generation

Unnamed: 0,Country,Year,Total_waste
0,Austria,2014,238793915.0
1,Austria,2016,261035433.0
2,Austria,2018,279004198.0
3,Austria,2020,290804238.0
4,Belgium,2014,285692548.0
...,...,...,...
111,Spain,2020,492690834.0
112,Sweden,2014,688530273.0
113,Sweden,2016,591007405.0
114,Sweden,2018,579978367.0


In [4]:
# Calculamos el porcentaje de residuos generados
waste_generation = agregar_porcentajes(waste_generation, 'Total_waste')
waste_generation

Unnamed: 0,Country,Year,Total_waste,Total_waste%
0,Austria,2014,238793915.0,2.42
1,Austria,2016,261035433.0,2.60
2,Austria,2018,279004198.0,2.69
3,Austria,2020,290804238.0,3.03
4,Belgium,2014,285692548.0,2.89
...,...,...,...,...
111,Spain,2020,492690834.0,5.13
112,Sweden,2014,688530273.0,6.96
113,Sweden,2016,591007405.0,5.90
114,Sweden,2018,579978367.0,5.59


### Explicación del Procesamiento de Generación de Residuos

1. **`process_waste_generation_data(filepath)`**: Esta función carga los datos de generación de residuos desde un archivo CSV, filtra los datos para los años entre 2013 y 2022 y para el tipo de residuo 'TOTAL', reemplaza los códigos de países con nombres completos, filtra para conservar solo los países listados, ordena los datos por país y año, reinicia el índice del DataFrame, y agrupa los datos por país y año para obtener la suma total de residuos.

## Procesamiento de Datos de Emisiones de CO2

Finalmente, procesamos los datos de emisiones de CO2 usando la función `process_co2_emissions`.

In [5]:
# Procesar datos de emisiones de CO2
co2_emissions = process_co2_emissions('data_to_clean/co2_emissions_2023.xlsx')
co2_emissions

Unnamed: 0,Country,Year,CO2_Emissions
0,Austria,2013,69.612680
1,Austria,2014,65.929043
2,Austria,2015,67.369130
3,Austria,2016,67.782518
4,Austria,2017,70.106335
...,...,...,...
285,Sweden,2018,39.428295
286,Sweden,2019,39.139798
287,Sweden,2020,37.793959
288,Sweden,2021,39.880774


La función `agregar_porcentajes`, añade una columna al DataFrame que contiene el porcentaje de los valores en la columna especificada respecto al total de esa columna para cada año.

In [6]:
# Calculamos las emisiones en porcentaje
co2_emissions = agregar_porcentajes(co2_emissions, 'CO2_Emissions')
co2_emissions

Unnamed: 0,Country,Year,CO2_Emissions,CO2_Emissions%
0,Austria,2013,69.612680,2.16
1,Austria,2014,65.929043,2.14
2,Austria,2015,67.369130,2.15
3,Austria,2016,67.782518,2.16
4,Austria,2017,70.106335,2.21
...,...,...,...,...
285,Sweden,2018,39.428295,1.27
286,Sweden,2019,39.139798,1.32
287,Sweden,2020,37.793959,1.41
288,Sweden,2021,39.880774,1.38


### Explicación del Procesamiento de Emisiones de CO2

1. **`process_co2_emissions(filepath)`**: Esta función carga los datos de emisiones de CO2 desde un archivo Excel, convierte el DataFrame a formato largo, reemplaza los nombres de países con combinaciones de nombres, filtra para conservar solo los países listados, ordena los datos por país y año, y reinicia el índice del DataFrame.

## Procesamiento de Datos del Nivel de Contaminación del Aire

Procesamos los datos del nivel de contaminación del aire usando la función `process_pollution_level`.

In [7]:
# Procesar datos del nivel de contaminación del aire
air_pollution_level = process_pollution_level('data_to_clean/air_polution_data.xlsx')
air_pollution_level

Unnamed: 0,Country,Year,Air_pollution_level
0,Austria,2013,54.52
1,Austria,2014,47.61
2,Austria,2015,53.12
3,Austria,2016,46.57
4,Austria,2017,49.71
...,...,...,...
285,Sweden,2018,30.79
286,Sweden,2019,29.81
287,Sweden,2020,24.71
288,Sweden,2021,23.50


## Unión de DataFrames

Como tenemos datos por año y datos bianuales, crearemos dos DataFrames: uno con las variables que tienen datos anuales y otro con las variables que tienen datos bianuales.

### Unión de Datos de Contaminación del Aire y Emisiones de CO2 con Tasas de Reciclaje

Unimos los datos de contaminación del aire y emisiones de CO2 con las tasas de reciclaje.

In [8]:
# Unir datos de contaminación del aire y emisiones de CO2 con tasas de reciclaje
data_pollution = pd.merge(air_pollution_level, co2_emissions, on=['Country', 'Year'], how='left')
data_recycling_rates = pd.merge(data_pollution, recycling_rates, on=['Country', 'Year'], how='left')
data_recycling_rates.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 290 entries, 0 to 289
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Country              290 non-null    object 
 1   Year                 290 non-null    int64  
 2   Air_pollution_level  290 non-null    float64
 3   CO2_Emissions        290 non-null    float64
 4   CO2_Emissions%       290 non-null    float64
 5   recycling_rate       276 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 13.7+ KB


La función `fillna_with_mean` rellena los NaN en una columna con la media del valor anterior y posterior para el mismo país. Si solo uno de los valores (anterior o posterior) existe, se usa ese valor.
    

In [9]:
# Rellenar valores NaN en la tasa de reciclaje
data_recycling_rates = fillna_with_mean(data_recycling_rates, 'recycling_rate')
data_recycling_rates

Unnamed: 0,Country,Year,Air_pollution_level,CO2_Emissions,CO2_Emissions%,recycling_rate
0,Austria,2013,54.52,69.612680,2.16,57.7
1,Austria,2014,47.61,65.929043,2.14,56.3
2,Austria,2015,53.12,67.369130,2.15,56.9
3,Austria,2016,46.57,67.782518,2.16,57.6
4,Austria,2017,49.71,70.106335,2.21,57.8
...,...,...,...,...,...,...
285,Sweden,2018,30.79,39.428295,1.27,45.8
286,Sweden,2019,29.81,39.139798,1.32,46.6
287,Sweden,2020,24.71,37.793959,1.41,38.3
288,Sweden,2021,23.50,39.880774,1.38,39.5


In [10]:
# Guardar el DataFrame resultante en un archivo CSV
save_to_csv(data_recycling_rates, 'data_to_eda/data_recycling_rates.csv')

Archivo guardado correctamente en: data_to_eda/data_recycling_rates.csv


### Unión de Datos Anteriores con la Generación de Residuos

Unimos los datos de contaminación del aire y emisiones de CO2 con la generación de residuos para obtener datos bianuales.

In [11]:
# Unir datos anteriores con generación de residuos
data_waste_generation = pd.merge(data_pollution, waste_generation, on=['Country', 'Year'], how='right')
data_waste_generation

Unnamed: 0,Country,Year,Air_pollution_level,CO2_Emissions,CO2_Emissions%,Total_waste,Total_waste%
0,Austria,2014,47.61,65.929043,2.14,238793915.0,2.42
1,Austria,2016,46.57,67.782518,2.16,261035433.0,2.60
2,Austria,2018,49.53,67.186843,2.17,279004198.0,2.69
3,Austria,2020,41.67,62.599758,2.33,290804238.0,3.03
4,Belgium,2014,42.59,97.724460,3.18,285692548.0,2.89
...,...,...,...,...,...,...,...
111,Spain,2020,42.48,218.744218,8.14,492690834.0,5.13
112,Sweden,2014,36.25,42.776473,1.39,688530273.0,6.96
113,Sweden,2016,27.87,42.629871,1.36,591007405.0,5.90
114,Sweden,2018,30.79,39.428295,1.27,579978367.0,5.59


In [12]:
# Guardar el DataFrame resultante en un archivo CSV
save_to_csv(data_waste_generation, 'data_to_eda/data_waste_generation.csv')

Archivo guardado correctamente en: data_to_eda/data_waste_generation.csv


## Obtención del Índice de Desarrollo Humano

Durante el desarrollo del proyecto, se decidió comparar las variables analizadas con el Índice de Desarrollo Humano (IDH) de cada país. Se obtuvieron datos del IDH para el año 2022.

In [13]:
# Procesar datos del Índice de Desarrollo Humano
development_index = process_development_index('data_to_clean/indice_desarollo_humano.xlsx')
development_index

Unnamed: 0,Country,IDH
0,Austria,0.926
1,Belgium,0.942
2,Bulgaria,0.799
3,Croatia,0.878
4,Cyprus,0.907
5,Denmark,0.952
6,Estonia,0.899
7,Finland,0.942
8,France,0.91
9,Germany,0.95


In [14]:
# Seleccionar datos solo para el año 2022 y unir con el Índice de Desarrollo Humano
data_2022 = data_recycling_rates[data_recycling_rates['Year'] == 2022].reset_index(drop=True)
data_2022 = data_2022.drop('Year', axis=1)
data_2022 = pd.merge(data_2022, development_index, on=['Country'])
data_2022

Unnamed: 0,Country,Air_pollution_level,CO2_Emissions,CO2_Emissions%,recycling_rate,IDH
0,Austria,43.15,61.223713,2.18,62.5,0.926
1,Belgium,34.62,89.739265,3.2,52.7,0.942
2,Bulgaria,41.21,50.068131,1.79,28.2,0.799
3,Croatia,42.88,17.442486,0.62,34.2,0.878
4,Cyprus,46.62,7.18531,0.26,14.8,0.907
5,Denmark,40.14,28.141528,1.0,52.3,0.952
6,Estonia,38.43,12.588156,0.45,33.2,0.899
7,Finland,23.89,36.153682,1.29,39.0,0.942
8,France,48.02,310.457935,11.07,41.8,0.91
9,Germany,38.37,659.501847,23.51,69.1,0.95


In [15]:
# Guardar el DataFrame resultante en un archivo CSV
save_to_csv(data_2022, 'data_to_eda/data_2022.csv')

Archivo guardado correctamente en: data_to_eda/data_2022.csv
