# Informe Técnico

## Problema: Emisión de Gases de Efecto Invernadero en México

A continuación se presenta un informe técnico sobre los datos obtenidos del tema antes mencionado, como se trataron,
pequeñas modificaciones que se hicieron a los datasets y su exportación para llevarlos después a su visualización.

El origen de los datos es del sitio web [Our World in Data](https://ourworldindata.org/). Our World in Data es un sitio web dedicado a proporcionar datos empíricos e investigaciones sobre una amplia variedad de temas globales, como pobreza, salud, educación, energía y medio ambiente. Fundado por Max Roser, el sitio combina gráficos interactivos y artículos detallados para ofrecer información accesible y comprensible. Su objetivo es utilizar datos y evidencia para entender los grandes problemas de nuestro tiempo y fomentar el progreso.

Hemos guardado nuestros datasets en un [repositorio de GitHub](https://github.com/jorgecontrerasostos/master_notebooks/tree/main/datasets) para así no tener que descargarlos de manera local y tener acceso a ellos siempre y en caso de que se actualicen solo hacer la modificación en el repositorio.

Primero importamos las librerías de Python necesarias para la manipulación de datos.

In [39]:
import pandas as pd

Después creamos una función que toma como paramétros una lista de archivos CSV y que retorna una lista de DataFrames esta función nos ayudará a leer archivos CSVs y a reutilizar código para mayor legibiidad.

In [40]:
def read_csvs(files: list[str]) -> list[pd.DataFrame]:
    data_files: list[pd.DataFrame] = []
    for file in files:
        data_files.append(pd.read_csv(file, sep=','))
    return data_files

Declaramos una variable ``url()`` donde guardaremos la URL donde están alojados nuestros datasets. Después creamos una lista llamada data y mandamos a llamar la función ``read_csvs()`` pasando como parámetro nuestra lista de archivos concatenándolos con la url.

In [41]:
url = 'https://raw.githubusercontent.com/jorgecontrerasostos/master`_notebooks/main/datasets/'
data = read_csvs([url + 'co-emissions-per-capita' + '.csv', 
                  url + 'per-capita-ghg-emissions' + '.csv', 
                  url + 'per-capita-methane-emissions' + '.csv',
                  url + 'per-capita-nitrous-oxide' + '.csv'])

co_emissions, ghg_emissions, methane_emissions, nitrous_oxide = data


Imprimimos los primeros 10 registros de cada DataFrame para corroborar que la función de lectura funcionó de manera correcta.

In [42]:
co_emissions.head(10)

Unnamed: 0,Entity,Code,Year,Annual CO₂ emissions (per capita)
0,Afghanistan,AFG,1949,0.001992
1,Afghanistan,AFG,1950,0.011266
2,Afghanistan,AFG,1951,0.012098
3,Afghanistan,AFG,1952,0.011946
4,Afghanistan,AFG,1953,0.013685
5,Afghanistan,AFG,1954,0.013511
6,Afghanistan,AFG,1955,0.019304
7,Afghanistan,AFG,1956,0.022652
8,Afghanistan,AFG,1957,0.035702
9,Afghanistan,AFG,1958,0.039569


In [43]:
ghg_emissions.head(10)

Unnamed: 0,Entity,Code,Year,Per-capita greenhouse gas emissions in CO₂ equivalents
0,Afghanistan,AFG,1850,1.955458
1,Afghanistan,AFG,1851,1.964986
2,Afghanistan,AFG,1852,1.972589
3,Afghanistan,AFG,1853,1.97909
4,Afghanistan,AFG,1854,1.985106
5,Afghanistan,AFG,1855,1.990701
6,Afghanistan,AFG,1856,1.995922
7,Afghanistan,AFG,1857,2.000732
8,Afghanistan,AFG,1858,2.005149
9,Afghanistan,AFG,1859,2.00918


In [44]:
methane_emissions.head(10)

Unnamed: 0,Entity,Code,Year,Per-capita methane emissions in CO₂ equivalents
0,Afghanistan,AFG,1850,0.957882
1,Afghanistan,AFG,1851,0.959442
2,Afghanistan,AFG,1852,0.960731
3,Afghanistan,AFG,1853,0.961749
4,Afghanistan,AFG,1854,0.962742
5,Afghanistan,AFG,1855,0.96371
6,Afghanistan,AFG,1856,0.964652
7,Afghanistan,AFG,1857,0.965569
8,Afghanistan,AFG,1858,0.966462
9,Afghanistan,AFG,1859,0.96733


In [45]:
nitrous_oxide.head(10)

Unnamed: 0,Entity,Code,Year,Per-capita nitrous oxide emissions in CO₂ equivalents
0,Afghanistan,AFG,1850,0.059421
1,Afghanistan,AFG,1851,0.06042
2,Afghanistan,AFG,1852,0.061362
3,Afghanistan,AFG,1853,0.062229
4,Afghanistan,AFG,1854,0.063016
5,Afghanistan,AFG,1855,0.063706
6,Afghanistan,AFG,1856,0.06428
7,Afghanistan,AFG,1857,0.064721
8,Afghanistan,AFG,1858,0.065012
9,Afghanistan,AFG,1859,0.065135


Crearemos una lista llamada ``data_array`` en donde guardaremos una lista de DataFrames para manipularlos de manera mas sencilla.

In [46]:
data_array: list[pd.DataFrame] = [co_emissions, ghg_emissions, methane_emissions, nitrous_oxide]

Borraremos la columna ``Code`` ya que no nos es de utilidad.

In [None]:
for data in data_array:
    data = data.drop("Code", inplace=True, axis='columns')

Cambiaremos el nombre de algunas columnas. Para esto creamos un diccionario en donde las keys se refieren a los valores a cambiar y sus values son el reemplazo de estas keys. Usamos la función ``rename()`` para llevar a cabo esta tarea pasándole como parámetro nuestro diccionario con los reemplazos.

In [57]:
columns = {
    "Entity": "Pais",
    "Year": 'Año',
}

co_emissions = co_emissions.rename(columns=columns)
ghg_emissions = ghg_emissions.rename(columns=columns)
methane_emissions = methane_emissions.rename(columns=columns)
nitrous_oxide = nitrous_oxide.rename(columns=columns)

Imprimimos el último DataFrame para corroborar que esta función hizo su trabajo.

In [59]:
nitrous_oxide.head(10)

Unnamed: 0,Pais,Año,Per-capita nitrous oxide emissions in CO₂ equivalents
0,Afghanistan,1850,0.059421
1,Afghanistan,1851,0.06042
2,Afghanistan,1852,0.061362
3,Afghanistan,1853,0.062229
4,Afghanistan,1854,0.063016
5,Afghanistan,1855,0.063706
6,Afghanistan,1856,0.06428
7,Afghanistan,1857,0.064721
8,Afghanistan,1858,0.065012
9,Afghanistan,1859,0.065135


Como podemos observar los registros abarcan varios países del mundo y a nosotros solo nos interesa México. Por lo tanto tenemos que filtrar el DataSet para que solo nos muestre los registros de México.

In [60]:
ghg_emissions[ghg_emissions['Pais'] == 'Mexico']

Unnamed: 0,Pais,Año,Per-capita greenhouse gas emissions in CO₂ equivalents
20404,Mexico,1850,3.173303
20405,Mexico,1851,3.148970
20406,Mexico,1852,3.123822
20407,Mexico,1853,3.040880
20408,Mexico,1854,3.041450
...,...,...,...
20572,Mexico,2018,7.027092
20573,Mexico,2019,7.020636
20574,Mexico,2020,6.847452
20575,Mexico,2021,7.099332


In [61]:
co_emissions[co_emissions['Pais'] == 'Mexico']

Unnamed: 0,Pais,Año,Annual CO₂ emissions (per capita)
15446,Mexico,1891,0.044496
15447,Mexico,1892,0.048828
15448,Mexico,1893,0.044171
15449,Mexico,1894,0.044140
15450,Mexico,1895,0.039958
...,...,...,...
15573,Mexico,2018,3.792204
15574,Mexico,2019,3.744022
15575,Mexico,2020,3.510278
15576,Mexico,2021,3.699861


In [62]:
methane_emissions[methane_emissions['Pais'] == 'Mexico']

Unnamed: 0,Pais,Año,Per-capita methane emissions in CO₂ equivalents
20404,Mexico,1850,1.018388
20405,Mexico,1851,1.017577
20406,Mexico,1852,1.015527
20407,Mexico,1853,1.012266
20408,Mexico,1854,1.008911
...,...,...,...
20572,Mexico,2018,1.391440
20573,Mexico,2019,1.382481
20574,Mexico,2020,1.381899
20575,Mexico,2021,1.386137


In [63]:
nitrous_oxide[nitrous_oxide['Pais'] == 'Mexico']

Unnamed: 0,Pais,Año,Per-capita nitrous oxide emissions in CO₂ equivalents
20823,Mexico,1850,0.065607
20824,Mexico,1851,0.065834
20825,Mexico,1852,0.065959
20826,Mexico,1853,0.065973
20827,Mexico,1854,0.065940
...,...,...,...
20991,Mexico,2018,0.860180
20992,Mexico,2019,0.855206
20993,Mexico,2020,0.890470
20994,Mexico,2021,0.905036


Una vez filtrados los DataSets los exportamos a un nuevo archivo CSV con la función ``to_csv()``.

In [64]:
ghg_emissions[ghg_emissions['Pais'] == 'Mexico'].to_csv('ghg_emissions_clean.csv')
co_emissions[co_emissions['Pais'] == 'Mexico'].to_csv('co_emissions_clean.csv')
methane_emissions[methane_emissions['Pais'] == 'Mexico'].to_csv('methane_emissions_clean.csv')
nitrous_oxide[nitrous_oxide['Pais'] == 'Mexico'].to_csv('nitrous_oxide_clean.csv')

print('CSVs generated successfully')

CSVs generated successfully
