<a href="https://colab.research.google.com/github/POF77/Proyecto.BEDU.ModuloII/blob/new_update/Proyecto_BEDU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módulo 3: **Procesamiento de Datos con Python**
## Proyecto Final
### Equipo:
- Edgar Israel Casanova Cardoz
- Omar Garduza
- Lizzeth Gómez Rodríguez
- Paul O'Hea Flores
- Alan Sandoval

# **IMPACTO DEL CAMBIO CLIMÁTICO EN LA SALUD PÚBLICA**

## 1. Identificación del Problema
- Impacto del cambio climático sobre las enfermedades respiratorias en países de la OCDE

## 2. Investigación y justificación del problema
<p align = justify>
El Cambio Climático es un problema de años pero que hoy en día se encuentra agudizado y que a su vez ha alterado drásticamente la biodiversidad del planeta, lo cual favorece la transmisión de patógenos causantes de enfermedades, particularmente aquellas relacionadas con las olas de calor, la falta de agua potable, la reproducción de plagas y las inundaciones.

<p align = justify>
En este sentido, la población más afectada es aquella que carece de infraestructura salubre adecuada, en combinación con otros factores como las condiciones vulnerables de vivienda y una mala alimentación. Dicha población se puede encontrar con mayor abundancia en países en vías de desarrollo. En ese sentido y dada la disponibilidad de los datos, el presente estudio se realiza tomando en cuenta los países de la OCDE.

<p align = justify>
Asimiso, organizaciones internacionales como Greenpeace, el Intergovernmental Panel on Climate Change (IPCC) y la Organización Mundial de la Salud (OMS) han presentado estudios respecto a la gravedad que puede presentar el cambio climático sobre la salud pública, por lo que es importante tomar acción respecto al tema y entender mejor las causas para poder mitigar los efectos sobre la salud. Por su parte, se sabe que, entre los principales gases de efecto invernadero se encuentran el dióxido de carbono (CO2), el metano (CH4), el óxido nitroso(N2O) y el ozono (O3).


## 3. Preguntas de Investigación
- ¿Cuál es el impacto del cambio climático sobre la salud?
- ¿Qué relación existe entre el cambio climático, la contaminación del aire, el incremento de la temperatura y la intensificación de enfermedades respiratorias, de salud mental, gastrointestinales y cardiacas?
- ¿Qué relación existe entre el cambio climático y la aparición de nuevas enfermedades o virus?
- ¿Qué tipo de actividades afectan de manera negativa el cambio climático?
- ¿Qué enfermedad presenta la mayor correlación con el cambio climático?
- ¿Qué países se encuentran mayormente afectados por el cambio climático, los desarrollados o aquellos en vías de desarrollo?
- ¿Qué países contribuyen más al cambio climático, los de mayor o menor afectación?

### Información Disponible
Los datos para el presente análisis se han obtenido de dos fuentes de información disponibles, por un lado, los datos del [Climate Watch](https://www.climatewatchdata.org/data-explorer/historical-emissions?historical-emissions-data-sources=cait&historical-emissions-gases=all-ghg&historical-emissions-regions=All%20Selected&historical-emissions-sectors=total-including-lucf&page=1) que nos permiten cuantificar los niveles de los gases que afectan al cambio climático, cuyos datos disponibles van de 1996 a 2019. Las variables que se toman en consideración son los gases de efecto invernadero ya mencionados anteriormente:  CO2, CH4, N2O y O3. Por otro lado, para cuantificar el efectos de estos gases sobre la salud se utilizan los datos de la [Universidad de Oxford]("https://ourworldindata.org/grapher/respiratory-disease-death-rate?tab=chart"), que es un compilado de las muertes por enfermedades respiratorias crónicas, cuyos años disponibles van desde 1990 a 2017. Estos datos se encuentran en el [Global Health Exchange](http://ghdx.healthdata.org/gbd-results-tool).En este estudio se utilizan los países de la OCDE como se mencionó anteriormente. Respecto a la cuantificación de la temperatura se utiliza **(PREGUNTAR A PAUL)**

In [1]:
# Importación de los paquetes necesarios para el análisis
import pandas as pd
import numpy as np

### Cargado y exploración de los datos

In [2]:
# Leemos el archivo csv que contiene los niveles de gases de efecto invernader, la temperatura y los fallecimientos por países.
# Guardamos el archivo
df = pd.read_csv("https://raw.githubusercontent.com/POF77/Proyecto.BEDU.ModuloII/main/Datos_nuevos/bruteData.csv")
df_original = df.copy()
df.head()

Unnamed: 0,country,year,iso3,health_measure,sex,respiratory_infections_and_tuberculosis_number,respiratory_infections_and_tuberculosis_percent,respiratory_infections_and_tuberculosis_rate,chronic_respiratory_diseases_number,chronic_respiratory_diseases_percent,chronic_respiratory_diseases_rate,ClimateSource,climate_units,sector,allghg,co2,ch4,n2o,fgas,mean_annual_tempC
0,Kuwait,1990,,Deaths,Both,224.57396,0.0421,12.76398,81.38989,0.01526,4.62591,,,,,,,,,
1,Honduras,1990,,Deaths,Both,2102.1007,0.07614,44.64436,1273.7128,0.04612,27.05108,,,,,,,,,
2,Guyana,1990,,Deaths,Both,373.67216,0.05752,48.52477,90.24604,0.01389,11.71928,,,,,,,,,
3,Guinea-Bissau,1990,,Deaths,Both,2628.4182,0.15324,260.93392,370.0437,0.02158,36.73577,,,,,,,,,
4,Djibouti,1990,,Deaths,Both,740.08581,0.17884,152.27827,60.30051,0.01456,12.40729,,,,,,,,,


## 4. Exploración de datos
El conjunto de datos nos sirve para ver la relación entre el cambio climático y las muertes provocadas a causa de una enfermedad respiratoria.

A continuación observemos la estructura de los datos

In [3]:
df.shape

(25828, 20)

Podemos observar que el tamaño del dataset es de 25,828 filas y 20 columnas, lo cuál tomando en cuenta que son 36 países miembros de la OCDE, y que por cada país tenemos un histórico de datos aproximado de 30 años desde 1990 hasta 2019, podemos ver que tenemos conjunto completo de datos.

Las columnas con las que cuenta el dataset son:
1. País
2. Año
3. Iso3 (Abreviatura del país)
4. Métrica de salud
5. Sexo de la métrica
6. Número de muertes por infecctiones respiratorias y tuberculosis
7. Porcentaje de muertes por infecctiones respiratorias y tuberculosis
8. Tasa de muertes por infecctiones respiratorias y tuberculosis
9. Número de muertes por enfermedades respiratorias crónicas
10. Porcentaje de muertes por enfermedades respiratorias crónicas
11. Tasa de muertes por enfermedades respiratorias crónicas
12. Fuente de los datos climáticos
13. Unidades de métrica de datos climáticos
14. Sector de medida de datos climáticos
15. Total de gases de efecto invernadero
16. Emisiones de dióxido de carbono(CO2)
17. Emisiones de metano(CH4)
18. Emisiones de Nitrógeno(N2O)
19. Emisiones de gases Fluoruro(Fgas)
20. Temperatura promedio en grados Celsius

Observemos el nombre de las columnas que presenta nuestro dataset, algunas como como health_measure, climate_units,iso3, etc... no son entendibles al p´blico en general, por ser nombres técnicos que usan las personas que se dedican al estudio del cambio climático, gélogos entre otros del mismo gremio, por lo que es importante realizar algunos renombres en el conjunto de datos. 

In [4]:
df.dtypes

country                                             object
year                                                 int64
iso3                                                object
health_measure                                      object
sex                                                 object
respiratory_infections_and_tuberculosis_number     float64
respiratory_infections_and_tuberculosis_percent    float64
respiratory_infections_and_tuberculosis_rate       float64
chronic_respiratory_diseases_number                float64
chronic_respiratory_diseases_percent               float64
chronic_respiratory_diseases_rate                  float64
ClimateSource                                       object
climate_units                                       object
sector                                              object
allghg                                             float64
co2                                                float64
ch4                                                float

Observando el tipo de datos de las columnas de nuestro conjunto de datos, nos damos cuenta que la mayoría de las columnas son datos de tipo flotante y objetos(por lo general este tipo de datos son asignados a los string), y únicamente la columna de año('year') son de datos enteros, también podemos usar la función df.info() para obtener información de las columnas.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25828 entries, 0 to 25827
Data columns (total 20 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   country                                          25828 non-null  object 
 1   year                                             25828 non-null  int64  
 2   iso3                                             986 non-null    object 
 3   health_measure                                   25770 non-null  object 
 4   sex                                              25770 non-null  object 
 5   respiratory_infections_and_tuberculosis_number   25770 non-null  float64
 6   respiratory_infections_and_tuberculosis_percent  25770 non-null  float64
 7   respiratory_infections_and_tuberculosis_rate     25770 non-null  float64
 8   chronic_respiratory_diseases_number              25770 non-null  float64
 9   chronic_respiratory_diseases

Con el método anterior nos damos cuenta de que existen varios NA's en nuestro dataset, lo cual complica la manipulación de los datos al haber países cuyas columnas no se tienen registro de muertes o emisiones, incluso de su temperatura. Sin embargo, no es de preocuparse siempre que se realice la limpieza correspondiente ya que estas omisiones se deben a que en la columna de países se encuentran registros que en relidad son estados y no países como "Durango", "Iowa", etc.


In [6]:
df['country'].unique()

array(['Kuwait', 'Honduras', 'Guyana', 'Guinea-Bissau', 'Djibouti',
       'Bangladesh', 'Liberia', 'Lesotho', 'East Asia', 'Bhutan',
       'Namibia', 'Mali', 'Panama', 'Oceania', 'India', 'Ethiopia',
       'Morocco', 'Mauritania', 'Bermuda', 'Nepal', 'Leicester', 'Niger',
       'Low-middle SDI', 'Warwickshire', 'Mexico', 'Hartlepool',
       'South Tyneside', 'Bracknell Forest', 'Burundi',
       'Central Bedfordshire', 'North Somerset', 'Canada', 'Tokelau',
       'Brazil', 'Pakistan', 'Malawi', 'Lebanon', 'Jamaica', 'Israel',
       'Taiwan (Province of China)', 'Lambeth', 'High-middle SDI',
       'Suffolk', 'Japan', 'Zambia', 'Cheshire East', 'Southeast Asia',
       'Nigeria', 'Guam', 'Eswatini', 'Kenya', 'Qatar',
       'Micronesia (Federated States of)', 'Northern Ireland', 'Iceland',
       'Greece', 'France', 'Solihull', 'China', 'Illinois', 'Eritrea',
       'Southwark', 'Sao Tome and Principe', 'Iowa', 'Zimbabwe',
       'Middle SDI', 'Saint Lucia', 'Venezuela (Bolivaria

In [7]:
len(df['country'].unique())

672

Podemos ver que tenemos cerca de 672 países en nuestro conjunto de datos, sin embargo, se sabe que existen internacionalmente solo 195, por lo que, como se mencionó anteriormente, observando con mayor detalle la columna, nos percatamos que esisten muchos registrso que en realidad no corresponden al nombre de un país. Por lo que estos habrán de ser removidos a fin de que no afecten nuestro análisis.

## 5. Limpieza de datos (Aquí va el código de Alan)

Observemos el dataset y veamos los Na's existentes

In [8]:
print(f'Dimensión del dataset: {df.shape[0]:,} filas y {df.shape[1]} columnas')

Dimensión del dataset: 25,828 filas y 20 columnas


In [9]:
# Eliminación de variables que no se usan en el análisis
df = df.drop(["iso3","health_measure","sex","ClimateSource","climate_units","sector"], axis = 1)
df.head()

Unnamed: 0,country,year,respiratory_infections_and_tuberculosis_number,respiratory_infections_and_tuberculosis_percent,respiratory_infections_and_tuberculosis_rate,chronic_respiratory_diseases_number,chronic_respiratory_diseases_percent,chronic_respiratory_diseases_rate,allghg,co2,ch4,n2o,fgas,mean_annual_tempC
0,Kuwait,1990,224.57396,0.0421,12.76398,81.38989,0.01526,4.62591,,,,,,
1,Honduras,1990,2102.1007,0.07614,44.64436,1273.7128,0.04612,27.05108,,,,,,
2,Guyana,1990,373.67216,0.05752,48.52477,90.24604,0.01389,11.71928,,,,,,
3,Guinea-Bissau,1990,2628.4182,0.15324,260.93392,370.0437,0.02158,36.73577,,,,,,
4,Djibouti,1990,740.08581,0.17884,152.27827,60.30051,0.01456,12.40729,,,,,,


In [10]:
# Eliminación de registros duplicados
registros_originales = df.shape[0]
df = df.drop_duplicates()
print(f"El número de reigstros original son de: {registros_originales:,}")
print(f"El número de registros duplicados que se eliminaron fue de: {registros_originales - df.shape[0]:,}")
print(f"El nuevo número de registro es de: {df.shape[0]:,} \n")
df.head()

El número de reigstros original son de: 25,828
El número de registros duplicados que se eliminaron fue de: 3,780
El nuevo número de registro es de: 22,048 



Unnamed: 0,country,year,respiratory_infections_and_tuberculosis_number,respiratory_infections_and_tuberculosis_percent,respiratory_infections_and_tuberculosis_rate,chronic_respiratory_diseases_number,chronic_respiratory_diseases_percent,chronic_respiratory_diseases_rate,allghg,co2,ch4,n2o,fgas,mean_annual_tempC
0,Kuwait,1990,224.57396,0.0421,12.76398,81.38989,0.01526,4.62591,,,,,,
1,Honduras,1990,2102.1007,0.07614,44.64436,1273.7128,0.04612,27.05108,,,,,,
2,Guyana,1990,373.67216,0.05752,48.52477,90.24604,0.01389,11.71928,,,,,,
3,Guinea-Bissau,1990,2628.4182,0.15324,260.93392,370.0437,0.02158,36.73577,,,,,,
4,Djibouti,1990,740.08581,0.17884,152.27827,60.30051,0.01456,12.40729,,,,,,


In [11]:
# Cantidad de Na's en el Dataset por columnas
df.isna().sum()

country                                                0
year                                                   0
respiratory_infections_and_tuberculosis_number        58
respiratory_infections_and_tuberculosis_percent       58
respiratory_infections_and_tuberculosis_rate          58
chronic_respiratory_diseases_number                   58
chronic_respiratory_diseases_percent                  58
chronic_respiratory_diseases_rate                     58
allghg                                             21062
co2                                                21062
ch4                                                21062
n2o                                                21062
fgas                                               21062
mean_annual_tempC                                  21062
dtype: int64

Observese que existe gran cantidad de Na's debido a lo que se mencionó anteriormente, varios registros de la columna países en realidad no son países, sino estados o regiones, por lo que, en el caso de los datos de los niveles de gases de efectos invernadero, solo se tienen a nivel país y no estados o regiones, lo mismo pasa con las variables referente a las enferemdades respiratorias.

Por lo tanto, se deben eliminar estos registros.

In [12]:
# Eliminamos los Na's de las variables referentes a los gases de efecto invernadero
df = df.dropna(subset = ["allghg","co2","ch4","n2o","fgas","mean_annual_tempC"])
print(f"El nuevo número de registros es de {df.shape[0]}")

El nuevo número de registros es de 986


In [14]:
# Eliminamos los Na's de las variables referentes a las enferemedades respiratorias
df = df.dropna(subset=["respiratory_infections_and_tuberculosis_number",
                       "respiratory_infections_and_tuberculosis_percent",
                       "respiratory_infections_and_tuberculosis_rate",
                       "chronic_respiratory_diseases_number",
                       "chronic_respiratory_diseases_percent",
                        "chronic_respiratory_diseases_rate"])
print(f"El nuevo numero de registros es de {df.shape[0]}")

El nuevo numero de registros es de 928


In [15]:
# Observemos como se han modificado los índices hasta ahora
df.head()

Unnamed: 0,country,year,respiratory_infections_and_tuberculosis_number,respiratory_infections_and_tuberculosis_percent,respiratory_infections_and_tuberculosis_rate,chronic_respiratory_diseases_number,chronic_respiratory_diseases_percent,chronic_respiratory_diseases_rate,allghg,co2,ch4,n2o,fgas,mean_annual_tempC
24,Mexico,1990,39290.44285,0.08916,45.96035,16909.83924,0.03839,19.78044,417.45,290.01,88.1,37.47,1.87,20.958333
31,Canada,1990,6797.77117,0.03571,24.93967,9319.25608,0.04895,34.19049,626.36,483.99,87.75,42.92,11.7,-7.45
38,Israel,1990,772.29921,0.02651,15.56473,1327.52646,0.04556,26.75464,43.95,33.78,8.35,1.62,0.21,19.816667
43,Japan,1990,68816.75721,0.08483,54.67434,29862.30051,0.03681,23.72535,1109.37,1016.89,37.86,28.33,26.3,11.658333
53,Mexico,1991,37046.64026,0.08447,42.53984,17171.26279,0.03917,19.71738,435.45,308.41,88.71,36.36,1.97,20.891667


In [16]:
# Reindexamos el dataset
df = df.reset_index(drop=True)
df.head()

Unnamed: 0,country,year,respiratory_infections_and_tuberculosis_number,respiratory_infections_and_tuberculosis_percent,respiratory_infections_and_tuberculosis_rate,chronic_respiratory_diseases_number,chronic_respiratory_diseases_percent,chronic_respiratory_diseases_rate,allghg,co2,ch4,n2o,fgas,mean_annual_tempC
0,Mexico,1990,39290.44285,0.08916,45.96035,16909.83924,0.03839,19.78044,417.45,290.01,88.1,37.47,1.87,20.958333
1,Canada,1990,6797.77117,0.03571,24.93967,9319.25608,0.04895,34.19049,626.36,483.99,87.75,42.92,11.7,-7.45
2,Israel,1990,772.29921,0.02651,15.56473,1327.52646,0.04556,26.75464,43.95,33.78,8.35,1.62,0.21,19.816667
3,Japan,1990,68816.75721,0.08483,54.67434,29862.30051,0.03681,23.72535,1109.37,1016.89,37.86,28.33,26.3,11.658333
4,Mexico,1991,37046.64026,0.08447,42.53984,17171.26279,0.03917,19.71738,435.45,308.41,88.71,36.36,1.97,20.891667


# Creo que los gases no es necesario renombrarlos

In [17]:
# Hacemos un renombre de las variables para un mejor entendimiento de las mismas y mayor facilidad de manipulación
new_names = {
    "allghg":"all_greenhouse_gas",
    "mean_annual_tempC":"mean_annual_temp",
}

df = df.rename(columns = new_names)
df.columns

Index(['country', 'year', 'respiratory_infections_and_tuberculosis_number',
       'respiratory_infections_and_tuberculosis_percent',
       'respiratory_infections_and_tuberculosis_rate',
       'chronic_respiratory_diseases_number',
       'chronic_respiratory_diseases_percent',
       'chronic_respiratory_diseases_rate', 'all_greenhouse_gas', 'co2', 'ch4',
       'n2o', 'fgas', 'mean_annual_temp'],
      dtype='object')

### Funciones de agregación 
Las funciones de agregación nos permiten ralizar un mejor análisis de nuestros datos para tener un panorama general se los mismos.

In [18]:
# Observemos el nivel de temperatura y los niveles de gases de efecto invernadero que emiten los países de estudio en promedio anualmente.
np.mean(df[['mean_annual_tempC','CO2_carbon_dioxide', 'CH4_methane', 'N2O_nitrous_oxide', 'fgas']])

KeyError: "['mean_annual_tempC', 'CH4_methane', 'CO2_carbon_dioxide', 'N2O_nitrous_oxide'] not in index"

In [19]:
#porcentaje de datos no eliminados

porcentaje = df.shape[0] / df_original.shape[0] * 100
print(f'filas del dataset original: {df_original.shape[0]:,} \nfilas del dataset después de limpieza: {df.shape[0]}')
print(f'Porcentaje de datos netos: {porcentaje:.2f}%')

filas del dataset original: 25,828 
filas del dataset después de limpieza: 928
Porcentaje de datos netos: 3.59%


Es importante mencionar que a pesar de tener un porcentaje muy bajo de los datos originales. No significa que nuestro análisis carezca de significancia, ya que hemos mencionado que el sataset orginal contenia muchos registros que no se referían a algún país.

In [20]:
# Cantidad de datos por país
print(f"Número de países:{ df["country"].unique().size} \n")
df["country"].value_counts()

SyntaxError: invalid syntax (<ipython-input-20-e99bb4a879f3>, line 2)

Observemos que el número de datos por país es homogéneo, y al tener 32 países con 29 datos cada uno, hace sentido contar con un total de 928 observaciones en total, lo cual coincide con el tamaño de nuestro dataset.

In [21]:
# Observemos el periodo de estudio
print(f'cantidad de años registrados: {max(df["year"]) - min(df["year"])}')
print(f'desde {min(df["year"])} hasta {max(df["year"])}')

cantidad de años registrados: 28
desde 1990 hasta 2018
