<a href="https://colab.research.google.com/github/POF77/Proyecto.BEDU.ModuloII/blob/new_update/Proyecto_BEDU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módulo 3: **Procesamiento de Datos con Python**
## Proyecto Final
### Equipo:
- Edgar Israel Casanova Cardoz
- Omar Garduza
- Lizzeth Gómez Rodríguez
- Paul O'Hea Flores
- Alan Sandoval

# **IMPACTO DEL CAMBIO CLIMÁTICO EN LA SALUD PÚBLICA**

## 1. Identificación del Problema
- Impacto del cambio climático sobre las enfermedades respiratorias en países de la OCDE

## 2. Investigación y justificación del problema
<p align = justify>
El Cambio Climático es un problema de años pero que hoy en día se encuentra agudizado y que a su vez ha alterado drásticamente la biodiversidad del planeta, lo cual favorece la transmisión de patógenos causantes de enfermedades, particularmente aquellas relacionadas con las olas de calor, la falta de agua potable, la reproducción de plagas y las inundaciones.

<p align = justify>
En este sentido, la población más afectada es aquella que carece de infraestructura salubre adecuada, en combinación con otros factores como las condiciones vulnerables de vivienda y una mala alimentación. Dicha población se puede encontrar con mayor abundancia en países en vías de desarrollo. En ese sentido y dada la disponibilidad de los datos, el presente estudio se realiza tomando en cuenta los países de la OCDE.

<p align = justify>
Asimiso, organizaciones internacionales como Greenpeace, el Intergovernmental Panel on Climate Change (IPCC) y la Organización Mundial de la Salud (OMS) han presentado estudios respecto a la gravedad que puede presentar el cambio climático sobre la salud pública, por lo que es importante tomar acción respecto al tema y entender mejor las causas para poder mitigar los efectos sobre la salud. Por su parte, se sabe que, entre los principales gases de efecto invernadero se encuentran el dióxido de carbono (CO2), el metano (CH4), el óxido nitroso(N2O) y el ozono (O3).


## 3. Preguntas de Investigación
- ¿Cuál es el impacto del cambio climático sobre la salud?
- ¿Qué relación existe entre el cambio climático, la contaminación del aire, el incremento de la temperatura y la intensificación de enfermedades respiratorias, de salud mental, gastrointestinales y cardiacas?
- ¿Qué relación existe entre el cambio climático y la aparición de nuevas enfermedades o virus?
- ¿Qué tipo de actividades afectan de manera negativa el cambio climático?
- ¿Qué enfermedad presenta la mayor correlación con el cambio climático?
- ¿Qué países se encuentran mayormente afectados por el cambio climático, los desarrollados o aquellos en vías de desarrollo?
- ¿Qué países contribuyen más al cambio climático, los de mayor o menor afectación?

### Información Disponible
Los datos para el presente análisis se han obtenido de dos fuentes de información disponibles, por un lado, los datos del [Climate Watch](https://www.climatewatchdata.org/data-explorer/historical-emissions?historical-emissions-data-sources=cait&historical-emissions-gases=all-ghg&historical-emissions-regions=All%20Selected&historical-emissions-sectors=total-including-lucf&page=1) que nos permiten cuantificar los niveles de los gases que afectan al cambio climático, cuyos datos disponibles van de 1996 a 2019. Las variables que se toman en consideración son los gases de efecto invernadero ya mencionados anteriormente:  CO2, CH4, N2O y O3. Por otro lado, para cuantificar el efectos de estos gases sobre la salud se utilizan los datos de la [Universidad de Oxford]("https://ourworldindata.org/grapher/respiratory-disease-death-rate?tab=chart"), que es un compilado de las muertes por enfermedades respiratorias crónicas, cuyos años disponibles van desde 1990 a 2017. Estos datos se encuentran en el [Global Health Exchange](http://ghdx.healthdata.org/gbd-results-tool).En este estudio se utilizan los países de la OCDE como se mencionó anteriormente. Respecto a la cuantificación de la temperatura se utiliza **(PREGUNTAR A PAUL)**

In [1]:
# Importación de los paquetes necesarios para el análisis
import pandas as pd
import numpy as np

### Cargado y exploración de los datos

In [2]:
# Leemos el archivo csv que contiene los niveles de gases de efecto invernader, la temperatura y los fallecimientos por países.
# Guardamos el archivo
df = pd.read_csv("https://raw.githubusercontent.com/POF77/Proyecto.BEDU.ModuloII/main/Datos_nuevos/bruteData.csv")
df.head()

Unnamed: 0,country,year,iso3,health_measure,sex,respiratory_infections_and_tuberculosis,chronic_respiratory_diseases,ClimateSource,climate_units,sector,allghg,co2,ch4,n2o,fgas,mean_annual_tempC
0,Bangladesh,1990,,Deaths,Both,195547.33644,61136.67886,,,,,,,,,
1,Lesotho,1990,,Deaths,Both,3378.1512,999.76491,,,,,,,,,
2,Timor-Leste,1990,,Deaths,Both,1819.67578,244.29447,,,,,,,,,
3,Lebanon,1990,,Deaths,Both,743.06088,694.74642,,,,,,,,,
4,Liberia,1990,,Deaths,Both,5889.69301,436.66879,,,,,,,,,


## 4. Exploración de datos
El conjunto de datos nos sirve para ver la relación entre el cambio climático y las muertes provocadas a causa de una enfermedad respiratoria.

A continuación observemos la estructura de los datos

In [None]:
df.shape

(21356, 16)

Podemos observar que el tamaño del dataset es de 21,356 filas y 16 columnas, lo cuál tomando en cuenta que son 36 países miembros de la OCDE, y que por cada país tenemos un histórico de datos aproximado de 30 años desde 1990 hasta 2019, podemos ver que tenemos conjunto completo de datos.

Las columnas con las que cuenta el dataset son:
1. País
2. Año
3. Iso3 (Abreviatura del país)
4. Métrica de salud
5. Sexo de la métrica
6. Muertes por infecctiones respiratorias y tuberculosis
7. Muertes por enfermedades respiratorias crónicas
8. Fuente de los datos climáticos
9. Unidades de métrica de datos climáticos
10. Sector de medida de datos climáticos
11. Total de gases de efecto invernadero
12. Emisiones de dióxido de carbono(CO2)
13. Emisiones de metano(CH4)
14. Emisiones de Nitrógeno(N2O)
15. Emisiones de gases Fluoruro(Fgas)
16. Temperatura promedio en grados Celsius

Observemos el nombre de las columnas que presenta nuestro dataset, algunas como como health_measure, climate_units,iso3, etc... no son entendibles al p´blico en general, por ser nombres técnicos que usan las personas que se dedican al estudio del cambio climático, gélogos entre otros del mismo gremio, por lo que es importante realizar algunos renombres en el conjunto de datos. 

In [None]:
df.dtypes

country                                     object
year                                         int64
iso3                                        object
health_measure                              object
sex                                         object
respiratory_infections_and_tuberculosis    float64
chronic_respiratory_diseases               float64
ClimateSource                               object
climate_units                               object
sector                                      object
allghg                                     float64
co2                                        float64
ch4                                        float64
n2o                                        float64
fgas                                       float64
mean_annual_tempC                          float64
dtype: object

Observando el tipo de datos de las columnas de nuestro conjunto de datos, nos damos cuenta que la mayoría de las columnas son datos de tipo flotante y objetos(por lo general este tipo de datos son asignados a los string), y únicamente la columna de año('year') son de datos enteros, también podemos usar la función df.info() para obtener información de las columnas.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21356 entries, 0 to 21355
Data columns (total 16 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   country                                  21356 non-null  object 
 1   year                                     21356 non-null  int64  
 2   iso3                                     1914 non-null   object 
 3   health_measure                           21298 non-null  object 
 4   sex                                      21298 non-null  object 
 5   respiratory_infections_and_tuberculosis  21298 non-null  float64
 6   chronic_respiratory_diseases             21298 non-null  float64
 7   ClimateSource                            1914 non-null   object 
 8   climate_units                            1914 non-null   object 
 9   sector                                   1914 non-null   object 
 10  allghg                                   1914 

Con el método anterior nos damos cuenta de que existen varios NA's en nuestro dataset, lo cual complica la manipulación de los datos al haber países cuyas columnas no se tienen registro de muertes o emisiones, incluso de su temperatura. Sin embargo, no es de preocuparse siempre que se realice la limpieza correspondiente ya que estas omisiones se deben a que en la columna de países se encuentran registros que en relidad son estados y no países como "Durango", "Iowa", etc.


In [None]:
df['country'].unique()

array(['Bangladesh', 'Lesotho', 'Timor-Leste', 'Lebanon', 'Liberia',
       'Bhutan', 'Nicaragua', 'Viet Nam',
       'Southeast Asia, East Asia, and Oceania', 'Libya', 'Eritrea',
       'Mali', 'Sunderland', 'Nottingham', 'Ethiopia', 'India',
       'Mauritania', 'Central Bedfordshire', 'Leicester', 'Bedford',
       'Wiltshire', 'Hampshire', 'Greece', 'South Africa',
       'Venezuela (Bolivarian Republic of)', 'Pakistan',
       'United States Virgin Islands', 'Iraq', 'Nepal',
       'Tropical Latin America', 'Niger', 'Camden', 'Indiana', 'Jamaica',
       'Kuwait', 'Poole', 'Hounslow', 'Guinea', 'Hartlepool', 'Oman',
       'North America', 'Iceland', 'Sub-Saharan Africa', 'Oxfordshire',
       'Bermuda', 'Djibouti', 'Honduras', 'Eswatini', 'Hertfordshire',
       'Israel', "Democratic People's Republic of Korea", 'Nigeria',
       'Iowa', 'Herefordshire, County of', 'Botswana', 'Essex',
       'Latin America and Caribbean', 'Ireland', 'Low-middle SDI',
       'Haiti', 'Stockport',

In [None]:
len(df['country'].unique())

672

Podemos ver que tenemos cerca de 672 países en nuestro conjunto de datos, sin embargo, se sabe que existen internacionalmente solo 195, por lo que, como se mencionó anteriormente, observando con mayor detalle la columna, nos percatamos que esisten muchos registrso que en realidad no corresponden al nombre de un país. Por lo que estos habrán de ser removidos a fin de que no afecten nuestro análisis.

## 5. Limpieza de datos (Aquí va el código de Alan)