<a href="https://colab.research.google.com/github/POF77/Proyecto.BEDU.ModuloII/blob/update/Proyecto_BEDU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módulo 3: **Procesamiento de Datos con Python**
## Proyecto Final
### Equipo:
- Edgar Israel Casanova Cardoz
- Omar Garduza
- Lizzeth Gómez Rodríguez
- Paul O'Hea Flores
- Alan Sandoval

# **IMPACTO DEL CAMBIO CLIMÁTICO EN LA SALUD PÚBLICA**

## 1. Identificación del Problema
- Impacto del cambio climático sobre las enfermedades respiratorias en países de la OCDE

## 2. Investigación y justificación del problema
<p align = justify>
El Cambio Climático es un problema de años pero que hoy en día se encuentra agudizado y que a su vez ha alterado drásticamente la biodiversidad del planeta, lo cual favorece la transmisión de patógenos causantes de enfermedades, particularmente aquellas relacionadas con las olas de calor, la falta de agua potable, la reproducción de plagas y las inundaciones.

<p align = justify>
En este sentido, la población más afectada es aquella que carece de infraestructura salubre adecuada, en combinación con otros factores como las condiciones vulnerables de vivienda y una mala alimentación. Dicha población se puede encontrar con mayor abundancia en países en vías de desarrollo. Por lo anterior, es importante tomar acción sobre los efectos negativos que puede causar el Cambio Climático sobre la salud pública.

<p align = justify>
Organizaciones internacionales como Greenpeace, el Intergovernmental Panel on Climate Change (IPCC) y la Organización Mundial de la Salud (OMS) han presentado estudios respecto a la gravedad que puede presentar el cambio climático sobre la salud pública; y se sabe que, entre los principales gases de efecto invernadero se encuentran el dióxido de carbono (CO2), el metano (CH4), el óxido nitroso(N2O) y el ozono (O3).


## 3. Preguntas de Investigación
- ¿Cuál es el impacto del cambio climático sobre la salud?
- ¿Qué relación existe entre el cambio climático, la contaminación del aire, el incremento de la temperatura y la intensificación de enfermedades respiratorias, de salud mental, gastrointestinales y cardiacas?
- ¿Qué relación existe entre el cambio climático y la aparición de nuevas enfermedades o virus?
- ¿Qué tipo de actividades afectan de manera negativa el cambio climático?
- ¿Qué enfermedad presenta la mayor correlación con el cambio climático?
- ¿Qué países se encuentran mayormente afectados por el cambio climático, los desarrollados o aquellos en vías de desarrollo?
- ¿Qué países contribuyen más al cambio climático, los de mayor o menor afectación?

### Información Disponible
Los datos para el presente análisis se han obtenido de dos fuentes de información disponibles, por un lado, los datos del [ClimateWatch](https://www.climatewatchdata.org/data-explorer/historical-emissions?historical-emissions-data-sources=cait&historical-emissions-gases=all-ghg&historical-emissions-regions=All%20Selected&historical-emissions-sectors=total-including-lucf&page=1)
nos permiten cuantificar los niveles del cambio climático, cuyos datos disponibles van de 1996 a 2019, las variables a utilizar son los gases de efecto invernadero ya mencionados anteriormente:  CO2, CH4, N2O y O3. Por otro lado, se utiliza como base la información recabada por [Oxford University](https://ourworldindata.org/grapher/respiratory-disease-death-rate?tab=chart)
que es un compilado de muertes por enfermedades respiratorias crónicas, cuya disponibilidad va desde 1990 hasta 2017 y son publicados por el [Global Health Data Exchange](http://ghdx.healthdata.org/gbd-results-tool) con los cuales nos es posible cuantificar las defunciones cuyas causas son enfermedades respiratorias.

In [None]:
# Importación de los paquetes necesarios para el análisis
import pandas as pd
import numpy as np

### Cargado de datos

In [None]:
# Leemos el archivo csv que contiene los niveles de gases de efecto invernader, la temperatura y los fallecimientos por países.
# Guerdamos el archivo en el objeto "df"
df = pd.read_csv("https://raw.githubusercontent.com/POF77/Proyecto.BEDU.ModuloII/main/Datos_nuevos/datos_brutos.csv") 
df.head()

Unnamed: 0.1,Unnamed: 0,country,year,id,tot_gas,all_gas,ch4,co2,fgas,n2o,mean_year_tempeC,year_deaths
0,1,Afghanistan,1900,Afghanistan-1900,,,,,,,,
1,2,Afghanistan,1901,Afghanistan-1901,,,,,,,12.991667,
2,3,Afghanistan,1902,Afghanistan-1902,,,,,,,13.175,
3,4,Afghanistan,1903,Afghanistan-1903,,,,,,,12.008333,
4,5,Afghanistan,1904,Afghanistan-1904,,,,,,,12.458333,


## 4. Exploración de datos
El conjunto de datos nos sirve para ver la relación entre el cambio climático y las muertes provocadas a causa de una enfermedad respiratoria. 

A continuación observemos la estructura de los datos

In [None]:
df.shape

(27978, 12)

- Podemos observar de igual manera que el tamaño del dataset es de 27,978 filas y 12 columnas, lo cuál teniendo en cuenta de que son 36 países miembros de la OCDE, podemos ver que tenemos un numero moderado de datos
- Las columnas con las que cuenta el dataset son país, año, id, total de gases, todos los gases, emisiones de metano(CH4), emisiones de dióxido de carbono(CO2), emisiones de gases Fluoruro(Fgas), emisiones de Nitrógeno(N2O), temperatura promedio en grados Celsius, número de muertes en dicho año por enfermedades respiratorias

- Podemos notar que el nombre de las columnas que presenta nuestro dataset, no es el más apropiado, ya que columnas como 'Unnamed:0' o  tot_gas y all_gas pueden confundirse en su interpretación


In [None]:
df.dtypes

Unnamed: 0            int64
country              object
year                  int64
id                   object
tot_gas             float64
all_gas             float64
ch4                 float64
co2                 float64
fgas                float64
n2o                 float64
mean_year_tempeC    float64
year_deaths         float64
dtype: object

- Podemos observar el tipo de datos de las columnas de nuestro conjunto de datos, vemos que el id es un string que se interpreta como objeto así como el país, los demás valores son valores numéricos enteros y flotantes, también podemos usar la función df.info() para obtener información de las columnas

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1435 entries, 0 to 1434
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0        1435 non-null   int64  
 1   country           1435 non-null   object 
 2   year              1435 non-null   int64  
 3   id                1435 non-null   object 
 4   tot_gas           1435 non-null   float64
 5   all_gas           1435 non-null   float64
 6   ch4               1435 non-null   float64
 7   co2               1435 non-null   float64
 8   fgas              1435 non-null   float64
 9   n2o               1435 non-null   float64
 10  mean_year_tempeC  1435 non-null   float64
 11  year_deaths       1435 non-null   int64  
dtypes: float64(7), int64(3), object(2)
memory usage: 134.7+ KB


- De igual manera podemos darnos cuenta de que existen varios NA's en nuestro dataset, esto dificulta la obtención de datos ya que hay muchos países con los cuáles algunas columnas no tenemos registro de muertes o emisiones, incluso de su temperatura.

In [None]:
df['country'].unique()

array(['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Antigua and Barbuda', 'Argentina', 'Armenia', 'Australia',
       'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh',
       'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bhutan',
       'Bolivia', 'Bosnia and Herzegovina', 'Botswana', 'Brazil',
       'Brunei', 'Bulgaria', 'Burkina Faso', 'Burundi', 'Cambodia',
       'Cameroon', 'Canada', 'Cape Verde', 'Central African Republic',
       'Chad', 'Chile', 'China', 'Colombia', 'Comoros',
       'Congo (Democratic Republic of the)', 'Congo (Republic of the)',
       'Cook Islands', 'Costa Rica', "Cote d'Ivoire", 'Croatia', 'Cuba',
       'Cyprus', 'Czech Republic', 'Denmark', 'Djibouti', 'Dominica',
       'Dominican Republic', 'Ecuador', 'Egypt', 'El Salvador',
       'Equatorial Guinea', 'Eritrea', 'Estonia', 'Eswatini', 'Ethiopia',
       'Faroe Islands', 'Federated States of Micronesia', 'Fiji',
       'Finland', 'France', 'Gabon', 'Gambia', 'Ge

In [None]:
len(df['country'].unique())

197

Podemos ver que tenemos cerca de 200 países en nuestro conjunto de datos, los cuales deberán ser limpiados para obtener realmente los datos de los países con registros de mediciones

## Limpieza de datos