<a href="https://colab.research.google.com/github/LIZZETHGOMEZ/Data-Science-Fase-3-BEDU-Santander/blob/upd_p1/Notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Science Fase 3
## Módulo 4: Análisis de Datos con Python
## Team
- [Omar Garduza](https://github.com/OmarGard)
- [Lizzeth Gómez Rodríguez](https://github.com/LIZZETHGOMEZ)
- [Edgar Casanova](https://github.com/ecardoz)
- [Alan Sandoval](https://github.com/SanLnAlan)


## Descripción de los datos
1. **country**: Países miembros de la OCDE
2. **year**: Año (1990-2018)
3. **respiratory_infections_and_tuberculosis_number**: Número de muertes por infecciones respiratorias y tuberculosis
4. **respiratory_infections_and_tuberculosis_percent**: Porcentaje de muertes por infecciones respiratorias y tuberculosis
5. **respiratory_infections_and_tuberculosis_rate**: Tasa de muertes por infecciones respiratorias y tuberculosis
6. **chronic_respiratory_diseases_number**: Número de muertes por enfermedades respiratorias crónicas
7. **chronic_respiratory_diseases_percent**: Porcentaje de muertes por enfermedades respiratorias crónicas
8. **chronic_respiratory_diseases_rate**: Tasa de muertes por enfermedades respiratorias crónicas
9. **all_greenhouse_gas**: Total de gases de efecto invernadero
10.	**CO2**: Emisiones de dióxido de carbono
11. **CH4**: Emisiones de metano
12.	**N2O**: Emisiones de Nitrógeno
13.	**Fgas**: Emisiones de gases de Fluoruro
14.	**mean_annual_temp**: Temperatura promedio en grados Celsius
15. **total_respiratory_diseases** Total de muertes por enfermedades respiratorias
16.	**total_diseases_percent** Porcentaje total de muertes por enfermedades respiratorias

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns

In [2]:
# Cargamos los datos a utilizar (previamente procesados)
df = pd.read_csv("https://raw.githubusercontent.com/LIZZETHGOMEZ/Data-Science-Fase-3-BEDU-Santander/main/Data/cleanData.csv", index_col = 0)
df.head()

Unnamed: 0,country,year,respiratory_infections_and_tuberculosis_number,respiratory_infections_and_tuberculosis_percent,respiratory_infections_and_tuberculosis_rate,chronic_respiratory_diseases_number,chronic_respiratory_diseases_percent,chronic_respiratory_diseases_rate,all_greenhouse_gas,CO2,CH4,N2O,Fgas,mean_annual_temp,total_respiratory_diseases,total_diseases_percent
0,Mexico,1990,39290,0.08916,45.96035,16909,0.03839,19.78044,417.45,290.01,88.1,37.47,1.87,20.958333,56199,0.12755
1,Canada,1990,6797,0.03571,24.93967,9319,0.04895,34.19049,626.36,483.99,87.75,42.92,11.7,-7.45,16116,0.08466
2,Israel,1990,772,0.02651,15.56473,1327,0.04556,26.75464,43.95,33.78,8.35,1.62,0.21,19.816667,2099,0.07207
3,Japan,1990,68816,0.08483,54.67434,29862,0.03681,23.72535,1109.37,1016.89,37.86,28.33,26.3,11.658333,98678,0.12164
4,Mexico,1991,37046,0.08447,42.53984,17171,0.03917,19.71738,435.45,308.41,88.71,36.36,1.97,20.891667,54217,0.12364


## 1. Estimados de Locación y Variabilidad

Para una mejor descripción de los datos utilizaremos estadística descriptiva que nos permitirá conocer un panorama más detallado de los datos.

### Media

En principio nos gustaría conocer el valor típico de todas nuestras variables numéricas a lo largo del tiempo, es decir el promedio histórico de los países de la OCDE.

In [3]:
# Promedio histórico de las variables durante el periodo 1990-2018
# Seleccionamos las variables numericas
var_num = ['total_respiratory_diseases','respiratory_infections_and_tuberculosis_number','chronic_respiratory_diseases_number', 'all_greenhouse_gas','CO2','CH4','N2O','Fgas','mean_annual_temp']
round(df[var_num].mean(),2)

total_respiratory_diseases                        20294.36
respiratory_infections_and_tuberculosis_number     9693.11
chronic_respiratory_diseases_number               10601.25
all_greenhouse_gas                                  243.08
CO2                                                 190.63
CH4                                                  31.44
N2O                                                  16.07
Fgas                                                  4.93
mean_annual_temp                                      9.61
dtype: float64

Asmismo también nos gustaría conocer el valor típico de las muertes por enfermedades respiratorias pero del año inicial 1990 y del año final 2018 para saber cómo ha cambiado la cifra a lo largo del tiempo.

In [4]:
# Media del número de muertes totales por enfermedades respiratorias ( infeciones y tuberculosisi + crónicas)
mean_90 = df[df['year'] == 1990]['total_respiratory_diseases'].mean()
print(f'El promedio de las muertes por enfermedades respiratorias de los países de la OCDE en 1990 es de {mean_90:,.2f}')

mean_18 = df[df['year'] == 2018]['total_respiratory_diseases'].mean()
print(f'El promedio de las muertes por enfermedades respiratorias de los países de la OCDE en 2018 es de {mean_18:,.2f}')

mean_total = df['total_respiratory_diseases'].mean()
print(f'El promedio de las muertes por enfermedades respiratorias de los países de la OCDE durante el periodo 1990-2018 es de {mean_total:,.2f}')

El promedio de las muertes por enfermedades respiratorias de los países de la OCDE en 1990 es de 18,863.88
El promedio de las muertes por enfermedades respiratorias de los países de la OCDE en 2018 es de 24,183.38
El promedio de las muertes por enfermedades respiratorias de los países de la OCDE durante el periodo 1990-2018 es de 20,294.36


Notemos que de 1990 a 2018 las muertes por enfermedades respiratorias se han incrementado, veamos en que porcentaje a sido este incremento, para ello creamos una función que por practicidad podremos usar varias veces dentro de nuestro análisis.




In [5]:
# Porcentaje
def percentage(num_1,num_2):
  return num_2/num_1*100

incremento = percentage(mean_90, (mean_18-mean_90))

# Incremento de las muertes por enfermedades respiratorias
print(f'El promedio de las muertes por enfermedades respiratorias en los países de la OCDE se han incrementado en un {incremento:.2f}% durante el periodo de 1990 a 2018')


El promedio de las muertes por enfermedades respiratorias en los países de la OCDE se han incrementado en un 28.20% durante el periodo de 1990 a 2018


Observemos ahora los valores típicos para cada país en el periodo de estudio (1990-2018)


In [6]:
# Agrupamos por países
paises = df.groupby(['country'])

# Sumamos las muertes totales por enfermedades respiratorias de cada país durante el periodo 1990-2018
# y lo dividimos entre el total de años
mean_country = round(paises['total_respiratory_diseases'].sum()/29, 2)
mean_country

country
Australia          11232.07
Austria             4044.55
Belgium            12119.97
Canada             20468.45
Chile               9785.34
Denmark             6200.41
Estonia              632.00
Finland             3401.45
France             41030.79
Germany            57779.31
Greece              7618.93
Hungary             6537.93
Iceland              180.69
Ireland             4082.62
Israel              2698.38
Italy              36647.66
Japan             132896.72
Latvia              1100.07
Luxembourg           303.03
Mexico             50941.62
Netherlands        15179.48
New Zealand         2644.72
Norway              4604.00
Poland             21374.03
Portugal           11725.45
Slovakia            3136.55
Slovenia            1274.34
Spain              41097.76
Sweden              6923.31
Switzerland         4725.38
Turkey             42297.10
United Kingdom     84735.34
Name: total_respiratory_diseases, dtype: float64

Notemos que existen grandes diferencias entre los países respecto al promedio de todos en ese periodo que es de **20,294.36** ('mean_time') lo que quiere decir que los países presentan diferentes características y aplican diferentes políticas de salud y de combate al cambio climático, por lo que el impacto sobre la población de cada país es distinto.

Motivo por el cual es importante tener ambas perspectivas, una conjunta de todos los países para poder establecer una línea de referencia, otra que tome en cuenta los aspectos de cada país.

### Mediana



In [7]:
# Mediana histórica de las variables durante el periodo 1990-2018
round(df[var_num].median(),2)

total_respiratory_diseases                        7080.50
respiratory_infections_and_tuberculosis_number    2995.50
chronic_respiratory_diseases_number               4360.00
all_greenhouse_gas                                  74.77
CO2                                                 59.14
CH4                                                 11.75
N2O                                                  6.57
Fgas                                                 1.53
mean_annual_temp                                     9.65
dtype: float64

De igual forma observemos la mediana para el año inicial y final

In [8]:
# Mediana
med_90 = df[df['year'] == 1990]['total_respiratory_diseases'].median()
print(f'La mediana de las muertes por enfermedades respiratorias de los países de la OCDE en 1990 es de {med_90:,.2f}')

med_18 = df[df['year'] == 2018]['total_respiratory_diseases'].median()
print(f'La mediana de las muertes por enfermedades respiratorias de los países de la OCDE en 2018 es de {med_18:,.2f}')

med_total = df['total_respiratory_diseases'].median()
print(f'La mediana de las muertes por enfermedades respiratorias de los países de la OCDE durante el periodo 1990-2018 es de {med_total:,.2f}')

La mediana de las muertes por enfermedades respiratorias de los países de la OCDE en 1990 es de 7,142.50
La mediana de las muertes por enfermedades respiratorias de los países de la OCDE en 2018 es de 9,291.50
La mediana de las muertes por enfermedades respiratorias de los países de la OCDE durante el periodo 1990-2018 es de 7,080.50


Observemos que la mediana está muy por debajo de los valores promedios antes encontrados, por lo que los datos podrían estar sesgados a la derecha, o quizá haya presencia de outliers.

Observemos ahora los valores por países y comparemos a estos con la media histórica de **7,080.50** 

In [9]:
# Mediana por países
mediana_country = paises['total_respiratory_diseases'].median()
mediana_country

country
Australia          10801
Austria             4045
Belgium            12368
Canada             19970
Chile               9932
Denmark             6227
Estonia              628
Finland             3214
France             41708
Germany            57109
Greece              7040
Hungary             6536
Iceland              180
Ireland             4091
Israel              2550
Italy              35621
Japan             127779
Latvia              1105
Luxembourg           301
Mexico             50934
Netherlands        15496
New Zealand         2579
Norway              4596
Poland             21106
Portugal           11339
Slovakia            3003
Slovenia            1250
Spain              42250
Sweden              6939
Switzerland         4772
Turkey             41967
United Kingdom     84571
Name: total_respiratory_diseases, dtype: int64

Observemos que también la mediana de cada país presenta una diferencia bastante grande respecto a la mediana histórica.

Para entender mejor que podría estar pasando y encontrar una estadística más robusta de los datos, utilizaremos la media truncada, que nos permite recortar un porcentaje de los valores extremos de nuestra muestra, por lo que en caso de haber outliers estos pueden ser removidos del estadístico y eliminar el sesgo.

### Media Truncada

In [10]:
#Sacamos promedio de las variables durante el periodo 1990-2018
media_truncada = stats.trim_mean(df[var_num], 0.25)

pd.DataFrame({'variable': var_num, 'media_truncada': media_truncada})

Unnamed: 0,variable,media_truncada
0,total_respiratory_diseases,9405.002155
1,respiratory_infections_and_tuberculosis_number,3959.461207
2,chronic_respiratory_diseases_number,5467.137931
3,all_greenhouse_gas,125.729073
4,CO2,95.116358
5,CH4,17.206078
6,N2O,9.653858
7,Fgas,2.262565
8,mean_annual_temp,9.627191


In [12]:
# Ahora observemos la media truncada pero oara el año inicial y el año final
med_trun_90 = stats.trim_mean(df[df['year'] == 1990]['total_respiratory_diseases'], 0.05)
print(f'La media truncada de las muertes por enfermedades respiratorias de los países de la OCDE en 1990 es de {med_trun_90:,.2f}')

med_trun_18 = stats.trim_mean(df[df['year'] == 2018]['total_respiratory_diseases'],0.05)
print(f'La media truncada de las muertes por enfermedades respiratorias de los países de la OCDE en 2018 es de {med_trun_18:,.2f}')

med_trun_total = stats.trim_mean(df['total_respiratory_diseases'], 0.05)
print(f'La media truncada de las muertes por enfermedades respiratorias de los países de la OCDE durante el periodo 1990-2018 es de {med_trun_total:,.2f}')


La media truncada de las muertes por enfermedades respiratorias de los países de la OCDE en 1990 es de 16,826.40
La media truncada de las muertes por enfermedades respiratorias de los países de la OCDE en 2018 es de 20,040.53
La media truncada de las muertes por enfermedades respiratorias de los países de la OCDE durante el periodo 1990-2018 es de 16,107.31


Para visualizar mejor nuestros datos creamos una tabla que contenga las medidas de tendencia central que ya hemos encontrado.

In [13]:
dic = {'periodo': [1990, 2018, 'total_historico'], 'media': [mean_90, mean_18, mean_total], 'mediana': [med_90, med_18, med_total],'media_truncada':[med_trun_90, med_trun_18, med_trun_total]}
medidas_centrales = pd.DataFrame(dic)
round(medidas_centrales,2)

Unnamed: 0,periodo,media,mediana,media_truncada
0,1990,18863.88,7142.5,16826.4
1,2018,24183.38,9291.5,20040.53
2,total_historico,20294.36,7080.5,16107.31


In [20]:
# Tablas de las medidas de tendencia central por país
dic_2 = {'media': mean_country, 'mediana': mediana_country}
medidas_centrales_paises = pd.DataFrame(dic_2)
medidas_centrales_paises.head()

Unnamed: 0_level_0,media,mediana
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Australia,11232.07,10801
Austria,4044.55,4045
Belgium,12119.97,12368
Canada,20468.45,19970
Chile,9785.34,9932


Notemos que los estadísticos se encuentran lejos de coincidir, lo que podría deducirse que existen algunos años en los que el número de muertes por enfermedades respiratorias fueron realmente atípicos.

No obstante también debemos plantearnos el caso de cada país, es decir que habrá países con números muy bajos de fallecimientos por enfermedades respiratorias, mientras que habrá otros con altas defunciones por este motivo. lo que claramente estaría sesgando la estadística y por lo cual es necesario también análizar el caso para cada país.

### Desviación Estándar

In [22]:
# Deviación estándar de las variables númericas de interés
df[var_num].std()

total_respiratory_diseases                        28870.920713
respiratory_infections_and_tuberculosis_number    17750.419833
chronic_respiratory_diseases_number               12857.808723
all_greenhouse_gas                                  305.860433
CO2                                                 260.161024
CH4                                                  38.572636
N2O                                                  18.938883
Fgas                                                  7.236887
mean_annual_temp                                      5.671693
dtype: float64

In [23]:
# Desviación estándar de las muertes por enfermedades respiratorias por países
round(paises['total_respiratory_diseases'].std(),2)

country
Australia          1711.98
Austria             256.70
Belgium             857.67
Canada             2574.39
Chile               632.92
Denmark             442.83
Estonia              89.66
Finland             845.24
France             3063.71
Germany            5806.13
Greece             2340.38
Hungary             653.40
Iceland              10.26
Ireland             452.15
Israel              494.13
Italy              2822.53
Japan             21320.53
Latvia              201.42
Luxembourg           19.66
Mexico             5003.18
Netherlands        1568.90
New Zealand         202.72
Norway              119.68
Poland             1325.55
Portugal           2039.03
Slovakia            321.73
Slovenia            119.56
Spain              4919.31
Sweden              243.94
Switzerland         316.67
Turkey             6519.09
United Kingdom     5200.29
Name: total_respiratory_diseases, dtype: float64

### Rango

In [30]:
# Rango de las muertes por enfermedades respiratorias
df_1990 = df['year'] == 1990
df_2018 = df['year'] == 2018
range_1990 = df[df_1990]['total_respiratory_diseases'].max() - df[df_1990]['total_respiratory_diseases'].min()
range_2018 = df[df_2018]['total_respiratory_diseases'].max() - df[df_2018]['total_respiratory_diseases'].min()
range_total = df['total_respiratory_diseases'].max() - df['total_respiratory_diseases'].min()
print(f"El rango de muertes de los países de la OCDE en 1990 fue de: {range_1990:,}")
print(f"El rango de muertes de los países de la OCDE en 2018 fue de: {range_2018:,}")
print(f"El rango de muertes de los países de la OCDE desde 1990 a 2018 fue de: {range_total:,}")

El rango de muertes de los países de la OCDE en 1990 fue de: 98,504
El rango de muertes de los países de la OCDE en 2018 fue de: 172,232
El rango de muertes de los países de la OCDE desde 1990 a 2018 fue de: 172,275


### Percentiles

In [37]:
# Percentiles de las muertes por enfermedades respiratorias en 1990
print("Muertes por enfermedades respiratorias en 1990")
print(f"Valor mínimo: {df[df_1990]['total_respiratory_diseases'].min():,}")
print(f"Percentil 10: {df[df_1990]['total_respiratory_diseases'].quantile(0.1):,}")
print(f"Percentil 25: {df[df_1990]['total_respiratory_diseases'].quantile(0.25):,}")
print(f"Percentil 50: {df[df_1990]['total_respiratory_diseases'].median():,}")
print(f"Percentil 75: {df[df_1990]['total_respiratory_diseases'].quantile(0.75):,}")
print(f"Percentil 90: {df[df_1990]['total_respiratory_diseases'].quantile(0.9):,}")
print(f"Valor máximo: {df[df_1990]['total_respiratory_diseases'].max():,}")

Muertes por enfermedades respiratorias en 1990
Valor mínimo: 174
Percentil 10: 1,250.6
Percentil 25: 3,984.25
Percentil 50: 7,142.5
Percentil 75: 25,909.5
Percentil 90: 56,117.8
Valor máximo: 98,678


In [43]:
# Percentiles de las muertes por enfermedades respiratorias en 2018
print("Muertes por enfermedades respiratorias en 2018")
print(f"Valor mínimo: {df[df_2018]['total_respiratory_diseases'].min()}")
print(f"Percentil 10: {df[df_2018]['total_respiratory_diseases'].quantile(0.1):,.2f}")
print(f"Percentil 25: {df[df_2018]['total_respiratory_diseases'].quantile(0.25):,.2f}")
print(f"Percentil 50: {df[df_2018]['total_respiratory_diseases'].median():,.2f}")
print(f"Percentil 75: {df[df_2018]['total_respiratory_diseases'].quantile(0.75):,.2f}")
print(f"Percentil 90: {df[df_2018]['total_respiratory_diseases'].quantile(0.9):,.2f}")
print(f"Valor máximo: {df[df_2018]['total_respiratory_diseases'].max():,}")

Muertes por enfermedades respiratorias en 2018
Valor mínimo: 210
Percentil 10: 883.80
Percentil 25: 3,585.75
Percentil 50: 9,291.50
Percentil 75: 30,961.75
Percentil 90: 60,490.30
Valor máximo: 172,442


In [40]:
# Percentiles de las muertes durante el periodo de 1990 a 2018
print("Muertes por enfermedades respiratorias durante el periodo de 1990 a 2018")
print(f"Valor mínimo: {df['total_respiratory_diseases'].min()}")
print(f"Percentil 10: {df['total_respiratory_diseases'].quantile(0.1)}")
print(f"Percentil 25: {df['total_respiratory_diseases'].quantile(0.25):,}")
print(f"Percentil 50: {df['total_respiratory_diseases'].median():,}")
print(f"Percentil 75: {df['total_respiratory_diseases'].quantile(0.75):,}")
print(f"Percentil 90: {df['total_respiratory_diseases'].quantile(0.9):,.2f}")
print(f"Valor máximo: {df['total_respiratory_diseases'].max()}")

Muertes por enfermedades respiratorias durante el periodo de 1990 a 2018
Valor mínimo: 167
Percentil 10: 902.5
Percentil 25: 3,208.75
Percentil 50: 7,080.5
Percentil 75: 28,337.25
Percentil 90: 52,273.10
Valor máximo: 172442


### Rango intercuartilico

In [44]:
# Rango intercuartílico de las muertes en 1990
q3_1990 = df[df_1990]['total_respiratory_diseases'].quantile(0.75)
q1_1990 = df[df_1990]['total_respiratory_diseases'].quantile(0.25)
q3_2018 = df[df_2018]['total_respiratory_diseases'].quantile(0.75)
q1_2018 = df[df_2018]['total_respiratory_diseases'].quantile(0.25)
q3 = df['total_respiratory_diseases'].quantile(0.75)
q1 = df['total_respiratory_diseases'].quantile(0.25)

print(f"Rango intercuartilico de las muertes en 1990: {q3_1990 - q1_1990:,}")
print(f"Rango intercuartilico de las muertes en 2018: {q3_2018 - q1_2018:,}")
print(f"Rango intercuartilico de las muertes desde 1990 a 2018: {q3 - q1:,}")

Rango intercuartilico de las muertes en 1990: 21,925.25
Rango intercuartilico de las muertes en 2018: 27,376.0
Rango intercuartilico de las muertes desde 1990 a 2018: 25,128.5
