# Visualización de datos 📊

En este jupyter se encuentra todo el proceso de visualización e interpretación de los datos obtenidos.

*Consideraciones: Se incluyen comentarios al final de cada gráfica de cara a facilitar la validación de la hipótesis y la toma de decisiones, no obstante, la conclusión final y los resultados se encuentran en el README*

## Índice 📎

1. Importación de librerías
2. Importación de los datasets
3. Visualización de los datos
- COVID-19
- Obesidad
- Diabetes
- Correlaciones
- Esperanza de vida

## 1. Importación de librerias 📚

In [9]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

## 2. Importación de los datasets 📖

In [10]:
data1 = pd.read_csv("./covid_data.csv")
data1 = data1.drop("Unnamed: 0", axis = 1)
data1

Unnamed: 0,country,confirmed,deaths,recovered,active,%deaths,%recovered,%D/100R
0,Spain,272421,28432,150376,93613,10.44,55.2,18.91
1,France,220352,30212,81212,108928,13.71,36.86,37.2
2,Italy,246286,35112,198593,12581,14.26,80.64,17.68
3,Greece,4227,202,1374,2651,4.78,32.51,14.7
4,Turkey,227019,5630,210469,10920,2.48,92.71,2.67
5,US,4290259,148011,1325804,2816444,3.45,30.9,11.16
6,China,86783,4656,78869,3258,5.37,90.88,5.9
7,India,1480073,33408,951166,495499,2.26,64.26,3.51
8,Mexico,395489,44022,303810,47657,11.13,76.82,14.49
9,New Zealand,1557,22,1514,21,1.41,97.24,1.45


In [11]:
data2 = pd.read_csv("./obesidad_data.csv")
data2 = data2.drop(["Unnamed: 0", "country"], axis = 1)
data2

Unnamed: 0,%obesity
0,23.8
1,21.6
2,19.9
3,24.9
4,32.1
5,36.2
6,6.2
7,3.9
8,28.9
9,30.8


In [12]:
data3 = pd.read_csv("./diabetes_data.csv")
data3 = data3.drop(["Unnamed: 0","country"], axis = 1)
data3

Unnamed: 0,%diabetes
0,6.9
1,4.8
2,5.0
3,4.7
4,11.1
5,10.8
6,9.2
7,10.4
8,13.5
9,6.2


In [13]:
data4 = pd.read_csv("./vida_data.csv")
data4 = data4.drop(["Unnamed: 0"], axis = 1)
data4

Unnamed: 0,country,life_expectancy,life_expectancy_f,life_expectancy_m
0,Spain,83.485366,86.2,80.9
1,France,82.578049,85.6,79.7
2,Italy,83.197561,85.4,81.1
3,Greece,81.939024,84.5,79.5
4,China,76.912,79.244,74.761
5,India,69.656,70.95,68.464
6,Mexico,75.054,77.879,72.203
7,New Zealand,81.707317,83.5,80.0
8,United Kingdom,81.204878,83.1,79.4


In [14]:
data = pd.concat([data1,data2,data3], axis = 1)
data

Unnamed: 0,country,confirmed,deaths,recovered,active,%deaths,%recovered,%D/100R,%obesity,%diabetes
0,Spain,272421,28432,150376,93613,10.44,55.2,18.91,23.8,6.9
1,France,220352,30212,81212,108928,13.71,36.86,37.2,21.6,4.8
2,Italy,246286,35112,198593,12581,14.26,80.64,17.68,19.9,5.0
3,Greece,4227,202,1374,2651,4.78,32.51,14.7,24.9,4.7
4,Turkey,227019,5630,210469,10920,2.48,92.71,2.67,32.1,11.1
5,US,4290259,148011,1325804,2816444,3.45,30.9,11.16,36.2,10.8
6,China,86783,4656,78869,3258,5.37,90.88,5.9,6.2,9.2
7,India,1480073,33408,951166,495499,2.26,64.26,3.51,3.9,10.4
8,Mexico,395489,44022,303810,47657,11.13,76.82,14.49,28.9,13.5
9,New Zealand,1557,22,1514,21,1.41,97.24,1.45,30.8,6.2


In [15]:
hipotesis_data = data
hipotesis_data.to_csv("./hipotesis_data.csv")#Exportamos el dataset con todos los datos completos

# 3. Visualización de los datos 👀

*El principal objetivo será establecer los países con mayor tasa de mortalidad, obesidad y diabetes. Compararlos y determinar si coinciden, del mismo modo que con aquellos con mayor tasa de recuperación y menor índice de obesidad y diabetes.También se procederá a estudiar sus correlaciones y se contrastará con los valores de esperanza de vida.* 

In [16]:
%matplotlib notebook
plt.style.use("seaborn")

### 3.1 COVID 🦠

In [17]:
#Muertes
fig, ax = plt.subplots()
ax.barh(data.country, data.deaths, color = "orange")
plt.show()

<IPython.core.display.Javascript object>

El país con mayor casos mortales ha sido Estados Unidos seguido de Reino Unido y México. Los países con menores casos mortales en la actualidad son Grecia, Nueva Zelanda, China y Turquía.

In [18]:
#%Recuperados
fig, ax = plt.subplots()
ax.barh(data.country, data["%recovered"], color = "orange")
plt.show()

<IPython.core.display.Javascript object>

En lo correspondiente a la tasa de recuperados (%recovered), la cual mide que de cada 100 casos de COVID-19 cuantos se recuperaron de la enfermedad. Los mayores porcentajes son encabezados por Nueva Zelanda, Turquía y China, mientras qye los que menos son Reino Unido y Estados Unidos.

 ### 3.2 Obesidad 💟

In [19]:
fig, ax = plt.subplots()
ax.barh(data.country, data["%obesity"], color = "purple")
plt.show()

<IPython.core.display.Javascript object>

Los países con mayor índice de obesidad son Estados Unidos, Turquía, Nueva Zelanda y Reino Unido. Mientras que los de menor son India, China e Italia.

### 3.3 Diabetes 🍬

In [20]:
fig, ax = plt.subplots()
ax.barh(data.country, data["%diabetes"], color = "pink")
plt.show()

<IPython.core.display.Javascript object>

Los países con mayor índice de diabetes son Mexico, Turquía y Estados Unidos. A diferencia de Francia, Reino Unido y Grecia que presentan el menor índice.

### 3.4 Correlaciones 🔗

In [21]:
#Muertes
sns.lmplot(data=data, x="%deaths", y="%obesity")

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x7fd569a0fd00>

In [22]:
sns.lmplot(data=data, x="%deaths", y="%diabetes")

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x7fd598852e50>

In [23]:
#Recuperaciones
sns.lmplot(data=data, x="%recovered", y="%obesity")

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x7fd569a2cca0>

In [24]:
sns.lmplot(data=data, x="%recovered", y="%diabetes")

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x7fd5988520a0>

In [25]:
data.corr()

Unnamed: 0,confirmed,deaths,recovered,active,%deaths,%recovered,%D/100R,%obesity,%diabetes
confirmed,1.0,0.922118,0.934675,0.984155,-0.301424,-0.303252,-0.101683,0.231693,0.403148
deaths,0.922118,1.0,0.798755,0.932945,0.063345,-0.452043,0.094773,0.362761,0.28759
recovered,0.934675,0.798755,1.0,0.857127,-0.380702,-0.133892,-0.230831,0.00446,0.554234
active,0.984155,0.932945,0.857127,1.0,-0.262089,-0.367808,-0.03869,0.331155,0.308464
%deaths,-0.301424,0.063345,-0.380702,-0.262089,1.0,-0.420177,0.475947,0.026813,-0.443145
%recovered,-0.303252,-0.452043,-0.133892,-0.367808,-0.420177,1.0,-0.632706,-0.209607,0.435167
%D/100R,-0.101683,0.094773,-0.230831,-0.03869,0.475947,-0.632706,1.0,0.147709,-0.408153
%obesity,0.231693,0.362761,0.00446,0.331155,0.026813,-0.209607,0.147709,1.0,0.014927
%diabetes,0.403148,0.28759,0.554234,0.308464,-0.443145,0.435167,-0.408153,0.014927,1.0


In [26]:
sns.heatmap(data.corr())

<IPython.core.display.Javascript object>

<AxesSubplot:>

En general podemos observar que si existe cierto grado de correlación entre la diabetes (en mayor grado) y la obesidad con las estadísticas del COVID-19.

### 3.5 Esperanza de vida 👴🏻

In [27]:
fig, ax = plt.subplots()
ax.barh(data4.country, data4["life_expectancy"], color = "grey")
plt.show()

<IPython.core.display.Javascript object>

In [32]:
#print(max(data4["life_expectancy"]))
#print(min(data4["life_expectancy"]))

Los países con mayor esperanza de vida son España, Italia, Francia y Grecia, mientras que los que menor son India y México.