# Limpieza de datos profunda

Para reforzar el aprendizaje de la limpieza de datos utilizaremos varios conjuntos de datos y aplicaremos una bateria completa de mecanismos de data-cleaning.

Comenzaremos con dos conjuntos:
1. El conjunto __NLSY97__
2. El conjunto __COVID-19__ de ourworld in data


### 1. El conjunto NLSY97

El conjunto NLSY97 consiste en una muestra representativa de Estados Unidos de 8,984 hombres y mujeres nacidos durante los años 1980 a 1984, que vivían en los Estados Unidos en el momento de la encuesta en 1997. 
  
Los participantes tenían entre 12 y 16 años al 31 de diciembre de 1996.  Se llevaron a cabo entrevistas anualmente desde 1997 hasta 2011 y cada dos años desde entonces. La cohorte en curso ha sido encuestada 18 veces hasta la fecha. Los datos están disponibles desde la Ronda 1 (1997-98) hasta la Ronda 18 (2017-18).

El NLSY97 recopila una amplia información sobre el comportamiento del mercado laboral y las experiencias educativas de los encuestados. La encuesta también incluye datos sobre los antecedentes familiares y comunitarios de los jóvenes para ayudar a los investigadores a evaluar el impacto de la escolarización y otros factores ambientales en estos participantes en el mercado laboral. Los datos del NLSY97 también ayudan a determinar cómo las experiencias de los jóvenes se relacionan con el establecimiento de carreras, la participación en programas gubernamentales y la formación de familias. 
  
Finalmente, la información del NLSY97 permite a los investigadores comparar el progreso de esta cohorte con el de otras cohortes NLS (Ver Armonización de datos entre cohortes NLSY79 / 97).
  
  
  
  
  
Fuente:[U.S. BUREAU OF LABOR STATISTICS](https://www.bls.gov/nls/nlsy97.htm) 


### 2.  Our World in Data COVID-19

Perfiles de países de coronavirus

Se crearon 207 perfiles de países que permiten explorar las estadísticas sobre la pandemia de coronavirus para todos los países del mundo.

En una pandemia de rápida evolución, no es una cuestión sencilla identificar los países que tienen más éxito en hacer progresos contra ella. Para una evaluación integral, se ha rastreado el impacto de la pandemia en una [publicación](https://ourworldindata.org/coronavirus#citation) y se crearon perfiles de países para 207 países para estudiar en profundidad las estadísticas sobre la pandemia de coronavirus en todos los países del mundo.

Cada perfil incluye visualizaciones interactivas, explicaciones de las métricas presentadas y los detalles sobre las fuentes de los datos.

El perfil de cada país se actualiza __a diario__.







Fuente: [Our World in Data](https://ourworldindata.org/coronavirus)


#### Cargamos las libs

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### llamar a los datos

In [2]:
covidtotales = pd.read_csv("data/covidnan.csv") 

### Comenzamos con la exploración de los datos

In [3]:
covidtotales.head()

Unnamed: 0,iso_code,lastdate,location,total_cases,total_deaths,total_cases_pm,total_deaths_pm,population,pop_density,median_age,gdp_per_capita,hosp_beds
0,AFG,2020-06-01,Afghanistan,15205,257,390.589,6.602,38928341.0,54.422,18.6,1803.987,0.5
1,ALB,2020-06-01,Albania,1137,33,395.093,11.467,2877800.0,104.871,38.0,11803.431,2.89
2,DZA,2020-06-01,Algeria,9394,653,214.225,14.891,43851043.0,17.348,29.1,13913.839,1.9
3,AND,2020-06-01,Andorra,764,51,9888.048,660.066,77265.0,163.755,,,
4,AGO,2020-06-01,Angola,86,4,2.617,0.122,32866268.0,23.89,16.8,5819.495,


In [4]:
covidtotales.describe()

Unnamed: 0,total_cases,total_deaths,total_cases_pm,total_deaths_pm,population,pop_density,median_age,gdp_per_capita,hosp_beds
count,210.0,210.0,209.0,209.0,210.0,198.0,186.0,182.0,164.0
mean,29216.14,1770.714286,1361.842909,55.92544,36942760.0,362.867434,30.627957,19539.154588,3.012671
std,136397.8,8705.565857,2629.894101,145.081876,142509200.0,1581.438294,9.133152,19862.354091,2.464917
min,0.0,0.0,0.894,0.0,809.0,0.137,15.1,661.24,0.1
25%,175.75,4.0,96.785,0.893,1031042.0,37.416,22.25,4485.329,1.3
50%,1242.5,25.5,281.997,6.214,6909866.0,87.25,30.25,13183.0815,2.3585
75%,10117.0,241.25,1803.318,32.158,26158680.0,214.122,39.0,28556.52725,3.89575
max,1790191.0,104383.0,19771.348,1237.551,1439324000.0,19347.5,48.2,116935.6,13.8


In [5]:
covidtotales.dtypes

iso_code            object
lastdate            object
location            object
total_cases          int64
total_deaths         int64
total_cases_pm     float64
total_deaths_pm    float64
population         float64
pop_density        float64
median_age         float64
gdp_per_capita     float64
hosp_beds          float64
dtype: object

In [6]:
covidtotales.iso_code.describe()

count     210
unique    210
top       BEN
freq        1
Name: iso_code, dtype: object

In [7]:
covidtotales

Unnamed: 0,iso_code,lastdate,location,total_cases,total_deaths,total_cases_pm,total_deaths_pm,population,pop_density,median_age,gdp_per_capita,hosp_beds
0,AFG,2020-06-01,Afghanistan,15205,257,390.589,6.602,38928341.0,54.422,18.6,1803.987,0.50
1,ALB,2020-06-01,Albania,1137,33,395.093,11.467,2877800.0,104.871,38.0,11803.431,2.89
2,DZA,2020-06-01,Algeria,9394,653,214.225,14.891,43851043.0,17.348,29.1,13913.839,1.90
3,AND,2020-06-01,Andorra,764,51,9888.048,660.066,77265.0,163.755,,,
4,AGO,2020-06-01,Angola,86,4,2.617,0.122,32866268.0,23.890,16.8,5819.495,
...,...,...,...,...,...,...,...,...,...,...,...,...
205,VNM,2020-06-01,Vietnam,328,0,3.370,0.000,97338583.0,308.127,32.6,6171.884,2.60
206,ESH,2020-06-01,Western Sahara,23,1,38.505,1.674,597330.0,,28.4,,
207,YEM,2020-06-01,Yemen,323,80,10.829,2.682,29825968.0,53.508,20.3,1479.147,0.70
208,ZMB,2020-06-01,Zambia,1057,7,57.496,0.381,18383956.0,22.995,17.7,3689.251,2.00


In [8]:
covidtotales.set_index("iso_code", inplace=True)

In [9]:
covidtotales.head(10)

Unnamed: 0_level_0,lastdate,location,total_cases,total_deaths,total_cases_pm,total_deaths_pm,population,pop_density,median_age,gdp_per_capita,hosp_beds
iso_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AFG,2020-06-01,Afghanistan,15205,257,390.589,6.602,38928341.0,54.422,18.6,1803.987,0.5
ALB,2020-06-01,Albania,1137,33,395.093,11.467,2877800.0,104.871,38.0,11803.431,2.89
DZA,2020-06-01,Algeria,9394,653,214.225,14.891,43851043.0,17.348,29.1,13913.839,1.9
AND,2020-06-01,Andorra,764,51,9888.048,660.066,77265.0,163.755,,,
AGO,2020-06-01,Angola,86,4,2.617,0.122,32866268.0,23.89,16.8,5819.495,
AIA,2020-06-01,Anguilla,3,0,199.973,0.0,15002.0,,,,
ATG,2020-06-01,Antigua and Barbuda,25,3,255.29,30.635,97928.0,231.845,32.1,21490.943,3.8
ARG,2020-06-01,Argentina,16838,539,372.557,11.926,45195777.0,16.177,31.9,18933.907,5.0
ARM,2020-06-01,Armenia,9282,131,3132.388,44.208,2963234.0,102.931,35.7,8787.58,4.2
ABW,2020-06-01,Aruba,101,3,945.994,28.099,106766.0,584.8,41.2,35973.781,


In [10]:
totales=['location','total_cases','total_deaths','total_cases_pm','total_deaths_pm']
demograficas=['population','pop_density','median_age','gdp_per_capita','hosp_beds']

Vamos a revisar por tipo de variables, demograficas y totales

In [11]:

covidtotales[totales].isnull().sum(axis=0)

location           0
total_cases        0
total_deaths       0
total_cases_pm     1
total_deaths_pm    1
dtype: int64

In [12]:

covidtotales[demograficas].isnull().sum(axis=0)

population         0
pop_density       12
median_age        24
gdp_per_capita    28
hosp_beds         46
dtype: int64

In [13]:


100*covidtotales[demograficas].isnull().sum(axis=0)['hosp_beds']/covidtotales.shape[0]

21.904761904761905

In [14]:
demograficas_counter_miss=covidtotales[demograficas].isnull() .sum(axis=1)
demograficas_counter_miss.value_counts()

0    156
1     24
2     12
3     10
4      8
dtype: int64

In [15]:
covidtotales.loc[demograficas_counter_miss>=3, ['location'] + demograficas].T

iso_code,AND,AIA,BES,VGB,FRO,FLK,GIB,GRL,GGY,IMN,JEY,XKX,MSR,MNP,TWN,TCA,VAT,ESH
location,Andorra,Anguilla,Bonaire Sint Eustatius and Saba,British Virgin Islands,Faeroe Islands,Falkland Islands,Gibraltar,Greenland,Guernsey,Isle of Man,Jersey,Kosovo,Montserrat,Northern Mariana Islands,Taiwan,Turks and Caicos Islands,Vatican,Western Sahara
population,77265.0,15002.0,26221.0,30237.0,48865.0,3483.0,33691.0,56772.0,67052.0,85032.0,101073.0,1932774.0,4999.0,57557.0,23816775.0,38718.0,809.0,597330.0
pop_density,163.755,,,207.973,35.308,,3457.1,0.137,,147.872,,,,119.878,,37.312,,
median_age,,,,,,,,,,,,,,,42.2,,,28.4
gdp_per_capita,,,,,,,,,,,,,,,,,,
hosp_beds,,,,,,,,,,,,,,,,,,
