## Pair Programming Nulos

### Ejercicios gestión de nulos

1. Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.

2. Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas identificadas en el paso anterior.

3. Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

4. Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.

In [589]:
import pandas as pd
import numpy as np

from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

import seaborn as sns
import matplotlib.pyplot as plt

pd.set_option('display.max_columns', None)

In [590]:
data = pd.read_csv("world-data-2023-leccion05.csv")

data.head(5)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitud,longitud,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.67,149.9,2.3,AFN,4.47,2.1,$0.70,,104.0,9.7,47.9,Kabul,64.5,638.0,$0.43,Pashto,78.4,0.28,38041754.0,48.9,9.3,71.4,11.12,9797273.0,,,Asia
1,Albania,105.0,AL,43.1,28.75,9.0,11.78,355.0,Tirana,4.54,119.05,1.4,ALL,1.62,28.1,$1.36,,107.0,55.0,7.8,Tirana,78.5,15.0,$1.12,Albanian,56.9,1.2,2854191.0,55.7,18.6,36.6,12.33,1747593.0,,,Europe
2,Algeria,18.0,DZ,17.4,2381741.0,317.0,24.28,213.0,Algiers,150.01,151.36,2.0,DZD,3.02,0.8,$0.28,,109.9,51.4,20.1,Algiers,76.7,112.0,$0.95,Arabic,28.1,1.72,43053054.0,41.2,37.2,66.1,11.7,31510100.0,,,Africa
3,Andorra,164.0,AD,40.0,468.0,,7.2,376.0,Andorra la Vella,469.0,,,EUR,1.27,34.0,$1.51,,106.4,,2.7,Andorra la Vella,,,$6.63,Catalan,36.4,3.33,77.14,,,,,67.87,,,Europe
4,Angola,26.0,AO,47.5,1246700.0,117.0,40.73,244.0,Luanda,34.69,261.73,17.1,AOA,5.52,46.3,$0.97,,113.5,9.3,51.6,Luanda,60.8,241.0,$0.71,Portuguese,33.4,0.21,31825295.0,77.5,9.2,49.1,6.89,21061025.0,,,Africa


In [591]:
# Visualizamos sólo las columnas con valores nulos
data.isnull().sum()[data.isnull().sum() > 0]

abbreviation                              7
agricultural_land                         7
land_area                                 1
armed_forces_size                        24
birth_rate                                6
calling_code                              1
capital/major_city                        3
co2-emissions                             7
cpi                                      20
cpi_change                               16
currency-code                            15
fertility_rate                            7
forested_area                             7
gasoline_price                           20
gdp                                     195
gross_primary_education_enrollment        7
gross_tertiary_education_enrollment      12
infant_mortality                          6
largest_city                              6
life_expectancy                           8
maternal_mortality_ratio                 14
minimum_wage                             45
official_language               

In [592]:
# Columna "abbreviation": método .fillna("Unknown"), porque no sigue ningún patrón
data["abbreviation"] = data["abbreviation"].fillna("Unknown")

In [593]:
# Columna "agricultural_land": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["agricultural_land"]])

data[["agricultural_land"]] = datos_imputados

In [594]:
# Columna "land_area": método .fillna(median()), porque no sigue ningún patrón y así, le asignamos un valor numérico
data["land_area"] = data["land_area"].fillna(data["land_area"].median())

In [595]:
# Columna "armed_forces_size": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["armed_forces_size"]])

data[["armed_forces_size"]] = datos_imputados

In [596]:
# Columna "birth_rate": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["birth_rate"]])

data[["birth_rate"]] = datos_imputados

In [597]:
# Columna "calling_code": utilizamos el método .fillna(0000), porque no sigue ningún patrón al resto de códigos de llamada
data["calling_code"] = data["calling_code"].fillna("0000")

In [598]:
# Columna "capital/major_city": método .fillna("Unknown"), porque no sigue ningún patrón
data["capital/major_city"] = data["capital/major_city"].fillna("Unknown")

In [599]:
# Columna "co2-emissions": método .fillna(median()), porque no sigue ningún patrón y así, le asignamos un valor numérico
data["co2-emissions"] = data["co2-emissions"].fillna(data["co2-emissions"].median())

In [600]:
# Columna "cpi": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["cpi"]])

data[["cpi"]] = datos_imputados

In [601]:
# Columna "cpi_change": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["cpi_change"] = data["cpi_change"].fillna(data["cpi_change"].mean())

In [602]:
# Eliminamos todas las columnas en las que todos sus valores son nulos
data.drop(["gdp", "latitud", "longitud"], axis=1, inplace=True)

In [603]:
# Columna "currency-code": método .fillna("Unknown"), porque no sigue ningún patrón y no podemos inferirlos
data["currency-code"] = data["currency-code"].fillna("Unknown")

In [604]:
# Columna "fertility_rate": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["fertility_rate"] = data["fertility_rate"].fillna(data["fertility_rate"].mean())

In [605]:
# Columna "forested_area": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["forested_area"]])

data[["forested_area"]] = datos_imputados

In [606]:
# Columna "gasoline_price": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["gasoline_price"] = data["gasoline_price"].str.replace("$", "")

data["gasoline_price"] = pd.to_numeric(data["gasoline_price"], errors="coerce")

data["gasoline_price"].fillna(data["gasoline_price"].mean(), inplace=True)

  data["gasoline_price"] = data["gasoline_price"].str.replace("$", "")


In [607]:
# Columna "gross_primary_education_enrollment": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["gross_primary_education_enrollment"]])

data[["gross_primary_education_enrollment"]] = datos_imputados

In [608]:
# Columna "gross_tertiary_education_enrollment": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["gross_tertiary_education_enrollment"]])

data[["gross_tertiary_education_enrollment"]] = datos_imputados

In [609]:
# Columna "infant_mortality": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["infant_mortality"]])

data[["infant_mortality"]] = datos_imputados

In [610]:
# Columna "largest_city": método .fillna("Unknown"), porque no sigue ningún patrón y no podemos inferirlos
data["largest_city"] = data["largest_city"].fillna("Unknown")

In [611]:
# Columna "life_expectancy": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["life_expectancy"] = data["life_expectancy"].fillna(data["life_expectancy"].mean())

In [612]:
# Columna "maternal_mortality_ratio": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["maternal_mortality_ratio"]])

data[["maternal_mortality_ratio"]] = datos_imputados

In [613]:
# Columna "minimum_wage": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
data["minimum_wage"] = data["minimum_wage"].str.replace("$", "")

data["minimum_wage"] = pd.to_numeric(data["minimum_wage"], errors="coerce")

imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["minimum_wage"]])

data[["minimum_wage"]] = datos_imputados

  data["minimum_wage"] = data["minimum_wage"].str.replace("$", "")


In [614]:
# Columna "official_language": método .fillna("Unknown"), porque no sigue ningún patrón y no podemos inferirlos
data["official_language"] = data["official_language"].fillna("Unknown")

In [615]:
# Columna "out_of_pocket_health_expenditure": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["out_of_pocket_health_expenditure"]])

data[["out_of_pocket_health_expenditure"]] = datos_imputados

In [616]:
# Columna "physicians_per_thousand": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["physicians_per_thousand"] = data["physicians_per_thousand"].fillna(data["physicians_per_thousand"].mean())

In [617]:
# Columna "population": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["population"]])

data[["population"]] = datos_imputados

In [618]:
# Columna "population_labor_force_participation": método .fillna(median()), porque no sigue ningún patrón y así, le asignamos un valor numérico
data["population_labor_force_participation"] = data["population_labor_force_participation"].fillna(data["population_labor_force_participation"].median())

In [619]:
# Columna "tax_revenue": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["tax_revenue"]])

data[["tax_revenue"]] = datos_imputados

In [620]:
# Columna "total_tax_rate": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["total_tax_rate"]])

data[["total_tax_rate"]] = datos_imputados

In [621]:
# Columna "unemployment_rate": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["unemployment_rate"]])

data[["unemployment_rate"]] = datos_imputados

In [622]:
# Columna "urban_population": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["urban_population"]])

data[["urban_population"]] = datos_imputados

In [635]:
data.sample(5)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,continent
34,Chad,13.0,TD,39.7,1284000.0,35.0,42.17,235.0,N'Djamena,1.02,117.7,-1.0,XAF,5.75,3.8,0.78,86.8,3.3,71.4,N'Djamena,54.0,1140.0,0.6,French,56.4,0.04,15946876.0,70.7,16.573964,63.5,1.89,3712273.0,Africa
39,Democratic Republic of the Congo,16.0,Unknown,31.1,342.0,12.0,32.86,242.0,Brazzaville,3.28,124.74,2.2,XAF,4.43,65.4,0.97,106.6,12.7,36.2,Brazzaville,64.3,378.0,0.88,French,43.8,0.12,5380508.0,69.4,9.0,54.3,9.47,3625010.0,Africa
145,Saint Kitts and Nevis,205.0,KN,23.1,261.0,58627.064327,12.6,1.0,Basseterre,238.0,104.57,-1.0,XCD,2.11,42.3,1.002457,108.7,86.7,9.8,Basseterre,71.3,160.392265,3.33,English,56.6,2.52,52.82,62.45,18.5,49.7,6.886364,16.27,North America
75,Hungary,107.0,HU,58.4,93.03,40.0,9.6,36.0,Budapest,45.54,121.64,3.3,HUF,1.54,22.9,1.18,100.8,48.5,3.6,Budapest,75.8,12.0,2.62,Hungarian,29.0,3.41,9769949.0,56.5,23.0,37.9,3.4,6999582.0,Europe
93,Latvia,30.0,LV,31.1,64.59,6.0,10.0,371.0,Riga,7.0,116.86,2.8,EUR,1.6,54.0,1.16,99.4,88.1,3.3,Riga,74.7,19.0,2.8,Latvian,41.6,3.19,1912789.0,61.4,22.9,38.1,6.52,1304943.0,Europe
