## Pair Programming Nulos

### Ejercicios gestión de nulos

1. Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.

2. Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas identificadas en el paso anterior.

3. Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

4. Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.

In [150]:
import pandas as pd
import numpy as np

from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

import seaborn as sns
import matplotlib.pyplot as plt

pd.set_option('display.max_columns', None)

In [151]:
data = pd.read_csv("world-data-2023-leccion05.csv")

data.head(5)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitud,longitud,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.67,149.9,2.3,AFN,4.47,2.1,$0.70,,104.0,9.7,47.9,Kabul,64.5,638.0,$0.43,Pashto,78.4,0.28,38041754.0,48.9,9.3,71.4,11.12,9797273.0,,,Asia
1,Albania,105.0,AL,43.1,28.75,9.0,11.78,355.0,Tirana,4.54,119.05,1.4,ALL,1.62,28.1,$1.36,,107.0,55.0,7.8,Tirana,78.5,15.0,$1.12,Albanian,56.9,1.2,2854191.0,55.7,18.6,36.6,12.33,1747593.0,,,Europe
2,Algeria,18.0,DZ,17.4,2381741.0,317.0,24.28,213.0,Algiers,150.01,151.36,2.0,DZD,3.02,0.8,$0.28,,109.9,51.4,20.1,Algiers,76.7,112.0,$0.95,Arabic,28.1,1.72,43053054.0,41.2,37.2,66.1,11.7,31510100.0,,,Africa
3,Andorra,164.0,AD,40.0,468.0,,7.2,376.0,Andorra la Vella,469.0,,,EUR,1.27,34.0,$1.51,,106.4,,2.7,Andorra la Vella,,,$6.63,Catalan,36.4,3.33,77.14,,,,,67.87,,,Europe
4,Angola,26.0,AO,47.5,1246700.0,117.0,40.73,244.0,Luanda,34.69,261.73,17.1,AOA,5.52,46.3,$0.97,,113.5,9.3,51.6,Luanda,60.8,241.0,$0.71,Portuguese,33.4,0.21,31825295.0,77.5,9.2,49.1,6.89,21061025.0,,,Africa


In [152]:
# Visualizamos sólo las columnas con valores nulos
data.isnull().sum()[data.isnull().sum() > 0]

abbreviation                              7
agricultural_land                         7
land_area                                 1
armed_forces_size                        24
birth_rate                                6
calling_code                              1
capital/major_city                        3
co2-emissions                             7
cpi                                      20
cpi_change                               16
currency-code                            15
fertility_rate                            7
forested_area                             7
gasoline_price                           20
gdp                                     195
gross_primary_education_enrollment        7
gross_tertiary_education_enrollment      12
infant_mortality                          6
largest_city                              6
life_expectancy                           8
maternal_mortality_ratio                 14
minimum_wage                             45
official_language               

In [153]:
# Columna "abbreviation": método .fillna("Unknown"), porque no sigue ningún patrón
data["abbreviation"] = data["abbreviation"].fillna("Unknown")

In [154]:
# Columna "agricultural_land": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["agricultural_land"]])

data[["agricultural_land"]] = datos_imputados

In [155]:
# Columna "land_area": método .fillna(median()), porque no sigue ningún patrón y así, le asignamos un valor numérico
data["land_area"] = data["land_area"].fillna(data["land_area"].median())

In [156]:
# Columna "armed_forces_size": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["armed_forces_size"]])

data[["armed_forces_size"]] = datos_imputados

In [157]:
# Columna "birth_rate": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["birth_rate"]])

data[["birth_rate"]] = datos_imputados

In [158]:
# Columna "calling_code": utilizamos el método .fillna(0000), porque no sigue ningún patrón al resto de códigos de llamada
data["calling_code"] = data["calling_code"].fillna("0000")

In [159]:
# Columna "capital/major_city": método .fillna("Unknown"), porque no sigue ningún patrón
data["capital/major_city"] = data["capital/major_city"].fillna("Unknown")

In [160]:
# Columna "co2-emissions": método .fillna(median()), porque no sigue ningún patrón y así, le asignamos un valor numérico
data["co2-emissions"] = data["co2-emissions"].fillna(data["co2-emissions"].median())

In [161]:
# Columna "cpi": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["cpi"]])

data[["cpi"]] = datos_imputados

In [162]:
# Columna "cpi_change": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["cpi_change"] = data["cpi_change"].fillna(data["cpi_change"].mean())

In [163]:
# Eliminamos todas las columnas en las que todos sus valores son nulos
data.drop(["gdp", "latitud", "longitud"], axis=1, inplace=True)

In [164]:
# Columna "currency-code": método .fillna("Unknown"), porque no sigue ningún patrón y no podemos inferirlos
data["currency-code"] = data["currency-code"].fillna("Unknown")

In [165]:
# Columna "fertility_rate": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["fertility_rate"] = data["fertility_rate"].fillna(data["fertility_rate"].mean())

In [166]:
# Columna "forested_area": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["forested_area"]])

data[["forested_area"]] = datos_imputados

In [167]:
# Columna "gasoline_price": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["gasoline_price"] = data["gasoline_price"].str.replace("$", "")

data["gasoline_price"] = pd.to_numeric(data["gasoline_price"], errors="coerce")

data["gasoline_price"].fillna(data["gasoline_price"].mean(), inplace=True)

  data["gasoline_price"] = data["gasoline_price"].str.replace("$", "")


In [168]:
# Columna "gross_primary_education_enrollment": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["gross_primary_education_enrollment"]])

data[["gross_primary_education_enrollment"]] = datos_imputados

In [169]:
# Columna "gross_tertiary_education_enrollment": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["gross_tertiary_education_enrollment"]])

data[["gross_tertiary_education_enrollment"]] = datos_imputados

In [170]:
# Columna "infant_mortality": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["infant_mortality"]])

data[["infant_mortality"]] = datos_imputados

In [171]:
# Columna "largest_city": método .fillna("Unknown"), porque no sigue ningún patrón y no podemos inferirlos
data["largest_city"] = data["largest_city"].fillna("Unknown")

In [172]:
# Columna "life_expectancy": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["life_expectancy"] = data["life_expectancy"].fillna(data["life_expectancy"].mean())

In [173]:
# Columna "maternal_mortality_ratio": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["maternal_mortality_ratio"]])

data[["maternal_mortality_ratio"]] = datos_imputados

In [174]:
# Columna "minimum_wage": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
data["minimum_wage"] = data["minimum_wage"].str.replace("$", "")

data["minimum_wage"] = pd.to_numeric(data["minimum_wage"], errors="coerce")

imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["minimum_wage"]])

data[["minimum_wage"]] = datos_imputados

  data["minimum_wage"] = data["minimum_wage"].str.replace("$", "")


In [175]:
# Columna "official_language": método .fillna("Unknown"), porque no sigue ningún patrón y no podemos inferirlos
data["official_language"] = data["official_language"].fillna("Unknown")

In [176]:
# Columna "out_of_pocket_health_expenditure": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["out_of_pocket_health_expenditure"]])

data[["out_of_pocket_health_expenditure"]] = datos_imputados

In [177]:
# Columna "physicians_per_thousand": método .fillna(mean()), para asignarle la media de los valores que sí tengo como datos
data["physicians_per_thousand"] = data["physicians_per_thousand"].fillna(data["physicians_per_thousand"].mean())

In [178]:
# Columna "population": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["population"]])

data[["population"]] = datos_imputados

In [179]:
# Columna "population_labor_force_participation": método .fillna(median()), porque no sigue ningún patrón y así, le asignamos un valor numérico
data["population_labor_force_participation"] = data["population_labor_force_participation"].fillna(data["population_labor_force_participation"].median())

In [180]:
# Columna "tax_revenue": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["tax_revenue"]])

data[["tax_revenue"]] = datos_imputados

In [181]:
# Columna "total_tax_rate": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["total_tax_rate"]])

data[["total_tax_rate"]] = datos_imputados

In [182]:
# Columna "unemployment_rate": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["unemployment_rate"]])

data[["unemployment_rate"]] = datos_imputados

In [183]:
# Columna "urban_population": utilizamos IterativeImputer para que haga una estimación en base a las relaciones de los datos completos
imputer = IterativeImputer(max_iter=10, random_state=42)

datos_imputados = imputer.fit_transform(data[["urban_population"]])

data[["urban_population"]] = datos_imputados

In [184]:
# Comprobamos que hemos eliminado todos los valores nulos de las columnas, aplicando el método más apropiado en cada caso
data.isnull().sum().sum()

0

In [187]:
data.sample(5)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,continent
134,Panama,58.0,PA,30.4,75.42,26.0,18.98,507.0,Panama City,10.71,122.07,-0.4,Unknown,2.46,61.9,0.74,94.4,47.8,13.1,Panama City,78.3,52.0,1.53,Spanish,30.5,1.57,4246439.0,66.6,16.573964,37.2,3.9,2890084.0,North America
156,Singapore,8.36,SG,0.9,716.0,81.0,8.8,65.0,Unknown,37.53,114.41,0.6,SGD,1.14,23.1,1.25,100.6,84.8,2.3,Unknown,83.1,8.0,2.194133,Malay,36.7,2.29,5703569.0,70.5,13.1,21.0,4.11,5703569.0,Asia
88,Kenya,94.0,KE,48.5,580.37,29.0,28.75,254.0,Nairobi,17.91,180.51,4.7,KES,3.49,7.8,0.95,103.2,11.5,30.6,Nairobi,66.3,342.0,0.25,Swahili,33.4,0.16,52573973.0,74.7,15.1,37.2,2.64,14461523.0,Africa
122,Netherlands,508.0,NL,53.3,41.54,41.0,9.7,31.0,Amsterdam,170.78,115.91,2.6,Unknown,1.59,11.2,1.68,104.2,85.0,3.3,Amsterdam,81.8,5.0,10.29,Dutch,12.3,3.61,17332850.0,63.6,23.0,41.2,3.2,15924729.0,Europe
31,Cameroon,56.0,CM,20.6,475.44,24.0,35.39,237.0,Yaound�,8.29,118.65,2.5,XAF,4.57,39.3,1.03,103.4,12.8,50.6,Douala,58.9,529.0,0.35,French,69.7,0.09,25876380.0,76.1,12.8,57.7,3.38,14741256.0,Africa
