# Ejercicios gestión de nulos

El objetivo del ejercicio es identificar las columnas que contienen valores nulos y aplicar un proceso de imputación para manejarlos de manera adecuada.


In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

Instrucciones:

1. Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.

In [12]:
df = pd.read_csv('world_data_full_apply.csv', index_col = 0)

In [13]:
df.head(1)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia


In [14]:
#identificación de nulos:
df.isnull().any() #en qué columnas hay valores nulos

country                                 False
density                                 False
abbreviation                             True
agricultural_land                        True
land_area                                True
armed_forces_size                        True
birth_rate                               True
calling_code                             True
capital/major_city                       True
co2-emissions                            True
cpi                                      True
cpi_change                               True
currency-code                            True
fertility_rate                           True
forested_area                            True
gasoline_price                           True
gdp                                      True
gross_primary_education_enrollment       True
gross_tertiary_education_enrollment      True
infant_mortality                         True
largest_city                             True
life_expectancy                   

In [15]:
df.columns[df.isnull().any()]

Index(['abbreviation', 'agricultural_land', 'land_area', 'armed_forces_size',
       'birth_rate', 'calling_code', 'capital/major_city', 'co2-emissions',
       'cpi', 'cpi_change', 'currency-code', 'fertility_rate', 'forested_area',
       'gasoline_price', 'gdp', 'gross_primary_education_enrollment',
       'gross_tertiary_education_enrollment', 'infant_mortality',
       'largest_city', 'life_expectancy', 'maternal_mortality_ratio',
       'minimum_wage', 'official_language', 'out_of_pocket_health_expenditure',
       'physicians_per_thousand', 'population',
       'population_labor_force_participation', 'tax_revenue', 'total_tax_rate',
       'unemployment_rate', 'urban_population', 'latitude', 'longitude',
       'continent'],
      dtype='object')

In [17]:
# calcular el porcentaje de nulos que tenemos para cada columna
porc_nulos = round(df.isnull().sum() / df.shape[0] * 100, 2)

In [19]:
# lo convertimos a DataFrame
df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])

# filtramos el DataFrame para quedarnos solo con aquellas columnas que tengan nulos
df_nulos[df_nulos["%_nulos"] > 0]

Unnamed: 0,%_nulos
abbreviation,3.59
agricultural_land,3.59
land_area,15.38
armed_forces_size,14.87
birth_rate,3.08
calling_code,0.51
capital/major_city,1.54
co2-emissions,6.15
cpi,10.26
cpi_change,8.21


2. Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas identificadas en el paso anterior.

### Miramos los nulos `categórigos`

In [20]:
nulos_categoricos = df[df.columns[df.isnull().any()]].select_dtypes(include = 'O').columns #objects

In [21]:
nulos_categoricos

Index(['abbreviation', 'capital/major_city', 'currency-code', 'largest_city',
       'official_language', 'continent'],
      dtype='object')

In [26]:
df.shape

(195, 36)

In [38]:
df_nulos_cat = df[nulos_categoricos].isnull().sum() / df.shape[0] *100

In [39]:
display(df_nulos_cat)

abbreviation          3.589744
capital/major_city    1.538462
currency-code         7.692308
largest_city          3.076923
official_language     2.564103
continent             0.512821
dtype: float64

In [40]:
df_nulos_cat = df_nulos_cat.reset_index()

In [41]:
df_nulos_cat

Unnamed: 0,index,0
0,abbreviation,3.589744
1,capital/major_city,1.538462
2,currency-code,7.692308
3,largest_city,3.076923
4,official_language,2.564103
5,continent,0.512821


In [59]:
df['continent'].value_counts()

continent
Africa             53
Europe             47
Asia               45
Central America    20
Oceania            14
South America      13
North America       2
Name: count, dtype: int64

|index	|%nulos| Análisis|
|---------|----------|--------|
|abbreviation	|3.589744|  %nulo menor que 10%, pero países con frecuencia = 1, no hay moda representativa. ponemos `unknown`   |
|capital/major_city	|1.538462|  %nulo menor que 10%, pero países con frecuencia = 1, no hay moda representativa. ponemos `unknown`  |
|currency-code	|7.692308|  EUR tiene frecuencia: 23 y XOF tiene freq = 8. ponemos `unknown` . Sería muy raro poner EUR a un país africano que no tenga currency-code|
|largest_city	|3.076923| ponemos `unknown`    |
|official_language	|2.564103|  English   31, French  25, ponemos `unknown` |
|continent	|0.512821|  ponemos `unknown` |

### Miramos los nulos `numéricos`

In [None]:
#nos falta esta parte

3. Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

4. Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.

`Nota:` Puedes utilizar cualquier método o estrategia de imputación que consideres adecuado para los datos y discutir las ventajas y desventajas de tu elección en el informe.