In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
df = pd.read_csv("datos/world_data_full_apply.csv", index_col = 0)
df.head(1)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia


**Pair Nulos**

Trabajamos con world_data_full_apply.csv

El objetivo del ejercicio es identificar las columnas que contienen valores nulos y
aplicar un proceso de imputación para manejarlos de manera adecuada.
Instrucciones:
1. Identificación de Valores Nulos: Identifica todas las columnas que contengan
valores nulos en el DataFrame.

In [3]:
porc_nulos = (df.isnull().sum()/df.shape[0])*100
# Dividimos el total de valores nulos entre el numero total de datos para cada columna, para sacar el porcentaje
porc_nulos

country                                  0.000000
density                                  0.000000
abbreviation                             3.589744
agricultural_land                        3.589744
land_area                               15.384615
armed_forces_size                       14.871795
birth_rate                               3.076923
calling_code                             0.512821
capital/major_city                       1.538462
co2-emissions                            6.153846
cpi                                     10.256410
cpi_change                               8.205128
currency-code                            7.692308
fertility_rate                           3.589744
forested_area                            3.589744
gasoline_price                          10.256410
gdp                                      1.025641
gross_primary_education_enrollment       3.589744
gross_tertiary_education_enrollment      6.153846
infant_mortality                         3.076923


In [4]:
# lo convertimos en DataFrame, creando una nueva columna % nulos
df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])
# y lo filtramos para que solo nos aparezcan los valores que tienen nulos
df_nulos[df_nulos['%_nulos'] > 0]

Unnamed: 0,%_nulos
abbreviation,3.589744
agricultural_land,3.589744
land_area,15.384615
armed_forces_size,14.871795
birth_rate,3.076923
calling_code,0.512821
capital/major_city,1.538462
co2-emissions,6.153846
cpi,10.25641
cpi_change,8.205128


In [10]:
df.isnull().sum()

country                                   0
density                                   0
abbreviation                              7
agricultural_land                         7
land_area                                30
armed_forces_size                        29
birth_rate                                6
calling_code                              1
capital/major_city                        3
co2-emissions                            12
cpi                                      20
cpi_change                               16
currency-code                            15
fertility_rate                            7
forested_area                             7
gasoline_price                           20
gdp                                       2
gross_primary_education_enrollment        7
gross_tertiary_education_enrollment      12
infant_mortality                          6
largest_city                              6
life_expectancy                           8
maternal_mortality_ratio        

In [None]:
# Estudiamos los valores categóricos
# Sacamos una lista de las categóricas que tienen nulos
nulos_esta_cat = df[df.columns[df.isnull().any()]].select_dtypes(include = "O").columns
print("Las columnas categóricas que tienen nulos son : \n ")
print(nulos_esta_cat)

Las columnas categóricas que tienen nulos son : 
 
Index(['abbreviation', 'capital/major_city', 'currency-code', 'largest_city',
       'official_language', 'continent'],
      dtype='object')


In [16]:
df['abbreviation'].value_counts()

abbreviation
AF    1
PY    1
NE    1
NG    1
KP    1
     ..
GR    1
GD    1
GT    1
GN    1
ZW    1
Name: count, Length: 188, dtype: int64

In [18]:
df['abbreviation'].shape[0]

195

In [14]:
# sacamos el 'value_counts()'(contamos los valores únicos y los comparamos al total de valores) de cada una de las columnas categóricas que tienen nulos para saber como es la distribución de sus categorías
for col in nulos_esta_cat:
    print(f"La distribución de las categorías para la columna '{col}'")
    display(df[col].value_counts() / df.shape[0]*100)  # display es una función utilizada para mostrar objetos de manera más legible en Jupyter Notebooks o entornos similares. 
    print("........................")

La distribución de las categorías para la columna 'abbreviation'


abbreviation
AF    0.512821
PY    0.512821
NE    0.512821
NG    0.512821
KP    0.512821
        ...   
GR    0.512821
GD    0.512821
GT    0.512821
GN    0.512821
ZW    0.512821
Name: count, Length: 188, dtype: float64

........................
La distribución de las categorías para la columna 'capital/major_city'


capital/major_city
Kabul                    0.512821
Tirana                   0.512821
Wellington               0.512821
Managua                  0.512821
Niamey                   0.512821
                           ...   
Athens                   0.512821
St. George's, Grenada    0.512821
Guatemala City           0.512821
Conakry                  0.512821
Harare                   0.512821
Name: count, Length: 192, dtype: float64

........................
La distribución de las categorías para la columna 'currency-code'


currency-code
EUR    11.794872
XOF     4.102564
XCD     3.076923
USD     3.076923
XAF     2.564103
         ...    
GMD     0.512821
FJD     0.512821
ETB     0.512821
ERN     0.512821
ZMW     0.512821
Name: count, Length: 133, dtype: float64

........................
La distribución de las categorías para la columna 'largest_city'


largest_city
S����                    1.025641
Panama City              0.512821
Managua                  0.512821
Niamey                   0.512821
Lagos                    0.512821
                           ...   
Macedonia                0.512821
St. George's, Grenada    0.512821
Guatemala City           0.512821
Kankan                   0.512821
Harare                   0.512821
Name: count, Length: 188, dtype: float64

........................
La distribución de las categorías para la columna 'official_language'


official_language
English             15.897436
French              12.820513
Spanish              9.743590
Arabic               9.230769
Portuguese           3.589744
                      ...    
Albanian             0.512821
Jamaican English     0.512821
Lao                  0.512821
Latvian              0.512821
Shona                0.512821
Name: count, Length: 76, dtype: float64

........................
La distribución de las categorías para la columna 'continent'


continent
Africa             27.179487
Europe             24.102564
Asia               23.076923
Central America    10.256410
Oceania             7.179487
South America       6.666667
North America       1.025641
Name: count, dtype: float64

........................


In [None]:
# 'abbreviation'
# Tiene un 	3.589744 % de nulos
# Los datos que mas se repiten son: (%)
'''     AF    0.512821
        PY    0.512821
        NE    0.512821
        NG    0.512821
        KP    0.512821'''
#*****************know***********************

In [None]:
#'capital/major_city'
# Tiene un 	1.538462 % de nulos
# Los datos que mas se repiten son: (%)
'''     Kabul                    0.512821
        Tirana                   0.512821
        Wellington               0.512821
        Managua                  0.512821
        Niamey                   0.512821'''
#*****************know***********************

In [None]:
#'currency-code'
# Tiene un 	7.692308 % de nulos
# Los datos que mas se repiten son: (%)
'''     EUR    11.794872
        XOF     4.102564
        XCD     3.076923
        USD     3.076923
        XAF     2.564103'''
#*****************know***********************

In [None]:
#'largest_city'
# Tiene un 	3.076923 % de nulos
# Los datos que mas se repiten son: (%)
'''     S����                 1.025641
        Panama City              0.512821
        Managua                  0.512821   
        Niamey                   0.512821
        Lagos                    0.512821'''
#*****************know***********************

In [None]:
#'official_language'
# Tiene un 	2.564103 % de nulos
# Los datos que mas se repiten son: (%)
'''     English             15.897436
        French              12.820513
        Spanish              9.743590
        Arabic               9.230769
        Portuguese           3.5897441
        Lagos                0.512821'''
#*****************know***********************

In [None]:
#'continent'
# Tiene un 	0.512821 % de nulos
# Los datos que mas se repiten son: (%)
'''     Africa             27.179487
        Europe             24.102564
        Asia               23.076923
        Central America    10.256410
        Oceania             7.179487
        South America       6.666667'''
#*****************know***********************

2. Selección de Método de Imputación: Discute en tu compañera cuál sería la
mejor estrategia para manejar los valores nulos en cada una de las columnas
identificadas en el paso anterior.

3. Imputación de Valores Nulos: Implementa el método de imputación
seleccionado en el paso 2 para llenar los valores nulos en las columnas.

4. Informe: Añade al final de un jupyter una explicación breve que describa las
columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier
observación adicional que consideres importante sobre el proceso de limpieza
de datos.

Nota: Puedes utilizar cualquier método o estrategia de imputación que consideres
adecuado para los datos y discutir las ventajas y desventajas de tu elección en el
informe.