In [2]:
import pandas as pd
import numpy as np
# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

Instrucciones:

1- Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.
    
2- Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas identificadas en el paso anterior.

3- Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

4- Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.

Nota: Puedes utilizar cualquier método o estrategia de imputación que consideres adecuado para los datos y discutir las ventajas y desventajas de tu elección en el inform

In [3]:
df_world = pd.read_csv("merge_world_2.csv")

In [4]:
df_world.head(3)

Unnamed: 0,country,density,abbreviation,agriculturalland,landarea,armedforcessize,birthrate,callingcode,capital/majorcity,co2-emissions,cpi,cpichange,currency-code,fertilityrate,forestedarea,gasolineprice,gdp,grossprimaryeducationenrollment,grosstertiaryeducationenrollment,infantmortality,largestcity,lifeexpectancy,maternalmortalityratio,minimumwage,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,populationlaborforceparticipation,taxrevenue,totaltaxrate,unemploymentrate,urban_population,longitud,latitud,continent
0,Afghanistan,60,AF,58.1,652230.0,323000.0,32.49,93.0,Kabul,8672.0,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,38041754.0,48.9,9.3,71.4,11.12,9797273.0,33.93911,67.709953,Asia
1,Albania,105,AL,43.1,28748.0,9000.0,11.78,355.0,Tirana,4536.0,119.05,1.4,ALL,1.62,28.1,1.36,15278080000.0,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.2,2854191.0,55.7,18.6,36.6,12.33,1747593.0,41.153332,20.168331,Europe
2,Algeria,18,DZ,17.4,2381741.0,317000.0,24.28,213.0,Algiers,150006.0,151.36,2.0,DZD,3.02,0.8,0.28,169988200000.0,109.9,51.4,20.1,Algiers,76.7,112.0,0.95,Arabic,28.1,1.72,43053054.0,41.2,37.2,66.1,11.7,31510100.0,28.033886,1.659626,Africa


2. ¿Qué columnas tienen nulos? 

In [5]:
# lo primero que vamos a hacer es calcular el porcentaje de nulos que tenemos para cada columna
# y los pasamos a DataFrame
df_nulos = pd.DataFrame((df_world.isnull().sum() / df_world.shape[0]) * 100, columns=["%nulos"])

# filtramos el DataFrame para quedarnos solo con aquellas columnas que tengan nulos
df_nulos[df_nulos["%nulos"] > 0]

Unnamed: 0,%nulos
abbreviation,3.589744
agriculturalland,3.589744
landarea,0.512821
armedforcessize,12.307692
birthrate,3.076923
callingcode,0.512821
capital/majorcity,1.538462
co2-emissions,3.589744
cpi,8.717949
cpichange,8.205128


In [6]:
# Ordenamos de mayor a menor por la columna '%nulos' para verlo mejor
df_nulos_ordenado = df_nulos.sort_values(by='%nulos', ascending=False)
df_nulos_ordenado

Unnamed: 0,%nulos
minimumwage,23.076923
taxrevenue,13.333333
armedforcessize,12.307692
gasolineprice,10.25641
unemploymentrate,9.74359
populationlaborforceparticipation,9.74359
cpi,8.717949
cpichange,8.205128
continent,7.692308
currency-code,7.692308


# Primer análisis de los datos

Vemos que hay 3 columnas en las cuales todos los datos son nulos:
- latitud
- longitud
- gdp

Es posible que este dato no sea correcto, por lo que se tendría que revisar el dataframe para revisarlo. Para el ejercicio se pueden obviar.

Por otro lado, tenemos 3 columnas que no tienen ningún dato nulo, por lo tanto en este proceso las podremos obviar en esta fase. Son las columnas: coordinates, density y country.

- Tenemos que decidir a partir de que porcentaje de nulos se debe obviar la columna. 
- Ésta decisión también viene determinada por el tipo de datos con los que trabajamos y de la importáncia que éstos tengan en nuestro análisis. 
- Cada decisón debe estar justificada. 



In [7]:
df_world["latitud"].values

array([  67.709953 ,   20.168331 ,    1.659626 ,    1.521801 ,
         17.873887 ,  -61.796428 ,  -63.616672 ,   45.038189 ,
        133.775136 ,   14.550072 ,   47.576927 ,  -77.39628  ,
         50.5577   ,   90.356331 ,  -59.543198 ,   27.953389 ,
          4.469936 ,  -88.49765  ,    2.315834 ,   90.433601 ,
        -63.588653 ,   17.679076 ,   24.684866 ,  -51.92528  ,
        114.727669 ,   25.48583  ,   -1.561593 ,   29.918886 ,
         -5.54708  ,  -23.0418   ,  104.990963 ,   12.354722 ,
       -106.346771 ,   20.939444 ,   18.732207 ,  -71.542969 ,
        104.195397 ,  -74.297333 ,   43.3333   ,   15.827659 ,
        -83.753428 ,   15.2      ,  -77.781167 ,   33.429859 ,
         15.472962 ,   21.758664 ,    9.501785 ,   42.590275 ,
        -61.370976 ,  -70.162651 ,  -78.183406 ,   30.802498 ,
        -88.89653  ,   10.267895 ,   39.782334 ,   25.013607 ,
         31.465866 ,   40.489673 ,  178.065032 ,   25.748151 ,
          2.213749 ,   11.609444 ,  -15.310139 ,   43.3

Supósito: Tomamos la decisión de gestionar las columnas nos nulos que tienen un máximo de un 80% de nulos.

El motivo es porque a la hora de gestionar los nulos respondemos a las preguntas que se plantearan en próximas sesiones cómo por ejemplo:
¿Existen relaciones visibles entre la tasa de natalidad y las siguientes variables: tasa de mortalidad infantil, esperanza de vida, densidad de población y población urbana?

Por este motivo, decidimos mantenet la columna urban_population, aunque tenga muy pocos datos (un 76% aprox)


In [8]:

condicion_1 = df_nulos_ordenado.loc[(df_nulos_ordenado['%nulos']< 80)]
condicion_1.index

Index(['minimumwage', 'taxrevenue', 'armedforcessize', 'gasolineprice',
       'unemploymentrate', 'populationlaborforceparticipation', 'cpi',
       'cpichange', 'continent', 'currency-code', 'maternalmortalityratio',
       'totaltaxrate', 'grosstertiaryeducationenrollment', 'lifeexpectancy',
       'fertilityrate', 'physiciansperthousand', 'co2-emissions',
       'grossprimaryeducationenrollment', 'abbreviation', 'agriculturalland',
       'forestedarea', 'outofpockethealthexpenditure', 'infantmortality',
       'largestcity', 'birthrate', 'urban_population', 'officiallanguage',
       'capital/majorcity', 'gdp', 'population', 'callingcode', 'landarea',
       'longitud', 'latitud', 'density', 'country'],
      dtype='object')

In [9]:
df_world.head(1)

Unnamed: 0,country,density,abbreviation,agriculturalland,landarea,armedforcessize,birthrate,callingcode,capital/majorcity,co2-emissions,cpi,cpichange,currency-code,fertilityrate,forestedarea,gasolineprice,gdp,grossprimaryeducationenrollment,grosstertiaryeducationenrollment,infantmortality,largestcity,lifeexpectancy,maternalmortalityratio,minimumwage,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,populationlaborforceparticipation,taxrevenue,totaltaxrate,unemploymentrate,urban_population,longitud,latitud,continent
0,Afghanistan,60,AF,58.1,652230.0,323000.0,32.49,93.0,Kabul,8672.0,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,38041754.0,48.9,9.3,71.4,11.12,9797273.0,33.93911,67.709953,Asia


In [10]:
# Obtenemos la lista de columnas categóricas que tienen nulos
nulos_esta_cat = df_world[df_world.columns[df_world.isnull().any()]].select_dtypes(include = "O").columns
print("Las columnas categóricas que tienen nulos son : \n ")
print(nulos_esta_cat)

Las columnas categóricas que tienen nulos son : 
 
Index(['abbreviation', 'capital/majorcity', 'currency-code', 'largestcity',
       'officiallanguage', 'continent'],
      dtype='object')


In [11]:
# sacamos el 'value_counts()' de cada una de las columnas categóricas que tienen nulos para saber como es la distribución de sus categorías
for col in nulos_esta_cat:
    print(f"La distribución de las categorías para la columna {col.upper()}")
    display(df_world[col].value_counts() / df_world.shape[0])
    print("........................")

La distribución de las categorías para la columna ABBREVIATION


abbreviation
AF    0.005128
PY    0.005128
NE    0.005128
NG    0.005128
KP    0.005128
        ...   
GR    0.005128
GD    0.005128
GT    0.005128
GN    0.005128
ZW    0.005128
Name: count, Length: 188, dtype: float64

........................
La distribución de las categorías para la columna CAPITAL/MAJORCITY


capital/majorcity
Kabul                    0.005128
Tirana                   0.005128
Wellington               0.005128
Managua                  0.005128
Niamey                   0.005128
                           ...   
Athens                   0.005128
St. George's, Grenada    0.005128
Guatemala City           0.005128
Conakry                  0.005128
Harare                   0.005128
Name: count, Length: 192, dtype: float64

........................
La distribución de las categorías para la columna CURRENCY-CODE


currency-code
EUR    0.117949
XOF    0.041026
XCD    0.030769
USD    0.030769
XAF    0.025641
         ...   
GMD    0.005128
FJD    0.005128
ETB    0.005128
ERN    0.005128
ZMW    0.005128
Name: count, Length: 133, dtype: float64

........................
La distribución de las categorías para la columna LARGESTCITY


largestcity
S����                    0.010256
Panama City              0.005128
Managua                  0.005128
Niamey                   0.005128
Lagos                    0.005128
                           ...   
Macedonia                0.005128
St. George's, Grenada    0.005128
Guatemala City           0.005128
Kankan                   0.005128
Harare                   0.005128
Name: count, Length: 188, dtype: float64

........................
La distribución de las categorías para la columna OFFICIALLANGUAGE


officiallanguage
English             0.158974
French              0.128205
Spanish             0.097436
Arabic              0.092308
Portuguese          0.035897
                      ...   
Albanian            0.005128
Jamaican English    0.005128
Lao                 0.005128
Latvian             0.005128
Shona               0.005128
Name: count, Length: 76, dtype: float64

........................
La distribución de las categorías para la columna CONTINENT


continent
Africa           0.271795
Asia             0.235897
Europe           0.225641
Oceania          0.066667
South America    0.061538
North America    0.061538
Name: count, dtype: float64

........................


In [12]:
lista_nulos= [['urban_population', 'minimumwage', 'landarea', 'armedforcessize',
       'taxrevenue', 'cpi', 'gasolineprice',
       'populationlaborforceparticipation', 'unemploymentrate', 'cpichange',
       'currency-code', 'continent', 'maternalmortalityratio', 'totaltaxrate',
       'grosstertiaryeducationenrollment', 'co2-emissions', 'lifeexpectancy',
       'fertilityrate', 'abbreviation', 'grossprimaryeducationenrollment',
       'agriculturalland', 'outofpockethealthexpenditure',
       'physiciansperthousand', 'forestedarea', 'birthrate', 'infantmortality',
       'largestcity', 'officiallanguage', 'capital/majorcity', 'callingcode',
       'coordinates', 'density', 'country']]

In [13]:
df_nulos_ordenado.dtypes

%nulos    float64
dtype: object

In [14]:
# Obtenemos la lista de columnas categóricas que tienen nulos
nulos_esta_cat = df_clase[df_clase.columns[df_clase.isnull().any()]].select_dtypes(include = "O").columns
print("Las columnas categóricas que tienen nulos son : \n ")
print(nulos_esta_cat)

NameError: name 'df_clase' is not defined