In [1]:
import pandas as pd
import numpy as np
# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

Instrucciones:

1- Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.
    
2- Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas identificadas en el paso anterior.

3- Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

4- Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.

Nota: Puedes utilizar cualquier método o estrategia de imputación que consideres adecuado para los datos y discutir las ventajas y desventajas de tu elección en el inform

In [4]:
df_world = pd.read_csv("merge_world_2.csv")

In [6]:
df_world.head(3)

Unnamed: 0,country,density,abbreviation,agriculturalland,landarea,armedforcessize,birthrate,callingcode,capital/majorcity,co2-emissions,cpi,cpichange,currency-code,fertilityrate,forestedarea,gasolineprice,gdp,grossprimaryeducationenrollment,grosstertiaryeducationenrollment,infantmortality,largestcity,lifeexpectancy,maternalmortalityratio,minimumwage,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,populationlaborforceparticipation,taxrevenue,totaltaxrate,unemploymentrate,urban_population,coordinates,longitud,latitud,continent
0,Afghanistan,60,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.67,149.9,2.3,AFN,4.47,2.1,0.7,,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,"('33.93911 ', '67.709953')",,,Asia
1,Albania,105,AL,43.1,28.75,9.0,11.78,355.0,Tirana,4.54,119.05,1.4,ALL,1.62,28.1,1.36,,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.2,,55.7,18.6,36.6,12.33,,"('41.153332 ', '20.168331')",,,Europe
2,Algeria,18,DZ,17.4,,317.0,24.28,213.0,Algiers,150.01,151.36,2.0,DZD,3.02,0.8,0.28,,109.9,51.4,20.1,Algiers,76.7,112.0,0.95,Arabic,28.1,1.72,,41.2,37.2,66.1,11.7,,"('28.033886 ', '1.659626')",,,Africa


2. ¿Qué columnas tienen nulos? 

In [None]:
# lo primero que vamos a hacer es calcular el porcentaje de nulos que tenemos para cada columna
# y los pasamos a DataFrame
df_nulos = pd.DataFrame((df_world.isnull().sum() / df_world.shape[0]) * 100, columns=["%nulos"])

# filtramos el DataFrame para quedarnos solo con aquellas columnas que tengan nulos
df_nulos[df_nulos["%nulos"] > 0]

In [10]:
# Ordenamos de mayor a menor por la columna '%nulos' para verlo mejor
df_nulos_ordenado = df_nulos.sort_values(by='%nulos', ascending=False)
df_nulos_ordenado

Unnamed: 0,%nulos
latitud,100.0
longitud,100.0
gdp,100.0
population,80.0
urban_population,76.923077
minimumwage,23.076923
landarea,15.384615
armedforcessize,14.871795
taxrevenue,13.333333
cpi,10.25641


# Primer análisis de los datos

Vemos que hay 3 columnas en las cuales todos los datos son nulos:
- latitud
- longitud
- gdp

Es posible que este dato no sea correcto, por lo que se tendría que revisar el dataframe para revisarlo. Para el ejercicio se pueden obviar.

Por otro lado, tenemos 3 columnas que no tienen ningún dato nulo, por lo tanto en este proceso las podremos obviar en esta fase. Son las columnas: coordinates, density y country.

- Tenemos que decidir a partir de que porcentaje de nulos se debe obviar la columna. 
- Ésta decisión también viene determinada por el tipo de datos con los que trabajamos y de la importáncia que éstos tengan en nuestro análisis. 
- Cada decisón debe estar justificada. 



In [15]:
df_world["latitud"].values

array([nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, na

Supósito: Tomamos la decisión de gestionar las columnas nos nulos que tienen un máximo de un 80% de nulos.

El motivo es porque a la hora de gestionar los nulos respondemos a las preguntas que se plantearan en próximas sesiones cómo por ejemplo:
¿Existen relaciones visibles entre la tasa de natalidad y las siguientes variables: tasa de mortalidad infantil, esperanza de vida, densidad de población y población urbana?

Por este motivo, decidimos mantenet la columna urban_population, aunque tenga muy pocos datos (un 76% aprox)


In [20]:

condicion_1 = df_nulos_ordenado.loc[(df_nulos_ordenado['%nulos']< 80)]
condicion_1.index

Index(['urban_population', 'minimumwage', 'landarea', 'armedforcessize',
       'taxrevenue', 'cpi', 'gasolineprice',
       'populationlaborforceparticipation', 'unemploymentrate', 'cpichange',
       'currency-code', 'continent', 'maternalmortalityratio', 'totaltaxrate',
       'grosstertiaryeducationenrollment', 'co2-emissions', 'lifeexpectancy',
       'fertilityrate', 'abbreviation', 'grossprimaryeducationenrollment',
       'agriculturalland', 'outofpockethealthexpenditure',
       'physiciansperthousand', 'forestedarea', 'birthrate', 'infantmortality',
       'largestcity', 'officiallanguage', 'capital/majorcity', 'callingcode',
       'coordinates', 'density', 'country'],
      dtype='object')

In [28]:
df_world.head(1)

Unnamed: 0,country,density,abbreviation,agriculturalland,landarea,armedforcessize,birthrate,callingcode,capital/majorcity,co2-emissions,cpi,cpichange,currency-code,fertilityrate,forestedarea,gasolineprice,gdp,grossprimaryeducationenrollment,grosstertiaryeducationenrollment,infantmortality,largestcity,lifeexpectancy,maternalmortalityratio,minimumwage,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,populationlaborforceparticipation,taxrevenue,totaltaxrate,unemploymentrate,urban_population,coordinates,longitud,latitud,continent
0,Afghanistan,60,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.67,149.9,2.3,AFN,4.47,2.1,0.7,,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,"('33.93911 ', '67.709953')",,,Asia


In [29]:
# Obtenemos la lista de columnas categóricas que tienen nulos
nulos_esta_cat = df_world[df_world.columns[df_world.isnull().any()]].select_dtypes(include = "O").columns
print("Las columnas categóricas que tienen nulos son : \n ")
print(nulos_esta_cat)

Las columnas categóricas que tienen nulos son : 
 
Index(['abbreviation', 'capital/majorcity', 'currency-code', 'largestcity',
       'officiallanguage', 'continent'],
      dtype='object')


In [34]:
# sacamos el 'value_counts()' de cada una de las columnas categóricas que tienen nulos para saber como es la distribución de sus categorías
for col in nulos_esta_cat:
    print(f"La distribución de las categorías para la columna {col.upper()}")
    display(df_world[col].value_counts() / df_world.shape[0])
    print("........................")

La distribución de las categorías para la columna ABBREVIATION


abbreviation
AF    1
PY    1
NE    1
NG    1
KP    1
     ..
GR    1
GD    1
GT    1
GN    1
ZW    1
Name: count, Length: 188, dtype: int64

........................
La distribución de las categorías para la columna CAPITAL/MAJORCITY


capital/majorcity
Kabul                    1
Tirana                   1
Wellington               1
Managua                  1
Niamey                   1
                        ..
Athens                   1
St. George's, Grenada    1
Guatemala City           1
Conakry                  1
Harare                   1
Name: count, Length: 192, dtype: int64

........................
La distribución de las categorías para la columna CURRENCY-CODE


currency-code
EUR    23
XOF     8
XCD     6
USD     6
XAF     5
       ..
GMD     1
FJD     1
ETB     1
ERN     1
ZMW     1
Name: count, Length: 133, dtype: int64

........................
La distribución de las categorías para la columna LARGESTCITY


largestcity
S����                    2
Panama City              1
Managua                  1
Niamey                   1
Lagos                    1
                        ..
Macedonia                1
St. George's, Grenada    1
Guatemala City           1
Kankan                   1
Harare                   1
Name: count, Length: 188, dtype: int64

........................
La distribución de las categorías para la columna OFFICIALLANGUAGE


officiallanguage
English             31
French              25
Spanish             19
Arabic              18
Portuguese           7
                    ..
Albanian             1
Jamaican English     1
Lao                  1
Latvian              1
Shona                1
Name: count, Length: 76, dtype: int64

........................
La distribución de las categorías para la columna CONTINENT


continent
Africa           53
Asia             46
Europe           44
Oceania          13
South America    12
North America    12
Name: count, dtype: int64

........................


In [25]:
lista_nulos= [['urban_population', 'minimumwage', 'landarea', 'armedforcessize',
       'taxrevenue', 'cpi', 'gasolineprice',
       'populationlaborforceparticipation', 'unemploymentrate', 'cpichange',
       'currency-code', 'continent', 'maternalmortalityratio', 'totaltaxrate',
       'grosstertiaryeducationenrollment', 'co2-emissions', 'lifeexpectancy',
       'fertilityrate', 'abbreviation', 'grossprimaryeducationenrollment',
       'agriculturalland', 'outofpockethealthexpenditure',
       'physiciansperthousand', 'forestedarea', 'birthrate', 'infantmortality',
       'largestcity', 'officiallanguage', 'capital/majorcity', 'callingcode',
       'coordinates', 'density', 'country']]

dtype('O')

In [26]:
df_nulos_ordenado.dtypes

%nulos    float64
dtype: object

In [None]:
# Obtenemos la lista de columnas categóricas que tienen nulos
nulos_esta_cat = df_clase[df_clase.columns[df_clase.isnull().any()]].select_dtypes(include = "O").columns
print("Las columnas categóricas que tienen nulos son : \n ")
print(nulos_esta_cat)