## Pair Nulos


Ejercicios gestión de nulos

En este pair programming usaremos el csv que generamos en el pair programming de ayer. El objetivo del ejercicio es identificar las columnas que contienen valores nulos y aplicar un proceso de imputación para manejarlos de manera adecuada.

Instrucciones:

A-  Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.

B-  Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas identificadas en el paso anterior.

C-  Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

D-  Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.


---
Nota: Puedes utilizar cualquier método o estrategia de imputación que consideres adecuado para los datos y discutir las ventajas y desventajas de tu elección en el informe.

In [28]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [29]:
#leyendo la informacion

df = pd.read_csv("world_data_full_apply.csv")
df.head(3)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia
1,Albania,105.0,AL,43.1,28.748,9.0,11.78,355.0,Tirana,4.536,119.05,1.4,ALL,1.62,28.1,1.36,15278080000.0,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.2,,55.7,18.6,36.6,12.33,,41.153332,20.168331,Europe
2,Algeria,18.0,DZ,17.4,,317.0,24.28,213.0,Algiers,150.006,151.36,2.0,DZD,3.02,0.8,0.28,169988200000.0,109.9,51.4,20.1,Algiers,76.7,112.0,0.95,Arabic,28.1,1.72,,41.2,37.2,66.1,11.7,,28.033886,1.659626,Africa


In [30]:
# A-  Identificación de Valores Nulos: Identifica todas las columnas que contengan valores nulos en el DataFrame.

# Identificación de columnas con valores nulos

df.columns[df.isnull().any()]

Index(['abbreviation', 'agricultural_land', 'land_area', 'armed_forces_size',
       'birth_rate', 'calling_code', 'capital/major_city', 'co2-emissions',
       'cpi', 'cpi_change', 'currency-code', 'fertility_rate', 'forested_area',
       'gasoline_price', 'gdp', 'gross_primary_education_enrollment',
       'gross_tertiary_education_enrollment', 'infant_mortality',
       'largest_city', 'life_expectancy', 'maternal_mortality_ratio',
       'minimum_wage', 'official_language', 'out_of_pocket_health_expenditure',
       'physicians_per_thousand', 'population',
       'population_labor_force_participation', 'tax_revenue', 'total_tax_rate',
       'unemployment_rate', 'urban_population', 'latitude', 'longitude',
       'continent'],
      dtype='object')

In [35]:
# B-  Selección de Método de Imputación: Discute en tu compañera cuál sería la mejor estrategia para manejar los valores nulos en cada una de las columnas 
# identificadas en el paso anterior.

# C-  Imputación de Valores Nulos: Implementa el método de imputación seleccionado en el paso 2 para llenar los valores nulos en las columnas.

# Para cada columna con valores nulos, puedes considerar lo siguiente:

# *- Columnas numéricas: Imputar con la media, mediana o un valor constante.
# *- Columnas categóricas: Imputar con la moda o un valor constante (por ejemplo, 'desconocido').

# Clasificar las columnas en numéricas y categóricas
numeric_columns = df.select_dtypes(include=['number']).columns
categorical_columns = df.select_dtypes(include=['object']).columns

# Columnas numéricas con valores nulos
numeric_null_columns = [col for col in numeric_columns if col in null_columns]

# Columnas categóricas con valores nulos
categorical_null_columns = [col for col in categorical_columns if col in null_columns]

# Imputar valores numéricos con la media
for col in numeric_null_columns:
    df[col] = df[col].fillna(df[col].mean())

# Imputar valores categóricos con la palabra "desconocido"
for col in categorical_null_columns:
    df[col] = df[col].fillna('desconocido')

# Verificar si quedan valores nulos después de la imputación
remaining_nulls = df.isnull().sum()
remaining_nulls

country                                 0
density                                 0
abbreviation                            0
agricultural_land                       0
land_area                               0
armed_forces_size                       0
birth_rate                              0
calling_code                            0
capital/major_city                      0
co2-emissions                           0
cpi                                     0
cpi_change                              0
currency-code                           0
fertility_rate                          0
forested_area                           0
gasoline_price                          0
gdp                                     0
gross_primary_education_enrollment      0
gross_tertiary_education_enrollment     0
infant_mortality                        0
largest_city                            0
life_expectancy                         0
maternal_mortality_ratio                0
minimum_wage                      

In [None]:
# D-  Informe: Añade al final de un jupyter una explicación breve que describa las columnas que tenían valores nulos, cómo decidiste imputarlos y 
# cualquier observación adicional que consideres importante sobre el proceso de limpieza de datos.

# en este punto denpendera de como han completado, el tipo de imputacion y la defensa de su propia toma de desiciones


In [36]:
df.to_csv("world_data_full_nulos.csv",index=False)