| **Inicio** | **atrás 42** | **Siguiente 44** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./42.Regresion_Lineal.ipynb)| [⏩](./44.Affinity_Propagation.ipynb)|

# **43. Imputación (o Manejo de Datos Faltantes)**

La imputación, o manejo de datos faltantes, es el proceso de rellenar los valores faltantes en un conjunto de datos con valores estimados. Esto se hace con el objetivo de poder utilizar los datos para realizar análisis y modelado.

En Python, existen diversas herramientas y librerías para llevar a cabo la imputación de datos faltantes. Por ejemplo, una de las librerías más comunes para este propósito es Pandas. En Pandas, se pueden utilizar funciones como ```fillna()``` para rellenar los valores faltantes en un dataframe con un valor específico, o interpolate() para realizar una interpolación lineal entre los valores existentes.

También existen otras librerías en Python que se enfocan en la imputación de datos faltantes, como por ejemplo fancyimpute, que implementa varios algoritmos de imputación, incluyendo K-Nearest Neighbors, Matriz Factorización y SVD. Además, Scikit-Learn, otra popular librería de Python para aprendizaje de máquina, también cuenta con una variedad de métodos de imputación de datos faltantes en su módulo de preprocesamiento de datos.

Es importante destacar que la imputación de datos faltantes debe hacerse con precaución, ya que el uso de valores estimados puede introducir sesgos en los datos y afectar los resultados de análisis posteriores. Por lo tanto, es importante evaluar cuidadosamente el conjunto de datos y elegir el método de imputación más adecuado para el tipo de datos y el análisis que se pretende realizar.

## **Problemática de los valores faltantes**

La problemática de los valores faltantes en los conjuntos de datos radica en que la ausencia de datos puede tener un impacto significativo en el análisis o modelado que se pretende realizar.

* En primer lugar, la presencia de valores faltantes puede reducir la cantidad de datos disponibles para el análisis, lo que puede afectar la precisión de los resultados. Además, la ausencia de datos puede crear sesgos en los resultados, especialmente si los datos faltantes no se manejan adecuadamente.

* En segundo lugar, los valores faltantes también pueden introducir errores en los análisis y modelos, especialmente si se ignoran o se rellenan de manera incorrecta. Si se ignoran los valores faltantes, puede resultar en una pérdida de información importante y si se rellenan de manera incorrecta, se puede introducir sesgos o errores en los análisis o modelos.

Por lo tanto, es importante tener en cuenta la presencia de valores faltantes en los conjuntos de datos y manejarlos de manera adecuada utilizando técnicas de imputación o eliminación, para minimizar su impacto en los análisis y modelos que se pretenden realizar.

## **Archivo con valores faltantes**

In [1]:
import pandas as pd

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, None, 28, 35, None],
    'Profesión': ['Ingeniero', 'Doctora', None, 'Abogada', None],
    'Ingreso': [40000, 50000, 30000, None, 45000]
}

df = pd.DataFrame(data)
print(df)


  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0       None  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa   NaN       None  45000.0


En este ejemplo, se crea un dataframe con cuatro columnas (Nombre, Edad, Profesión, Ingreso) y cinco filas de datos. Podemos ver que hay valores faltantes representados por el valor ```None```, que es una forma común de representar valores faltantes en Pandas. María no tiene una edad especificada, Pedro no tiene una profesión especificada, Ana no tiene un ingreso especificado y Luisa no tiene tanto su edad como su profesión especificada.

Es importante mencionar que Pandas también puede utilizar otros valores para representar valores faltantes, como ```NaN (Not a Number)``` o ```NaT (Not a Time)```. En cualquier caso, los valores faltantes deben ser manejados adecuadamente para poder realizar un análisis correcto.

## **Valores nulos NaN**

Los valores nulos NaN (Not a Number) son un tipo de valor faltante que se utiliza en pandas para representar valores numéricos faltantes en un dataframe. Estos valores pueden surgir por diversas razones, como por ejemplo cuando se realizan operaciones aritméticas en datos faltantes o cuando se leen datos de una fuente que no tiene valores completos.

Aquí te presento un ejemplo de un dataframe en Python con valores nulos NaN utilizando la librería Pandas:

In [2]:
import pandas as pd
import numpy as np

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, np.nan, 28, 35, np.nan],
    'Profesión': ['Ingeniero', 'Doctora', np.nan, 'Abogada', np.nan],
    'Ingreso': [40000, 50000, 30000, np.nan, 45000]
}

df = pd.DataFrame(data)
print(df)


  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa   NaN        NaN  45000.0


En este ejemplo, se crea un dataframe con cuatro columnas (Nombre, Edad, Profesión, Ingreso) y cinco filas de datos. Podemos ver que hay valores nulos representados por el valor ```np.nan```, que es la forma común de representar valores nulos en Pandas. María y Luisa no tienen una edad especificada, Pedro y Luisa no tienen una profesión especificada y Ana no tiene un ingreso especificado.

Es importante mencionar que en algunos casos, los valores nulos pueden ser eliminados del dataframe utilizando la función ```dropna()```. Sin embargo, es importante evaluar cuidadosamente la naturaleza de los datos faltantes y decidir si la eliminación es apropiada o si es necesario rellenarlos utilizando alguna técnica de imputación.

## **Cómo quitar registros con valores faltantes**

En Pandas, se puede eliminar los registros que contienen valores faltantes utilizando la función ```dropna()```. Esta función elimina cualquier fila que contenga al menos un valor faltante en cualquiera de sus columnas.

Aquí te presento un ejemplo de cómo quitar registros con valores faltantes de un dataframe:

In [4]:
import pandas as pd
import numpy as np

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, np.nan, 28, 35, np.nan],
    'Profesión': ['Ingeniero', 'Doctora', np.nan, 'Abogada', np.nan],
    'Ingreso': [40000, 50000, 30000, np.nan, 45000]
}

df = pd.DataFrame(data)
print(df)



  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa   NaN        NaN  45000.0


In [5]:
# Eliminar registros con valores faltantes
df = df.dropna()
print(df)


  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0


En este ejemplo, primero se crea un dataframe con cuatro columnas (Nombre, Edad, Profesión, Ingreso) y cinco filas de datos. Luego, se utiliza la función ```dropna()``` para eliminar los registros que contienen valores faltantes. El resultado muestra que se eliminaron las filas correspondientes a María, Pedro y Ana, que contenían valores faltantes en al menos una de sus columnas.

Es importante tener en cuenta que la eliminación de valores faltantes puede reducir el tamaño del dataframe y en algunos casos, puede llevar a una pérdida significativa de datos. Por lo tanto, es recomendable evaluar cuidadosamente la naturaleza de los datos faltantes y decidir si la eliminación es apropiada o si es necesario rellenarlos utilizando alguna técnica de imputación.

## **Cómo reemplazar valores faltantes con valores por defecto**

En Pandas, se puede reemplazar valores faltantes con valores por defecto utilizando la función ```fillna()```. Esta función permite rellenar los valores faltantes con un valor específico que se proporciona como argumento.

Aquí te presento un ejemplo de cómo reemplazar valores faltantes con valores por defecto en un dataframe:

In [6]:
import pandas as pd
import numpy as np

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, np.nan, 28, 35, np.nan],
    'Profesión': ['Ingeniero', 'Doctora', np.nan, 'Abogada', np.nan],
    'Ingreso': [40000, 50000, 30000, np.nan, 45000]
}

df = pd.DataFrame(data)
print(df)

  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa   NaN        NaN  45000.0


In [7]:
# Rellenar valores faltantes con un valor por defecto
df = df.fillna({'Edad': 0, 'Profesión': 'No especificado', 'Ingreso': 0})
print(df)

  Nombre  Edad        Profesión  Ingreso
0   Juan  30.0        Ingeniero  40000.0
1  María   0.0          Doctora  50000.0
2  Pedro  28.0  No especificado  30000.0
3    Ana  35.0          Abogada      0.0
4  Luisa   0.0  No especificado  45000.0


En este ejemplo, primero se crea un dataframe con cuatro columnas (Nombre, Edad, Profesión, Ingreso) y cinco filas de datos. Luego, se utiliza la función ```fillna()``` para rellenar los valores faltantes en las columnas Edad, Profesión e Ingreso con valores por defecto (0 en el caso de Edad e Ingreso, y 'No especificado' en el caso de Profesión).

El resultado muestra que los valores faltantes en las columnas Edad, Profesión e Ingreso se han reemplazado por los valores por defecto que se especificaron en la función ```fillna()```.

Es importante tener en cuenta que el reemplazo de valores faltantes con valores por defecto puede ser una opción válida en algunos casos, pero no siempre es la mejor solución, especialmente si la columna en cuestión es una variable importante en el análisis. En algunos casos, puede ser más apropiado utilizar técnicas de imputación más avanzadas, como la imputación por media o la imputación por modelo, para rellenar los valores faltantes.

## **Cómo reemplazar valores faltantes con el promedio, mediana y/o moda**

En Pandas, se puede reemplazar valores faltantes con el promedio, mediana o moda utilizando la función ```fillna()```. Esta función permite rellenar los valores faltantes con un valor específico que se puede calcular a partir de los valores no faltantes en la columna correspondiente.

Aquí te presento ejemplos de cómo reemplazar valores faltantes con el promedio, mediana y/o moda en un dataframe:

Rellenar con el promedio

In [8]:
import pandas as pd
import numpy as np

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, np.nan, 28, 35, np.nan],
    'Profesión': ['Ingeniero', 'Doctora', np.nan, 'Abogada', np.nan],
    'Ingreso': [40000, 50000, 30000, np.nan, 45000]
}

df = pd.DataFrame(data)
print(df)

# Rellenar valores faltantes en la columna Ingreso con el promedio
promedio = df['Ingreso'].mean()
df['Ingreso'] = df['Ingreso'].fillna(promedio)
print(df)


  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa   NaN        NaN  45000.0
  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada  41250.0
4  Luisa   NaN        NaN  45000.0


En este ejemplo, primero se crea un dataframe con cuatro columnas (Nombre, Edad, Profesión, Ingreso) y cinco filas de datos. Luego, se utiliza la función ```mean()``` de Pandas para calcular el promedio de la columna Ingreso y se utiliza la función ```fillna()``` para rellenar los valores faltantes en la columna Ingreso con el promedio.

Rellenar con la mediana

In [9]:
import pandas as pd
import numpy as np

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, np.nan, 28, 35, np.nan],
    'Profesión': ['Ingeniero', 'Doctora', np.nan, 'Abogada', np.nan],
    'Ingreso': [40000, 50000, 30000, np.nan, 45000]
}

df = pd.DataFrame(data)
print(df)

# Rellenar valores faltantes en la columna Edad con la mediana
mediana = df['Edad'].median()
df['Edad'] = df['Edad'].fillna(mediana)
print(df)


  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María   NaN    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa   NaN        NaN  45000.0
  Nombre  Edad  Profesión  Ingreso
0   Juan  30.0  Ingeniero  40000.0
1  María  30.0    Doctora  50000.0
2  Pedro  28.0        NaN  30000.0
3    Ana  35.0    Abogada      NaN
4  Luisa  30.0        NaN  45000.0


En este ejemplo, se utiliza la función ```median()``` de Pandas para calcular la mediana de la columna Edad y se utiliza la función ```fillna()``` para rellenar los valores faltantes en la columna Edad con la mediana.

Rellenar con la moda

In [10]:
import pandas as pd
import numpy as np

data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luisa'],
    'Edad': [30, np.nan, 28, 35, np.nan],
    'Profesión': ['Ingeniero', 'Doctora', np.nan, 'Abogada', np.nan],
    'Ingreso': [40000, 50000, 30000, np.nan, 45000],
    'Género': ['Hombre', 'Mujer', 'Hombre', 'Mujer', 'Mujer']
}

df = pd.DataFrame(data)
print(df)

# Rellenar valores faltantes en la columna Profesión con la moda
moda = df['Profesión'].mode()[0]
df['Profesión'] = df['Profesión'].fillna(moda)
print(df)


  Nombre  Edad  Profesión  Ingreso  Género
0   Juan  30.0  Ingeniero  40000.0  Hombre
1  María   NaN    Doctora  50000.0   Mujer
2  Pedro  28.0        NaN  30000.0  Hombre
3    Ana  35.0    Abogada      NaN   Mujer
4  Luisa   NaN        NaN  45000.0   Mujer
  Nombre  Edad  Profesión  Ingreso  Género
0   Juan  30.0  Ingeniero  40000.0  Hombre
1  María   NaN    Doctora  50000.0   Mujer
2  Pedro  28.0    Abogada  30000.0  Hombre
3    Ana  35.0    Abogada      NaN   Mujer
4  Luisa   NaN    Abogada  45000.0   Mujer


En este ejemplo, se utiliza la función ```mode()``` de Pandas para calcular la moda de la columna Profesión y se utiliza la función ```fillna()``` para rellenar los valores faltantes en la columna Profesión con la moda. Se debe tener en cuenta que la función ```mode()``` puede devolver varios valores si hay varios valores que aparecen con la misma frecuencia, por lo que es necesario seleccionar uno de los valores devueltos, por ejemplo, con el índice ```[0]```.

| **Inicio** | **atrás 42** | **Siguiente 44** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./42.Regresion_Lineal.ipynb)| [⏩](./44.Affinity_Propagation.ipynb)|