| **Inicio** | **atrás 6** | **Siguiente 8** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./6_Visualizacion_de_Datos.ipynb)| [⏩](./8_Procesamiento_de_Datos_Numpy.ipynb)|

# **7. Imputación (o Manejo de Datos Faltantes) con Python**

## **Problemática de los valores faltantes**

La problemática de los valores faltantes, también conocidos como valores nulos o valores ausentes, es una situación común en el análisis de datos donde algunos elementos de un conjunto de datos no tienen un valor válido o están ausentes. Estos valores faltantes pueden ser el resultado de diversos factores, como errores en la recopilación de datos, fallos en la medición, información incompleta o simplemente la falta de disponibilidad de datos en ciertas observaciones. La presencia de valores faltantes puede tener un impacto significativo en el análisis de datos, ya que puede llevar a interpretaciones erróneas o a resultados inexactos si no se manejan adecuadamente. A continuación, te proporcionaré una explicación detallada junto con un ejemplo de la problemática de los valores faltantes.

**Ejemplo: Registro de Temperaturas Diarias**

Supongamos que tienes un conjunto de datos que registra las temperaturas diarias durante un mes. Sin embargo, algunos días no se registraron temperaturas debido a problemas técnicos con los sensores. Esta es una situación típica que puede resultar en valores faltantes en tus datos.

**Impacto de los Valores Faltantes:**

1. **Análisis Incorrecto:** Si no se manejan adecuadamente, los valores faltantes pueden llevar a un análisis incorrecto o sesgado. Por ejemplo, calcular el promedio de temperaturas sin manejar los valores faltantes resultaría en un promedio incorrecto.

2. **Perdida de Información:** Si decides eliminar todas las filas con valores faltantes, puedes perder información valiosa de otras columnas relacionadas.

3. **Modelado Incorrecto:** Si estás construyendo modelos predictivos o analizando tendencias, los valores faltantes pueden llevar a modelos incorrectos o sesgados.

**Cómo Manejar Valores Faltantes:**

1. **Eliminar Valores Faltantes:** Si la cantidad de valores faltantes es pequeña en comparación con el tamaño total de tus datos, podrías optar por eliminar esas filas o columnas. Sin embargo, esto solo es aconsejable si la pérdida de datos no es significativa.

2. **Imputación:** La imputación implica estimar valores para los datos faltantes en función de los datos disponibles. Puedes usar técnicas como reemplazar los valores faltantes con la media, la mediana o valores calculados de manera más avanzada.

3. **Métodos de Modelado:** Algunos modelos pueden manejar automáticamente los valores faltantes. Por ejemplo, los árboles de decisión pueden hacer divisiones basadas en los valores disponibles.

**Ejemplo de Código en Python:**

In [1]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores faltantes
data = {'dias': ['2023-08-01', '2023-08-02', '2023-08-03'],
        'temperaturas': [32.5, np.nan, 30.0]}
df = pd.DataFrame(data)

# Manejar los valores faltantes calculando la mediana
mediana_temperaturas = df['temperaturas'].median()
df['temperaturas'].fillna(mediana_temperaturas, inplace=True)

print(df)

         dias  temperaturas
0  2023-08-01         32.50
1  2023-08-02         31.25
2  2023-08-03         30.00


En este ejemplo, se calcula la mediana de las temperaturas y se utiliza para llenar el valor faltante en el DataFrame.

Recuerda que manejar los valores faltantes de manera adecuada es esencial para obtener resultados precisos en tu análisis. La estrategia a seguir dependerá del contexto y de la cantidad de valores faltantes en tus datos.

## **Archivo con valores faltantes**

Manejar archivos con valores faltantes es una parte esencial del análisis de datos. Cuando trabajas con conjuntos de datos reales, es muy común encontrarse con valores nulos o faltantes en los datos. En Python, la biblioteca Pandas proporciona herramientas poderosas para cargar, limpiar y manejar datos con valores faltantes. Aquí te proporcionaré una explicación detallada junto con un ejemplo de cómo manejar un archivo CSV con valores faltantes utilizando Pandas.

**Paso 1: Importar la Biblioteca Pandas**

Comenzamos importando la biblioteca Pandas para poder utilizar sus funciones y métodos para manejar los valores faltantes.


In [2]:
import pandas as pd

**Paso 2: Cargar el Archivo CSV con Valores Faltantes**

Supongamos que tienes un archivo CSV llamado "datos.csv" con información sobre ventas mensuales que contiene algunos valores faltantes. Puedes cargar el archivo utilizando la función `pd.read_csv()` de Pandas.

In [None]:
# Cargar el archivo CSV
archivo_csv = 'datos.csv'
df = pd.read_csv(archivo_csv)

**Paso 3: Identificar Valores Faltantes**

Después de cargar el archivo, puedes usar el método `isna()` para identificar los valores faltantes en el DataFrame.

In [None]:
# Identificar valores faltantes
valores_faltantes = df.isna().sum()
print(valores_faltantes)

**Paso 4: Manejar Valores Faltantes**

Pandas ofrece varias formas de manejar valores faltantes:

- Eliminar filas o columnas con valores faltantes utilizando el método `dropna()`.
- Llenar los valores faltantes con un valor específico utilizando el método `fillna()`.
- Imputar valores faltantes basados en estrategias como la media, mediana o valores interpolados.

A continuación, te muestro cómo llenar los valores faltantes con la media en una columna específica:

In [None]:
# Llenar valores faltantes con la media de la columna 'ventas'
media_ventas = df['ventas'].mean()
df['ventas'].fillna(media_ventas, inplace=True)

**Paso 5: Guardar los Datos Limpios en un Nuevo Archivo**

Después de manejar los valores faltantes, puedes guardar los datos limpios en un nuevo archivo utilizando el método `to_csv()`.

In [None]:
# Guardar los datos limpios en un nuevo archivo CSV
archivo_csv_limpios = 'datos_limpios.csv'
df.to_csv(archivo_csv_limpios, index=False)

**Ejemplo Completo:**

In [None]:
import pandas as pd

# Cargar el archivo CSV
archivo_csv = 'datos.csv'
df = pd.read_csv(archivo_csv)

# Identificar valores faltantes
valores_faltantes = df.isna().sum()
print("Valores faltantes por columna:")
print(valores_faltantes)

# Llenar valores faltantes con la media de la columna 'ventas'
media_ventas = df['ventas'].mean()
df['ventas'].fillna(media_ventas, inplace=True)

# Guardar los datos limpios en un nuevo archivo CSV
archivo_csv_limpios = 'datos_limpios.csv'
df.to_csv(archivo_csv_limpios, index=False)

print("Datos limpios guardados en:", archivo_csv_limpios)

Manejar valores faltantes es una habilidad clave en el análisis de datos. Recuerda que las estrategias de manejo de valores faltantes pueden variar según el contexto y los objetivos del análisis.

## **Valores nulos NaN**

¡Correcto! Los valores nulos en Pandas se representan comúnmente como "NaN", que significa "Not a Number". Estos valores NaN se utilizan para indicar la ausencia de un valor válido en una celda o una observación en un conjunto de datos. Cuando trabajas con archivos CSV u otros formatos de datos, los valores faltantes a menudo se codifican como NaN.

Pandas proporciona métodos específicos para manejar valores nulos NaN en tus datos. Aquí hay un ejemplo de cómo lidiar con valores NaN en un DataFrame utilizando Pandas:

**Ejemplo: Manejo de Valores NaN en un DataFrame**

Supongamos que tienes un DataFrame llamado `df` con algunos valores NaN en una columna llamada "ventas". Aquí te muestro cómo puedes manejar esos valores NaN utilizando Pandas:

In [3]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores NaN
data = {'mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'],
        'ventas': [1000, np.nan, 1500, 1200, np.nan]}
df = pd.DataFrame(data)

# Identificar valores NaN
valores_nulos = df.isna()
print("Valores nulos en el DataFrame:")
print(valores_nulos)

# Llenar valores NaN con cero
df['ventas'].fillna(0, inplace=True)

# Mostrar el DataFrame modificado
print("DataFrame después de llenar valores NaN:")
print(df)

Valores nulos en el DataFrame:
     mes  ventas
0  False   False
1  False    True
2  False   False
3  False   False
4  False    True
DataFrame después de llenar valores NaN:
       mes  ventas
0    Enero  1000.0
1  Febrero     0.0
2    Marzo  1500.0
3    Abril  1200.0
4     Mayo     0.0


En este ejemplo, primero se crea un DataFrame con algunos valores NaN en la columna "ventas". Luego, se utilizan los métodos `isna()` para identificar los valores NaN y `fillna()` para llenarlos con cero. Esto es solo un ejemplo básico; hay varias formas de manejar valores NaN según tus necesidades y el contexto de tus datos.

Recuerda que el manejo de valores nulos es crucial para asegurarte de que tus análisis sean precisos y significativos. Pandas ofrece varias herramientas y métodos para tratar con valores NaN de manera efectiva en tus conjuntos de datos.

## **Cómo quitar registros con valores faltantes**

Puedes eliminar registros (filas) que contengan valores faltantes en Pandas utilizando el método `dropna()`. Este método elimina cualquier fila que tenga al menos un valor nulo (NaN) en cualquiera de sus columnas. Aquí te proporciono un ejemplo de cómo puedes quitar registros con valores faltantes de un DataFrame en Pandas:

**Ejemplo: Eliminar Registros con Valores Faltantes**

Supongamos que tienes un DataFrame llamado `df` con algunos valores nulos en diferentes columnas. Aquí te muestro cómo puedes eliminar las filas que contienen valores nulos:

In [4]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores faltantes
data = {'mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'],
        'ventas': [1000, np.nan, 1500, np.nan, 1200],
        'gastos': [800, 900, np.nan, 1100, 1000]}
df = pd.DataFrame(data)

# Eliminar registros con valores faltantes
df_sin_faltantes = df.dropna()

# Mostrar el DataFrame sin registros con valores faltantes
print("DataFrame sin registros con valores faltantes:")
print(df_sin_faltantes)

DataFrame sin registros con valores faltantes:
     mes  ventas  gastos
0  Enero  1000.0   800.0
4   Mayo  1200.0  1000.0


En este ejemplo, el método `dropna()` se aplica al DataFrame `df`, y se crea un nuevo DataFrame `df_sin_faltantes` que contiene solo las filas sin valores faltantes. El resultado será un DataFrame que excluye las filas que contienen al menos un valor nulo.

Recuerda que al eliminar registros con valores faltantes, estás eliminando información del conjunto de datos, por lo que debes considerar si esta es la mejor estrategia para tu análisis. La eliminación de registros puede ser útil cuando los valores faltantes son pocos en comparación con el tamaño total del conjunto de datos y no afectan significativamente tus resultados.

## **Cómo reemplazar valores faltantes con valores por defecto**

Puedes reemplazar los valores faltantes en Pandas con valores por defecto utilizando el método `fillna()`. Este método te permite especificar el valor que deseas usar para reemplazar los valores nulos (NaN) en el DataFrame. A continuación, te proporciono un ejemplo de cómo puedes reemplazar valores faltantes con valores por defecto en un DataFrame en Pandas:

**Ejemplo: Reemplazar Valores Faltantes con Valores por Defecto**

Supongamos que tienes un DataFrame llamado `df` con algunas columnas que contienen valores nulos. Aquí te muestro cómo puedes reemplazar los valores nulos con valores por defecto:

In [5]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores faltantes
data = {'mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'],
        'ventas': [1000, np.nan, 1500, np.nan, 1200],
        'gastos': [800, 900, np.nan, 1100, 1000]}
df = pd.DataFrame(data)

# Reemplazar valores faltantes con valores por defecto
valor_por_defecto_ventas = 0
valor_por_defecto_gastos = 0
df['ventas'].fillna(valor_por_defecto_ventas, inplace=True)
df['gastos'].fillna(valor_por_defecto_gastos, inplace=True)

# Mostrar el DataFrame con valores faltantes reemplazados
print("DataFrame con valores faltantes reemplazados:")
print(df)

DataFrame con valores faltantes reemplazados:
       mes  ventas  gastos
0    Enero  1000.0   800.0
1  Febrero     0.0   900.0
2    Marzo  1500.0     0.0
3    Abril     0.0  1100.0
4     Mayo  1200.0  1000.0


En este ejemplo, se utiliza el método `fillna()` para reemplazar los valores faltantes en las columnas "ventas" y "gastos" con los valores por defecto especificados.

Recuerda que elegir valores por defecto adecuados es importante, ya que estos valores reemplazarán los valores faltantes en tus análisis. La elección del valor por defecto dependerá del contexto de tus datos y de cómo quieras manejar los valores faltantes en tus análisis.

## **Cómo reemplazar valores faltantes con el promedio, mediana y/o moda**

Puedes reemplazar valores faltantes en Pandas con medidas estadísticas como el promedio, la mediana y la moda utilizando el método `fillna()`. Estas medidas te permiten llenar los valores faltantes con estimaciones basadas en los valores disponibles en tus datos. A continuación, te proporciono ejemplos de cómo reemplazar valores faltantes con el promedio, la mediana y la moda en un DataFrame en Pandas:

**Ejemplo: Reemplazar Valores Faltantes con el Promedio, Mediana y Moda**

Supongamos que tienes un DataFrame llamado `df` con algunas columnas que contienen valores nulos. Aquí te muestro cómo puedes reemplazar los valores nulos con el promedio, la mediana y la moda de cada columna:

In [6]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores faltantes
data = {'mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'],
        'ventas': [1000, np.nan, 1500, np.nan, 1200],
        'gastos': [800, 900, np.nan, 1100, 1000]}
df = pd.DataFrame(data)

# Reemplazar valores faltantes con el promedio de la columna 'ventas'
promedio_ventas = df['ventas'].mean()
df['ventas'].fillna(promedio_ventas, inplace=True)

# Reemplazar valores faltantes con la mediana de la columna 'gastos'
mediana_gastos = df['gastos'].median()
df['gastos'].fillna(mediana_gastos, inplace=True)

# Reemplazar valores faltantes con la moda de la columna 'mes'
moda_mes = df['mes'].mode()[0]
df['mes'].fillna(moda_mes, inplace=True)

# Mostrar el DataFrame con valores faltantes reemplazados
print("DataFrame con valores faltantes reemplazados:")
print(df)

DataFrame con valores faltantes reemplazados:
       mes       ventas  gastos
0    Enero  1000.000000   800.0
1  Febrero  1233.333333   900.0
2    Marzo  1500.000000   950.0
3    Abril  1233.333333  1100.0
4     Mayo  1200.000000  1000.0


En este ejemplo:

- Se reemplazan los valores faltantes en la columna "ventas" con el promedio de esa columna.
- Se reemplazan los valores faltantes en la columna "gastos" con la mediana de esa columna.
- Se reemplazan los valores faltantes en la columna "mes" con la moda de esa columna.

Recuerda que el reemplazo de valores faltantes con medidas estadísticas es una estrategia común para llenar los vacíos en tus datos. Sin embargo, debes considerar si estas medidas son adecuadas para tu conjunto de datos y si reflejan fielmente la realidad de los valores faltantes.

| **Inicio** | **atrás 6** | **Siguiente 8** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./6_Visualizacion_de_Datos.ipynb)| [⏩](./8_Procesamiento_de_Datos_Numpy.ipynb)|