# Análisis de Datos Faltantes en un DataFrame

Este notebook presenta diferentes técnicas para manejar valores faltantes en un DataFrame utilizando la biblioteca `pandas` y `scikit-learn`. Se explorarán métodos como eliminación de filas/columnas, reemplazo con valores constantes, media, interpolación y técnicas de imputación más avanzas.

#### <font color='orange'>Explicación del Código:
- Carga del conjunto de datos: Utilizamos pd.read_csv() para cargar el conjunto de datos Titanic desde un archivo CSV.
- Comprobación de valores faltantes: Usamos isnull().sum() para identificar si hay valores faltantes en el DataFrame.
- Eliminación de filas con valores faltantes: En este caso, eliminamos solo las filas donde Age es NaN utilizando dropna().
- Detección de duplicados: Usamos duplicated().sum() para verificar si hay filas duplicadas.
- Eliminación de duplicados: Si hay duplicados, usamos drop_duplicates() para eliminarlos.
- Resumen estadístico: describe() proporciona estadísticas descriptivas del DataFrame.
- Cantidad de sobrevivientes: Verificamos cuántos pasajeros sobrevivieron y cuántos no usando value_counts().
.


In [9]:
# Celda 1: Importar librerías
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer


## Crear un DataFrame de ejemplo

En esta celda, creamos un DataFrame de ejemplo que contiene algunos valores faltantes (NaN).


In [10]:
# Celda 2: Crear un DataFrame de ejemplo con algunos valores faltantes
data = {
    'columna_1': [10, 20, np.nan, 40, 50],
    'columna_2': [np.nan, 1.5, 2.5, np.nan, 4.5],
    'columna_3': [5, np.nan, np.nan, 20, 25]
}

df = pd.DataFrame(data)

# Mostrar el DataFrame original
print("DataFrame original con valores faltantes:\n", df, "\n")


DataFrame original con valores faltantes:
    columna_1  columna_2  columna_3
0       10.0        NaN        5.0
1       20.0        1.5        NaN
2        NaN        2.5        NaN
3       40.0        NaN       20.0
4       50.0        4.5       25.0 



## Eliminación de filas con valores faltantes

En esta celda, eliminamos las filas que contienen cualquier valor faltante.


In [11]:
# Celda 3: Eliminar filas con valores faltantes
df_sin_nan_filas = df.dropna()
print("1. Filas con valores faltantes eliminadas:\n", df_sin_nan_filas, "\n")


1. Filas con valores faltantes eliminadas:
    columna_1  columna_2  columna_3
4       50.0        4.5       25.0 



In [12]:
# Celda 4: Eliminar columnas con valores faltantes
df_sin_nan_columnas = df.dropna(axis=1)
print("2. Columnas con valores faltantes eliminadas:\n", df_sin_nan_columnas, "\n")


2. Columnas con valores faltantes eliminadas:
 Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4] 



## Rellenar valores faltantes con un valor constante

En esta celda, reemplazamos todos los valores faltantes por un valor constante (por ejemplo, 0).


In [13]:
# Celda 5: Rellenar valores faltantes con un valor constante (por ejemplo, 0)
df_rellenado_constante = df.fillna(0)
print("3. Valores faltantes reemplazados por un valor constante (0):\n", df_rellenado_constante, "\n")


3. Valores faltantes reemplazados por un valor constante (0):
    columna_1  columna_2  columna_3
0       10.0        0.0        5.0
1       20.0        1.5        0.0
2        0.0        2.5        0.0
3       40.0        0.0       20.0
4       50.0        4.5       25.0 



## Rellenar valores faltantes con la media de cada columna

Aquí se reemplazan los valores faltantes por la media de cada columna.


In [14]:
# Celda 6: Rellenar valores faltantes con la media de cada columna
df_rellenado_media = df.fillna(df.mean())
print("4. Valores faltantes reemplazados por la media de cada columna:\n", df_rellenado_media, "\n")


4. Valores faltantes reemplazados por la media de cada columna:
    columna_1  columna_2  columna_3
0       10.0   2.833333   5.000000
1       20.0   1.500000  16.666667
2       30.0   2.500000  16.666667
3       40.0   2.833333  20.000000
4       50.0   4.500000  25.000000 



## Rellenar valores faltantes utilizando la interpolación

En esta celda, se utilizan técnicas de interpolación para rellenar los valores faltantes. Este método es especialmente útil en series temporales.


In [15]:
# Celda 7: Rellenar valores faltantes utilizando la interpolación (útil en series temporales)
df_interpolado = df.interpolate(method='linear')
print("5. Valores faltantes rellenados con interpolación lineal:\n", df_interpolado, "\n")


5. Valores faltantes rellenados con interpolación lineal:
    columna_1  columna_2  columna_3
0       10.0        NaN        5.0
1       20.0        1.5       10.0
2       30.0        2.5       15.0
3       40.0        3.5       20.0
4       50.0        4.5       25.0 



## Imputación basada en modelos

Finalmente, aplicamos un enfoque de imputación utilizando `scikit-learn`, que permite rellenar los valores faltantes basado en la media de las columnas.


In [16]:
# Celda 8: Imputación basada en modelos (usando scikit-learn)
# Crear un imputer para rellenar con la media
imputer = SimpleImputer(strategy='mean')

# Aplicar el imputer solo a columnas numéricas
df[['columna_1', 'columna_2', 'columna_3']] = imputer.fit_transform(df[['columna_1', 'columna_2', 'columna_3']])
print("6. Valores faltantes rellenados utilizando la imputación basada en la media:\n", df, "\n")


6. Valores faltantes rellenados utilizando la imputación basada en la media:
    columna_1  columna_2  columna_3
0       10.0   2.833333   5.000000
1       20.0   1.500000  16.666667
2       30.0   2.500000  16.666667
3       40.0   2.833333  20.000000
4       50.0   4.500000  25.000000 



#### <font color='orange'>Después de la Limpieza
- Valores Faltantes:
Se eliminó cualquier fila con valores faltantes en la columna Age. Esto reduce el tamaño del conjunto de datos, pero mejora la calidad de los análisis al asegurarse de que no haya valores NaN que puedan interferir con los cálculos. Alternativamente, si decides imputar los valores faltantes en lugar de eliminarlos, podrías usar la media o mediana de la columna Age, lo que preservaría más datos.

- Duplicados:
Cualquier fila duplicada se ha eliminado, lo que significa que ahora cada entrada es única. Esto proporciona una mejor base para realizar análisis y evita la duplicación en las métricas que se calculan.

- Datos Consistentes:
Después de la limpieza, los nombres de las columnas son consistentes, lo que facilita la manipulación de datos. Ahora puedes usar directamente las columnas para análisis sin preocuparte por errores de sintaxis.
