<a href="https://colab.research.google.com/github/s110/Data-Discovery/blob/main/modulo3_manipulacion_datos_faltantes/identificacion_de_missings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://posgrado.utec.edu.pe/sites/default/files/2023-08/Testimonial-home-2.jpg" alt="HTML5 Icon" width="900" height="250" >


# **Identificación y Cuantificación de Missings**

---

**Objetivos**

- Detectar y cuantificar valores faltantes en un conjunto de datos.

- Visualizar patrones de omisión de datos.

- Interpretar los resultados para tomar decisiones informadas sobre el tratamiento de los valores faltantes.

**Dataset Utilizado**

Utilizaremos el dataset "Loan Prediction Problem Dataset" de Analytics Vidhya, que contiene información sobre solicitudes de préstamos y presenta valores faltantes reales.
Analytics Vidhya

Descargar el dataset desde: Loan Prediction Dataset



Asegúrate de tener instaladas las siguientes librerías:

In [None]:
!pip install pandas numpy matplotlib seaborn missingno

### 1. Importar Librerías y Cargar el Dataset


In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import missingno as msno

# Cargar el dataset
df = pd.read_csv("train.csv")  # Asegúrate de que el archivo esté en tu directorio de trabajo


### 2. Exploración Inicial

In [None]:
# Dimensiones del dataset
print(f"El dataset contiene {df.shape[0]} filas y {df.shape[1]} columnas.")

# Tipos de datos y conteo de valores no nulos
df.info()

### 3. Cuantificación de Valores Faltantes

In [None]:
# Porcentaje de valores faltantes por variable
missing_percent = df.isnull().mean().sort_values(ascending=False) * 100
missing_percent = missing_percent[missing_percent > 0]

# Visualización de los valores faltantes
plt.figure(figsize=(8,4))
sns.barplot(x=missing_percent.values, y=missing_percent.index, palette="viridis")
plt.title("Porcentaje de Valores Faltantes por Variable")
plt.xlabel("Porcentaje de Valores Faltantes")
plt.ylabel("Variables")
plt.show()


### 4. Visualización de Patrones de Valores Faltantes

In [None]:
# Matriz de valores faltantes
msno.matrix(df)
plt.show()

# Mapa de calor de correlaciones de omisión
msno.heatmap(df)
plt.show()

# Dendrograma para agrupar variables con patrones similares de omisión
msno.dendrogram(df)
plt.show()


### 5. Análisis de Filas con Múltiples Valores Faltantes

In [None]:
# Conteo de valores faltantes por fila
df['Missing_Count'] = df.isnull().sum(axis=1)

# Visualización de la distribución de valores faltantes por fila
plt.figure(figsize=(8, 4))
sns.histplot(df['Missing_Count'], bins=range(0, df['Missing_Count'].max()+1), kde=False, color='steelblue')
plt.title("Distribución de Valores Faltantes por Fila")
plt.xlabel("Cantidad de Valores Faltantes")
plt.ylabel("Número de Filas")
plt.show()


### Reflexión y Discusión

- ¿Qué variables presentan el mayor porcentaje de valores faltantes?

- ¿Existen patrones en los valores faltantes que sugieran una relación entre variables?

- ¿Es apropiado eliminar filas o columnas con muchos valores faltantes, o es preferible imputarlos?

- ¿Qué técnicas de imputación serían más adecuadas para este dataset?

### Conclusión

Este laboratorio proporciona una guía práctica para la identificación y cuantificación de valores faltantes en un dataset real. Al aplicar estas técnicas, podrás tomar decisiones informadas sobre cómo manejar los valores faltantes y preparar tus datos para análisis posteriores o modelado predictivo.

---

# Gracias por completar este laboratorio!

---
