<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-4/analisis_datos_valores_perdidos_outliers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📘 Análisis de Datos: Valores Faltantes y Outliers

Este notebook explora conceptos fundamentales para el análisis de datos, incluyendo la detección y tratamiento de valores faltantes y valores atípicos (outliers).


## 1. Introducción al análisis de datos

El análisis de datos es una herramienta clave en la toma de decisiones dentro de una organización. Permite extraer información útil, descubrir patrones y respaldar decisiones estratégicas.

**Problemas comunes:**
- Valores faltantes
- Datos incorrectos o inconsistentes
- Outliers (valores atípicos)


## 2. Valores Perdidos

### ¿Qué son?
Observaciones sin información en una o varias variables, generadas por errores en la recolección, almacenamiento o captura de datos.


### 2.1 Identificación de valores perdidos

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar dataset de ejemplo
df = sns.load_dataset('titanic')

# Resumen general
df.info()

# Cantidad de valores nulos por columna
print(df.isnull().sum())

# Visualización con heatmap
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title("Mapa de valores faltantes")
plt.show()


### 2.2 Filtrado de valores perdidos

In [None]:
# Eliminar filas con valores faltantes
df_dropna = df.dropna()

# Eliminar columnas con demasiados valores nulos
df_thresh = df.dropna(axis=1, thresh=500)

df_dropna.head()

### 2.3 Imputación de valores perdidos

In [None]:
# Imputación numérica con la media
df['age'] = df['age'].fillna(df['age'].mean())

# Imputación categórica con la moda
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

df[['age', 'embarked']].isnull().sum()

## 3. Outliers o Valores Atípicos

### ¿Qué son?
Valores que están significativamente alejados del resto de los datos y pueden afectar el análisis.


### 3.1 Detección de Outliers

In [None]:
# Boxplot para detectar outliers
sns.boxplot(x=df['fare'])
plt.title("Boxplot de tarifas (fare)")
plt.show()

In [None]:
# Método IQR
Q1 = df['fare'].quantile(0.25)
Q3 = df['fare'].quantile(0.75)
IQR = Q3 - Q1

lim_inf = Q1 - 1.5 * IQR
lim_sup = Q3 + 1.5 * IQR

outliers = df[(df['fare'] < lim_inf) | (df['fare'] > lim_sup)]
print(f"Número de outliers: {outliers.shape[0]}")


### 3.2 Tratamiento de Outliers

In [None]:
# Opción 1: Eliminarlos
df_no_outliers = df[(df['fare'] >= lim_inf) & (df['fare'] <= lim_sup)]

# Opción 2: Reemplazarlos
df['fare'] = df['fare'].apply(lambda x: df['fare'].median() if x > lim_sup else x)

## 4. Ejercicios

1. Cargar el dataset `penguins` de seaborn y detectar valores perdidos.
2. Imputar la edad faltante del dataset Titanic con la mediana.
3. Eliminar outliers de la columna `fare` usando el método IQR.
