<a href="https://colab.research.google.com/github/William-Burbano-Lima/Analisis_Datos-Integrador/blob/main/EDA_TITANIC_25_03_25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **📊 Análisis Exploratorio de Datos (EDA) con Python**  

El **Análisis Exploratorio de Datos (EDA)** es una etapa clave en la ciencia de datos que permite comprender la estructura de los datos, detectar patrones, identificar valores atípicos y encontrar relaciones entre variables antes de aplicar modelos.  

---

### **1️⃣ Cargar los Datos**
📌 **Librerías clave**: `pandas`, `numpy`, `seaborn`, `matplotlib`

```python
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar un dataset de ejemplo (Titanic)
df = sns.load_dataset("titanic")
```

---

### **2️⃣ Explorar la Estructura de los Datos**
✔️ **Ver las primeras y últimas filas**  

```python
df.head()  # Primeras 5 filas
df.tail()  # Últimas 5 filas
```

✔️ **Tamaño del dataset (filas y columnas)**  

```python
df.shape  # (filas, columnas)
```

✔️ **Tipos de datos de cada columna**  

```python
df.info()
```

✔️ **Resumen estadístico de los datos numéricos**  

```python
df.describe()
```

✔️ **Resumen de datos categóricos**  

```python
df.describe(include="object")
```

---

### **3️⃣ Identificar Valores Nulos y Duplicados**
✔️ **Revisar valores nulos en cada columna**  

```python
df.isnull().sum()
```

✔️ **Eliminar filas o columnas con muchos valores nulos**  

```python
df.dropna(axis=0, inplace=True)  # Elimina filas con valores nulos
```

✔️ **Reemplazar valores nulos con la mediana o moda**  

```python
df["edad"].fillna(df["edad"].median(), inplace=True)  # Reemplazar con la mediana
```

✔️ **Verificar valores duplicados**  

```python
df.duplicated().sum()  # Número de filas duplicadas
df.drop_duplicates(inplace=True)  # Eliminar duplicados
```

---

### **4️⃣ Análisis de Distribución de Datos**
✔️ **Histograma de una variable numérica**  

```python
plt.hist(df["edad"].dropna(), bins=20, edgecolor="black")
plt.title("Distribución de edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()
```

✔️ **Boxplot para identificar valores atípicos**  

```python
sns.boxplot(x=df["edad"])
```

✔️ **Gráfico de barras para variables categóricas**  

```python
sns.countplot(x=df["clase"])
```

---

### **5️⃣ Relación entre Variables**
✔️ **Correlación entre variables numéricas**  

```python
corr = df.corr()
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
```

✔️ **Diagrama de dispersión (scatter plot) entre dos variables numéricas**  

```python
sns.scatterplot(x=df["edad"], y=df["tarifa"])
```

✔️ **Boxplot para ver la distribución de una variable numérica por categoría**  

```python
sns.boxplot(x=df["clase"], y=df["edad"])
```

✔️ **Gráfico de pares (Pairplot) para ver relaciones entre variables**  

```python
sns.pairplot(df[["edad", "tarifa", "sobrevivio"]])
```

---

### **6️⃣ Detección de Valores Atípicos**
✔️ **Método de Rango Intercuartílico (IQR)**  

```python
Q1 = df["edad"].quantile(0.25)
Q3 = df["edad"].quantile(0.75)
IQR = Q3 - Q1

# Definir límites para detectar valores atípicos
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrar valores atípicos
outliers = df[(df["edad"] < limite_inferior) | (df["edad"] > limite_superior)]
print(outliers)
```

✔️ **Eliminar valores atípicos**  

```python
df = df[(df["edad"] >= limite_inferior) & (df["edad"] <= limite_superior)]
```

---

### **7️⃣ Conclusiones del Análisis**
Después del EDA, podemos responder preguntas como:
✅ ¿Hay valores nulos o duplicados que afecten el análisis?  
✅ ¿Qué variables están correlacionadas?  
✅ ¿Existen valores atípicos que deban tratarse?  
✅ ¿Cómo se distribuyen los datos?  
✅ ¿Qué patrones se pueden observar?

---

### 🎯 **¿Qué sigue después del EDA?**
🔹 **Limpieza y transformación de datos** (normalización, escalado, codificación de variables categóricas).  
🔹 **Creación de nuevas características (Feature Engineering)**.  
🔹 **Construcción de modelos de Machine Learning**.

---
