<a href="https://colab.research.google.com/github/William-Burbano-Lima/Analisis_Datos-Integrador/blob/main/EDA_TITANIC_25_03_25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **üìä An√°lisis Exploratorio de Datos (EDA) con Python**  

El **An√°lisis Exploratorio de Datos (EDA)** es una etapa clave en la ciencia de datos que permite comprender la estructura de los datos, detectar patrones, identificar valores at√≠picos y encontrar relaciones entre variables antes de aplicar modelos.  

---

### **1Ô∏è‚É£ Cargar los Datos**
üìå **Librer√≠as clave**: `pandas`, `numpy`, `seaborn`, `matplotlib`

```python
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar un dataset de ejemplo (Titanic)
df = sns.load_dataset("titanic")
```

---

### **2Ô∏è‚É£ Explorar la Estructura de los Datos**
‚úîÔ∏è **Ver las primeras y √∫ltimas filas**  

```python
df.head()  # Primeras 5 filas
df.tail()  # √öltimas 5 filas
```

‚úîÔ∏è **Tama√±o del dataset (filas y columnas)**  

```python
df.shape  # (filas, columnas)
```

‚úîÔ∏è **Tipos de datos de cada columna**  

```python
df.info()
```

‚úîÔ∏è **Resumen estad√≠stico de los datos num√©ricos**  

```python
df.describe()
```

‚úîÔ∏è **Resumen de datos categ√≥ricos**  

```python
df.describe(include="object")
```

---

### **3Ô∏è‚É£ Identificar Valores Nulos y Duplicados**
‚úîÔ∏è **Revisar valores nulos en cada columna**  

```python
df.isnull().sum()
```

‚úîÔ∏è **Eliminar filas o columnas con muchos valores nulos**  

```python
df.dropna(axis=0, inplace=True)  # Elimina filas con valores nulos
```

‚úîÔ∏è **Reemplazar valores nulos con la mediana o moda**  

```python
df["edad"].fillna(df["edad"].median(), inplace=True)  # Reemplazar con la mediana
```

‚úîÔ∏è **Verificar valores duplicados**  

```python
df.duplicated().sum()  # N√∫mero de filas duplicadas
df.drop_duplicates(inplace=True)  # Eliminar duplicados
```

---

### **4Ô∏è‚É£ An√°lisis de Distribuci√≥n de Datos**
‚úîÔ∏è **Histograma de una variable num√©rica**  

```python
plt.hist(df["edad"].dropna(), bins=20, edgecolor="black")
plt.title("Distribuci√≥n de edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()
```

‚úîÔ∏è **Boxplot para identificar valores at√≠picos**  

```python
sns.boxplot(x=df["edad"])
```

‚úîÔ∏è **Gr√°fico de barras para variables categ√≥ricas**  

```python
sns.countplot(x=df["clase"])
```

---

### **5Ô∏è‚É£ Relaci√≥n entre Variables**
‚úîÔ∏è **Correlaci√≥n entre variables num√©ricas**  

```python
corr = df.corr()
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
```

‚úîÔ∏è **Diagrama de dispersi√≥n (scatter plot) entre dos variables num√©ricas**  

```python
sns.scatterplot(x=df["edad"], y=df["tarifa"])
```

‚úîÔ∏è **Boxplot para ver la distribuci√≥n de una variable num√©rica por categor√≠a**  

```python
sns.boxplot(x=df["clase"], y=df["edad"])
```

‚úîÔ∏è **Gr√°fico de pares (Pairplot) para ver relaciones entre variables**  

```python
sns.pairplot(df[["edad", "tarifa", "sobrevivio"]])
```

---

### **6Ô∏è‚É£ Detecci√≥n de Valores At√≠picos**
‚úîÔ∏è **M√©todo de Rango Intercuart√≠lico (IQR)**  

```python
Q1 = df["edad"].quantile(0.25)
Q3 = df["edad"].quantile(0.75)
IQR = Q3 - Q1

# Definir l√≠mites para detectar valores at√≠picos
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrar valores at√≠picos
outliers = df[(df["edad"] < limite_inferior) | (df["edad"] > limite_superior)]
print(outliers)
```

‚úîÔ∏è **Eliminar valores at√≠picos**  

```python
df = df[(df["edad"] >= limite_inferior) & (df["edad"] <= limite_superior)]
```

---

### **7Ô∏è‚É£ Conclusiones del An√°lisis**
Despu√©s del EDA, podemos responder preguntas como:
‚úÖ ¬øHay valores nulos o duplicados que afecten el an√°lisis?  
‚úÖ ¬øQu√© variables est√°n correlacionadas?  
‚úÖ ¬øExisten valores at√≠picos que deban tratarse?  
‚úÖ ¬øC√≥mo se distribuyen los datos?  
‚úÖ ¬øQu√© patrones se pueden observar?

---

### üéØ **¬øQu√© sigue despu√©s del EDA?**
üîπ **Limpieza y transformaci√≥n de datos** (normalizaci√≥n, escalado, codificaci√≥n de variables categ√≥ricas).  
üîπ **Creaci√≥n de nuevas caracter√≠sticas (Feature Engineering)**.  
üîπ **Construcci√≥n de modelos de Machine Learning**.

---
