# Parte 1: Introducción al Análisis Exploratorio de Datos (EDA) #

El EDA es el proceso de analizar y resumir conjuntos de datos para descubrir patrones, detectar anomalías y verificar suposiciones.

### Objetivos clave del EDA ###

1. **Entender la estructura de los datos**: Obtén una idea de los tipos de datos y las distribuciones
2. **Detectar problemas de calidad de los datos**: Identifica valores faltantes, duplicados y outliers.
3. **Generar hipótesis**: Forma ideas para un análisis posterior.

### Herramientas para el EDA ###

 - Bibliotecas de Python como **Pandas, Matplotlib, y Seaborn** son comúnmente usadas.
 - Visualizar datos mediante gráficos (histogramas, diagramas de caja, gráficos de dispersión) ayuda a entender la estructura.

# Parte 2: Guía práctica del EDA #

Cargar e inspeccionar los datos:

 **1. Cargar datos con Pandas:**

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("C:/Users/lalde/Downloads/heart-disease.csv")

 **2. Obtener una vista rápida:**

In [None]:
#Muestra la primeras filas
df.head()

In [None]:
#Obtener la forma del conjunto de datos (filas y columnas)
df.shape

In [None]:
#Obtener tipos de datos:
df.info()

In [None]:
#Resumir datos numéricos
df.describe()

### Visualización de datos: ###

1. **Histogramas** (para distribución de datos numéricos):

In [None]:
import matplotlib.pyplot as plt
df['age'].hist(bins=20)
plt.title('Distribución de la edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

2. **Boxplot** (para detectar outliers en un atributo):

In [None]:
import seaborn as sns
sns.boxplot(df['chol'])
plt.title('Colesterol')
plt.show()

3. **Mapa de Calor de Correlación** (para identificar relaciones entre las variables):

In [None]:
plt.figure(figsize=(12, 10))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Correlation Heatmap')
plt.tight_layout()
plt.show()

# Parte 3: Limpieza de Datos #

Problemas Comunes a Abordar:

1. **Datos Faltantes**

In [None]:
#Identificar valores faltantes
df.isnull().sum()

In [None]:
#Eliminar filas o columnas con valores faltantes
df.dropna(inplace=True)

In [None]:
#Rellenar valores faltantes con la media o mediana
df['chol'].fillna(df['chol'].mean(), inplace=True)

2. **Manejo de duplicadas:**

In [None]:
#Eliminar filas duplicadas:
df.drop_duplicates(inplace=True)

3. **Outliers**:

Un outlier (valor atípico) es un dato que se encuentra significativamente alejado de la mayoría de los valores en un conjunto de datos. Puede ser mucho más grande o mucho más pequeño que los otros valores, lo que lo hace sobresalir del resto. Los outliers pueden surgir por diversas razones, como errores en la recolección de datos, entradas incorrectas o fenómenos inusuales en los datos que no siguen las tendencias esperadas.

In [None]:
#Detectar y manejar outliers usando el método del Rango Intercuartil (IQR)
Q1 = df['chol'].quantile(0.25)
Q3 = df['chol'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['chol'] < (Q1 - 1.5 * IQR)) | (df['chol'] > (Q3 + 1.5 * IQR)))]

# Parte 4: Normalización de Datos #

¿Por qué normalizar los datos?

La normalización es crucial cuando se tienen atributos con diferentes escalas, como edad y colesterol. La normalización coloca estos valores en una misma escala, lo que facilita el proceso de modelado.

### Métodos de Normalización: ###

1. **Escalado Min-Max**

Este método ajusta los valores de los datos para que se encuentren en un rango específico, generalmente entre 0 y 1. Se utiliza cuando los datos tienen diferentes rangos y es necesario llevarlos a una escala común.

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[['age', 'chol']] = scaler.fit_transform(df[['age', 'chol']])

 2. **Estandarización**

La estandarización transforma los datos para que tengan una media de 0 y una desviación estándar de 1. Es decir, ajusta los datos para que sigan una distribución normal estándar. Esto es importante cuando los modelos de machine learning requieren que las características tengan una distribución más cercana a la normalidad.

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['age', 'chol']] = scaler.fit_transform(df[['age', 'chol']])

3. **Transformación Logarítmica** (para datos sesgados como los niveles de colesterol):

La transformación logarítmica se utiliza para manejar distribuciones asimétricas o sesgadas (skewed data), como puede ser el caso de los niveles de colesterol, donde algunos valores son extremadamente grandes en comparación con otros.

In [None]:
import numpy as np
df['chol'] = np.log(df['chol'] + 1)

**np.log()**: Aplica el logaritmo natural a cada valor de la columna chol, lo cual reduce el impacto de los valores extremadamente grandes y aproxima la distribución a una curva más normal.
 - +1: Se agrega 1 para evitar problemas con valores de 0, ya que el logaritmo de 0 no está definido.

# Parte 5: Ejercicio Práctico #

1. Busca una base de datos que te interesa. Los datos tienen que estar cargados  en formato .csv (Excel)
2. Cargar el dataset
3. Realizar un EDA completo
   - Usar .head(), .describe(), .info() para explorar los datos
   - Visualizar distribuciones usando histogramas y diagramas de caja
   - Detectar correlaciones entre las variables
4. Identificar y manejar datos faltantes, duplicados, y outliers
5. Normalizar los datos usando escalado Min-Max o estandarización

### Resumen y Buenas Prácticas ###

- **Siempre explora tus datos** antes de entrenar cualquier modelo
- **Visualiza patrones** en los datos para obtener información útil
- **Limpieza de datos**: los datos sucios afectan el rendimiento del modelo.
- **Normalización** es importante cuando las variables tienen diferentes escalas.