# Data cleaning and Preparation

## Handling missing data  / Manejo de los datos faltantes

### ¿Que son los datos faltantes?

Son valores que no se registraron, no se midieron, se perdieron o no aplican para una observación. Pasa por mil razones: encuestas sin responder, sensores que fallan, errores humanos, sistemas que no preguntan lo que debían.

### ¿Como se presentan los datos faltantes?

- NULL → el rey del “no hay nada aquí”.

- NaN (Not a Number) → típico en Python, R y Excel para datos numéricos.

- NA → muy usado en R.

### ¿Cuales son los tipos de datos faltantes (Segun el origen o el motivo por el que faltan)?

- MCAR (Missing Completely At Random - Faltantes completamente al azar)
- MAR (Missing At Random - Faltantes al azar condicionado a otras variables)
- MNAR (Missing Not At Random - Faltantes no al azar)

### ¿Cuales son las tecnicas para manejar datos faltantes?

Eliminación por filas (Listwise deletion)
Eliminación por columnas
Imputación simple (rápida, pero ingenua)
Imputación basada en datos (más inteligente)
KNN Imputation
Imputación estadística avanzada
MICE (Multiple Imputation by Chained Equations)


### ¿Que es un algoritmo supervisado y no supervisado?
- Algoritmos supervisados: Se entrenan con datos etiquetados, es decir, datos que ya tienen la respuesta correcta asociada. El objetivo es aprender una función que pueda predecir la etiqueta correcta para nuevos datos.
Ejemplo: 
Clasificación y regresión. (Decision Trees, Random Forest, SVM, Redes Neuronales, etc.)
Ejemplo de uso: Detección de spam, reconocimiento de imágenes, predicción de precios.

- Algoritmos no supervisados: Trabajan con datos no etiquetados. El objetivo es encontrar patrones, estructuras o agrupaciones en los datos sin tener una respuesta correcta predefinida.
Ejemplo:
Clustering y reducción de dimensionalidad. (K-Means, DBSCAN, PCA, etc.)
Ejemplo de uso: Segmentación de clientes, detección de anomalías, análisis exploratorio de datos.


# K-Means Clustering

### ¿Que es K-Means?

K-Means es un algoritmo de aprendizaje no supervisado que agrupa datos en K clusters basándose en la similitud de sus características. El objetivo es minimizar la variabilidad dentro de cada cluster y maximizar la variabilidad entre clusters.

### ¿Para que se usa K-Means?
K-Means se utiliza para:
- Segmentación de clientes
- Agrupación de documentos
- Detección de anomalías
- Compresión de imágenes
- Análisis exploratorio de datos

### ¿Como aplicar K-Means en Python?

```python
from sklearn.cluster import KMeans
# Definir el número de clusters
k = 3
# Crear el modelo K-Means
kmeans = KMeans(n_clusters=k, random_state=42)
# Ajustar el modelo a los datos
kmeans.fit(data)
# Obtener las etiquetas de los clusters
labels = kmeans.labels_
# Obtener los centroides de los clusters
centroids = kmeans.cluster_centers_
``` 

# DBSCAN Clustering

### ¿Que es DBSCAN?

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de clustering basado en densidad que agrupa puntos que están densamente conectados y marca como ruido los puntos que están en regiones de baja densidad.

### ¿Como aplicar DBSCAN en Python?

```python
from sklearn.cluster import DBSCAN
# Definir los parámetros de DBSCAN
epsilon = 0.5  # Distancia máxima entre dos puntos para que se consideren vecinos
min_samples = 5  # Número mínimo de puntos necesarios para formar un cluster
# Crear el modelo DBSCAN
dbscan = DBSCAN(eps=epsilon, min_samples=min_samples)
# Ajustar el modelo a los datos
dbscan.fit(data)
# Obtener las etiquetas de los clusters
labels = dbscan.labels_
```

### ¿Para que se usa DBSCAN?
DBSCAN se utiliza para:
- Detección de anomalías
- Agrupación de datos espaciales
- Análisis de redes sociales
- Segmentación de clientes
- Análisis exploratorio de datos

### ¿Cual es la diferencia entre K-Means y DBSCAN?
- K-Means requiere que el número de clusters (K) sea especificado de antemano, mientras que DBSCAN determina automáticamente el número de clusters basándose en la densidad de los datos.
- K-Means tiende a formar clusters de forma esférica y puede ser sensible a outliers, mientras que DBSCAN puede formar clusters de forma arbitraria y es más robusto frente a outliers.
- K-Means utiliza la media de los puntos para definir el centro del cluster, mientras que DBSCAN utiliza la densidad de puntos para definir los clusters.

### ¿Como idenfico cual usar?
- Si se conoce el número de clusters y los datos son relativamente limpios, K-Means puede ser una buena opción.
- Si los datos contienen ruido o outliers, o si los clusters tienen formas arbitrarias, DBSCAN puede ser más adecuado.

### ¿Como se determina el numero de clusters en K-Means?
- Método del codo (Elbow Method)
- Silhouette Score
- Gap Statistic

### ¿Como se determina el numero de clusters en DBSCAN?
- Parámetro epsilon (ε): Distancia máxima entre dos puntos para que se consideren vecinos
- Parámetro minPts: Número mínimo de puntos necesarios para formar un cluster denso

### ¿Como se determina epsilon y minPts en DBSCAN?
- Epsilon (ε): Se puede determinar utilizando un gráfico de distancia k-vecino (k-distance graph) para identificar un punto de inflexión.
- minPts: Una regla común es establecer minPts al menos igual a la dimensionalidad de los datos más uno (minPts ≥ D + 1).













# PCA (Principal Component Analysis - Análisis de Componentes Principales)

### ¿Que es PCA?

PCA es una técnica estadística que transforma un conjunto de variables posiblemente correlacionadas en un conjunto de variables linealmente no correlacionadas llamadas componentes principales. El objetivo principal de PCA es reducir la dimensionalidad de los datos mientras se conserva la mayor cantidad posible de la variabilidad original.

### ¿Para que se usa PCA?

PCA se utiliza para:
- Reducción de dimensionalidad
- Visualización de datos
- Eliminación de ruido
- Mejora del rendimiento de los modelos de aprendizaje automático
- Identificación de patrones y relaciones en los datos

### ¿Como funciona PCA?
1. Estandarización de los datos
2. Cálculo de la matriz de covarianza
3. Cálculo de los valores y vectores propios
4. Selección de componentes principales
5. Transformación de los datos

### ¿Cuales son las ventajas y desventajas de PCA?
- Ventajas:
  - Reduce la dimensionalidad de los datos, lo que puede mejorar el rendimiento de los modelos.
  - Elimina la multicolinealidad entre variables.
  - Facilita la visualización de datos en espacios de menor dimensión.
- Desventajas:
  - Puede perder información importante si se eliminan demasiadas dimensiones.
  - Los componentes principales pueden ser difíciles de interpretar.
    - Asume relaciones lineales entre variables.

### ¿Cuando usar PCA?
- Cuando se tiene un conjunto de datos con muchas variables y se desea reducir la dimensionalidad.
- Cuando se quiere eliminar la multicolinealidad entre variables.
- Cuando se desea visualizar datos en espacios de menor dimensión.

### ¿Cuales son los pasos para aplicar PCA?
1. Estandarizar los datos.
2. Calcular la matriz de covarianza.
3. Calcular los valores y vectores propios.
4. Seleccionar los componentes principales.
5. Transformar los datos.

### ¿Como elegir el numero de componentes principales?
- Varianza explicada acumulada: Seleccionar el número de componentes que expliquen un porcentaje deseado de la varianza total (por ejemplo, 95%).
- Criterio de Kaiser: Seleccionar componentes con valores propios mayores que 1.
- Gráfico de codo (Scree plot): Identificar el punto donde la varianza explicada comienza a disminuir significativamente.

### ¿Como evaluar la calidad de PCA?
- Varianza explicada: Evaluar cuánto de la variabilidad original de los datos es capturada por los componentes principales seleccionados.
- Visualización: Utilizar gráficos de biplot o scatter plots para visualizar la distribución de los datos en el espacio de los componentes principales.
- Comparación con modelos originales: Evaluar el rendimiento de modelos de aprendizaje automático utilizando los datos transformados por PCA en comparación con los datos originales.

### ¿Cuáles son las limitaciones de PCA?
- Linealidad: PCA asume que las relaciones entre variables son lineales, lo que puede no ser adecuado para datos con relaciones no lineales.
- Interpretabilidad: Los componentes principales pueden ser difíciles de interpretar, ya que son combinaciones lineales de las variables originales.
- Sensibilidad a la escala: PCA es sensible a la escala de las variables, por lo que es importante estandarizar los datos antes de aplicar PCA.
- Pérdida de información: Al reducir la dimensionalidad, se puede perder información importante si se eliminan demasiadas dimensiones.

### ¿Como se aplica PCA en Python?
```python
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import pandas as pd
# Estandarizar los datos
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
# Aplicar PCA
pca = PCA(n_components=2)  # Número de componentes principales deseados
data_pca = pca.fit_transform(data_scaled)
# Convertir a DataFrame para facilitar el manejo
df_pca = pd.DataFrame(data_pca, columns=['PC1', 'PC2'])
``` 

### ¿Como interpretar los resultados de PCA?
- Varianza explicada: Indica cuánto de la variabilidad original de los datos es capturada por cada componente principal.
- Cargas de los componentes: Indican la contribución de cada variable original a cada componente principal.
- Gráficos de biplot: Permiten visualizar la relación entre las variables originales y los componentes principales.




