# Data cleaning and Preparation

## Handling missing data  / Manejo de los datos faltantes

### ¿Que son los datos faltantes?

Son valores que no se registraron, no se midieron, se perdieron o no aplican para una observación. Pasa por mil razones: encuestas sin responder, sensores que fallan, errores humanos, sistemas que no preguntan lo que debían.

### ¿Como se presentan los datos faltantes?

- NULL → el rey del “no hay nada aquí”.

- NaN (Not a Number) → típico en Python, R y Excel para datos numéricos.

- NA → muy usado en R.

### ¿Cuales son los tipos de datos faltantes (Segun el origen o el motivo por el que faltan)?

- MCAR (Missing Completely At Random - Faltantes completamente al azar)
- MAR (Missing At Random - Faltantes al azar condicionado a otras variables)
- MNAR (Missing Not At Random - Faltantes no al azar)

### ¿Cuales son las tecnicas para manejar datos faltantes?

Eliminación por filas (Listwise deletion)
Eliminación por columnas
Imputación simple (rápida, pero ingenua)
Imputación basada en datos (más inteligente)
KNN Imputation
Imputación estadística avanzada
MICE (Multiple Imputation by Chained Equations)


### ¿Que es un algoritmo supervisado y no supervisado?
- Algoritmos supervisados: Se entrenan con datos etiquetados, es decir, datos que ya tienen la respuesta correcta asociada. El objetivo es aprender una función que pueda predecir la etiqueta correcta para nuevos datos.
Ejemplo: 
Clasificación y regresión. (Decision Trees, Random Forest, SVM, Redes Neuronales, etc.)
Ejemplo de uso: Detección de spam, reconocimiento de imágenes, predicción de precios.

- Algoritmos no supervisados: Trabajan con datos no etiquetados. El objetivo es encontrar patrones, estructuras o agrupaciones en los datos sin tener una respuesta correcta predefinida.
Ejemplo:
Clustering y reducción de dimensionalidad. (K-Means, DBSCAN, PCA, etc.)
Ejemplo de uso: Segmentación de clientes, detección de anomalías, análisis exploratorio de datos.


# Metodos para determinar el numero optimo de clusters

# Metodo del Codo (Elbow Method)

### ¿Que es el Metodo del Codo?

El Método del Codo es una técnica utilizada para determinar el número óptimo de clusters en un conjunto de datos al aplicar algoritmos de clustering como K-Means. Consiste en calcular la inercia (suma de las distancias cuadradas entre los puntos y el centroide del cluster) para diferentes valores de K y graficar estos valores. El punto donde la disminución de la inercia comienza a ser menos pronunciada (formando un "codo" en la gráfica) se considera el número óptimo de clusters.

### ¿Como aplicar el Metodo del Codo en Python?

```python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# Definir el rango de K
k_values = range(1, 11)
inertia = []
# Calcular la inercia para cada K
for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(data)
    inertia.append(kmeans.inertia_)
# Graficar el Metodo del Codo
plt.plot(k_values, inertia, marker='o')
plt.xlabel('Número de clusters (K)')
plt.ylabel('Inercia')
plt.title('Método del Codo')
plt.show()
```

### ¿Para que se usa el Metodo del Codo?
El Método del Codo se utiliza para:
- Determinar el número óptimo de clusters en algoritmos de clustering.
- Evaluar la calidad del clustering.
- Ayudar en la toma de decisiones sobre la segmentación de datos.


### ¿Cuales son las limitaciones del Metodo del Codo?
- Subjetividad: La identificación del "codo" puede ser subjetiva y variar entre observadores.
- No siempre claro: En algunos casos, el gráfico puede no mostrar un codo claro.
- Sensible a la escala: La inercia puede verse afectada por la escala de los datos, por lo que es importante estandarizar los datos antes de aplicar el método.

### ¿Cuando usar el Metodo del Codo?
- Cuando se desea determinar el número óptimo de clusters en un conjunto de datos.
- Cuando se utiliza algoritmos de clustering como K-Means.
- Cuando se busca evaluar la calidad del clustering.

### ¿Como interpretar el grafico del Metodo del Codo?
- Identificar el punto donde la disminución de la inercia comienza a ser menos pronunciada.
- Este punto indica el número óptimo de clusters.
- Si no hay un codo claro, puede ser necesario utilizar otros métodos para determinar el número óptimo de clusters.
- Elige el número de clusters justo antes de que, al agregar uno más, la mejora en la inercia (WCSS) deje de ser grande y pase a ser pequeña y parecida en los siguientes valores (Menor a 10%).
- Calcula la tasa de cambio porcentual entre cada par de puntos consecutivos en la gráfica de inercia y busca el punto donde esta tasa disminuye significativamente. Ejemplo: Si la tasa de cambio entre K=2 y K=3 es del 30%, pero entre K=3 y K=4 es del 5%, entonces K=3 podría ser una buena elección. (La idea es que sea mayor al 10%).


# Coeficiente de Silueta (Silhouette Score)

### ¿Que es el Coeficiente de Silueta?

El Coeficiente de Silueta es una métrica utilizada para evaluar la calidad de un clustering. Mide qué tan similar es un punto a su propio cluster en comparación con otros clusters. El valor del coeficiente varía entre -1 y 1, donde un valor cercano a 1 indica que el punto está bien agrupado, un valor cercano a 0 indica que el punto está en el límite entre dos clusters, y un valor negativo indica que el punto podría estar mal asignado a su cluster.

### ¿Como aplicar el Coeficiente de Silueta en Python?

```python
from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
# Definir el número de clusters
k = 3
# Crear el modelo K-Means
kmeans = KMeans(n_clusters=k, random_state=42)
# Ajustar el modelo a los datos
kmeans.fit(data)
# Obtener las etiquetas de los clusters
labels = kmeans.labels_
# Calcular el Coeficiente de Silueta
silhouette_avg = silhouette_score(data, labels)
print(f'Coeficiente de Silueta para K={k}: {silhouette_avg}')
```

### ¿Para que se usa el Coeficiente de Silueta?
El Coeficiente de Silueta se utiliza para:
- Evaluar la calidad del clustering.
- Determinar el número óptimo de clusters.
- Comparar diferentes algoritmos de clustering.

### ¿Cuales son las limitaciones del Coeficiente de Silueta?
- Sensible a la forma de los clusters: Puede no ser adecuado para clusters con formas complejas.
- No siempre claro: En algunos casos, el valor del coeficiente puede no proporcionar una indicación clara del número óptimo de clusters.
- Requiere etiquetas de clusters: Necesita las etiquetas de los clusters para calcular el coeficiente.

### ¿Cuando usar el Coeficiente de Silueta?
- Cuando se desea evaluar la calidad del clustering.
- Cuando se utiliza algoritmos de clustering como K-Means.
- Cuando se busca determinar el número óptimo de clusters.

### ¿Como interpretar el valor del Coeficiente de Silueta?
- Valores cercanos a 1: Indican que los puntos están bien agrupados dentro de su propio cluster.
- Valores cercanos a 0: Indican que los puntos están en el límite entre dos clusters.
- Valores negativos: Indican que los puntos podrían estar mal asignados a su cluster.
- Comparar los valores del coeficiente para diferentes números de clusters y elegir el número que maximice el valor promedio del coeficiente de silueta.
- Un valor promedio del coeficiente de silueta mayor o igual a 0.5 generalmente indica una buena estructura de clustering, mientras que valores por debajo de 0.2 sugieren que los clusters pueden no estar bien definidos.


# Índice de Davies-Bouldin

### ¿Que es el Índice de Davies-Bouldin?

El Índice de Davies-Bouldin es una métrica utilizada para evaluar la calidad de un clustering. Mide la relación entre la dispersión dentro de los clusters y la separación entre los clusters. Un valor más bajo del índice indica una mejor calidad del clustering, ya que sugiere que los clusters están bien separados y tienen baja dispersión interna.

### ¿Como aplicar el Índice de Davies-Bouldin en Python?

```python
from sklearn.metrics import davies_bouldin_score
from sklearn.cluster import KMeans
# Definir el número de clusters
k = 3
# Crear el modelo K-Means
kmeans = KMeans(n_clusters=k, random_state=42)
# Ajustar el modelo a los datos
kmeans.fit(data)
# Obtener las etiquetas de los clusters
labels = kmeans.labels_
# Calcular el Índice de Davies-Bouldin
db_index = davies_bouldin_score(data, labels)
print(f'Índice de Davies-Bouldin para K={k}: {db_index}')
```

### ¿Para que se usa el Índice de Davies-Bouldin?
El Índice de Davies-Bouldin se utiliza para:
- Evaluar la calidad del clustering.
- Determinar el número óptimo de clusters.
- Comparar diferentes algoritmos de clustering.

### ¿Cuales son las limitaciones del Índice de Davies-Bouldin?
- Sensible a la forma de los clusters: Puede no ser adecuado para clusters con formas complejas.
- No siempre claro: En algunos casos, el valor del índice puede no proporcionar una indicación clara del número óptimo de clusters.
- Requiere etiquetas de clusters: Necesita las etiquetas de los clusters para calcular el índice.

### ¿Cuando usar el Índice de Davies-Bouldin?
- Cuando se desea evaluar la calidad del clustering.
- Cuando se utiliza algoritmos de clustering como K-Means.
- Cuando se busca determinar el número óptimo de clusters.  

### ¿Como interpretar el valor del Índice de Davies-Bouldin?
- Valores más bajos: Indican una mejor calidad del clustering, con clusters bien separados y baja dispersión interna.
- Comparar los valores del índice para diferentes números de clusters y elegir el número que minimice el valor del índice.
- Un valor del índice cercano a 0 indica una excelente calidad del clustering, mientras que valores más altos sugieren que los clusters pueden estar mal definidos o solapados.
- Elige el número de clusters donde el índice de Davies–Bouldin alcanza su valor más bajo por primera vez y deja de disminuir de forma significativa al aumentar los clusters (Una diferencia de al menos 0.05 entre valores consecutivos).

# Indice de Dunn

### ¿Que es el Índice de Dunn?

El Índice de Dunn es una métrica utilizada para evaluar la calidad de un clustering. Mide la relación entre la distancia mínima entre clusters y el diámetro máximo dentro de los clusters. Un valor más alto del índice indica una mejor calidad del clustering, ya que sugiere que los clusters están bien separados y tienen baja dispersión interna.

### ¿Como aplicar el Índice de Dunn en Python?

```python
import numpy as np
from sklearn.metrics import pairwise_distances
from sklearn.cluster import KMeans
def dunn_index(data, labels):
    unique_clusters = np.unique(labels)
    num_clusters = len(unique_clusters)
    
    # Calcular la distancia mínima entre clusters
    min_intercluster_distance = np.inf
    for i in range(num_clusters):
        for j in range(i + 1, num_clusters):
            cluster_i = data[labels == unique_clusters[i]]
            cluster_j = data[labels == unique_clusters[j]]
            distance = np.min(pairwise_distances(cluster_i, cluster_j))
            if distance < min_intercluster_distance:
                min_intercluster_distance = distance
    
    # Calcular el diámetro máximo dentro de los clusters
    max_intracluster_diameter = 0
    for i in range(num_clusters):
        cluster_i = data[labels == unique_clusters[i]]
        diameter = np.max(pairwise_distances(cluster_i))
        if diameter > max_intracluster_diameter:
            max_intracluster_diameter = diameter
    
    # Calcular el Índice de Dunn
    dunn_index_value = min_intercluster_distance / max_intracluster_diameter
    return dunn_index_value
# Definir el número de clusters
k = 3
# Crear el modelo K-Means
kmeans = KMeans(n_clusters=k, random_state=42)
# Ajustar el modelo a los datos
kmeans.fit(data)
# Obtener las etiquetas de los clusters
labels = kmeans.labels_
# Calcular el Índice de Dunn
dunn_index_value = dunn_index(data, labels)
print(f'Índice de Dunn para K={k}: {dunn_index_value}')
```

### ¿Para que se usa el Índice de Dunn?
El Índice de Dunn se utiliza para:
- Evaluar la calidad del clustering.
- Determinar el número óptimo de clusters.
- Comparar diferentes algoritmos de clustering.

### ¿Cuales son las limitaciones del Índice de Dunn?
- Sensible a la forma de los clusters: Puede no ser adecuado para clusters con formas complejas.
- No siempre claro: En algunos casos, el valor del índice puede no proporcionar una indicación clara del número óptimo de clusters.
- Requiere etiquetas de clusters: Necesita las etiquetas de los clusters para calcular el índice.

### ¿Cuando usar el Índice de Dunn?
- Cuando se desea evaluar la calidad del clustering.
- Cuando se utiliza algoritmos de clustering como K-Means.
- Cuando se busca determinar el número óptimo de clusters.

### ¿Como interpretar el valor del Índice de Dunn?
- Valores más altos: Indican una mejor calidad del clustering, con clusters bien separados y baja dispersión interna.
- Comparar los valores del índice para diferentes números de clusters y elegir el número que maximice el valor del índice.
- Un valor del índice mayor a 1 generalmente indica una buena calidad del clustering, mientras que valores menores a 0.5 sugieren que los clusters pueden no estar bien definidos o solapados.
- Elige el número de clusters donde el índice de Dunn alcanza su valor más alto por primera vez y se mantiene estable al aumentar los clusters.







# K-Means Clustering

### ¿Que es K-Means?

K-Means es un algoritmo de aprendizaje no supervisado que agrupa datos en K clusters basándose en la similitud de sus características. El objetivo es minimizar la variabilidad dentro de cada cluster y maximizar la variabilidad entre clusters.

### ¿Para que se usa K-Means?
K-Means se utiliza para:
- Segmentación de clientes
- Agrupación de documentos
- Detección de anomalías
- Compresión de imágenes
- Análisis exploratorio de datos

### ¿Como aplicar K-Means en Python?

```python
from sklearn.cluster import KMeans
# Definir el número de clusters
k = 3
# Crear el modelo K-Means
kmeans = KMeans(n_clusters=k, random_state=42)
# Ajustar el modelo a los datos
kmeans.fit(data)
# Obtener las etiquetas de los clusters
labels = kmeans.labels_
# Obtener los centroides de los clusters
centroids = kmeans.cluster_centers_
``` 

# DBSCAN Clustering

### ¿Que es DBSCAN?

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de clustering basado en densidad que agrupa puntos que están densamente conectados y marca como ruido los puntos que están en regiones de baja densidad.

### ¿Como aplicar DBSCAN en Python?

```python
from sklearn.cluster import DBSCAN
# Definir los parámetros de DBSCAN
epsilon = 0.5  # Distancia máxima entre dos puntos para que se consideren vecinos
min_samples = 5  # Número mínimo de puntos necesarios para formar un cluster
# Crear el modelo DBSCAN
dbscan = DBSCAN(eps=epsilon, min_samples=min_samples)
# Ajustar el modelo a los datos
dbscan.fit(data)
# Obtener las etiquetas de los clusters
labels = dbscan.labels_
```

### ¿Para que se usa DBSCAN?
DBSCAN se utiliza para:
- Detección de anomalías
- Agrupación de datos espaciales
- Análisis de redes sociales
- Segmentación de clientes
- Análisis exploratorio de datos

### ¿Cual es la diferencia entre K-Means y DBSCAN?
- K-Means requiere que el número de clusters (K) sea especificado de antemano, mientras que DBSCAN determina automáticamente el número de clusters basándose en la densidad de los datos.
- K-Means tiende a formar clusters de forma esférica y puede ser sensible a outliers, mientras que DBSCAN puede formar clusters de forma arbitraria y es más robusto frente a outliers.
- K-Means utiliza la media de los puntos para definir el centro del cluster, mientras que DBSCAN utiliza la densidad de puntos para definir los clusters.

### ¿Como idenfico cual usar?
- Si se conoce el número de clusters y los datos son relativamente limpios, K-Means puede ser una buena opción.
- Si los datos contienen ruido o outliers, o si los clusters tienen formas arbitrarias, DBSCAN puede ser más adecuado.

### ¿Como se determina el numero de clusters en K-Means?
- Método del codo (Elbow Method)
- Silhouette Score
- Gap Statistic

### ¿Como se determina el numero de clusters en DBSCAN?
- Parámetro epsilon (ε): Distancia máxima entre dos puntos para que se consideren vecinos
- Parámetro minPts: Número mínimo de puntos necesarios para formar un cluster denso

### ¿Como se determina epsilon y minPts en DBSCAN?
- Epsilon (ε): Se puede determinar utilizando un gráfico de distancia k-vecino (k-distance graph) para identificar un punto de inflexión.
- minPts: Una regla común es establecer minPts al menos igual a la dimensionalidad de los datos más uno (minPts ≥ D + 1).


# ANN

### ¿Que es ANN?

ANN (Artificial Neural Network - Red Neuronal Artificial) es un modelo de aprendizaje automático inspirado en la estructura y funcionamiento del cerebro humano. Está compuesto por capas de nodos (neuronas) que procesan y transmiten información.

### ¿Para que se usa ANN?

ANN se utiliza para:
- Clasificación
- Regresión
- Reconocimiento de patrones
- Procesamiento de imágenes
- Procesamiento de lenguaje natural
- Juegos y simulaciones

### ¿Como funciona ANN?
1. Entrada de datos: Los datos se introducen en la capa de entrada.
2. Propagación hacia adelante: Los datos se procesan a través de las capas ocultas utilizando funciones de activación.
3. Cálculo del error: Se calcula la diferencia entre la salida predicha y la salida real.
4. Retropropagación: El error se propaga hacia atrás para ajustar los pesos de las conexiones.
5. Repetición: El proceso se repite hasta que el modelo converge.

### ¿Cuales son las ventajas y desventajas de ANN?
- Ventajas:
  - Capacidad para modelar relaciones complejas y no lineales.
  - Adaptabilidad a diferentes tipos de datos.
  - Capacidad para aprender características automáticamente.
- Desventajas:
  - Requiere grandes cantidades de datos para entrenar eficazmente.
  - Puede ser propenso al sobreajuste.
  - Interpretabilidad limitada.

### ¿Cuando usar ANN?
- Cuando se tienen grandes cantidades de datos y se desea modelar relaciones complejas.
- Cuando se trabaja con datos no estructurados como imágenes, texto o audio.
- Cuando se busca automatizar la extracción de características.

### ¿Cuales son los pasos para aplicar ANN?
1. Preparar los datos.
2. Definir la arquitectura de la red.
3. Compilar el modelo.
4. Entrenar el modelo.
5. Evaluar el modelo.
6. Hacer predicciones.













# PCA (Principal Component Analysis - Análisis de Componentes Principales)

### ¿Que es PCA?

PCA es una técnica estadística que transforma un conjunto de variables posiblemente correlacionadas en un conjunto de variables linealmente no correlacionadas llamadas componentes principales. El objetivo principal de PCA es reducir la dimensionalidad de los datos mientras se conserva la mayor cantidad posible de la variabilidad original.

### ¿Para que se usa PCA?

PCA se utiliza para:
- Reducción de dimensionalidad
- Visualización de datos
- Eliminación de ruido
- Mejora del rendimiento de los modelos de aprendizaje automático
- Identificación de patrones y relaciones en los datos

### ¿Como funciona PCA?
1. Estandarización de los datos
2. Cálculo de la matriz de covarianza
3. Cálculo de los valores y vectores propios
4. Selección de componentes principales
5. Transformación de los datos

### ¿Cuales son las ventajas y desventajas de PCA?
- Ventajas:
  - Reduce la dimensionalidad de los datos, lo que puede mejorar el rendimiento de los modelos.
  - Elimina la multicolinealidad entre variables.
  - Facilita la visualización de datos en espacios de menor dimensión.
- Desventajas:
  - Puede perder información importante si se eliminan demasiadas dimensiones.
  - Los componentes principales pueden ser difíciles de interpretar.
    - Asume relaciones lineales entre variables.

### ¿Cuando usar PCA?
- Cuando se tiene un conjunto de datos con muchas variables y se desea reducir la dimensionalidad.
- Cuando se quiere eliminar la multicolinealidad entre variables.
- Cuando se desea visualizar datos en espacios de menor dimensión.

### ¿Cuales son los pasos para aplicar PCA?
1. Estandarizar los datos.
2. Calcular la matriz de covarianza.
3. Calcular los valores y vectores propios.
4. Seleccionar los componentes principales.
5. Transformar los datos.

### ¿Como elegir el numero de componentes principales?
- Varianza explicada acumulada: Seleccionar el número de componentes que expliquen un porcentaje deseado de la varianza total (por ejemplo, 95%).
- Criterio de Kaiser: Seleccionar componentes con valores propios mayores que 1.
- Gráfico de codo (Scree plot): Identificar el punto donde la varianza explicada comienza a disminuir significativamente.

### ¿Como evaluar la calidad de PCA?
- Varianza explicada: Evaluar cuánto de la variabilidad original de los datos es capturada por los componentes principales seleccionados.
- Visualización: Utilizar gráficos de biplot o scatter plots para visualizar la distribución de los datos en el espacio de los componentes principales.
- Comparación con modelos originales: Evaluar el rendimiento de modelos de aprendizaje automático utilizando los datos transformados por PCA en comparación con los datos originales.

### ¿Cuáles son las limitaciones de PCA?
- Linealidad: PCA asume que las relaciones entre variables son lineales, lo que puede no ser adecuado para datos con relaciones no lineales.
- Interpretabilidad: Los componentes principales pueden ser difíciles de interpretar, ya que son combinaciones lineales de las variables originales.
- Sensibilidad a la escala: PCA es sensible a la escala de las variables, por lo que es importante estandarizar los datos antes de aplicar PCA.
- Pérdida de información: Al reducir la dimensionalidad, se puede perder información importante si se eliminan demasiadas dimensiones.

### ¿Como se aplica PCA en Python?
```python
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import pandas as pd
# Estandarizar los datos
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
# Aplicar PCA
pca = PCA(n_components=2)  # Número de componentes principales deseados
data_pca = pca.fit_transform(data_scaled)
# Convertir a DataFrame para facilitar el manejo
df_pca = pd.DataFrame(data_pca, columns=['PC1', 'PC2'])
``` 

### ¿Como interpretar los resultados de PCA?
- Varianza explicada: Indica cuánto de la variabilidad original de los datos es capturada por cada componente principal.
- Cargas de los componentes: Indican la contribución de cada variable original a cada componente principal.
- Gráficos de biplot: Permiten visualizar la relación entre las variables originales y los componentes principales.




