## Que es una anomalia y que es un outlier?

En **Data Science**, los términos **"anomalía"** y **"outlier"** suelen usarse como sinónimos, pero no siempre significan lo mismo. Te explico la diferencia clara y con un ejemplo:

---

### ✅ ¿Qué es un **outlier**?

Un **outlier** (valor atípico) es un punto de datos que **se aleja significativamente del resto** de los datos en una distribución.

* No necesariamente es *anómalo*, podría ser simplemente extremo pero válido.
* Ejemplo clásico: una persona que mide 2.40 m en un grupo donde todos miden entre 1.50 m y 1.90 m.

---

### ✅ ¿Qué es una **anomalía**?

Una **anomalía** es un comportamiento o valor que **no se espera dado el contexto o patrón del sistema**. Puede ser un outlier, pero **no todos los outliers son anomalías**.

* Está más ligada a eventos "inusuales" o "sospechosos".
* Muy usada en **detección de fraudes, fallos, intrusiones**, etc.

---

### 📊 Ejemplo muy simple

Supongamos que medís la temperatura de una máquina cada hora:

```python
temperaturas = [72, 73, 74, 72, 73, 120]
```

* El valor `120` es un **outlier**: está muy lejos de los demás.
* Si sabés que esa máquina **nunca debería pasar de 80 grados**, entonces `120` también es una **anomalía**.

---

### 🧠 Diferencia resumida

| Característica   | Outlier                               | Anomalía                                 |
| ---------------- | ------------------------------------- | ---------------------------------------- |
| Descripción      | Punto alejado del resto               | Comportamiento inesperado o raro         |
| Siempre es raro  | Sí                                    | Sí, pero con contexto                    |
| Puede ser válido | Sí (ej. un valor extremo pero normal) | No (viola una regla esperada)            |
| Ejemplo          | Edad de 102 años                      | Compra de \$10,000 a las 3 a.m. en Rusia |



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Tabla Comparativa de Métodos de Detección de Outliers

| **Método**              | **Fundamento Teórico**                                                                                      | **Cuándo Usarlo**                                            | **Ventajas**                                            | **Limitaciones**                                               | **¿Por qué es Necesario?**                                                                 |
|-------------------------|-------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------|----------------------------------------------------------|------------------------------------------------------------------|---------------------------------------------------------------------------------------------|
| **Rango Intercuartílico (IQR)** | Basado en estadística descriptiva. Calcula los cuartiles Q1 (25%) y Q3 (75%) y define outliers como valores fuera de:<br> `[Q1 - 1.5*IQR, Q3 + 1.5*IQR]`. | Datos univariados, especialmente con distribuciones no normales. | Simple y robusto frente a valores extremos.             | No captura relaciones entre múltiples variables.                  | Detecta valores atípicos sin asumir ninguna distribución específica.                        |
| **Z-Score**             | Asume distribución normal. Mide desviaciones estándar desde la media:<br> `Z = (x - μ) / σ`. Outliers si `|Z| > 3`. | Datos univariados con distribución aproximadamente normal.   | Fácil interpretación (basado en desviaciones estándar). | Sensible a la no-normalidad y a outliers en media y desviación. | Útil para identificar valores extremos en distribuciones gaussianas.                       |
| **Local Outlier Factor (LOF)** | Mide la densidad local de un punto comparándola con la de sus vecinos más cercanos.                       | Datos multivariados con densidades variables o estructuras locales. | Detecta outliers tanto locales como globales.           | Costoso computacionalmente con grandes volúmenes de datos.       | Detecta anomalías en relaciones complejas entre variables.                                 |
| **DBSCAN**              | Algoritmo de agrupamiento basado en densidad. Identifica outliers como puntos aislados fuera de clusters densos. | Datos con agrupamientos naturales y ruido.                   | No requiere predefinir el número de clusters.           | Sensible a los parámetros (`eps`, `min_samples`).                | Ideal para detectar puntos "solitarios" fuera de agrupaciones densas.                      |
| **Isolation Forest**    | Modelo basado en árboles que aísla los outliers más fácilmente mediante divisiones aleatorias.               | Datos multivariados y de alta dimensión.                     | Eficiente, no requiere escalado ni supuestos de distribución. | Menos interpretable que métodos estadísticos clásicos.           | Detecta outliers complejos en grandes conjuntos de datos sin asumir distribución.           |

---

## Explicación Teórica Detallada

### 1. Rango Intercuartílico (IQR)
- **Fundamento**: Utiliza cuartiles (Q1, Q3) para definir límites no paramétricos.
- **Base matemática**:

```math
\text{IQR} = Q3 - Q1 \\
\text{Límites} = [Q1 - k \cdot \text{IQR},\ Q3 + k \cdot \text{IQR}] \quad \text{(comúnmente } k = 1.5\text{)}
````

---

### 2. Z-Score

* **Fundamento**: Mide la cantidad de desviaciones estándar desde la media.
* **Base matemática**:

```math
Z = \frac{x - \mu}{\sigma} \\
\text{Outlier si } |Z| > 3
```

---

### 3. Local Outlier Factor (LOF)

* **Fundamento**: Evalúa la densidad de un punto comparada con la densidad promedio de sus vecinos más cercanos.
* **Base matemática**:

```math
\text{LOF}(p) = \frac{\text{Densidad promedio de los vecinos de } p}{\text{Densidad local de } p} \\
\text{LOF} >> 1 \Rightarrow \text{p es un outlier}
```

---

### 4. DBSCAN

* **Fundamento**: Agrupa puntos densamente conectados y marca como outliers a los puntos que no pertenecen a ningún grupo.
* **Parámetros clave**:

  * `eps`: radio de vecindad.
  * `min_samples`: número mínimo de puntos dentro del radio para formar un cluster.

---

### 5. Isolation Forest

* **Fundamento**: Utiliza árboles de decisión aleatorios para aislar puntos. Los outliers requieren menos divisiones para ser aislados.
* **Idea principal**: Cuanto más corta es la ruta para aislar un punto, más probable es que sea un outlier.

---

## ¿Por qué son Necesarios?

### 1. Contexto de Uso

* **IQR / Z-Score**: Exploración y limpieza rápida de datos univariados.
* **LOF / DBSCAN / Isolation Forest**: Detección de anomalías en escenarios más complejos (fraude, fallos de sensores, etc.).

### 2. Riesgos de Ignorar Outliers

* Introducen **sesgos** en modelos estadísticos (e.g., regresión).
* **Disminuyen el rendimiento** de algoritmos de machine learning.
* Ocultan **comportamientos anómalos** importantes (fraudes, errores, eventos raros).

### 3. Selección del Método

| Tipo de Datos     | Método Sugerido       |
| ----------------- | --------------------- |
| Univariados       | IQR, Z-Score          |
| Multivariados     | LOF, Isolation Forest |
| Con agrupamientos | DBSCAN                |


## Conclusión

* No existe un método único ideal; la elección depende del tipo y estructura de los datos.
* **Combinar varios enfoques** suele mejorar la detección y comprensión de outliers.
* La detección efectiva de outliers mejora significativamente la calidad del análisis y los modelos predictivos.

> 💡 **Recomendación**: usar métodos estadísticos para análisis exploratorio inicial y luego aplicar técnicas avanzadas (LOF, DBSCAN, Isolation Forest) según la complejidad del problema.



In [None]:
# Cargar los datos
url = "./storage/bank_store_data/bank-full.csv"
df = pd.read_csv(url)


In [None]:
df.head()

In [None]:
print("\nInformación del dataset:")
print(df.info())

## Método del Rango Intercuartílico (IQR)

In [None]:
def detect_outliers_iqr(data, column, threshold=1.5):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - threshold * IQR
    upper_bound = Q3 + threshold * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers


# Aplicar a columnas numéricas
numeric_cols = ["balance", "duration", "day"]

# Crear figura con subplots compartiendo ejes
fig, axes = plt.subplots(nrows=1, ncols=len(numeric_cols), figsize=(15, 5), sharey=True)

# Ajustar espacio entre subplots
plt.tight_layout(pad=3.0)

iqr_outliers = {}

for i, col in enumerate(numeric_cols):
    # Detección de outliers
    iqr_outliers[col] = detect_outliers_iqr(df, col)
    
    print(f"\nOutliers en {col} (IQR):")
    print(iqr_outliers[col].shape[0])
    
    # Visualización con seaborn
    sns.boxplot(x=df[col], ax=axes[i])
    axes[i].set_title(f'Boxplot de {col}')
    axes[i].set_xlabel(col)

plt.suptitle('Comparación de outliers en variables numéricas (misma escala Y)', y=1.05)
plt.show()

## Método Z-Score


In [None]:
def detect_outliers_zscore(data, column, threshold=3):
    z_scores = np.abs(stats.zscore(data[column]))
    outliers = data[z_scores > threshold]
    return outliers

# Aplicar a columnas numéricas
numeric_cols = ["balance", "duration", "day"]
threshold = 3  # Puedes ajustar este valor según necesites

# Crear figura con subplots compartiendo ejes
fig, axes = plt.subplots(nrows=1, ncols=len(numeric_cols), figsize=(15, 5), sharey=True)

# Ajustar espacio entre subplots
plt.tight_layout(pad=3.0)

zscore_outliers = {}

for i, col in enumerate(numeric_cols):
    # Detección de outliers
    zscore_outliers[col] = detect_outliers_zscore(df, col, threshold)
    
    print(f"\nOutliers en {col} (Z-Score):")
    print(zscore_outliers[col].shape[0])
    
    # Visualización con seaborn
    sns.histplot(df[col], kde=True, ax=axes[i])
    axes[i].axvline(df[col].mean() + threshold*df[col].std(), color='r', linestyle='--')
    axes[i].axvline(df[col].mean() - threshold*df[col].std(), color='r', linestyle='--')
    axes[i].set_title(f'Distribución de {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frecuencia')

plt.suptitle('Comparación de outliers usando Z-Score (misma escala Y)', y=1.05)
plt.show()

## Método de Distancia Euclidiana (Multivariado)


In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import LocalOutlierFactor
from sklearn.decomposition import PCA
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Selección y estandarización
X = df[numeric_cols].values
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar LOF
lof = LocalOutlierFactor(n_neighbors=20, contamination='auto')
df['lof_outlier'] = lof.fit_predict(X_scaled)

# Contar outliers
lof_outliers = df[df['lof_outlier'] == -1]
print(f"\nOutliers multivariados detectados: {lof_outliers.shape[0]}")

# Reducción a 2D para visualización
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Preparar DataFrame para graficar
df_plot = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2'])
df_plot['outlier'] = df['lof_outlier'].map({1: 'Normal', -1: 'Outlier'})

# Plot con seaborn
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_plot,
    x='PCA1',
    y='PCA2',
    hue='outlier',
    palette={'Normal': 'gray', 'Outlier': 'red'},
    alpha=0.7,
    s=70
)

plt.title('Outliers detectados con LOF (PCA)')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(title='Tipo de punto')
plt.grid(True)
plt.tight_layout()
plt.show()


## Método DBSCAN (Density-Based)

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Aplicar DBSCAN
dbscan = DBSCAN(eps=3, min_samples=10)
clusters = dbscan.fit_predict(X_scaled)

# Guardar resultados
df['dbscan_outlier'] = clusters
dbscan_outliers = df[df['dbscan_outlier'] == -1]

print(f"\nOutliers detectados por DBSCAN: {dbscan_outliers.shape[0]}")

# Reducción con PCA
X_pca = PCA(n_components=2).fit_transform(X_scaled)

# DataFrame para graficar
df_plot = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2'])
df_plot['cluster'] = clusters
df_plot['tipo'] = df_plot['cluster'].apply(lambda x: 'Outlier' if x == -1 else f'Cluster {x}')

# Gráfico
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_plot,
    x='PCA1',
    y='PCA2',
    hue='tipo',
    palette='tab10',
    s=70,
    alpha=0.7
)

plt.title('Detección de Outliers usando DBSCAN (PCA)')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(title='Grupo')
plt.grid(True)
plt.tight_layout()
plt.show()


## Método Isolation Forest

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import IsolationForest

# 1. Selección y escalado de columnas numéricas
numeric_cols = df.select_dtypes(include='number').columns
X = df[numeric_cols].values

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 2. Aplicar Isolation Forest con menos sensibilidad
iso_forest = IsolationForest(
    contamination=0.05,   # Detecta ~5% como outliers
    n_estimators=100,
    max_samples='auto',
    random_state=42
)

iso_labels = iso_forest.fit_predict(X_scaled)
df['iso_outlier'] = iso_labels

# 3. Reducción dimensional con PCA para visualización
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

df_plot = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2'])
df_plot['outlier'] = df['iso_outlier'].map({-1: 'Outlier', 1: 'Normal'})

# 4. Gráfico con seaborn
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_plot,
    x='PCA1',
    y='PCA2',
    hue='outlier',
    palette={'Normal': 'blue', 'Outlier': 'red'},
    s=70,
    alpha=0.7
)
plt.title('Detección de Outliers con Isolation Forest (PCA)')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.grid(True)
plt.tight_layout()
plt.show()

# 5. Cantidad detectada
outlier_count = (iso_labels == -1).sum()
print(f"\nOutliers detectados por Isolation Forest: {outlier_count}")


# 6. Filtrar y mostrar solo los outliers
iso_outliers_df = df[df['iso_outlier'] == -1].copy()
print(f"Shape del DataFrame de outliers: {iso_outliers_df.shape}")
iso_outliers_df.head()



In [None]:
# Calcular cantidad de outliers únicos por método (basado en índices únicos)
iqr_outlier_indices = set().union(*[iqr_outliers[col].index for col in iqr_outliers])
zscore_outlier_indices = set().union(*[zscore_outliers[col].index for col in zscore_outliers])

outlier_counts = pd.DataFrame({
    'Método': ['IQR', 'Z-Score', 'LOF', 'DBSCAN', 'Isolation Forest'],
    'Outliers Detectados': [
        len(iqr_outlier_indices),
        len(zscore_outlier_indices),
        lof_outliers.shape[0],
        dbscan_outliers.shape[0],
        iso_outliers_df.shape[0]
    ]
})

# Mostrar resumen
print("\nResumen comparativo de métodos:")
print(outlier_counts)

# Visualización comparativa
plt.figure(figsize=(10, 5))
sns.barplot(x='Método', y='Outliers Detectados', data=outlier_counts, hue="Método",legend=False)
plt.title('Comparación de Métodos de Detección de Outliers')
plt.ylabel('Cantidad de Outliers')
plt.xlabel('Método')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


## Recomendaciones

1. **Para datos univariados**: Usar IQR o Z-Score para columnas individuales
2. **Para relaciones multivariadas**: LOF o Isolation Forest son más efectivos
3. **Para datos con clusters**: DBSCAN funciona bien cuando hay agrupaciones naturales
4. **Validación**: Siempre inspeccionar visualmente los outliers detectados
