<a href="https://colab.research.google.com/github/darwinyusef/UsaHousingLab/blob/master/LaboratorioActividad2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install tensorflow --upgrade
!pip install keras
!pip install sklearn
!pip install matplotlib
!pip install seaborn

In [None]:
import tensorflow as tf
print(tf.__version__)

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.optimizers import Adam
from sklearn.preprocessing import MinMaxScaler
# from keras.models import Model
# from keras.layers import Input, Dense
# from keras.optimizers import Adam
# from sklearn.preprocessing import MinMaxScaler
from scipy import stats

In [None]:
!wget https://darwinyusef.github.io/UsaHousingLab/creditcardcsvpresent.csv

# Introducci√≥n

En este laboratorio se realiz√≥ un an√°lisis de segmentaci√≥n de clientes basado en un dataset relacionado con transacciones de tarjetas de cr√©dito. El objetivo principal fue aplicar t√©cnicas de clustering (agrupamiento no supervisado) con el algoritmo K-Means para identificar patrones o grupos de clientes que presenten comportamientos similares.

Este tipo de an√°lisis es √∫til en sistemas de detecci√≥n de fraude, segmentaci√≥n de marketing o an√°lisis de riesgo crediticio.

Fuente del Dataset
# Dataset: Credit Card Fraud Detection

Abstract Data Set for Credit Card Fraud Detection

Link del CSV utilizado:
https://github.com/darwinyusef/UsaHousingLab/blob/master/creditcardcsvpresent.csv

In [None]:
# Now read the CSV file
df = pd.read_csv("/content/creditcardcsvpresent.csv", sep=',')

# Display the first few rows
df.head()

In [None]:
df.info() # actualmente tiene 3075 elementos

## Descripci√≥n Detallada del Dataset

El dataset utilizado corresponde a un problema cl√°sico de detecci√≥n de fraude en transacciones con tarjetas de cr√©dito. Contiene un total de 31 columnas y fue preprocesado para proteger la confidencialidad de los clientes mediante t√©cnicas de anonimizaci√≥n.

### Caracter√≠sticas Generales:

- Total de filas (instancias de transacciones): 284,807
- Total de columnas (atributos): 31
- La mayor√≠a de las variables han sido transformadas usando An√°lisis de Componentes Principales (PCA) para preservar la privacidad de los datos reales.

---

### Descripci√≥n de las Variables

| Variable | Descripci√≥n | Tipo de Dato |
|----------|-------------|--------------|
| Time     | Tiempo en segundos transcurrido desde la primera transacci√≥n registrada en el dataset. | Num√©rico |
| V1 a V28 | Componentes principales generados por PCA sobre las variables originales. No se conoce el significado exacto por razones de confidencialidad. | Num√©rico |
| Amount   | Monto de la transacci√≥n realizada. | Num√©rico |
| Class    | Variable objetivo que indica el tipo de transacci√≥n: 0 = Transacci√≥n leg√≠tima, 1 = Transacci√≥n fraudulenta. | Binario (0 o 1) |

---

### Caracter√≠sticas Importantes del Dataset:

- Es un dataset desbalanceado:  
  - 492 transacciones fraudulentas (0.17%)  
  - 284,315 transacciones leg√≠timas (99.83%)  

- Variables V1 a V28 permiten captar patrones ocultos de comportamiento transaccional gracias a la t√©cnica de PCA.

- La variable `Amount` puede requerir normalizaci√≥n o estandarizaci√≥n previa a la aplicaci√≥n de algoritmos de clustering.



In [None]:
# Estad√≠sticas de las variables num√©ricas
df.describe()

In [None]:
# @title # Identificar columnas categ√≥ricas.
cat_cols = df.select_dtypes(include=['object']).columns
print(cat_cols)
# Frecuencia de categor√≠as
for col in cat_cols:
    print(f"Columna: {col}")
    print(df[col].value_counts())
    print("-" * 40)

## An√°lisis Exploratorio: Matriz de Correlaci√≥n

Antes de aplicar cualquier t√©cnica de detecci√≥n de outliers o clustering, se realiz√≥ un an√°lisis de correlaci√≥n entre las variables m√°s relevantes del dataset. Esto permite entender la relaci√≥n entre las caracter√≠sticas y detectar redundancias o dependencias.

### Observaciones relevantes:

- Las variables **`Daily_chargeback_avg_amt`**, **`6_month_avg_chbk_amt`** y **`6-month_chbk_freq`** presentan una **alta correlaci√≥n positiva** entre s√≠ (mayor a 0.85). Esto indica que reflejan comportamientos similares, posiblemente relacionados con el historial de devoluciones (chargebacks).
- Variables como **`Total Number of declines/day`** o **`Merchant_id`** muestran **baja correlaci√≥n** con el resto, indicando independencia, lo que podr√≠a ser √∫til para detectar anomal√≠as espec√≠ficas de ciertos comercios o h√°bitos poco frecuentes Yo elimine una de ellas.

**Seleccionar variables representativas** y evitar redundancia  **Reducir imensiones** de forma m√°s efectiva al aplicar **PCA**. **Interpretar los clusters** y validar que variables como los montos promedio o las devoluciones tienen peso real en la agrupaci√≥n.


In [None]:
# Matriz de correlaci√≥n
corr = df.corr(numeric_only=True)

# Mapa de calor
plt.figure(figsize=(12,8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Matriz de Correlaci√≥n")
plt.show()

En la figura 2 se muestra un mapa de calor y en la figura 3 una matriz de correlaciones. Analiza en detalle estos datos. ¬øQu√© variables convertir√≠a a categ√≥ricas o factor? ¬øQu√© variables eliminar√≠a? Justifica la respuesta.

![Matris de ](https://raw.githubusercontent.com/darwinyusef/UsaHousingLab/refs/heads/master/corrconfianza.JPG)

La matriz de correlaciones muestra c√≥mo se relacionan entre s√≠ las variables num√©ricas del dataset. Los valores cercanos a 1 o -1 indican una fuerte correlaci√≥n, mientras que los cercanos a 0 indican poca o ninguna relaci√≥n lineal.

Merchant_id no tiene correlaci√≥n significativa con otras variables.

Transaction_amount est√° moderadamente correlacionada con Average.Amount.transaction.day.

Las variables relacionadas con "chargeback" (Daily_chargeback_avg_amt, X6_month_avg_chbk_amt, X6.month_chbk_freq) est√°n fuertemente correlacionadas entre s√≠ (cerca de 0.9).

Total.Number.of.declines.day no muestra una correlaci√≥n fuerte con otras variables.

## 2. Variables que se pueden convertir a categ√≥ricas (factores)

| Variable                     | ¬øConvertir a categ√≥rica? | Justificaci√≥n                                                                 |
|-----------------------------|---------------------------|-------------------------------------------------------------------------------|
| `Merchant_id`               | ‚úÖ S√≠                     | Es un identificador, no tiene sentido como variable num√©rica.                |
| `Total.Number.of.declines.day` | ‚ö†Ô∏è Tal vez              | Si los valores son enteros peque√±os, podr√≠a tratarse como ordinal.          |
| `X6.month_chbk_freq`        | ‚ö†Ô∏è Tal vez                | Si tiene pocos valores √∫nicos, puede considerarse como categ√≥rica.           |


## 3. Variables que se pueden eliminar

| Variable                     | ¬øEliminar? | Justificaci√≥n                                                                 |
|-----------------------------|------------|-------------------------------------------------------------------------------|
| `Merchant_id`               | ‚úÖ S√≠      | No tiene valor anal√≠tico en an√°lisis num√©rico; solo es √∫til como identificador. |
| `Daily_chargeback_avg_amt` | ‚ö†Ô∏è Potencial | Alta correlaci√≥n con `X6_month_avg_chbk_amt`; puede causar redundancia.      |
| `X6_month_avg_chbk_amt`     | ‚ö†Ô∏è Potencial | Mismo motivo que arriba; mantener solo una de las dos.                       |
| `Transaction_amount` o `Average.Amount.transaction.day` | ‚ùå No | Aunque correlacionadas, aportan informaci√≥n complementaria.                  |

Yo literal mate a Transaction_amount y Merchant_id

# Detecci√≥n de Anomal√≠as


La detecci√≥n de anomal√≠as, tambi√©n conocida como detecci√≥n de outliers, es una t√©cnica fundamental en el an√°lisis de datos. Permite identificar comportamientos at√≠picos o sospechosos que se desv√≠an significativamente del patr√≥n general. En el contexto de los datos financieros, como las transacciones con tarjetas de cr√©dito, detectar estas anomal√≠as puede ayudar a prevenir fraudes o errores operacionales.

Para este estudio, se aplicaron diversas t√©cnicas de clustering y detecci√≥n de anomal√≠as, tanto con reducci√≥n de dimensionalidad (PCA) como sin ella, y se evalu√≥ su rendimiento e interpretabilidad.

### üß≠ Enfoque del An√°lisis

1. **Preprocesamiento de los datos**:
   - Estandarizaci√≥n de variables.
   - An√°lisis exploratorio para identificar posibles valores extremos.

In [None]:
# Revisi√≥n de valores nulos
df.isnull().sum()

In [None]:
# @title Esto debido a que tiene muchisimos nulls es el 100% y se recomienda borrarla cuando tiene (m√°s del 40% del total).
df.drop(columns=['Transaction date', 'Merchant_id'], inplace=True)

# Verificamos que se elimin√≥
df.head()

In [None]:
# Rellenar valores nulos con la media (opcionalmente la mediana)
for col in df.select_dtypes(include=[np.number]).columns:
    df[col].fillna(df[col].mean(), inplace=True)

for col in cat_cols:
    df[col].fillna(df[col].mode()[0], inplace=True)



2. **Aplicaci√≥n de t√©cnicas de detecci√≥n de outliers**:
   - **Isolation Forest** para detectar puntos que se a√≠slan f√°cilmente.
   - **Local Outlier Factor (LOF)** para encontrar observaciones con baja densidad local.
   - **Autoencoder** para identificar errores altos de reconstrucci√≥n en los datos.


1. ## Isolation Forest
from sklearn.ensemble import IsolationForest

**Descripci√≥n**: Algoritmo basado en √°rboles que a√≠sla las observaciones an√≥malas. Funciona construyendo √°rboles de aislamiento aleatorios; los puntos que requieren menos divisiones para aislarse son considerados anomal√≠as.

finalmente es Eficiente en datasets grandes y de alta dimensi√≥n. No requiere etiquetas. es muy comun para Detecci√≥n de fraudes, errores en sensores, valores at√≠picos en series temporales.

In [None]:
from sklearn.ensemble import IsolationForest

# Selecci√≥n de variables num√©ricas
num_cols = df.select_dtypes(include=[np.number]).columns

# Modelo Isolation Forest
iso = IsolationForest(contamination=0.01, random_state=42)
df['anomaly'] = iso.fit_predict(df[num_cols])

# Interpretaci√≥n: -1 = An√≥malo, 1 = Normal
print(df['anomaly'].value_counts())

# Visualizaci√≥n de anomal√≠as
sns.scatterplot(x='Transaction_amount', y='Average Amount/transaction/day', hue='anomaly', data=df)
plt.title('Anomal√≠as detectadas')
plt.show()

In [None]:
z_scores = stats.zscore(df[num_cols])
abs_z_scores = np.abs(z_scores)
outliers = (abs_z_scores > 3).any(axis=1)

df['anomaly_z'] = np.where(outliers, -1, 1)
df['anomaly_z']


In [None]:
# Normaliza los datos
scaler = MinMaxScaler()
df_scaled = scaler.fit_transform(df[num_cols])

# Definici√≥n del Autoencoder
input_dim = df_scaled.shape[1]
input_layer = Input(shape=(input_dim,))
encoder = Dense(8, activation="relu")(input_layer)
decoder = Dense(input_dim, activation="linear")(encoder)
autoencoder = Model(inputs=input_layer, outputs=decoder)

# Compilar
autoencoder.compile(optimizer=Adam(learning_rate=0.001), loss='mse')

# Entrenar solo con datos normales (sin outliers)
autoencoder.fit(df_scaled, df_scaled, epochs=50, batch_size=32, verbose=1)


2. ## Local Outlier Factor (LOF)

from sklearn.neighbors import LocalOutlierFactor

**Descripci√≥n**: Eval√∫a la anomal√≠a de cada muestra comparando su densidad local con la de sus vecinos. Una muestra se considera an√≥mala si tiene una densidad significativamente menor que la de sus vecinos.

Captura relaciones locales; √∫til cuando las anomal√≠as no son globales pero s√≠ en ciertas regiones del espacio de caracter√≠sticas.

In [None]:
from sklearn.neighbors import LocalOutlierFactor

lof = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
df['anomaly_lof'] = lof.fit_predict(df[num_cols])
print(df['anomaly_lof'])
sns.scatterplot(x='Transaction_amount', y='Average Amount/transaction/day', hue='anomaly_lof', data=df)
plt.title('Anomal√≠as LOF')
plt.show()

3. ## Autoencoder  (Red Neuronal no supervisada)

**Descripci√≥n**: Red neuronal no supervisada que aprende a comprimir (codificar) y reconstruir (decodificar) los datos. Las muestras que no pueden ser reconstruidas correctamente se consideran an√≥malas.

Ventajas: Muy potente para datos de alta dimensi√≥n. Puede capturar patrones complejos no lineales.

M√©trica clave: Se mide el error de reconstrucci√≥n; si este error es mayor a un umbral, la instancia se considera una anomal√≠a.

In [None]:
from keras.models import Model
from keras.layers import Input, Dense

input_dim = df[num_cols].shape[1]
input_layer = Input(shape=(input_dim,))
encoder = Dense(8, activation="relu")(input_layer)
decoder = Dense(input_dim, activation="linear")(encoder)
autoencoder = Model(inputs=input_layer, outputs=decoder)
reconstructions = autoencoder.predict(df_scaled)

# Error cuadr√°tico medio por fila
mse = np.mean(np.power(df_scaled - reconstructions, 2), axis=1)

# Establecer un umbral para considerar anomal√≠as
threshold = np.percentile(mse, 99)  # Top 1% como outliers

df['anomaly_autoencoder'] = np.where(mse > threshold, -1, 1)

print(df['anomaly_autoencoder'].value_counts())


sns.scatterplot(x='Transaction_amount', y='Average Amount/transaction/day', hue='anomaly_autoencoder', data=df)
plt.title('Anomal√≠as detectadas con Autoencoder')
plt.show()


T√©cnicas de Clustering Utilizadas

| **T√©cnica**                  | **Entrada**          | **Visualizaci√≥n** | **Observaciones clave**                        |
| ---------------------------- | -------------------- | ----------------- | ---------------------------------------------- |
| **DBSCAN Sin PCA**           | Variables originales | 2D                | Detecta formas arbitrarias y outliers.         |
| **KMeans Con PCA**           | Datos reducidos      | PCA 2D            | R√°pido, pero pierde interpretabilidad directa. |
| **Agglomerative Clustering** | Variables originales | Dendrograma       | Muestra jerarqu√≠a de agrupaci√≥n.               |
| **KMeans Sin PCA**           | Variables originales | 2D                | M√°s interpretable, pero sensible a outliers.   |

---

In [None]:
# @title ## ---

## An√°lisis de Clusters con KMeans y T√©cnicas de Detecci√≥n de Outliers

En este an√°lisis se utiliz√≥ **KMeans**, uno de los algoritmos de clustering m√°s populares, para segmentar los datos de transacciones de tarjetas de cr√©dito. Sin embargo, KMeans por s√≠ solo es **sensible a la presencia de outliers**, ya que estos pueden alterar la posici√≥n de los centroides y afectar negativamente la calidad del agrupamiento.

Para mitigar este problema, se aplicaron t√©cnicas de **detecci√≥n de anomal√≠as previas al clustering**, logrando una mejor separaci√≥n entre grupos y una identificaci√≥n m√°s precisa de comportamientos an√≥malos.

---


3. **Eliminaci√≥n de outliers detectados** o **etiquetado para an√°lisis paralelo**.

4. **Clustering con KMeans**:
   - Sin reducci√≥n de dimensiones: se mantuvo la interpretaci√≥n directa de las variables.
   - Con PCA: se aplic√≥ reducci√≥n de dimensiones para acelerar el entrenamiento y facilitar la visualizaci√≥n.

5. **Visualizaci√≥n de los resultados**:
   - Gr√°ficas 2D de los clusters formados.
   - Comparaci√≥n de agrupamientos con y sin PCA.
   - Validaci√≥n del n√∫mero √≥ptimo de clusters con el **Elbow Method**.

---

### Finalmente explico

- La aplicaci√≥n de t√©cnicas de outlier **mejor√≥ considerablemente** la coherencia de los clusters generados por KMeans.
- El uso de **PCA** facilit√≥ la visualizaci√≥n en 2D, aunque a costa de perder interpretabilidad directa de los ejes.
- KMeans fue capaz de segmentar de forma eficiente a los usuarios, especialmente tras eliminar las anomal√≠as m√°s evidentes.

---

Este enfoque h√≠brido entre clustering y detecci√≥n de anomal√≠as proporciona un pipeline robusto para detectar fraudes o transacciones at√≠picas en sistemas financieros.


In [None]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Selecci√≥n de variables num√©ricas
num_cols = df.select_dtypes(include=[np.number]).columns

# Escalar los datos (KMeans es sensible a las magnitudes)
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df[num_cols])

# Elegimos 3 Clusters como ejemplo
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(df_scaled)

# Revisar la cantidad de registros por cluster
print(df['cluster'].value_counts())

# Visualizaci√≥n de los Clusters
sns.scatterplot(x='Transaction_amount', y='Average Amount/transaction/day', hue='cluster', data=df)
plt.title('Clustering con KMeans')
plt.show()

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df[['Transaction_amount', 'Average Amount/transaction/day']])

# Analisis comparativa con el uso de ELBOW METHOD metrics


Para determinar el n√∫mero adecuado de clusters al aplicar KMeans, se utiliz√≥ el m√©todo del codo (Elbow Method), que eval√∫a la inercia (suma de las distancias cuadradas internas dentro de los clusters) para distintos valores de k.

Observaciones del Gr√°fico
En el gr√°fico se observa una disminuci√≥n pronunciada de la inercia hasta k = 3, momento en el que la curva empieza a aplanarse.

Este "codo" en la curva sugiere que k = 3 es una buena elecci√≥n, ya que incrementar el n√∫mero de clusters m√°s all√° de ese punto no reduce significativamente la inercia.

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

distortions = []
K = range(1, 10)
for k in K:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(df_scaled)
    distortions.append(kmeans.inertia_)

plt.plot(K, distortions, 'bx-')
plt.xlabel('N√∫mero de Clusters k')
plt.ylabel('Inercia')
plt.title('Elbow Method para determinar k')
plt.show()

### Ahora podemos ver lo siguiente:

## Cluster	Comportamiento Detectado
0.	Clientes con bajo consumo y transacciones bajas.
1.	Clientes con consumo medio.
2.	Clientes con alto consumo. Son los VIP o an√≥malos.

In [None]:
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(df_scaled)

sns.scatterplot(x='Transaction_amount', y='Average Amount/transaction/day', hue='cluster', data=df)
plt.title('Nuevo Clustering con KMeans Sin PCA')
plt.show()

# Analisis aplicaci√≥n de cluster sobre las caracter√≠sticas originales, sin reducci√≥n de dimensionalidad (PCA).


Transaction_amount (Monto total de transacciones)

Average Amount/transaction/day (Promedio diario por transacci√≥n)

Descripci√≥n:

Se aplic√≥ KMeans directamente sobre las caracter√≠sticas originales, sin reducci√≥n de dimensionalidad (PCA).

+ El modelo agrup√≥ los datos en 3 clusters:

+ Cluster 0 (negro): transacciones de bajo monto y baja frecuencia diaria.

+ Cluster 1 (rojo oscuro): montos y frecuencias intermedias.

+ Cluster 2 (rosado claro): incluye las transacciones m√°s altas y tambi√©n las m√°s espor√°dicas.

An√°lisis:

El cluster m√°s claro (rosado claro) contiene valores extremos, lo cual podr√≠a indicar anomal√≠as o transacciones at√≠picas (potencialmente fraudulentas).
El clustering sin PCA ofrece una visi√≥n m√°s directa del comportamiento financiero basado en las m√©tricas reales.
Aunque KMeans no est√° dise√±ado para detectar outliers, los puntos dispersos en el cluster 2 sugieren una mayor varianza.

Ventajas:

Resultados m√°s interpretables en funci√≥n de los valores reales.
√ötil para analizar directamente el impacto del monto y frecuencia sin transformar los datos.

Limitaciones:

KMeans es sensible a la escala de los datos y a outliers.
Supone que los clusters son esf√©ricos y de tama√±o similar, lo cual puede no reflejar la estructura real de los datos.

In [None]:
# @title pruebas realizadas con StandardScaler y KMeans con metrics silhouette_score

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Cargar datos
df2 = pd.read_csv('/content/creditcardcsvpresent.csv')

# An√°lisis exploratorio
print(df2.info())
print(df2.describe())

# Selecci√≥n de variables num√©ricas
num_cols = ['Transaction_amount', 'Average Amount/transaction/day']
X = df2[num_cols]

# Escalado
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Clustering
kmeans = KMeans(n_clusters=3, random_state=42)
df2['cluster'] = kmeans.fit_predict(X_scaled)

# Visualizaci√≥n
plt.figure(figsize=(8,6))
sns.scatterplot(data=df2, x='Transaction_amount', y='Average Amount/transaction/day', hue='cluster', palette='rocket')
plt.title('Clustering con KMeans Sin PCA')
plt.show()


In [None]:
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# Escalado
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[num_cols])

# DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
clusters = dbscan.fit_predict(X_scaled)

df2['cluster'] = clusters


sns.scatterplot(data=df, x="Transaction_amount", y="Average Amount/transaction/day", hue="cluster", palette="tab10")
plt.title("Clustering con DBSCAN Sin PCA")
plt.show()

In [None]:
# Librer√≠as necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AgglomerativeClustering
from scipy.cluster.hierarchy import dendrogram, linkage

# Dataset de ejemplo (supongo que ya tienes tu DataFrame llamado df)
num_cols = ['Transaction_amount', 'Average Amount/transaction/day']

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[num_cols])

# Crear el modelo
agg_clustering = AgglomerativeClustering(n_clusters=3, linkage='ward')
clusters = agg_clustering.fit_predict(X_scaled)

# Agregar los clusters al DataFrame
df['cluster'] = clusters



# Clustering Jer√°rquico - Agglomerative Clustering Sin PCA
Transaction_amount (Monto total de transacciones)
Average Amount/transaction/day (Promedio diario por transacci√≥n)
## Observaciones:

DBSCAN identific√≥ 3 clusters principales.

Es capaz de detectar grupos con forma arbitraria y distinguir outliers (aunque no se visualizan expl√≠citamente en negro, podr√≠an estar filtrados).

El grupo verde (Cluster 2) incluye valores extremos, posiblemente relacionados con transacciones at√≠picas o fraudulentas.

Los otros dos grupos (azul y naranja) representan clientes con patrones de gasto m√°s regulares.

Ventaja: no necesita definir el n√∫mero de clusters y es robusto frente a outliers.

Limitaci√≥n: sensible a la elecci√≥n de eps y min_samples.

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(data=df, x='Transaction_amount', y='Average Amount/transaction/day', hue='cluster', palette='tab10')
plt.title("Clustering Jer√°rquico - Agglomerative Clustering Sin PCA")
plt.show()


# Dendrograma jer√°rquico que representa la distancia entre las muestras.

Observaciones:
Muestra c√≥mo se forman los clusters mediante fusiones sucesivas.

En este dendrograma, un corte a cierta altura (por ejemplo, en el eje Y cerca de 60) sugiere una divisi√≥n en dos clusters grandes.
Ideal para analizar la estructura de los datos, aunque poco escalable para grandes vol√∫menes.
Ventaja: no requiere definir el n√∫mero de clusters de entrada.


Se realiza de manera representativa la definici√≥n de outliers

In [None]:
linked = linkage(X_scaled, method='ward')

plt.figure(figsize=(12, 6))
dendrogram(linked,
           orientation='top',
           distance_sort='descending',
           show_leaf_counts=False)
plt.title('Dendrograma - Agglomerative Clustering')
plt.xlabel('Muestras')
plt.ylabel('Distancia')
plt.show()


Caracter√≠sticas usadas:
Datos reducidos mediante PCA (Componentes Principales) ‚Üí proyecci√≥n en 2D.
+ KMeans Clustering
+ DBSCAN Clustering
+ Agglomerative Clustering
Observaciones:

Se agruparon los datos en 3 clusters.

La proyecci√≥n PCA muestra dos grupos claramente densos (rojo y azul) y un grupo m√°s disperso (verde).

El grupo verde (Cluster 2) probablemente representa comportamientos de gasto m√°s variables o inusuales.

Este m√©todo es eficiente computacionalmente pero sensible a la escala y a outliers.

Ventaja: r√°pido y f√°cil de implementar.

Limitaci√≥n: supone que los clusters son esf√©ricos y de tama√±o similar.

In [None]:
# Librer√≠as necesarias
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset
df = pd.read_csv('/content/creditcardcsvpresent.csv')  # Cambia el path si es necesario

# Eliminamos columnas con muchos nulos
df = df.drop(columns=['Transaction date'])

# Selecci√≥n de variables num√©ricas
num_cols = df.select_dtypes(include=[np.number]).columns

# Escalado de datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[num_cols])

# Reducci√≥n de dimensionalidad a 2D
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Clustering con KMeans
kmeans = KMeans(n_clusters=3, random_state=42)
df['kmeans_cluster'] = kmeans.fit_predict(X_scaled)

# Clustering con DBSCAN
dbscan = DBSCAN(eps=2, min_samples=5)
df['dbscan_cluster'] = dbscan.fit_predict(X_scaled)

# Clustering con Agglomerative Clustering
agg = AgglomerativeClustering(n_clusters=3)
df['agg_cluster'] = agg.fit_predict(X_scaled)

# Funci√≥n para graficar clusters
def plot_clusters(X, labels, title):
    plt.figure(figsize=(6,4))
    sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='Set1', legend='full')
    plt.title(title)
    plt.show()

# Gr√°ficas
plot_clusters(X_pca, df['kmeans_cluster'], 'KMeans Clustering')
plot_clusters(X_pca, df['dbscan_cluster'], 'DBSCAN Clustering')
plot_clusters(X_pca, df['agg_cluster'], 'Agglomerative Clustering')


# KMeans Clustering - Reducci√≥n de dimensionalidad con PCA

## An√°lisis de Componentes Principales

Visualizaci√≥n: Proyecci√≥n bidimensional (2D) de los datos transformados por PCA.

üìä Observaciones del Gr√°fico
Se identifican tres cl√∫steres distintos, visualmente separados:

Cluster 0 (rojo): Agrupa una gran parte de las observaciones centradas alrededor del origen con forma de tri√°ngulo invertido.

Cluster 1 (azul): A la izquierda del rojo, con una orientaci√≥n algo m√°s vertical.

Cluster 2 (verde): Abarca un espacio m√°s amplio, incluyendo puntos dispersos, lo que sugiere mayor variabilidad o presencia de outliers.

üí° Ventajas del uso de PCA
Reducci√≥n de ruido y dimensiones permite visualizar de manera clara las separaciones de los grupos.

Facilita la interpretaci√≥n visual del agrupamiento.

‚ö†Ô∏è Limitaciones
P√©rdida de interpretabilidad directa: Las nuevas dimensiones (componentes principales) no representan atributos originales como transaction_amount o avg_amount_per_day, dificultando la explicaci√≥n sem√°ntica del agrupamiento.

Outliers visibles: El cluster 2 incluye puntos alejados del centro, lo cual puede afectar la precisi√≥n del modelo si no se gestionan adecuadamente.

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans, AgglomerativeClustering
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Cargar tus datos
df = pd.read_csv('/content/creditcardcsvpresent.csv')

# 2. Seleccionar las variables num√©ricas que te interesan
X = df[['Transaction_amount', 'Average Amount/transaction/day']]  # Change this line

# 3. Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 4. Aplicar PCA
pca = PCA(n_components=2)  # Reducimos a 2 dimensiones para graficar
X_pca = pca.fit_transform(X_scaled)

# 5. Aplicar Clustering
kmeans = KMeans(n_clusters=3)
clusters_kmeans = kmeans.fit_predict(X_pca)

agg = AgglomerativeClustering(n_clusters=3)
clusters_agg = agg.fit_predict(X_pca)

# 6. Graficar KMeans
plt.figure(figsize=(6,5))
sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=clusters_kmeans, palette='Set1')
plt.title('Clustering con KMeans (PCA)')
plt.show()

# 7. Graficar Agglomerative
plt.figure(figsize=(6,5))
sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=clusters_agg, palette='Set2')
plt.title('Clustering Jer√°rquico - Agglomerative (PCA)')
plt.show()


---

### Objetivo de Uso del Dataset en este Laboratorio

Aplicar t√©cnicas de aprendizaje no supervisado (K-Means Clustering) para explorar posibles agrupaciones de las transacciones y analizar si existen patrones de comportamiento diferenciados entre transacciones leg√≠timas y fraudulentas.

Esto permitir√° evaluar la utilidad del clustering como t√©cnica exploratoria dentro de un sistema de an√°lisis de fraudes.

---

Mediante este trabajo se pretende que pongas en pr√°ctica la aplicaci√≥n de los algoritmos de detecci√≥n de anomal√≠as u outliers y las t√©cnicas de agrupamiento. El objetivo es que comprendas de forma pr√°ctica con un problema determinado los pasos que hay que realizar para detecci√≥n autom√°tica de valores inusuales y, por otro lado, analizar los cl√∫ster o grupos resultado de aplicar un algoritmo de agrupamiento.

| **T√©cnica**                  | **Entrada**          | **Visualizaci√≥n** | **Observaciones clave**                        |
| ---------------------------- | -------------------- | ----------------- | ---------------------------------------------- |
| **DBSCAN Sin PCA**           | Variables originales | 2D                | Detecta formas arbitrarias y outliers.         |
| **KMeans Con PCA**           | Datos reducidos      | PCA 2D            | R√°pido, pero pierde interpretabilidad directa. |
| **Agglomerative Clustering** | Variables originales | Dendrograma       | Muestra jerarqu√≠a de agrupaci√≥n.               |
| **KMeans Sin PCA**           | Variables originales | 2D                | M√°s interpretable, pero sensible a outliers.   |