###Conjunto de datos de comercio electronico

In [1]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


In [2]:
import pandas as pd
from faker import Faker
import random
import datetime

fake = Faker()
seed = 42
random.seed(seed)
num_registros = 30

data_ecommerce = {
    'ID_Transaccion': range(1, num_registros + 1),
    'Monto': [round(random.uniform(10, 15000), 2) for _ in range(num_registros)],
    'Fecha_Hora': [fake.date_time_between(start_date='-1y', end_date='now') for _ in range(num_registros)],
    'ID_Usuario': [fake.user_name() for _ in range(num_registros)],
    'Direccion_IP': [fake.ipv4_private() if random.random() < 0.8 else fake.ipv4_public() for _ in range(num_registros)],
    'Producto': [random.choice(['Laptop', 'Libro', 'Camiseta', 'Zapatos', 'Televisor', 'Auriculares', 'Mochila', 'Reloj', 'Smartphone', 'Cargador']) for _ in range(num_registros)],
    'Es_Fraudulenta': [0] * num_registros  # Inicializamos todas las transacciones como no fraudulentas
}

df_ecommerce = pd.DataFrame(data_ecommerce)
df_ecommerce['Fecha_Hora'] = pd.to_datetime(df_ecommerce['Fecha_Hora']) # Convertimos la columna a datetime

# Marcamos las transacciones nocturnas como fraudulentas
for index, row in df_ecommerce.iterrows():
    if row['Fecha_Hora'].hour >= 21:
        df_ecommerce.at[index, 'Es_Fraudulenta'] = 1

nombre_archivo_csv = 'df_ecommerce.csv'
df_ecommerce.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_ecommerce

El DataFrame se ha guardado exitosamente en el archivo 'df_ecommerce.csv'


Unnamed: 0,ID_Transaccion,Monto,Fecha_Hora,ID_Usuario,Direccion_IP,Producto,Es_Fraudulenta
0,1,9595.01,2025-04-06 09:08:16.802629,tayloralexander,214.137.220.117,Smartphone,0
1,2,384.91,2025-04-03 11:17:21.307070,davischristina,192.168.120.211,Zapatos,0
2,3,4132.69,2025-04-04 00:24:45.409577,hughesolivia,192.168.105.223,Auriculares,0
3,4,3355.93,2025-04-18 23:05:51.101523,lrivera,190.34.121.80,Laptop,1
4,5,11049.7,2025-02-04 05:19:24.035716,nancybryant,192.168.141.165,Zapatos,0
5,6,10153.73,2025-02-24 04:50:56.718527,masonmontgomery,172.24.181.191,Laptop,0
6,7,13383.77,2025-01-05 16:30:07.102854,valenciamark,214.16.85.240,Auriculares,0
7,8,1313.21,2025-10-04 20:38:09.561054,andre10,192.168.178.200,Mochila,0
8,9,6334.61,2024-12-29 02:46:28.110353,heatherkim,223.129.18.121,Televisor,0
9,10,456.66,2025-02-06 10:25:23.218831,karinaclements,192.168.221.7,Libro,0


###Algoritmos para la Detección de Fraude en el Comercio Electrónico 4.1 Identificación de Transacciones Fraudulentas en Línea 4.2 Detección de Cuentas Falsas y Actividades Maliciosas 4.3 Análisis de Comportamiento del Usuario para la Detección de Fraude

In [7]:
import pandas as pd
import numpy as np
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import classification_report, accuracy_score
from sklearn.cluster import DBSCAN
import warnings

# Configuración de limpieza de advertencias
warnings.filterwarnings("ignore")

# 1. CARGA DEL DATASET EXISTENTE
nombre_archivo = 'df_ecommerce.csv'

try:
    # Carga del archivo generado previamente
    df_ecommerce = pd.read_csv(nombre_archivo)

    # Conversión de la columna de tiempo y extracción de características
    # Aseguramos que los nombres coincidan con la salida de tu reporte
    df_ecommerce['Fecha_Hora'] = pd.to_datetime(df_ecommerce['Fecha_Hora'])
    df_ecommerce['Hora'] = df_ecommerce['Fecha_Hora'].dt.hour
    df_ecommerce['Dia_Semana'] = df_ecommerce['Fecha_Hora'].dt.dayofweek

    print(f"✅ Archivo '{nombre_archivo}' cargado exitosamente.")
    print(f"Total de registros: {len(df_ecommerce)}\n")

    # --------------------------------------------------------------------------
    # 4.1 Identificación de Transacciones Fraudulentas (Regresión Logística)
    # --------------------------------------------------------------------------
    print("4.1 Identificación de Transacciones Fraudulentas en Línea (Regresión Logística):")

    # Verificamos columnas necesarias
    if all(col in df_ecommerce.columns for col in ['Monto', 'Es_Fraudulenta', 'Producto', 'ID_Usuario', 'Direccion_IP']):

        # Codificación de variables categóricas (One-Hot Encoding)
        # Concatenamos todas las dummies en un solo DataFrame de características
        df_encoded = pd.get_dummies(df_ecommerce, columns=['Producto'], prefix='Prod')
        df_encoded = pd.get_dummies(df_encoded, columns=['ID_Usuario'], prefix='User')
        df_encoded = pd.get_dummies(df_encoded, columns=['Direccion_IP'], prefix='IP')

        # Seleccionamos las columnas para el modelo
        features = ['Monto', 'Hora', 'Dia_Semana'] + \
                   [c for c in df_encoded.columns if c.startswith(('Prod_', 'User_', 'IP_'))]

        X = df_encoded[features]
        y = df_encoded['Es_Fraudulenta']

        # Separación en entrenamiento y prueba (30% para test como en tu reporte)
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

        # Escalado de datos
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        X_test_scaled = scaler.transform(X_test)

        # Entrenamiento del modelo
        model_ecommerce = LogisticRegression(random_state=42)
        model_ecommerce.fit(X_train_scaled, y_train)
        y_pred_ecommerce = model_ecommerce.predict(X_test_scaled)

        print("Predicciones (Regresión Logística):", y_pred_ecommerce)
        print("Valores Reales:", y_test.values)
        print("Precisión del Modelo:", accuracy_score(y_test, y_pred_ecommerce))
        print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred_ecommerce, zero_division=0))

    # --------------------------------------------------------------------------
    # 4.2 Detección de Cuentas Falsas y Actividades Maliciosas (DBSCAN en IPs)
    # --------------------------------------------------------------------------
    print("\n4.2 Detección de Cuentas Falsas y Actividades Maliciosas (DBSCAN en IPs):")
    if 'Direccion_IP' in df_ecommerce.columns:
        # Codificamos las IPs a valores numéricos para el algoritmo de agrupamiento
        le_ip = LabelEncoder()
        df_ecommerce['IP_Codificada'] = le_ip.fit_transform(df_ecommerce['Direccion_IP'])

        # Escalado necesario para DBSCAN
        ip_array = df_ecommerce[['IP_Codificada']].values
        ip_scaled = StandardScaler().fit_transform(ip_array)

        # Aplicamos DBSCAN (eps=0.5 agrupa valores idénticos o muy cercanos)
        dbscan_ip = DBSCAN(eps=0.5, min_samples=2)
        df_ecommerce['Grupo_IP'] = dbscan_ip.fit_predict(ip_scaled)

        print("\nAgrupamiento de IPs (DBSCAN):")
        print(df_ecommerce[['ID_Usuario', 'Direccion_IP', 'Grupo_IP']].to_string(index=False))

        print("\nNúmero de Transacciones Fraudulentas por Grupo de IP:")
        print(df_ecommerce.groupby('Grupo_IP')['Es_Fraudulenta'].sum())

    # --------------------------------------------------------------------------
    # 4.3 Análisis de Comportamiento del Usuario
    # --------------------------------------------------------------------------
    print("\n4.3 Análisis de Comportamiento del Usuario para la Detección de Fraude:")
    if 'ID_Usuario' in df_ecommerce.columns:
        frecuencia_usuarios = df_ecommerce.groupby('ID_Usuario')['Fecha_Hora'].count().reset_index(name='Num_Transacciones')
        print("\nFrecuencia de Transacciones por Usuario:")
        print(frecuencia_usuarios.to_string(index=False))

        # Identificación de usuarios con alta actividad (Umbral ajustable)
        umbral_frecuencia = 3
        usuarios_alta_actividad = frecuencia_usuarios[frecuencia_usuarios['Num_Transacciones'] >= umbral_frecuencia]

        if not usuarios_alta_actividad.empty:
            print(f"\n⚠️ Usuarios con actividad inusual (>= {umbral_frecuencia}):")
            print(usuarios_alta_actividad['ID_Usuario'].tolist())
        else:
            print("\nNo se encontraron usuarios con una alta frecuencia de transacciones.")

except FileNotFoundError:
    print(f"❌ Error: El archivo '{nombre_archivo}' no se encontró. Verifica que el bloque de generación se haya ejecutado.")
except Exception as e:
    print(f"⚠️ Ocurrió un error inesperado: {e}")

✅ Archivo 'df_ecommerce.csv' cargado exitosamente.
Total de registros: 30

4.1 Identificación de Transacciones Fraudulentas en Línea (Regresión Logística):
Predicciones (Regresión Logística): [0 0 0 0 0 0 0 0 0]
Valores Reales: [0 1 1 0 0 0 0 0 1]
Precisión del Modelo: 0.6666666666666666

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.67      1.00      0.80         6
           1       0.00      0.00      0.00         3

    accuracy                           0.67         9
   macro avg       0.33      0.50      0.40         9
weighted avg       0.44      0.67      0.53         9


4.2 Detección de Cuentas Falsas y Actividades Maliciosas (DBSCAN en IPs):

Agrupamiento de IPs (DBSCAN):
         ID_Usuario    Direccion_IP  Grupo_IP
    tayloralexander 214.137.220.117         0
     davischristina 192.168.120.211         0
       hughesolivia 192.168.105.223         0
            lrivera   190.34.121.80         0
        nancybryant 