# **GENERAR DATOS SINTÉTICOS**

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime, timedelta

np.random.seed(42)

# ---------------------------
# Parámetros generales
# ---------------------------
N_USERS = 5000
N_TRANSACTIONS = 200_000
FRAUD_RATE = 0.001  # 0.1%

channels = ['web', 'mobile_app', 'pos']
countries = ['EC', 'US', 'CO', 'PE', 'MX']
devices = ['android', 'ios', 'desktop']
merchant_categories = ['food', 'tech', 'travel', 'fashion', 'services']

# ---------------------------
# Usuarios
# ---------------------------
users = pd.DataFrame({
    'user_id': range(N_USERS),
    'user_age': np.random.randint(18, 70, N_USERS),
    'account_age_days': np.random.randint(30, 3000, N_USERS),
    'avg_amount': np.random.uniform(100, 3000, N_USERS)
})

# ---------------------------
# Transacciones
# ---------------------------
transactions = pd.DataFrame({
    'transaction_id': range(N_TRANSACTIONS),
    'user_id': np.random.choice(users['user_id'], N_TRANSACTIONS),
    'channel': np.random.choice(channels, N_TRANSACTIONS, p=[0.3, 0.5, 0.2]),
    'country': np.random.choice(countries, N_TRANSACTIONS, p=[0.7, 0.1, 0.08, 0.06, 0.06]),
    'device': np.random.choice(devices, N_TRANSACTIONS, p=[0.5, 0.3, 0.2]),
    'merchant_category': np.random.choice(merchant_categories, N_TRANSACTIONS)
})

# ---------------------------
# Timestamp
# ---------------------------
start_date = datetime(2024, 1, 1)
transactions['timestamp'] = [
    start_date + timedelta(minutes=int(np.random.exponential(scale=3000)))
    for _ in range(N_TRANSACTIONS)
]

transactions['hour'] = transactions['timestamp'].dt.hour
transactions['day_of_week'] = transactions['timestamp'].dt.dayofweek

# ---------------------------
# Merge con usuarios
# ---------------------------
transactions = transactions.merge(users, on='user_id', how='left')

# ---------------------------
# Monto de transacción
# ---------------------------
transactions['amount'] = transactions.apply(
    lambda x: np.random.normal(loc=x['avg_amount'], scale=x['avg_amount'] * 0.5),
    axis=1
)

transactions['amount'] = transactions['amount'].clip(lower=1)

# ---------------------------
# Variable target: fraude
# ---------------------------
transactions['is_fraud'] = 0
fraud_indices = np.random.choice(
    transactions.index,
    size=int(N_TRANSACTIONS * FRAUD_RATE),
    replace=False
)

transactions.loc[fraud_indices, 'is_fraud'] = 1

# ---------------------------
# Alterar comportamiento fraudulento
# ---------------------------
transactions.loc[fraud_indices, 'amount'] *= np.random.uniform(3, 8)
transactions.loc[fraud_indices, 'country'] = np.random.choice(['US', 'MX'], len(fraud_indices))
transactions.loc[fraud_indices, 'hour'] = np.random.choice([0, 1, 2, 3, 4], len(fraud_indices))
transactions.loc[fraud_indices, 'channel'] = np.random.choice(['web', 'mobile_app'], len(fraud_indices))

# ---------------------------
# Features útiles inmediatas
# ---------------------------
transactions['is_foreign'] = (transactions['country'] != 'EC').astype(int)
transactions['high_amount'] = (transactions['amount'] > 500).astype(int)

# ---------------------------
# Limpieza final
# ---------------------------
transactions = transactions.sort_values('timestamp').reset_index(drop=True)

print(transactions.head())
print("\nFraude (%):", transactions['is_fraud'].mean() * 100)

# ---------------------------
# Guardar dataset
# ---------------------------
transactions.to_csv(
    "/content/transacciones_fraude_sinteticas.csv",
    index=False
)

 2 0 3 1 1 0 3 2 2 1 1 4 0 4 0 2 0 3 4 1 1 0 4 0 1 3 1 1 1 1 0 4 3 1 0 2 1
 3 0 2 0 4 4 3 2 4 3 4 2 1 3 3 3 4 0 4 4 4 4 3 0 4 0 0 4 0 3 0 3 1 4 4 2 0
 1 4 4 1 2 3 1 1 1 4 0 4 3 2 0 1 1 4 1 1 4 4 1 4 0 1 3 2 2 3 1 1 0 4 4 1 0
 0 1 2 0 0 3 4 3 4 4 1 1 1 4 4 3 2 3 0 4 4 0 2 0 1 1 3 3 2 2 1 2 0 1 0 3 0
 0 2 0 3 4 1 0 0 3 4 0 2 1 4 2]' has dtype incompatible with int32, please explicitly cast to a compatible dtype first.
  transactions.loc[fraud_indices, 'hour'] = np.random.choice([0, 1, 2, 3, 4], len(fraud_indices))


   transaction_id  user_id     channel country   device merchant_category  \
0          124139     4646         pos      EC  android          services   
1           85706      311         web      MX  desktop              food   
2          167914     3300  mobile_app      EC  android          services   
3           23899      214         web      EC  android              tech   
4           78219     4567         pos      EC  android            travel   

   timestamp  hour  day_of_week  user_age  account_age_days   avg_amount  \
0 2024-01-01     0            0        68               652   705.363059   
1 2024-01-01     0            0        41               250  1583.424358   
2 2024-01-01     0            0        50              1110  2278.692039   
3 2024-01-01     0            0        58               441  1733.176727   
4 2024-01-01     0            0        45              1417  1406.131222   

        amount  is_fraud  is_foreign  high_amount  
0   371.419278         0    

In [None]:
# ================================================
#  CELDA FINAL: GUARDAR NOTEBOOK EN GITHUB DESDE COLAB
# ================================================
import os
import json
import subprocess
from google.colab import drive

# CONFIGURACIÓN - Ajusta estos valores para cada notebook
NOTEBOOK_NAME = "01_Base_Datos.ipynb"  # Cambia por el nombre actual
COMMIT_MESSAGE = "Actualizar notebook de proyecto"  # Cambia el mensaje
GITHUB_USERNAME = "akordone22"
REPO_NAME = "UEES-IA-Deteccion_Fraude-Grupo7"

# Token de GitHub - CONFIGURADO DIRECTAMENTE
GITHUB_TOKEN = "[TOKEN_REMOVIDO_POR_SEGURIDAD]"

def get_github_token():
    """Retorna el token de GitHub configurado"""
    return GITHUB_TOKEN

def mount_drive():
    """Monta Google Drive si no está montado"""
    try:
        if not os.path.exists('/content/drive'):
            print("Montando Google Drive...")
            drive.mount('/content/drive')
        print("EXITO: Google Drive montado correctamente")
        return True
    except Exception as e:
        print(f"ERROR: Error montando Google Drive: {e}")
        return False

def configure_git():
    """Configura Git con credenciales"""
    try:
        # Primero intentar configurar de forma local en el directorio
        os.makedirs('/tmp/git_config', exist_ok=True)
        os.chdir('/tmp/git_config')

        # Inicializar git temporalmente
        subprocess.run(['git', 'init'], check=True, capture_output=True)

        # Configurar usuario
        result1 = subprocess.run(['git', 'config', 'user.email', 'andrea.ordonezr@uees.edu.ec'],
                                capture_output=True, text=True)
        result2 = subprocess.run(['git', 'config', 'user.name', 'Andrea Ordoñez'],
                                capture_output=True, text=True)

        # Verificar configuración
        email_check = subprocess.run(['git', 'config', 'user.email'],
                                   capture_output=True, text=True)
        name_check = subprocess.run(['git', 'config', 'user.name'],
                                  capture_output=True, text=True)

        if 'andrea.ordonezr@uees.edu.ec' in email_check.stdout and 'Andrea Ordoñez' in name_check.stdout:
            print("EXITO: Git configurado correctamente")
            return True
        else:
            # Intentar configuración global alternativa
            subprocess.run(['git', 'config', '--global', 'user.email', 'andrea.ordonezr@uees.edu.ec'],
                          check=False)
            subprocess.run(['git', 'config', '--global', 'user.name', 'Andrea Ordoñez'],
                          check=False)
            print("EXITO: Git configurado (modo alternativo)")
            return True

    except subprocess.CalledProcessError as e:
        print(f"ADVERTENCIA: Error configurando Git globalmente, continuando: {e}")
        # Continuamos de todas formas, Git puede funcionar sin configuración global
        return True
    except Exception as e:
        print(f"ERROR: Error configurando Git: {e}")
        return False

def clean_directory():
    """Limpia y prepara el directorio de trabajo"""
    try:
        if os.path.exists('/content/repo_final'):
            subprocess.run(['rm', '-rf', '/content/repo_final'], check=True)
        print("EXITO: Directorio limpiado")
        return True
    except Exception as e:
        print(f"ERROR: Error limpiando directorio: {e}")
        return False

def clone_repository():
    """Clona el repositorio de GitHub"""
    try:
        token = get_github_token()
        repo_url = f"https://{GITHUB_USERNAME}:{token}@github.com/{GITHUB_USERNAME}/{REPO_NAME}.git"

        # Configurar Git en el directorio del repositorio después de clonar
        result = subprocess.run(['git', 'clone', repo_url, '/content/repo_final'],
                               capture_output=True, text=True, check=True)

        # Cambiar al directorio del repositorio y configurar usuario
        os.chdir('/content/repo_final')
        subprocess.run(['git', 'config', 'user.email', 'andrea.ordonezr@uees.edu.ec'], check=False)
        subprocess.run(['git', 'config', 'user.name', 'Andrea Ordoñez'], check=False)

        print("EXITO: Repositorio clonado y configurado correctamente")
        return True
    except subprocess.CalledProcessError as e:
        print(f"ERROR: Error clonando repositorio: {e}")
        print(f"STDOUT: {e.stdout}")
        print(f"STDERR: {e.stderr}")
        return False

def clean_notebook_content(content):
    """Limpia el contenido del notebook removiendo tokens sensibles"""
    # Lista de patrones a remover (incluyendo el token actual)
    token = get_github_token()
    sensitive_patterns = [
        token,
        "[TOKEN_REMOVIDO_POR_SEGURIDAD]",
        "[TOKEN_REMOVIDO_POR_SEGURIDAD]",
        "[TOKEN_REMOVIDO_POR_SEGURIDAD]",
        "[TOKEN_REMOVIDO_POR_SEGURIDAD]",
        "[TOKEN_REMOVIDO_POR_SEGURIDAD]",
        "[TOKEN_REMOVIDO_POR_SEGURIDAD]"
    ]

    cleaned_content = content
    for pattern in sensitive_patterns:
        if pattern and pattern in cleaned_content:
            cleaned_content = cleaned_content.replace(pattern, "[TOKEN_REMOVIDO_POR_SEGURIDAD]")

    # Limpieza adicional: remover líneas que contengan tokens
    lines = cleaned_content.split('\n')
    clean_lines = []
    for line in lines:
        # Si la línea contiene algún patrón de token, la reemplazamos
        line_has_token = False
        for pattern in ["[TOKEN_REMOVIDO_POR_SEGURIDAD]", "[TOKEN_REMOVIDO_POR_SEGURIDAD]", "[TOKEN_REMOVIDO_POR_SEGURIDAD]", "[TOKEN_REMOVIDO_POR_SEGURIDAD]", "[TOKEN_REMOVIDO_POR_SEGURIDAD]", "[TOKEN_REMOVIDO_POR_SEGURIDAD]"]:
            if pattern in line:
                line_has_token = True
                break

        if line_has_token:
            # Reemplazar toda la línea si contiene un token
            if "GITHUB_TOKEN" in line:
                clean_lines.append('GITHUB_TOKEN = "[TOKEN_REMOVIDO_POR_SEGURIDAD]"')
            else:
                clean_lines.append("[LINEA_CON_TOKEN_REMOVIDA_POR_SEGURIDAD]")
        else:
            clean_lines.append(line)

    return '\n'.join(clean_lines)

def copy_and_clean_notebook():
    """Copia el notebook desde Drive y lo limpia"""
    try:
        # Rutas
        drive_path = f"/content/drive/MyDrive/proyectof/{NOTEBOOK_NAME}"
        target_dir = "/content/repo_final/Proyecto_Final/notebooks"
        target_path = f"{target_dir}/{NOTEBOOK_NAME}"

        # Verificar que el notebook existe en Drive
        if not os.path.exists(drive_path):
            print(f"ERROR: No se encontró el notebook en: {drive_path}")
            return False

        # Crear directorio destino
        os.makedirs(target_dir, exist_ok=True)

        # Leer el notebook
        with open(drive_path, 'r', encoding='utf-8') as f:
            content = f.read()

        # Limpiar contenido sensible
        cleaned_content = clean_notebook_content(content)

        # Verificar que el token fue removido completamente
        token = get_github_token()
        if token in cleaned_content:
            print("ADVERTENCIA: Token detectado en contenido después de limpieza")
            # Limpieza adicional más agresiva
            cleaned_content = cleaned_content.replace(token, "[TOKEN_REMOVIDO_POR_SEGURIDAD]")

        # Guardar el notebook limpio
        with open(target_path, 'w', encoding='utf-8') as f:
            f.write(cleaned_content)

        print(f"EXITO: Notebook '{NOTEBOOK_NAME}' copiado y limpiado")
        print("SEGURIDAD: Contenido verificado - tokens removidos")
        return True

    except Exception as e:
        print(f"ERROR: Error copiando notebook: {e}")
        return False

def commit_and_push():
    """Hace commit y push de los cambios"""
    try:
        # Cambiar al directorio del repositorio
        os.chdir('/content/repo_final')

        # Verificar estado
        result = subprocess.run(['git', 'status', '--porcelain'],
                               capture_output=True, text=True, check=True)

        if not result.stdout.strip():
            print("EXITO: No hay cambios para subir")
            return True

        # Verificación final de seguridad antes de subir
        token = get_github_token()
        for root, dirs, files in os.walk('.'):
            for file in files:
                if file.endswith(('.ipynb', '.py', '.md', '.txt')):
                    filepath = os.path.join(root, file)
                    try:
                        with open(filepath, 'r', encoding='utf-8') as f:
                            content = f.read()
                            if token in content:
                                print(f"PELIGRO: Token detectado en {filepath}")
                                print("DETENIENDO PROCESO POR SEGURIDAD")
                                return False
                    except:
                        pass  # Ignorar archivos que no se pueden leer

        print("SEGURIDAD: Verificación final completada - sin tokens detectados")

        # Agregar archivos
        subprocess.run(['git', 'add', '.'], check=True)

        # Commit
        subprocess.run(['git', 'commit', '-m', COMMIT_MESSAGE], check=True)

        # Push
        subprocess.run(['git', 'push', 'origin', 'main'], check=True)

        print("EXITO: Cambios subidos exitosamente a GitHub")
        return True

    except subprocess.CalledProcessError as e:
        print(f"ERROR: Error en commit/push: {e}")
        if e.stderr:
            print(f"STDERR: {e.stderr}")
        return False

def main():
    """Función principal que ejecuta todo el proceso"""
    print("=== INICIANDO PROCESO DE SUBIDA A GITHUB ===")
    print("NOTA: Token configurado directamente en el código")
    print("")

    steps = [
        ("Montando Google Drive", mount_drive),
        ("Configurando Git", configure_git),
        ("Limpiando directorio", clean_directory),
        ("Clonando repositorio", clone_repository),
        ("Copiando y limpiando notebook", copy_and_clean_notebook),
        ("Subiendo cambios", commit_and_push)
    ]

    for step_name, step_function in steps:
        print(f"\n{step_name}...")
        if not step_function():
            print(f"\nERROR: PROCESO FALLIDO en: {step_name}")
            return False

    print(f"\nEXITO: PROCESO COMPLETADO EXITOSAMENTE")
    print(f"Notebook disponible en:")
    print(f"https://github.com/{GITHUB_USERNAME}/{REPO_NAME}/tree/main/02_Laboratorio/notebooks")

    return True

# Ejecutar el proceso
if __name__ == "__main__":
    main()

=== INICIANDO PROCESO DE SUBIDA A GITHUB ===
NOTA: Token configurado directamente en el código


Montando Google Drive...
Montando Google Drive...
