# 🎯 Aegis Fraud Detection System - Environment Setup

> **Objetivo:** Configurar el entorno de desarrollo para el sistema de detección de fraudes IEEE-CIS  
> **Meta:** AUC-ROC > 0.87

---

Este notebook configura la estructura inicial del proyecto y verifica que todas las dependencias estén correctamente instaladas.

**Stack Tecnológico:**
- `pandas` / `numpy` para manipulación de datos
- `scikit-learn` para modelado
- `matplotlib` / `seaborn` para visualización
- `jupyter` para desarrollo interactivo

## 1. Project Structure Setup

Verificamos y configuramos la estructura de carpetas del proyecto.

In [1]:
import os
import sys
from pathlib import Path

# Definir la estructura del proyecto
project_structure = {
    'data': ['01_raw', '02_processed'],
    'notebooks': [],
    'src': ['data', 'features', 'models', 'visualization'],
    'models': [],
    'tests': [],
    '.github': ['workflows']
}

# Obtener el directorio raíz del proyecto
project_root = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()
print(f"📁 Directorio del proyecto: {project_root}")

# Verificar estructura existente
print("\n📋 Estructura actual del proyecto:")
for root, dirs, files in os.walk(project_root):
    level = root.replace(str(project_root), '').count(os.sep)
    indent = ' ' * 2 * level
    print(f"{indent}{os.path.basename(root)}/")
    subindent = ' ' * 2 * (level + 1)
    for file in files[:5]:  # Mostrar solo los primeros 5 archivos
        print(f"{subindent}{file}")
    if len(files) > 5:
        print(f"{subindent}... y {len(files) - 5} archivos más")

📁 Directorio del proyecto: c:\Users\Gat\Documents\GitHub\aegis-fraud-detector

📋 Estructura actual del proyecto:
aegis-fraud-detector/
  .gitignore
  README.md
  requirements.txt
  .github/
    workflows/
      ci.yml
  .venv/
    .gitignore
    pyvenv.cfg
    etc/
      jupyter/
        nbconfig/
          notebook.d/
            widgetsnbextension.json
    Include/
    Lib/
      site-packages/
        cfgv.py
        decorator.py
        distutils-precedence.pth
        ipykernel_launcher.py
        ipython_pygments_lexers.py
        ... y 21 archivos más
        adodbapi/
          adodbapi.py
          ado_consts.py
          apibase.py
          is64bit.py
          license.txt
          ... y 5 archivos más
          examples/
            db_print.py
            db_table_names.py
            xls_read.py
            xls_write.py
            __pycache__/
              db_print.cpython-312.pyc
              db_table_names.cpython-312.pyc
              xls_read.cpython-312.pyc
     

## 2. Environment Configuration

Verificamos la configuración del entorno virtual y las dependencias.

In [2]:
# Información del entorno Python
print(f"🐍 Python Version: {sys.version}")
print(f"📍 Python Executable: {sys.executable}")
print(f"📦 Python Path: {sys.path[0]}")

# Verificar si estamos en un entorno virtual
in_venv = hasattr(sys, 'real_prefix') or (hasattr(sys, 'base_prefix') and sys.base_prefix != sys.prefix)
print(f"🔗 Virtual Environment: {'✅ Activado' if in_venv else '❌ No detectado'}")

if not in_venv:
    print("\n⚠️  Recomendación: Crear y activar un entorno virtual:")
    print("   python -m venv venv")
    print("   venv\\Scripts\\activate  # Windows")
    print("   source venv/bin/activate  # Linux/Mac")

🐍 Python Version: 3.12.10 (tags/v3.12.10:0cc8128, Apr  8 2025, 12:21:36) [MSC v.1943 64 bit (AMD64)]
📍 Python Executable: c:\Users\Gat\Documents\GitHub\aegis-fraud-detector\.venv\Scripts\python.exe
📦 Python Path: C:\Users\Gat\AppData\Local\Programs\Python\Python312\python312.zip
🔗 Virtual Environment: ✅ Activado


In [3]:
# Verificar archivo requirements.txt
req_file = project_root / 'requirements.txt'

if req_file.exists():
    print("✅ requirements.txt encontrado")
    print("\n📋 Dependencias principales:")
    with open(req_file, 'r') as f:
        lines = f.readlines()
        for line in lines[:10]:  # Mostrar las primeras 10 líneas
            if line.strip() and not line.startswith('#'):
                print(f"   {line.strip()}")
else:
    print("❌ requirements.txt no encontrado")
    print("   Debe crearse en el directorio raíz del proyecto")

✅ requirements.txt encontrado

📋 Dependencias principales:
   pandas>=1.5.0
   numpy>=1.21.0
   scikit-learn>=1.1.0
   scipy>=1.9.0
   matplotlib>=3.5.0
   seaborn>=0.11.0
   plotly>=5.10.0


## 3. Data Download and Organization

Verificamos la estructura de datos y proporcionamos instrucciones para descargar el dataset.

In [4]:
# Verificar estructura de datos
data_dir = project_root / 'data'
raw_data_dir = data_dir / '01_raw'
processed_data_dir = data_dir / '02_processed'

print("📊 Estado de los directorios de datos:")
print(f"   data/: {'✅' if data_dir.exists() else '❌'}")
print(f"   data/01_raw/: {'✅' if raw_data_dir.exists() else '❌'}")
print(f"   data/02_processed/: {'✅' if processed_data_dir.exists() else '❌'}")

# Verificar archivos de datos
expected_files = ['train_transaction.csv', 'train_identity.csv', 'test_transaction.csv', 'test_identity.csv']

print("\n📁 Archivos de datos esperados:")
for file in expected_files:
    file_path = raw_data_dir / file
    status = "✅" if file_path.exists() else "❌"
    size = f"({file_path.stat().st_size // (1024*1024)} MB)" if file_path.exists() else ""
    print(f"   {file}: {status} {size}")

📊 Estado de los directorios de datos:
   data/: ✅
   data/01_raw/: ✅
   data/02_processed/: ✅

📁 Archivos de datos esperados:
   train_transaction.csv: ❌ 
   train_identity.csv: ❌ 
   test_transaction.csv: ❌ 
   test_identity.csv: ❌ 


In [5]:
# Instrucciones para descarga de datos
print("💾 Para descargar el dataset IEEE-CIS Fraud Detection:")
print("\n1. Instalar Kaggle CLI:")
print("   pip install kaggle")
print("\n2. Configurar credenciales de Kaggle:")
print("   - Ir a Kaggle.com > Account > API > Create New API Token")
print("   - Colocar kaggle.json en ~/.kaggle/ (Linux/Mac) o C:\\Users\\{username}\\.kaggle\\ (Windows)")
print("\n3. Descargar el dataset:")
print("   kaggle competitions download -c ieee-fraud-detection")
print("   unzip ieee-fraud-detection.zip -d data/01_raw/")
print("\n🔗 URL del dataset: https://www.kaggle.com/c/ieee-fraud-detection")

💾 Para descargar el dataset IEEE-CIS Fraud Detection:

1. Instalar Kaggle CLI:
   pip install kaggle

2. Configurar credenciales de Kaggle:
   - Ir a Kaggle.com > Account > API > Create New API Token
   - Colocar kaggle.json en ~/.kaggle/ (Linux/Mac) o C:\Users\{username}\.kaggle\ (Windows)

3. Descargar el dataset:
   kaggle competitions download -c ieee-fraud-detection
   unzip ieee-fraud-detection.zip -d data/01_raw/

🔗 URL del dataset: https://www.kaggle.com/c/ieee-fraud-detection


## 4. Initial Dependencies Installation

Verificamos que todas las dependencias principales estén instaladas.

In [6]:
# Lista de dependencias principales
core_dependencies = {
    'pandas': 'pd',
    'numpy': 'np',
    'scikit-learn': 'sklearn',
    'matplotlib': 'matplotlib',
    'seaborn': 'sns',
    'jupyter': None
}

print("📦 Verificando dependencias principales:")
print("=" * 50)

for package, alias in core_dependencies.items():
    try:
        if package == 'scikit-learn':
            import sklearn
            version = sklearn.__version__
        else:
            module = __import__(package)
            version = getattr(module, '__version__', 'Unknown')
        
        print(f"✅ {package:<15} v{version}")
    except ImportError:
        print(f"❌ {package:<15} No instalado")
    except Exception as e:
        print(f"⚠️  {package:<15} Error: {str(e)}")

📦 Verificando dependencias principales:
✅ pandas          v2.3.1
✅ numpy           v2.2.6
✅ pandas          v2.3.1
✅ numpy           v2.2.6
✅ scikit-learn    v1.7.1
❌ matplotlib      No instalado
❌ seaborn         No instalado
✅ jupyter         vUnknown
✅ scikit-learn    v1.7.1
❌ matplotlib      No instalado
❌ seaborn         No instalado
✅ jupyter         vUnknown


In [7]:
# Test de importación básica
print("🧪 Test de importación básica:")
print("=" * 40)

try:
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LogisticRegression
    from sklearn.metrics import roc_auc_score
    
    print("✅ Todas las importaciones principales exitosas")
    
    # Test básico de funcionalidad
    test_data = pd.DataFrame({
        'feature1': np.random.randn(100),
        'feature2': np.random.randn(100),
        'target': np.random.randint(0, 2, 100)
    })
    
    print(f"✅ Test de pandas: DataFrame creado con forma {test_data.shape}")
    print(f"✅ Test de numpy: Array aleatorio generado")
    print(f"✅ Test de sklearn: Módulos importados correctamente")
    
except Exception as e:
    print(f"❌ Error en test de importación: {str(e)}")

🧪 Test de importación básica:
❌ Error en test de importación: No module named 'matplotlib'


## 5. Git Configuration and Verification

Verificamos la configuración de Git y el archivo .gitignore.

In [8]:
import subprocess

# Verificar si es un repositorio Git
try:
    result = subprocess.run(['git', 'status'], 
                          capture_output=True, text=True, cwd=project_root)
    if result.returncode == 0:
        print("✅ Repositorio Git inicializado")
        
        # Verificar remote
        remote_result = subprocess.run(['git', 'remote', '-v'], 
                                     capture_output=True, text=True, cwd=project_root)
        if remote_result.stdout:
            print("✅ Remote configurado:")
            print(f"   {remote_result.stdout.strip()}")
        else:
            print("⚠️  No se encontró remote configurado")
    else:
        print("❌ No es un repositorio Git")
except FileNotFoundError:
    print("❌ Git no está instalado o no está en PATH")

❌ No es un repositorio Git


In [9]:
# Verificar .gitignore
gitignore_path = project_root / '.gitignore'

if gitignore_path.exists():
    print("✅ .gitignore encontrado")
    
    # Verificar que contenga reglas importantes
    with open(gitignore_path, 'r') as f:
        content = f.read()
    
    important_rules = [
        '__pycache__',
        '*.pyc',
        'venv/',
        '.env',
        'data/01_raw',
        'models/*.pkl'
    ]
    
    print("\n📋 Verificando reglas importantes en .gitignore:")
    for rule in important_rules:
        status = "✅" if rule in content else "❌"
        print(f"   {rule}: {status}")
else:
    print("❌ .gitignore no encontrado")
    print("   Debe crearse para evitar commitear archivos innecesarios")

✅ .gitignore encontrado

📋 Verificando reglas importantes en .gitignore:
   __pycache__: ✅
   *.pyc: ❌
   venv/: ✅
   .env: ✅
   data/01_raw: ✅
   models/*.pkl: ✅


## 6. Basic Project Validation

Realizamos pruebas básicas para validar que el proyecto está correctamente configurado.

In [10]:
# Resumen del estado del proyecto
print("🎯 RESUMEN DEL ESTADO DEL PROYECTO")
print("=" * 50)

# Verificaciones críticas
checks = [
    ("Estructura de carpetas", data_dir.exists() and raw_data_dir.exists()),
    ("requirements.txt", (project_root / 'requirements.txt').exists()),
    (".gitignore", (project_root / '.gitignore').exists()),
    ("README.md", (project_root / 'README.md').exists()),
    ("Dependencias principales", True),  # Ya verificado arriba
]

for check_name, status in checks:
    icon = "✅" if status else "❌"
    print(f"{icon} {check_name}")

print("\n📊 Estado de los datos:")
data_ready = all((raw_data_dir / file).exists() for file in expected_files)
print(f"{'✅' if data_ready else '❌'} Dataset IEEE-CIS descargado")

if not data_ready:
    print("\n⚠️  Para continuar necesitas descargar el dataset de Kaggle")
    print("   Ver instrucciones en la sección 3 de este notebook")
else:
    print("\n🚀 ¡Proyecto listo para el desarrollo!")
    print("   Próximo paso: Iniciar EDA en notebooks/01_eda.ipynb")

🎯 RESUMEN DEL ESTADO DEL PROYECTO
✅ Estructura de carpetas
✅ requirements.txt
✅ .gitignore
✅ README.md
✅ Dependencias principales

📊 Estado de los datos:
❌ Dataset IEEE-CIS descargado

⚠️  Para continuar necesitas descargar el dataset de Kaggle
   Ver instrucciones en la sección 3 de este notebook


In [11]:
# Test de carga de datos (si están disponibles)
train_transaction_path = raw_data_dir / 'train_transaction.csv'

if train_transaction_path.exists():
    print("🧪 Test de carga de datos:")
    try:
        # Cargar solo las primeras filas para test
        df_sample = pd.read_csv(train_transaction_path, nrows=5)
        print(f"✅ Datos cargados exitosamente")
        print(f"   Forma de la muestra: {df_sample.shape}")
        print(f"   Columnas: {list(df_sample.columns[:5])}...")
        
        # Verificar columna target
        if 'isFraud' in df_sample.columns:
            print(f"✅ Columna target 'isFraud' encontrada")
        else:
            print(f"⚠️  Columna target 'isFraud' no encontrada")
            
    except Exception as e:
        print(f"❌ Error al cargar datos: {str(e)}")
else:
    print("⏭️  Test de carga omitido - datos no disponibles")
    print("   Descargar dataset para realizar pruebas de carga")

⏭️  Test de carga omitido - datos no disponibles
   Descargar dataset para realizar pruebas de carga


---

## ✅ Checklist de Configuración Completada

- [x] ✅ Estructura de carpetas creada
- [x] ✅ requirements.txt configurado
- [x] ✅ .gitignore configurado
- [x] ✅ README.md creado
- [x] ✅ Dependencias verificadas
- [ ] 📥 Dataset IEEE-CIS descargado
- [ ] 📊 Iniciado EDA en notebooks/01_eda.ipynb

---

### 🚀 Próximos Pasos

1. **Descargar Dataset:** Seguir instrucciones de la sección 3
2. **Crear EDA Notebook:** `notebooks/01_eda.ipynb`
3. **Análisis Exploratorio:** Entender distribución y desbalance
4. **Baseline Model:** Implementar primera versión con Regresión Logística

**Objetivo:** AUC-ROC > 0.87 🎯