# Informe del Proyecto — Análisis Exploratorio (EDA)
**Proyecto:** Proyecto Final Data Analytics  
**Autora:** Patricia Merinero  
**Fecha:** 08/11/2025

Este informe resume objetivos, calidad de datos, transformaciones, visualizaciones clave, *insights* y recomendaciones.


## Celda de código — Rutas del proyecto y carpeta del informe

In [5]:
# --- Rutas del proyecto y carpetas del informe ---
from pathlib import Path
import shutil
from datetime import datetime

# 1) Detectar la raíz del proyecto (carpeta que contiene DATA/ y NOTEBOOKS/)
PROJECT_ROOT = Path.cwd().resolve()
if PROJECT_ROOT.name.lower() == "notebooks":
    PROJECT_ROOT = PROJECT_ROOT.parent

while not (PROJECT_ROOT / "DATA").exists() and PROJECT_ROOT.parent != PROJECT_ROOT:
    PROJECT_ROOT = PROJECT_ROOT.parent

assert (PROJECT_ROOT / "DATA").exists(), "No encuentro la carpeta DATA. Abre el notebook dentro del proyecto."

# 2) Directorios de trabajo
EDA_DIR     = PROJECT_ROOT / "DATA" / "DATA_OUTPUT" / "EDA"          # origen (lo que generaste en el EDA)
REPORT_DIR  = PROJECT_ROOT / "DATA" / "DATA_OUTPUT" / "INFORME"      # destino del informe
FIGS_DIR    = REPORT_DIR / "figs"                                    # subcarpeta para imágenes del informe

# 3) Crear si no existen
REPORT_DIR.mkdir(parents=True, exist_ok=True)
FIGS_DIR.mkdir(parents=True, exist_ok=True)

print("PROJECT_ROOT:", PROJECT_ROOT)
print("EDA_DIR:     ", EDA_DIR)
print("REPORT_DIR:  ", REPORT_DIR)
print("FIGS_DIR:    ", FIGS_DIR)


PROJECT_ROOT: C:\Users\Propietario\Desktop\PROYECTO_FINAL\Proyecto_final_Data_Analytics
EDA_DIR:      C:\Users\Propietario\Desktop\PROYECTO_FINAL\Proyecto_final_Data_Analytics\DATA\DATA_OUTPUT\EDA
REPORT_DIR:   C:\Users\Propietario\Desktop\PROYECTO_FINAL\Proyecto_final_Data_Analytics\DATA\DATA_OUTPUT\INFORME
FIGS_DIR:     C:\Users\Propietario\Desktop\PROYECTO_FINAL\Proyecto_final_Data_Analytics\DATA\DATA_OUTPUT\INFORME\figs


## Celda de código: Cargar dataset procesado (para tablas KPI)

In [None]:
# --- Cargar dataset procesado para KPIs del informe ---
import pandas as pd

# Ajuste de ruta: el dataset está directamente en DATA_OUTPUT (no dentro de EDA)
ruta_limpio = PROJECT_ROOT / "DATA" / "DATA_OUTPUT" / "dataset_limpio_y_transformado.csv"

if not ruta_limpio.exists():
    raise FileNotFoundError(f"No encuentro el dataset en: {ruta_limpio}")

# Cargar dataset
df = pd.read_csv(ruta_limpio)

print(f"Dataset cargado correctamente: {df.shape[0]} filas x {df.shape[1]} columnas")
df.head(3)


✅ Dataset cargado correctamente: 39906 filas x 34 columnas


Unnamed: 0,transaction_id,customer_id,name,email,phone_clean,dominio,risk_score,risk_level,created_at,customer_days_active,...,merchant_category,entry_mode,transaction_result,arn,card_type,card_bin6,card_last4,card_masked,card_expiry,is_fraud
0,022747b2-1620f494,bf7ebaf36760,David Davis,butlervicki+1855@yahoo.com,4483070721,yahoo.com,0.46,Medio,2025-11-30,328,...,restaurant,wallet,approved,37a7048c3a5045f9b8baf73c,MASTERCARD,423952,6802.0,XXXX-XXXX-XXXX-6802,03/24,0.0
1,46db399b-245984a0,3447adff8b2d,Chris Garcia,gutierrezalexander+2117@hotmail.com,6361970252,hotmail.com,0.35,Medio,2025-04-24,106,...,electronics,chip,approved,b0a54d13ca094472aa652ae7,VISA,469023,9432.0,XXXX-XXXX-XXXX-9432,02/29,0.0
2,8f70d5c5-2f904c1c,feab2ab972ff,Megan Ortiz,grocha+9203@hotmail.com,679033658,hotmail.com,0.96,Alto,2025-11-13,324,...,grocery,wallet,approved,f1498055674142eeaf7456fb,VISA,466645,3897.0,XXXX-XXXX-XXXX-3897,01/25,0.0
