In [2]:
# --- Importación de librerías ---
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# --- Carga de los datasets ---
visits_raw = pd.read_csv('../data/raw/visits_log_us.csv')
orders_raw = pd.read_csv('../data/raw/orders_log_us.csv')
costs_raw = pd.read_csv('../data/raw/costs_us.csv')


print("\n Archivos RAW cargados.\n")

# --- VISITS ---
print(" VISITS (RAW)")
display(visits_raw.head())
print("\n Resumen general:")
visits_raw.info()
print("\n Valores nulos por columna:")
print(visits_raw.isnull().sum())
print("\n Número de registros duplicados:")
print(visits_raw.duplicated().sum())

# --- ORDERS ---
print("\n ORDERS (RAW)")
display(orders_raw.head())
print("\n Resumen general:")
orders_raw.info()
print("\n Valores nulos por columna:")
print(orders_raw.isnull().sum())
print("\n Número de registros duplicados:")
print(orders_raw.duplicated().sum())

# --- COSTS ---
print("\n COSTS (RAW)")
display(costs_raw.head())
print("\n Resumen general:")
costs_raw.info()
print("\n Valores nulos por columna:")
print(costs_raw.isnull().sum())
print("\n Número de registros duplicados:")
print(costs_raw.duplicated().sum())



 Archivos RAW cargados.

 VISITS (RAW)


Unnamed: 0,Device,End Ts,Source Id,Start Ts,Uid
0,touch,2017-12-20 17:38:00,4,2017-12-20 17:20:00,16879256277535980062
1,desktop,2018-02-19 17:21:00,2,2018-02-19 16:53:00,104060357244891740
2,touch,2017-07-01 01:54:00,5,2017-07-01 01:54:00,7459035603376831527
3,desktop,2018-05-20 11:23:00,9,2018-05-20 10:59:00,16174680259334210214
4,desktop,2017-12-27 14:06:00,3,2017-12-27 14:06:00,9969694820036681168



 Resumen general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 359400 entries, 0 to 359399
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   Device     359400 non-null  object
 1   End Ts     359400 non-null  object
 2   Source Id  359400 non-null  int64 
 3   Start Ts   359400 non-null  object
 4   Uid        359400 non-null  uint64
dtypes: int64(1), object(3), uint64(1)
memory usage: 13.7+ MB

 Valores nulos por columna:
Device       0
End Ts       0
Source Id    0
Start Ts     0
Uid          0
dtype: int64

 Número de registros duplicados:
0

 ORDERS (RAW)


Unnamed: 0,Buy Ts,Revenue,Uid
0,2017-06-01 00:10:00,17.0,10329302124590727494
1,2017-06-01 00:25:00,0.55,11627257723692907447
2,2017-06-01 00:27:00,0.37,17903680561304213844
3,2017-06-01 00:29:00,0.55,16109239769442553005
4,2017-06-01 07:58:00,0.37,14200605875248379450



 Resumen general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50415 entries, 0 to 50414
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Buy Ts   50415 non-null  object 
 1   Revenue  50415 non-null  float64
 2   Uid      50415 non-null  uint64 
dtypes: float64(1), object(1), uint64(1)
memory usage: 1.2+ MB

 Valores nulos por columna:
Buy Ts     0
Revenue    0
Uid        0
dtype: int64

 Número de registros duplicados:
0

 COSTS (RAW)


Unnamed: 0,source_id,dt,costs
0,1,2017-06-01,75.2
1,1,2017-06-02,62.25
2,1,2017-06-03,36.53
3,1,2017-06-04,55.0
4,1,2017-06-05,57.08



 Resumen general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2542 entries, 0 to 2541
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   source_id  2542 non-null   int64  
 1   dt         2542 non-null   object 
 2   costs      2542 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 59.7+ KB

 Valores nulos por columna:
source_id    0
dt           0
costs        0
dtype: int64

 Número de registros duplicados:
0


## **Preparacion de Datos**

## Limpieza y preparación de datos (`prepare_data.py`)

Este script realiza la primera etapa del pipeline: **cargar, limpiar y guardar** los datasets originales de Showz (`visits`, `orders` y `costs`). Esta fase es crucial para asegurar la calidad de los datos antes de construir variables y entrenar modelos predictivos.

---

### Archivos procesados
- `../data/raw/`: contiene los datos **crudos**.
- `../data/processed/`: contiene los datos **limpios**, listos para análisis.

---

###  ¿Qué hace cada función?

#### `load_data(visits_path, orders_path, costs_path)`
Carga los 3 archivos CSV en memoria como `DataFrame` de pandas.

---

####  `clean_visits(visits)`
Limpia el dataset de visitas:
- Renombra columnas a formato estándar (`start_ts`, `end_ts`, etc.).
- Convierte fechas a `datetime`.
- Asegura tipos correctos para `uid`, `source_id`, `device`.
- Elimina duplicados y registros con valores nulos críticos.

---

####  `clean_orders(orders)`
Limpia el dataset de órdenes:
- Renombra las columnas clave.
- Convierte fechas a `datetime`.
- Asegura tipos adecuados (`float64` para ingresos, `uint64` para usuario).
- Elimina duplicados y órdenes inválidas (sin fecha o valor).

---

#### `clean_costs(costs)`
Limpia el dataset de gastos de marketing:
- Renombra columnas.
- Convierte la fecha (`dt`) en una nueva columna `date` de tipo `datetime`.
- Valida tipos correctos (`int64` para `source_id`, `float64` para `costs`).
- Elimina duplicados y registros incompletos.

---

#### `save_clean_data(visits, orders, costs, output_dir)`
Guarda los tres datasets limpios como archivos CSV en la carpeta `../data/processed/`.

---

### `prepare_data(...)`
Función principal que:
1. Carga los datos.
2. Aplica funciones de limpieza por tabla.
3. Guarda los archivos limpios.
4. Devuelve los `DataFrames` en memoria para usarlos más adelante.

---

###  Ejecución principal

```python
visits_path = '../data/raw/visits_log_us.csv'
orders_path = '../data/raw/orders_log_us.csv'
costs_path = '../data/raw/costs_us.csv'

visits, orders, costs = prepare_data(visits_path, orders_path, costs_path)


In [24]:
import pandas as pd
import os

def load_data(visits_path, orders_path, costs_path):
    """Carga los datasets desde archivos CSV."""
    visits = pd.read_csv(visits_path)
    orders = pd.read_csv(orders_path)
    costs = pd.read_csv(costs_path)
    return visits, orders, costs

def clean_visits(visits):
    """Limpieza de la tabla visits."""
    # Renombrar columnas
    visits = visits.rename(columns={
        'Start Ts': 'start_ts',
        'End Ts': 'end_ts',
        'Source Id': 'source_id',
        'Uid': 'uid',
        'Device': 'device'
    })

    # Conversión de columnas de tiempo
    visits['start_ts'] = pd.to_datetime(visits['start_ts'])
    visits['end_ts'] = pd.to_datetime(visits['end_ts'])

    # Asegurar tipos de columnas
    visits['source_id'] = visits['source_id'].astype('int64')
    visits['uid'] = visits['uid'].astype('uint64')
    visits['device'] = visits['device'].astype('object')

    # Limpieza básica
    visits = visits.drop_duplicates()
    visits = visits.dropna(subset=['uid', 'start_ts', 'end_ts', 'source_id'])

    return visits

def clean_orders(orders):
    """Limpieza de la tabla orders."""
    # Renombrar columnas
    orders = orders.rename(columns={
        'Buy Ts': 'buy_ts',
        'Revenue': 'revenue',
        'Uid': 'uid'
    })

    # Conversión de columnas de tiempo
    orders['buy_ts'] = pd.to_datetime(orders['buy_ts'])

    # Asegurar tipos de columnas
    orders['revenue'] = orders['revenue'].astype('float64')
    orders['uid'] = orders['uid'].astype('uint64')

    # Limpieza básica
    orders = orders.drop_duplicates()
    orders = orders.dropna(subset=['uid', 'buy_ts', 'revenue'])

    return orders

def clean_costs(costs):
    """Limpieza de la tabla costs."""
    # Renombrar columnas
    costs = costs.rename(columns={
        'Source Id': 'source_id',
        'dt': 'dt',
        'costs': 'costs'
    })

    # Conversión de columnas de tiempo
    costs['date'] = pd.to_datetime(costs['dt'])

    # Asegurar tipos de columnas
    costs['source_id'] = costs['source_id'].astype('int64')
    costs['costs'] = costs['costs'].astype('float64')
    costs['dt'] = costs['dt'].astype('object')  # 'dt' como string o text
    # 'date' ya queda en datetime64[ns]

    # Limpieza básica
    costs = costs.drop_duplicates()
    costs = costs.dropna(subset=['source_id', 'dt', 'costs'])

    return costs


def save_clean_data(visits, orders, costs, output_dir='../data/processed/'):
    """Guarda los datasets limpios en la carpeta processed."""
    os.makedirs(output_dir, exist_ok=True)
    visits.to_csv(os.path.join(output_dir, 'visits_clean.csv'), index=False)
    orders.to_csv(os.path.join(output_dir, 'orders_clean.csv'), index=False)
    costs.to_csv(os.path.join(output_dir, 'costs_clean.csv'), index=False)
    print(f" Datos limpios guardados en {output_dir}")

def prepare_data(visits_path, orders_path, costs_path):
    """
    Carga, limpia y guarda los datasets.
    Devuelve tres DataFrames listos para análisis.
    """
    visits, orders, costs = load_data(visits_path, orders_path, costs_path)
    visits = clean_visits(visits)
    orders = clean_orders(orders)
    costs = clean_costs(costs)
    save_clean_data(visits, orders, costs)
    return visits, orders, costs

# --- Llamada principal ---
visits_path = '../data/raw/visits_log_us.csv'
orders_path = '../data/raw/orders_log_us.csv'
costs_path = '../data/raw/costs_us.csv'

visits, orders, costs = prepare_data(visits_path, orders_path, costs_path)


 Datos limpios guardados en ../data/processed/
