# Exploraci√≥n Inicial y Limpieza de Datos

Notebook destinada al an√°lisis exploratorio y proceso de limpieza de los datasets de Peliplat. Este proceso sigue metodolog√≠as ETL est√°ndar para garantizar la calidad de los datos antes de su an√°lisis posterior.

**Objetivos:**
- Explorar la estructura y calidad de los datasets de Peliplat
- Identificar y corregir problemas de codificaci√≥n, duplicados y outliers
- Normalizar formatos de fecha y referencias entre datasets
- Preparar datos limpios para an√°lisis posteriores

## 1. Setup inicial

En esta secci√≥n se importan las librer√≠as necesarias y se cargan los datasets crudos. Se utiliza un enfoque modular importando funciones espec√≠ficas del m√≥dulo `cleaning.py` para mantener el c√≥digo organizado y reutilizable.

Los datasets cargados son:
- `users`: Informaci√≥n demogr√°fica de usuarios
- `activity`: M√©tricas de actividad y comportamiento
- `campaigns`: Datos de campa√±as de marketing
- `content`: Cat√°logo de contenido disponible
- `engagement`: Interacciones de usuarios con el contenido

In [1]:
import pandas as pd
import numpy as np
import sys
sys.path.append('..')
from src.data.cleaning import fix_encoding, cast_dates, remove_duplicates, process_outliers, save_processed_data, fix_temporal_inconsistencies


# Cargar datasets
users = pd.read_csv('../data/raw/peliplat_users.csv', encoding='latin1')
activity = pd.read_csv('../data/raw/peliplat_activity.csv', encoding='latin1')
campaigns = pd.read_csv('../data/raw/peliplat_campaigns.csv', encoding='latin1')
content = pd.read_csv('../data/raw/peliplat_content.csv', encoding='latin1')
engagement = pd.read_csv('../data/raw/peliplat_engagement.csv', encoding='latin1')


## 2. Exploraci√≥n General Inicial

Esta secci√≥n realiza un an√°lisis preliminar de los datasets para conocer su estructura y caracter√≠sticas principales. Para cada dataset se examina:

- Vista previa de las primeras filas (head)
- Estructura y tipos de datos (info)
- Detecci√≥n de valores nulos


In [2]:
# Revisi√≥n r√°pida
datasets = {'users': users, 'activity': activity, 'campaigns': campaigns, 'content': content, 'engagement': engagement}

for name, df in datasets.items():
    print(f"Dataset {name}:")
    display(df.head())
    print(df.info())
    print(df.isna().sum())
    print('-'*50)


Dataset users:


Unnamed: 0,user_id,country,signup_date,last_active,gender,age
0,U0000,Chile,2025-03-11,2025-03-17,Male,51
1,U0001,Per√∫,2025-01-11,2025-03-30,Female,55
2,U0002,Colombia,2025-01-16,2025-03-14,Male,51
3,U0003,Per√∫,2025-03-14,2025-03-30,Female,35
4,U0004,Per√∫,2025-02-28,2025-03-20,Other,47


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      200 non-null    object
 1   country      200 non-null    object
 2   signup_date  200 non-null    object
 3   last_active  200 non-null    object
 4   gender       200 non-null    object
 5   age          200 non-null    int64 
dtypes: int64(1), object(5)
memory usage: 9.5+ KB
None
user_id        0
country        0
signup_date    0
last_active    0
gender         0
age            0
dtype: int64
--------------------------------------------------
Dataset activity:


Unnamed: 0,user_id,avg_daily_visits,avg_time_on_page,most_viewed_type
0,U0000,0.83,261.7,Lista
1,U0001,0.57,261.7,Art√É¬≠culo
2,U0002,2.68,261.7,Video
3,U0003,0.97,261.7,Lista
4,U0004,0.83,261.7,Lista


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   user_id           200 non-null    object 
 1   avg_daily_visits  200 non-null    float64
 2   avg_time_on_page  200 non-null    float64
 3   most_viewed_type  200 non-null    object 
dtypes: float64(2), object(2)
memory usage: 6.4+ KB
None
user_id             0
avg_daily_visits    0
avg_time_on_page    0
most_viewed_type    0
dtype: int64
--------------------------------------------------
Dataset campaigns:


Unnamed: 0,campaign_id,name,start_date,end_date,clicks,signups,CTR
0,CP00,Campa√É¬±a_1,2025-01-10,2025-01-20,961,128,0.114
1,CP01,Campa√É¬±a_2,2025-01-25,2025-02-05,353,70,0.181
2,CP02,Campa√É¬±a_3,2025-02-10,2025-02-18,729,166,0.176
3,CP03,Campa√É¬±a_4,2025-02-20,2025-02-28,809,189,0.078
4,CP04,Campa√É¬±a_5,2025-03-10,2025-03-25,948,54,0.17


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   campaign_id  5 non-null      object 
 1   name         5 non-null      object 
 2   start_date   5 non-null      object 
 3   end_date     5 non-null      object 
 4   clicks       5 non-null      int64  
 5   signups      5 non-null      int64  
 6   CTR          5 non-null      float64
dtypes: float64(1), int64(2), object(4)
memory usage: 412.0+ bytes
None
campaign_id    0
name           0
start_date     0
end_date       0
clicks         0
signups        0
CTR            0
dtype: int64
--------------------------------------------------
Dataset content:


Unnamed: 0,content_id,creator_id,type,category,publish_date,visits
0,C0000,CR21,Art√É¬≠culo,Mainstream,2025-01-10,48
1,C0001,CR4,Art√É¬≠culo,Documental,2025-01-30,55
2,C0002,CR1,Lista,Documental,2025-01-25,61
3,C0003,CR24,Lista,Cl√É¬°sicos,2025-03-25,55
4,C0004,CR9,Lista,Cl√É¬°sicos,2025-01-05,39


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   content_id    300 non-null    object
 1   creator_id    300 non-null    object
 2   type          300 non-null    object
 3   category      300 non-null    object
 4   publish_date  300 non-null    object
 5   visits        300 non-null    int64 
dtypes: int64(1), object(5)
memory usage: 14.2+ KB
None
content_id      0
creator_id      0
type            0
category        0
publish_date    0
visits          0
dtype: int64
--------------------------------------------------
Dataset engagement:


Unnamed: 0,user_id,content_id,likes,shares,comments
0,U0073,C0048,2,1,0
1,U0191,C0189,3,1,1
2,U0004,C0135,3,0,1
3,U0099,C0042,3,1,2
4,U0069,C0089,2,0,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    object
 1   content_id  500 non-null    object
 2   likes       500 non-null    int64 
 3   shares      500 non-null    int64 
 4   comments    500 non-null    int64 
dtypes: int64(3), object(2)
memory usage: 19.7+ KB
None
user_id       0
content_id    0
likes         0
shares        0
comments      0
dtype: int64
--------------------------------------------------


## 3. Limpieza 

Esta secci√≥n implementa un proceso sistem√°tico de limpieza de datos, aplicando t√©cnicas est√°ndar de la industria para garantizar la integridad y consistencia de los datasets. Se utilizan funciones modularizadas del m√≥dulo `cleaning.py` para mantener el c√≥digo organizado y reproducible.

El proceso de limpieza sigue una secuencia l√≥gica que aborda diferentes tipos de problemas de calidad de datos, comenzando por los m√°s fundamentales (codificaci√≥n) hasta los m√°s espec√≠ficos (outliers).

### 3.1 Limpieza de codificaci√≥n

Esta etapa corrige problemas de codificaci√≥n de caracteres en campos de texto, principalmente caracteres especiales del espa√±ol (tildes, e√±es) que aparecen mal codificados. Se utiliza la funci√≥n `fix_encoding` que implementa la biblioteca `ftfy` (Fixes Text For You) para detectar y corregir autom√°ticamente estos problemas.

La biblioteca `ftfy` es una herramienta especializada en reparaci√≥n de texto que:
- Detecta y corrige problemas comunes de codificaci√≥n UTF-8
- Resuelve problemas de texto que ha sido codificado m√∫ltiples veces
- Normaliza caracteres compuestos a su forma can√≥nica

Problemas principales detectados y corregidos:
- "Art√É¬≠culo" ‚Üí "Art√≠culo" 
- "Campa√É¬±a" ‚Üí "Campa√±a"
- "Cl√É¬°sicos" ‚Üí "Cl√°sicos"

In [3]:
# Guardar una copia de los valores √∫nicos ANTES de aplicar correcciones
print("=== VALORES √öNICOS ANTES DE LA CORRECCI√ìN ===")

print("\n--- USUARIOS (ORIGINAL) ---")
print("Country √∫nicos:")
print(users['country'].unique())
print("\nGender √∫nicos:")
print(users['gender'].unique())

print("\n--- ACTIVIDAD (ORIGINAL) ---")
print("Most viewed type √∫nicos:")
print(activity['most_viewed_type'].unique())

print("\n--- CAMPA√ëAS (ORIGINAL) ---")
print("Nombre de campa√±as √∫nicos:")
print(campaigns['name'].unique())

print("\n--- CONTENIDO (ORIGINAL) ---")
print("Tipos de contenido √∫nicos:")
print(content['type'].unique())
print("\nCategor√≠as √∫nicas:")
print(content['category'].unique())

# Aplicar la funci√≥n fix_encoding a todos los dataframes
users_clean = fix_encoding(users)
activity_clean = fix_encoding(activity)
campaigns_clean = fix_encoding(campaigns)
content_clean = fix_encoding(content)
engagement_clean = fix_encoding(engagement)

print("\n\n=== VALORES √öNICOS DESPU√âS DE LA CORRECCI√ìN ===")

print("\n--- USUARIOS (CORREGIDOS) ---")
print("Country √∫nicos (corregidos):")
print(users_clean['country'].unique())
print("\nGender √∫nicos (corregidos):")
print(users_clean['gender'].unique())

print("\n--- ACTIVIDAD (CORREGIDA) ---")
print("Most viewed type √∫nicos (corregidos):")
print(activity_clean['most_viewed_type'].unique())

print("\n--- CAMPA√ëAS (CORREGIDAS) ---")
print("Nombre de campa√±as √∫nicos (corregidos):")
print(campaigns_clean['name'].unique())

print("\n--- CONTENIDO (CORREGIDO) ---")
print("Tipos de contenido √∫nicos (corregidos):")
print(content_clean['type'].unique())
print("\nCategor√≠as √∫nicas (corregidas):")
print(content_clean['category'].unique())

=== VALORES √öNICOS ANTES DE LA CORRECCI√ìN ===

--- USUARIOS (ORIGINAL) ---
Country √∫nicos:
['Chile' 'Per√∫' 'Colombia' 'M√©xico' 'Argentina']

Gender √∫nicos:
['Male' 'Female' 'Other']

--- ACTIVIDAD (ORIGINAL) ---
Most viewed type √∫nicos:
['Lista' 'Art√É\xadculo' 'Video']

--- CAMPA√ëAS (ORIGINAL) ---
Nombre de campa√±as √∫nicos:
['Campa√É¬±a_1' 'Campa√É¬±a_2' 'Campa√É¬±a_3' 'Campa√É¬±a_4' 'Campa√É¬±a_5']

--- CONTENIDO (ORIGINAL) ---
Tipos de contenido √∫nicos:
['Art√É\xadculo' 'Lista' 'Video']

Categor√≠as √∫nicas:
['Mainstream' 'Documental' 'Cl√É¬°sicos' 'Indie']


=== VALORES √öNICOS DESPU√âS DE LA CORRECCI√ìN ===

--- USUARIOS (CORREGIDOS) ---
Country √∫nicos (corregidos):
['Chile' 'Per√∫' 'Colombia' 'M√©xico' 'Argentina']

Gender √∫nicos (corregidos):
['Male' 'Female' 'Other']

--- ACTIVIDAD (CORREGIDA) ---
Most viewed type √∫nicos (corregidos):
['Lista' 'Art√≠culo' 'Video']

--- CAMPA√ëAS (CORREGIDAS) ---
Nombre de campa√±as √∫nicos (corregidos):
['Campa√±a_1' 'Campa√±a_2' 

### 3.2 Convertir fechas usando la funci√≥n cast_dates

En esta etapa se convierten las columnas de tipo texto que contienen fechas a objetos datetime de pandas (formato datetime64[ns]). Este proceso es crucial ya que:

- Permite realizar operaciones temporales (diferencias, rangos, filtros)
- Facilita el an√°lisis de tendencias y patrones temporales
- Habilita la detecci√≥n de inconsistencias en datos cronol√≥gicos

Se procesan las siguientes columnas de fecha en cada dataset:
- **users**: 'signup_date', 'last_active'
- **campaigns**: 'start_date', 'end_date'
- **content**: 'publish_date'

La conversi√≥n se realiza de manera uniforme mediante la funci√≥n `cast_dates`, que utiliza internamente `pd.to_datetime()` con gesti√≥n de errores para garantizar la integridad de los datos. Aunque las fechas ya se encontraban en formato ISO (YYYY-MM-DD), esta conversi√≥n es necesaria para habilitar operaciones de an√°lisis temporal.### 3.2 Convertir fechas usando la funci√≥n cast_dates


In [4]:
# Columnas con fechas en cada dataframe
users_date_cols = ['signup_date', 'last_active']
campaigns_date_cols = ['start_date', 'end_date']
content_date_cols = ['publish_date']

# Aplicar la funci√≥n cast_dates a los dataframes limpios
users_clean = cast_dates(users_clean, users_date_cols)
campaigns_clean = cast_dates(campaigns_clean, campaigns_date_cols)
content_clean = cast_dates(content_clean, content_date_cols)

# Verificar que las fechas se han convertido correctamente
print("=== VERIFICACI√ìN DE CONVERSI√ìN DE FECHAS ===")

print("\n--- USUARIOS ---")
print("Antes de la conversi√≥n:")
print(users['signup_date'].head())
print(users['signup_date'].dtype)
print("\nDespu√©s de la conversi√≥n:")
print(users_clean['signup_date'].head())
print(users_clean['signup_date'].dtype)

print("\n--- CAMPA√ëAS ---")
print("Antes de la conversi√≥n:")
print(campaigns['start_date'].head())
print(campaigns['start_date'].dtype)
print("\nDespu√©s de la conversi√≥n:")
print(campaigns_clean['start_date'].head())
print(campaigns_clean['start_date'].dtype)

print("\n--- CONTENIDO ---")
print("Antes de la conversi√≥n:")
print(content['publish_date'].head())
print(content['publish_date'].dtype)
print("\nDespu√©s de la conversi√≥n:")
print(content_clean['publish_date'].head())
print(content_clean['publish_date'].dtype)

=== VERIFICACI√ìN DE CONVERSI√ìN DE FECHAS ===

--- USUARIOS ---
Antes de la conversi√≥n:
0   2025-03-11
1   2025-01-11
2   2025-01-16
3   2025-03-14
4   2025-02-28
Name: signup_date, dtype: datetime64[ns]
datetime64[ns]

Despu√©s de la conversi√≥n:
0   2025-03-11
1   2025-01-11
2   2025-01-16
3   2025-03-14
4   2025-02-28
Name: signup_date, dtype: datetime64[ns]
datetime64[ns]

--- CAMPA√ëAS ---
Antes de la conversi√≥n:
0   2025-01-10
1   2025-01-25
2   2025-02-10
3   2025-02-20
4   2025-03-10
Name: start_date, dtype: datetime64[ns]
datetime64[ns]

Despu√©s de la conversi√≥n:
0   2025-01-10
1   2025-01-25
2   2025-02-10
3   2025-02-20
4   2025-03-10
Name: start_date, dtype: datetime64[ns]
datetime64[ns]

--- CONTENIDO ---
Antes de la conversi√≥n:
0   2025-01-10
1   2025-01-30
2   2025-01-25
3   2025-03-25
4   2025-01-05
Name: publish_date, dtype: datetime64[ns]
datetime64[ns]

Despu√©s de la conversi√≥n:
0   2025-01-10
1   2025-01-30
2   2025-01-25
3   2025-03-25
4   2025-01-05
Name: 

### 3.3 Duplicados

Esta etapa identifica y elimina registros duplicados en los datasets, enfoc√°ndose particularmente en el dataset de engagement donde se encontraron duplicados.

El proceso utiliza la funci√≥n `remove_duplicates` que:
- Identifica duplicados basados en columnas clave espec√≠ficas para cada dataset
- Proporciona informaci√≥n detallada sobre grupos de duplicados encontrados
- Elimina duplicados manteniendo el primer registro por defecto (`keep='first'`)

En el an√°lisis realizado:
- Se detectaron 2 duplicados en el dataset de **engagement** (2 grupos donde el mismo usuario interactu√≥ con el mismo contenido)
- Estos duplicados fueron eliminados, preservando solo el primer registro de cada grupo
- Los dem√°s datasets no presentaron registros duplicados en sus claves primarias

La eliminaci√≥n de duplicados garantiza la integridad de los datos para an√°lisis posteriores, evitando sesgos en m√©tricas de comportamiento de usuario y relaciones entre entidades.

Nota: Aunque la funci√≥n `remove_duplicates` tiene capacidad para consolidar duplicados sumando valores num√©ricos, en este an√°lisis se opt√≥ por la eliminaci√≥n simple.

In [5]:
# Verificar duplicados en los dataframes y eliminarlos si es necesario

# Verificar duplicados por user_id en users
print("=== VERIFICACI√ìN DE DUPLICADOS ===")
print("\n--- USUARIOS ---")
print(f"N√∫mero de duplicados en user_id: {users_clean.duplicated(subset=['user_id']).sum()}")

# Verificar duplicados por user_id en activity
print("\n--- ACTIVIDAD ---")
print(f"N√∫mero de duplicados en user_id: {activity_clean.duplicated(subset=['user_id']).sum()}")

# Verificar duplicados por campaign_id en campaigns
print("\n--- CAMPA√ëAS ---")
print(f"N√∫mero de duplicados en campaign_id: {campaigns_clean.duplicated(subset=['campaign_id']).sum()}")

# Verificar duplicados por content_id en content
print("\n--- CONTENIDO ---")
print(f"N√∫mero de duplicados en content_id: {content_clean.duplicated(subset=['content_id']).sum()}")

# Verificar duplicados en engagement (combinaci√≥n de user_id y content_id)
print("\n--- ENGAGEMENT ---")
print(f"N√∫mero de duplicados en user_id+content_id: {engagement_clean.duplicated(subset=['user_id', 'content_id']).sum()}")

# Eliminar duplicados si es necesario
if users_clean.duplicated(subset=['user_id']).sum() > 0:
    users_clean = remove_duplicates(users_clean, subset=['user_id'])
    print("Duplicados eliminados en users")

if activity_clean.duplicated(subset=['user_id']).sum() > 0:
    activity_clean = remove_duplicates(activity_clean, subset=['user_id'])
    print("Duplicados eliminados en activity")

if campaigns_clean.duplicated(subset=['campaign_id']).sum() > 0:
    campaigns_clean = remove_duplicates(campaigns_clean, subset=['campaign_id'])
    print("Duplicados eliminados en campaigns")

if content_clean.duplicated(subset=['content_id']).sum() > 0:
    content_clean = remove_duplicates(content_clean, subset=['content_id'])
    print("Duplicados eliminados en content")

if engagement_clean.duplicated(subset=['user_id', 'content_id']).sum() > 0:
    engagement_clean = remove_duplicates(engagement_clean, subset=['user_id', 'content_id'])
    print("Duplicados eliminados en engagement")

# Verificar la cantidad de registros despu√©s de eliminar duplicados
print("\n=== RECUENTO DE REGISTROS DESPU√âS DE ELIMINAR DUPLICADOS ===")
print(f"users_clean: {len(users_clean)} registros")
print(f"activity_clean: {len(activity_clean)} registros")
print(f"campaigns_clean: {len(campaigns_clean)} registros")
print(f"content_clean: {len(content_clean)} registros")
print(f"engagement_clean: {len(engagement_clean)} registros")

=== VERIFICACI√ìN DE DUPLICADOS ===

--- USUARIOS ---
N√∫mero de duplicados en user_id: 0

--- ACTIVIDAD ---
N√∫mero de duplicados en user_id: 0

--- CAMPA√ëAS ---
N√∫mero de duplicados en campaign_id: 0

--- CONTENIDO ---
N√∫mero de duplicados en content_id: 0

--- ENGAGEMENT ---
N√∫mero de duplicados en user_id+content_id: 2
üîç Se encontraron 2 registros duplicados en 2 grupos.

‚ö†Ô∏è Duplicados encontrados:
    user_id content_id  likes  shares  comments
74    U0020      C0257      1       0         1
450   U0020      C0257      5       1         2
--------------------------------------------------

‚ö†Ô∏è Duplicados encontrados:
    user_id content_id  likes  shares  comments
81    U0146      C0126      3       1         1
350   U0146      C0126      4       0         2
--------------------------------------------------
Duplicados eliminados en engagement

=== RECUENTO DE REGISTROS DESPU√âS DE ELIMINAR DUPLICADOS ===
users_clean: 200 registros
activity_clean: 200 registros
campa

### 3.4 Correcci√≥n de Inconsistencias Temporales

Esta etapa identifica y corrige inconsistencias l√≥gicas en los datos temporales, espec√≠ficamente usuarios cuya fecha de √∫ltima actividad es anterior a su fecha de registro. 

La metodolog√≠a implementada utiliza la funci√≥n `fix_temporal_inconsistencies` que:
- Calcula la diferencia en d√≠as entre la √∫ltima actividad y el registro
- Identifica registros con diferencias negativas (inconsistencias l√≥gicas)
- Ajusta la fecha de registro para que coincida con la fecha de √∫ltima actividad

Este enfoque de correcci√≥n se basa en las siguientes premisas:
1. Los datos de actividad suelen ser m√°s precisos que los de registro
2. Se preservan todos los registros evitando sesgos en m√©tricas 
3. Se siguen recomendaciones de estudios recientes sobre an√°lisis de engagement

Se identificaron y corrigieron 6 registros con inconsistencias temporales, donde la fecha de √∫ltima actividad era anterior a la fecha de registro. En vez de eliminar estos registros, se ajust√≥ la fecha de registro al valor de la √∫ltima actividad, asumiendo que esta representa la primera interacci√≥n real del usuario con la plataforma.

Esta correcci√≥n metodol√≥gica es fundamental para an√°lisis de retenci√≥n y comportamiento a lo largo del tiempo, garantizando que las m√©tricas de permanencia y actividad sean l√≥gicamente consistentes.

In [6]:
# 1. Calcular d√≠as activos y mostrar inconsistencias antes de corregir
users_clean['days_active'] = (users_clean['last_active'] - users_clean['signup_date']).dt.days
usuarios_inconsistentes = users_clean[users_clean['days_active'] < 0].copy()

# Mostrar registros problem√°ticos
print("Registros con fechas inconsistentes (√∫ltima actividad anterior al registro):")
print(usuarios_inconsistentes[['user_id', 'country', 'signup_date', 'last_active', 'gender', 'age', 'days_active']])
print(f"\nTotal de registros inconsistentes: {len(usuarios_inconsistentes)}")

# 2. Aplicar correcci√≥n metodol√≥gica usando la funci√≥n modularizada
users_clean = fix_temporal_inconsistencies(users_clean, 'signup_date', 'last_active', verbose=True)

# 3. Verificar correcci√≥n
print(f"Registros con d√≠as activos negativos despu√©s de correcci√≥n: {len(users_clean[users_clean['days_active'] < 0])}")

Registros con fechas inconsistentes (√∫ltima actividad anterior al registro):
    user_id    country signup_date last_active  gender  age  days_active
5     U0005     M√©xico  2025-03-11  2025-03-05  Female   32           -6
14    U0014      Chile  2025-03-12  2025-03-01  Female   34          -11
53    U0053       Per√∫  2025-03-02  2025-03-01  Female   38           -1
113   U0113   Colombia  2025-03-07  2025-03-04  Female   51           -3
161   U0161  Argentina  2025-03-09  2025-03-05  Female   43           -4
198   U0198       Per√∫  2025-03-10  2025-03-07   Other   47           -3

Total de registros inconsistentes: 6
üîç Se encontraron 6 registros con inconsistencias temporales.

‚ö†Ô∏è Ejemplos de inconsistencias:
    user_id signup_date last_active  days_active
5     U0005  2025-03-11  2025-03-05           -6
14    U0014  2025-03-12  2025-03-01          -11
53    U0053  2025-03-02  2025-03-01           -1
113   U0113  2025-03-07  2025-03-04           -3
161   U0161  2025-03-09 

### 3.5 Tratamiento de Outliers

Esta etapa identifica y trata valores at√≠picos (outliers) en las variables num√©ricas de los datasets. Se implementa un enfoque de winsorizaci√≥n selectiva mediante la funci√≥n `process_outliers` que:

- Aplica factores espec√≠ficos por columna para definir umbrales de detecci√≥n
- Utiliza el m√©todo de Rango Intercuart√≠lico (IQR) multiplicado por factores configurables
- Reemplaza valores extremos por los l√≠mites definidos en lugar de eliminarlos
- Preserva la distribuci√≥n general de los datos sin perder observaciones

La configuraci√≥n aplicada utiliza diferentes factores seg√∫n el tipo de variable:
- M√©tricas de actividad (`avg_daily_visits`): factor IQR de 3.0
- Visitas a contenido (`visits`): factor IQR de 3.0
- M√©tricas de engagement (`likes`, `shares`, `comments`): factor IQR de 4.0

Esta estrategia diferenciada refleja la naturaleza espec√≠fica de cada variable:
- Mayor tolerancia (factor 4.0) para m√©tricas de engagement donde la variabilidad es esperada
- Menor tolerancia (factor 3.0) para m√©tricas de actividad y visitas

El an√°lisis no identific√≥ outliers seg√∫n estos criterios, lo que indica que los datos ya presentaban distribuciones razonablemente consistentes dentro de los umbrales establecidos.

Esta etapa es crucial para garantizar que an√°lisis estad√≠sticos posteriores no se vean distorsionados por valores extremos, manteniendo la robustez de los resultados anal√≠ticos.

In [7]:
# Corregir la estructura de los DataFrames si son tuplas
dfs = {'users': users_clean, 'activity': activity_clean, 'campaigns': campaigns_clean, 
       'content': content_clean, 'engagement': engagement_clean}

# Desempaquetar cualquier tupla (resultados de remove_duplicates)
for key in dfs:
    if isinstance(dfs[key], tuple):
        dfs[key], _ = dfs[key]

# Definir factores espec√≠ficos para cada columna
column_factors = {
    'activity': {'avg_daily_visits': 3.0},
    'content': {'visits': 3.0},
    'engagement': {'likes': 4.0, 'shares': 4.0, 'comments': 4.0}
}

# Procesar outliers en todos los DataFrames y obtener resultados finales
clean_dfs = process_outliers(dfs, column_factors)

# Asignar los DataFrames limpios a variables individuales
users_clean_final = clean_dfs['users']
activity_clean_final = clean_dfs['activity']
campaigns_clean_final = clean_dfs['campaigns']
content_clean_final = clean_dfs['content']
engagement_clean_final = clean_dfs['engagement']

=== üîç TRATAMIENTO DE OUTLIERS (MEJORES PR√ÅCTICAS) ===

--- üìã USERS ---

--- üìã ACTIVITY ---

--- üìä ACTIVITY (AVG_DAILY_VISITS) ---

üìä Estad√≠sticas de avg_daily_visits antes de winsorizaci√≥n:
count    200.000000
mean       1.551700
std        0.852482
min        0.200000
25%        0.810000
50%        1.480000
75%        2.275000
max        2.990000
Name: avg_daily_visits, dtype: float64
üîç L√≠mites para outliers (IQR x 3.0): -3.58 - 6.67
üî¢ N√∫mero de outliers detectados: 0
‚úÖ No se detectaron outliers.

--- üìã CAMPAIGNS ---

--- üìã CONTENT ---

--- üìä CONTENT (VISITS) ---

üìä Estad√≠sticas de visits antes de winsorizaci√≥n:
count    300.000000
mean      50.016667
std        6.954442
min       33.000000
25%       45.000000
50%       50.000000
75%       55.000000
max       74.000000
Name: visits, dtype: float64
üîç L√≠mites para outliers (IQR x 3.0): 15.00 - 85.00
üî¢ N√∫mero de outliers detectados: 0
‚úÖ No se detectaron outliers.

--- üìã ENGAGEMENT --

## 4. Almacenamiento de Datos Procesados

En esta etapa final se guardan los datasets limpios y procesados para su uso en an√°lisis posteriores. Se utiliza la funci√≥n `save_processed_data` que:

- Almacena cada dataset en formato CSV con codificaci√≥n UTF-8
- Aplica una nomenclatura estandarizada (prefijo "peliplat_" y sufijo "_clean")
- Genera la estructura de directorios necesaria si no existe
- Proporciona confirmaci√≥n detallada del proceso de guardado

Los datasets procesados y guardados son:
- `peliplat_users_clean.csv`: 200 registros
- `peliplat_activity_clean.csv`: 200 registros
- `peliplat_campaigns_clean.csv`: 5 registros
- `peliplat_content_clean.csv`: 300 registros
- `peliplat_engagement_clean.csv`: 498 registros

Estos archivos constituyen la base para el an√°lisis exploratorio avanzado y modelado, cumpliendo con los requisitos de calidad de datos establecidos:
- Codificaci√≥n correcta de caracteres especiales
- Fechas en formato datetime estandarizado
- Eliminaci√≥n de duplicados innecesarios
- Correcci√≥n de inconsistencias temporales
- Tratamiento adecuado de valores extremos

El almacenamiento en la carpeta `data/processed/` sigue las convenciones de organizaci√≥n de proyectos de an√°lisis de datos, separando claramente datos crudos de datos procesados.

In [8]:
# Crear un diccionario con los DataFrames limpios finales
dfs_limpios = {
    'users': users_clean_final,
    'activity': activity_clean_final, 
    'campaigns': campaigns_clean_final,
    'content': content_clean_final,
    'engagement': engagement_clean_final
}

# Guardar todos los DataFrames en la carpeta data/processed/
archivos_guardados = save_processed_data(dfs_limpios)

‚úÖ Guardado exitoso: peliplat_users_clean.csv (200 registros)
‚úÖ Guardado exitoso: peliplat_activity_clean.csv (200 registros)
‚úÖ Guardado exitoso: peliplat_campaigns_clean.csv (5 registros)
‚úÖ Guardado exitoso: peliplat_content_clean.csv (300 registros)
‚úÖ Guardado exitoso: peliplat_engagement_clean.csv (498 registros)

üìÇ Archivos guardados en: C:\Users\trico\Desktop\Prueba cine proyecto\data\processed
