In [2]:
#Bibliotecas básicas
import pandas as pd
import numpy as np

# 📈 Estrategias inteligentes para una campaña de marketing efectiva 🚀

Subcategoría ➡️ Científico de datos (Clasificación)

## 🗂️ Conjunto de datos

            (user_id relacional entre ambos)

&nbsp;

# 1. user_data.csv- **Datos del usuario**

Este conjunto incluye información demográfica y de comportamiento del usuario. Cada fila corresponde a un usuario único.

1. **user_id:** El identificador único del usuario.

2. **age:** La edad del usuario.

3. **abandoned_cart:** Si el usuario ha abandonado un carrito de compras sin realizar ninguna compra (Booleano).

4. **user_category:** Categoría de usuario basada en su historial:   
- usuario_nuevo   
- usuario_recurrente   
- suscriptor_premium   


&nbsp;

# 2. session_data.csv- **Datos de la sesión**

1. **user_id:** El identificador de usuario único para el usuario.

2. **session_id:** El identificador de sesión único.

3. **timestamp:** La fecha y hora en que comenzó la sesión.

4. **device_type:** Tipo de dispositivo utilizado:   
- móvil  
- tableta   
- computadora de escritorio

5. **browser:** El navegador web utilizado durante la sesión.

6. **operating_system:** El sistema operativo del dispositivo.

7. **ip_address:** La dirección IP del dispositivo del usuario.

8. **country**: El país desde el que se originó la sesión.

9. **search_query:** Términos de búsqueda que el usuario ingresó en el sitio web.

10. **page_views:** Número de páginas vistas durante la sesión.

11. **session_duration:** La duración total de la sesión en segundos.

### 📊 Tratamiento de datos
- manejar los valores faltantes (asegurár que el conjunto completo)   
- Se anima a los participantes a utilizar técnicas de ingeniería de características para derivar nuevas características y transformar las existentes, mejorando así el poder predictivo del modelo.

### 🤖 Modelo

Usar un algoritmo de clasificacion (libertad de elegir):
- Árbol de decisiones, un bosque aleatorio o un conjunto más sofisticado o un modelo de aprendizaje profundo, seleccione el que crea que tendrá el mejor rendimiento para esta tarea de clasificación.

### 📂 Estructura del repositorio
- Train y test ya dividdo


# 🎯 Tareas


**Tarea 1:** Calcular y asignar la **marketing_target** "columna" a cada usuario.   

Esta columna debe reflejar el nivel de interacción previsto del usuario con la campaña de marketing, con valores asignados de la siguiente manera:   

- (1) Para bajo compromiso
- (2) Para compromiso medio
- (3) Para un alto nivel de compromiso

Asegúrese de que sus predicciones sean lo más precisas posible para facilitar una interacción eficaz con los usuarios.

## 📤 Envío
Obtener un archivo en formato json cuyo nombre sea predictions.json

In [None]:
{
    "target": {
        "297": 1,
        "11": 3,
        "67": 3,
        "54": 3,
        "156": 2,
        "290": 2,
        "193": 3,
        ...
  }
}

## 📊 Evaluación ( 900 puntos )


Esta práctica se evaluará automáticamente mediante la métrica F1 Score.    

**Cuanto más cercano a 1 esté su puntaje F1 mejor.**


&nbsp;

&nbsp;

# 🚀 Procedimiento 🚀

## 1️⃣ Primer dataset: 📂

0. **user_id:**    

-Cantidad de sesiones por usuario:   
df['user_session_count'] = df.groupby('user_id')['session_id'].transform('count')

-Frecuencia de visitas por usuario:    
df['user_visit_frequency'] = df.groupby('user_id')['timestamp'].transform('count')


1. **age:**  
   
-Dividir en rangos de edad:
- Niños (0-12)
- Jóvenes (13-24)
- Adultos jóvenes (25-34)
- Adultos medios (35-44)
- Adultos mayores (45-60)
- Personas mayores (>60)

-Comprobar que no haya edades raras


2. **abandoned_cart:**  

-Combinar con edad por ejemplo:
df['age_abandoned'] = df['age'] * df['abandoned_cart']   
df['user_category_abandoned'] = df['user_category'] + "_" + df['abandoned_cart'].astype(str)

-Crear una métrica que indique la tasa de abandono por cada grupo (nuevos, recurrentes, premium).   
Esto te puede dar una idea de cómo cada tipo de usuario tiende a comportarse.

3. **user_category:**   

-Edad promedio por categoría de usuario:   
df['user_category_age_mean'] = df.groupby('user_category')['age'].transform('mean')    

-Número de compras por tipo de usuario:   
df['user_category_purchase_count'] = df.groupby('user_category')['user_category'].transform('count')


&nbsp;

&nbsp;

## 2️⃣ Segundo Dataset: 📂

0. **user_id:**    

-Cantidad de sesiones por usuario:   
df['user_session_count'] = df.groupby('user_id')['session_id'].transform('count')

-Frecuencia de visitas por usuario:    
df['user_visit_frequency'] = df.groupby('user_id')['timestamp'].transform('count')   


1. **session_id:**    

-Duración media de sesión por usuario:    
df['avg_session_duration_per_user'] = df.groupby('user_id')['session_duration'].transform('mean')


2. **time_stamp:**    
Es uno de los puntos más interesantes, ya que las fechas y horas pueden revelar patrones importantes,   
como los horarios de mayor tráfico o la duración de la sesión   

-Hora del dia:   
df['session_hour'] = df['timestamp'].dt.hour

-Día de la semana:   
df['session_day_of_week'] = df['timestamp'].dt.dayofweek
 
-Fecha:    
df['session_date'] = df['timestamp'].dt.date   

-Sesiones largas o sesines cortas:   
mean_duration = df['session_duration'].mean()
df['long_session'] = df['session_duration'] > mean_duration

 
3. **device_type:**   

-Frecuencia de uso de cada dispositivo:    
device_freq = df['device_type'].value_counts()
df['device_type_count'] = df['device_type'].map(device_freq)

4. **browser:**

-Codificación One-Hot:   
df = pd.get_dummies(df, columns=['browser'], drop_first=True)

-Frecuencia de uso de cada navegador:   
browser_freq = df['browser'].value_counts()
df['browser_count'] = df['browser'].map(browser_freq)


5. **operating_systen:**

-Codificación One-Hot:   
df = pd.get_dummies(df, columns=['browser'], drop_first=True)

-Frecuencia:   
browser_freq = df['browser'].value_counts()
df['browser_count'] = df['browser'].map(browser_freq)


6. **ip_address:**

-Validar que la "ip_address" coincide con el "country".    

-Número de sesiones por IP: Puedes identificar si varias sesiones provienen de la misma IP,   
 lo que podría indicar un único usuario o un grupo de usuarios.

7. **country:**

-Frecuencia de países:    
country_freq = df['country'].value_counts()    
df['country_count'] = df['country'].map(country_freq)


8. **search_query:**   
El término de búsqueda puede ser un factor muy importante, ya que puede indicar la intención del usuario.   

-Longitud de la búsqueda:   
df['search_query_length'] = df['search_query'].apply(len)

-Frecuencia de términos de búsqueda:    
from sklearn.feature_extraction.text import CountVectorizer     
vectorizer = CountVectorizer()    
X = vectorizer.fit_transform(df['search_query'])    
search_terms_df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())    
df = pd.concat([df, search_terms_df], axis=1)


9. **page_views:**    
métrica directa del comportamiento del usuario.   

-Categorías de páginas vistas:    
df['page_view_category'] = pd.cut(df['page_views'], bins=[0, 5, 15, 50, 200], labels=['Muy bajo', 'Bajo', 'Alto', 'Muy alto'])     

-Promedio de páginas vistas por usuario:    
df['avg_page_views_per_user'] = df.groupby('user_id')['page_views'].transform('mean')    


10. **session_duration:**
Puede ser útil para entender si una sesión fue exitosa o no.

-Duración categórica:    
df['session_duration_category'] = pd.cut(df['session_duration'], bins=[0, 300, 600, 1800, 3600], labels=['Corta', 'Media', 'Larga', 'Muy larga'])    

-Duración normalizada:   
from sklearn.preprocessing import StandardScaler    
scaler = StandardScaler()    
df['session_duration_scaled'] = scaler.fit_transform(df[['session_duration']])


 







&nbsp;

## ¿Como tratar los valores faltantes? 🚀

### Variables Numéricas: 
(como age, session_duration, page_views...)

1. Rellenar con la media o la mediana:
- Si hay distribución simétrica, puedes rellenar con la **media**.  
- Si hay distribución sesgada (ejemplo:session_duration), usar la **mediana**

(Hacer visualizaciones previamente para determinar la distribución)

2. Usar K-Means o KNN Imputation


### Variables Categóricas   
(como user_category, device_type, country)   
1. Rellenar con la categoría más frecuente ( la moda )


### Variables Temporales    
(como timestamp)   
1. Rellenar con valores previos o siguientes (Forward/Backward Fill)   

ejemplo:   
df['timestamp'].fillna(method='ffill', inplace=True)  # Forward fill   
df['timestamp'].fillna(method='bfill', inplace=True)  # Backward fill


# Revisar con visualizaciones posteriores si los nuevos datos tienen sentido
(eliminando outlayers o lo que haga falta)

&nbsp;

&nbsp;

# Modelo Machine Learning: 🤖