En este archivo se crearán las funciones correspondientes para el preprocessing y creación de nuevas columnas para formar el nuevo DataFrame.

In [1]:
import numpy as np
import pandas as pd

import re
from datetime import datetime

In [2]:
%run "C:/Users/isaij/Documents/Projects/Feelings/notebooks/utils/vars.ipynb"

# Funciones para crear nuevas columnas y variables

In [3]:
# Del dataset original se necesitan extraer y convertir nuevas variables como el mes, día de la semana, etc.

def extract_datetime_features(df):
    # Convertir full_date a tipo datetime para extraer fácilmente el mes
    df['full_date'] = pd.to_datetime(df['full_date'], errors='coerce')
    
    df['month'] = df['full_date'].dt.month
    df['year'] = df['full_date'].dt.year
    df['weekday'] = df['weekday'].map(weekday_map)
    
    return df

In [4]:
# Convertir actividades a formato de lista

def convert_activities_to_list(df):
    df['activities'] = df['activities'].str.split(' \| ')
    
    return df

In [5]:
# A partir de los moods, se le asigna un número para la conversión a variable categórica ordinal
# 0: Terrible, 1: Mal, 2: Meh, 3: Bien, 4: Increíble

def create_mood_numeric_col(mood_col, moods_sorted=moods_sorted):
    mapped_order = {mood: i for i, mood in enumerate(moods_sorted, start=0)}
    df['mood_numeric'] = mood_col.map(mapped_order)
    
    return df

In [6]:
def create_activities_count_col(activities_col):
    df['activities_count'] = activities_col.apply(lambda x: len(x))
    
    return df

In [7]:
# Asigna una categoría ordinal a sleep_level a partir de la senación de sueño registrada en la lista de actividades
def create_sleep_level_col(activities_col):
    def get_sleep_level(activity):
        for key, value in sleep_level.items():
            if key in activity:
                return value
        return 3
    
    df['sleep_level'] = activities_col.apply(get_sleep_level)
    
    # En caso de no haber registros de sueño
    df['sleep_level'].fillna(df['sleep_level'].mode().iloc[0], inplace=True)
    
    return df

In [8]:
def create_count_activities_cols(df, vars_to_count=vars_to_count):
    for var_name in vars_to_count:
        # Obtener la lista de actividades usando globals()
        target_activities = globals()[var_name]
        
        # Crear la columna contadora directamente
        df[var_name] = df['activities'].apply(
            lambda activities: sum(1 for a in activities if a in target_activities)
        )
        
    return df

In [9]:
# Debido a que algunos datos de "time", a pesar de estar visualmente correctos, tienen problemas al ser procesados

def convert_time_to_decimal(time_col_name='time'):
    def parse_time(hora_str):
        if pd.isna(hora_str):
            return None
            
        match = re.match(r'(\d{1,2}):(\d{2})\s*(AM|PM)', str(hora_str).strip(), re.IGNORECASE)
        if match:
            hour = int(match.group(1))
            minutes = int(match.group(2))
            meridian = match.group(3).upper()
            
            # Convertir a formato 24 horas
            if meridian == 'PM' and hour != 12:
                hour += 12
            elif meridian == 'AM' and hour == 12:
                hour = 0
            
            # Convertir a decimal
            return round(hour + minutes / 60, 2)
        return None
    
    df[time_col_name] = df[time_col_name].apply(parse_time)
    
    return df

In [10]:
# Aplicación del Multi-Hot Encoding para cada una de las actividades

def create_multihot_encoding(df, unique_activities, activities_column='activities'):
    # Crear mapeo de actividades a nombres de columnas
    activity_to_col = {}
    for activity in unique_activities:
        col_name = activity.replace(' / ', '_').replace(' ', '_').lower()
        activity_to_col[activity] = col_name
    
    # Crear lista de nombres de columnas ordenadas
    column_names = list(activity_to_col.values())
    
    # Inicializar matriz con ceros
    # Se hace con numpy ya que modificar un dataframe directamente da warning de fragmentación
    data_matrix = np.zeros((len(df), len(column_names)), dtype=int)
    
    for row_idx, (idx, activities_str) in enumerate(df[activities_column].items()):
        if activities_str is None or (isinstance(activities_str, list) and len(activities_str) == 0):
            continue  # Mantener todos los 0s para filas vacías
            
        # Separar actividades y limpiar espacios
        activities_list_current = [activity.strip() for activity in activities_str]
        
        # Marcar como 1 las actividades presentes
        for activity in activities_list_current:
            if activity in activity_to_col:
                col_idx = column_names.index(activity_to_col[activity])
                data_matrix[row_idx, col_idx] = 1
            else:
                print(f"Actividad no reconocida en fila {idx}: '{activity}'")
    
    # Crear DataFrame de una vez con toda la data
    multihot_df = pd.DataFrame(data_matrix, 
                              columns=column_names, 
                              index=df.index)
    
    return multihot_df

# Funciones para apoyo de visualizaciones

In [11]:
# A partir de los moods se le asigna un color para la visualización

def create_mood_colors_col(mood_col, mood_data=mood_data):
    # Columna para asignar colores en base al mood
    df['colors'] = mood_col.map(mood_data)
    
    return df