In [2]:
# data_processing.ipynb

import pandas as pd
import numpy as np
from datetime import datetime
import pickle

# Cargar los datos
df = pd.read_csv(r'C:\Users\iazuaz\PyCharmMiscProject\model_RRSS\data\BBDD_calls_RRSS.csv', sep=';', decimal=',', thousands='.')

# Verificar estructura inicial
print("Estructura inicial:")
print(df.head())
print("\nInformación del DataFrame:")
print(df.info())

# Limpieza de datos
# Convertir la columna Fecha a datetime
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d-%m-%Y')

# Verificar valores nulos en Consultas_Recibidas
print("\nValores nulos en Consultas_Recibidas:", df['Consultas_Recibidas'].isnull().sum())

# Verificar valores cero en Consultas_Recibidas
print("Valores cero en Consultas_Recibidas:", (df['Consultas_Recibidas'] == 0).sum())

# Convertir Consultas_Recibidas a numérico (por si hay problemas con el formato)
df['Consultas_Recibidas'] = pd.to_numeric(df['Consultas_Recibidas'].astype(str).str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Verificar valores nulos después de la conversión
print("\nValores nulos después de conversión:", df['Consultas_Recibidas'].isnull().sum())

# Manejar valores nulos (si los hay) - en este caso los reemplazamos con 0
df['Consultas_Recibidas'] = df['Consultas_Recibidas'].fillna(0)

# Verificar la columna Es_Cyber
print("\nValores únicos en Es_Cyber:", df['Es_Cyber'].unique())

# Convertir Es_Cyber a booleano (1 para SI, 0 para NO)
df['Es_Cyber'] = df['Es_Cyber'].map({'SI': 1, 'NO': 0}).astype(int)

# Ordenar por fecha
df = df.sort_values('Fecha').reset_index(drop=True)

# Verificar el resultado final
print("\nDataFrame después de limpieza:")
print(df.head())
print("\nInformación final:")
print(df.info())

# Guardar los datos limpios en un archivo picklex
with open(r'C:\Users\iazuaz\PyCharmMiscProject\model_RRSS\data\cleaned_data.pkl', 'wb') as f:
    pickle.dump(df, f)

print("\nDatos limpios guardados en cleaned_data.pkl")

Estructura inicial:
        Fecha  Consultas_Recibidas Es_Cyber
0  02-01-2024                 1976       NO
1  03-01-2024                 1626       NO
2  04-01-2024                 1628       NO
3  05-01-2024                 2274       NO
4  06-01-2024                  903       NO

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 424 entries, 0 to 423
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Fecha                424 non-null    object
 1   Consultas_Recibidas  424 non-null    int64 
 2   Es_Cyber             424 non-null    object
dtypes: int64(1), object(2)
memory usage: 10.1+ KB
None

Valores nulos en Consultas_Recibidas: 0
Valores cero en Consultas_Recibidas: 5

Valores nulos después de conversión: 0

Valores únicos en Es_Cyber: ['NO' 'SI']

DataFrame después de limpieza:
       Fecha  Consultas_Recibidas  Es_Cyber
0 2024-01-02                 1976         0
1 