# TRANSFORMACIÓN DE DATOS

---
## IMPORTAR PAQUETES 
---

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

import sqlalchemy
import janitor

import re

pd.options.display.float_format = '{:.2f}'.format

%config IPCompleter.greedy=True # Activa el autocompletar avanzado en Jupyter

import warnings
# Ignora cualquier FutureIncompatibilityWarning antes de importar holidays
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# Ignora todo tipo de warning antes de cargar holidays
warnings.simplefilter("ignore")

import holidays

from IPython.display import display, HTML
display(HTML("""<style> th{ text-align: center !important; font-weight: bold !important; } td{ text-align: center !important; }</style>"""))

---
## IMPORTAR DATOS
--- 

In [2]:
# Cargar datos
df = pd.read_pickle("../data/processed/ecommerce_cleaning.pkl")
df

Unnamed: 0,fecha,evento,producto,categoria,precio,usuario,sesion
0,2019-10-01 00:01:46,view,5843665,1487580005092295511,9.44,462033176,a18e0999-61a1-4218-8f8f-61ec1d375361
1,2019-10-01 00:01:55,cart,5868461,1487580013069861041,3.57,514753614,e2fecb2d-22d0-df2c-c661-15da44b3ccf1
2,2019-10-01 00:02:50,view,5877456,1487580006300255120,122.22,527418424,86e77869-afbc-4dff-9aa2-6b7dd8c90770
3,2019-10-01 00:03:41,view,5649270,1487580013749338323,6.19,555448072,b5f72ceb-0730-44de-a932-d16db62390df
4,2019-10-01 00:03:44,view,18082,1487580005411062629,16.03,552006247,2d8f304b-de45-4e59-8f40-50c603843fe5
...,...,...,...,...,...,...,...
2095071,2020-02-29 23:58:49,cart,5815662,1487580006317032337,0.92,147995998,5ff96629-3627-493e-a25b-5a871ec78c90
2095072,2020-02-29 23:58:57,view,5815665,1487580006317032337,0.59,147995998,5ff96629-3627-493e-a25b-5a871ec78c90
2095073,2020-02-29 23:59:05,cart,5815665,1487580006317032337,0.59,147995998,5ff96629-3627-493e-a25b-5a871ec78c90
2095074,2020-02-29 23:59:28,view,5817692,1487580010872045658,0.79,619841242,18af673b-7fb9-4202-a66d-5c855bc0fd2d


---
## CREACIÓN DE NUEVAS VARIABLES
---
- En este tipo de contexto o sector como ventas existe mucha influencia de la variable tiempo por lo que son importantes las fechas:
- Extraer componentes de la fecha
- Crear variables de calendario (festivos locales)
- Indicadores exógenos, se utiliza para analizar series temporales, para recoger eventos pasados que se pueden medir en una nueva variable, son variables externas que no forman parte de la serie en estudio pero que pueden influir en su comportamiento. Se usan para mejorar la precisión de los modelos de predicción al incorporar factores externos relevantes. (Black Friday, San Valentin...)

### Variables de calendario: Festivos locales (Rusia)
- Para incorporar festivos podemos usar el paquete holidays.
- Lo instalamos con: conda install -c conda-forge holidays
- Lo importamos con: import holidays

Y podemos ver el listado de países y el uso básico en:
https://github.com/dr-prodigy/python-holidays

In [None]:
# Extraer componentes de la fecha en nuevas columnas
df['date'] = df['fecha'].dt.date
df['año'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month
df['dia'] = df['fecha'].dt.day
df['hora'] = df['fecha'].dt.hour
df['minuto'] = df['fecha'].dt.minute
df['segundo'] = df['fecha'].dt.second

# Establecer la columna 'fecha' como índice
df = df.set_index('fecha')

# Cambiar la variable date a tipo datetime64
df['date'] = pd.to_datetime(df['date'])

# Accedemos a los festivos locales de Rusia
festivo_ru = holidays.RU(years = 2020)
print("Días festivos en Rusia:")
for fecha, nombre in festivo_ru.items():   
    print(f"{fecha}: {nombre}")

# Creamos una variable que diga en cada registro si es un día festivo o no (si = 1, no = 0)
df['festivo'] = df['date'].apply(lambda x: 1 if x in festivo_ru else 0)

# Registros que existen en cada fecha festiva 
print(f"\nRegistros en cada fecha festiva: \n{df.query('festivo == 1').date.value_counts().sort_index()}")

# Filtrar las filas donde la columna 'festivo' sea igual a 1
print(f"\nRegistros en día de fiesta:")
display(df.query('festivo == 1'))


Días festivos en Rusia:
2020-01-01: Новогодние каникулы
2020-01-02: Новогодние каникулы
2020-01-03: Новогодние каникулы
2020-01-04: Новогодние каникулы
2020-01-05: Новогодние каникулы
2020-01-06: Новогодние каникулы
2020-01-08: Новогодние каникулы
2020-01-07: Рождество Христово
2020-02-23: День защитника Отечества
2020-03-08: Международный женский день
2020-05-01: Праздник Весны и Труда
2020-05-09: День Победы
2020-06-12: День России
2020-11-04: День народного единства
2020-05-04: Выходной (перенесено с 04.01.2020)
2020-05-05: Выходной (перенесено с 05.01.2020)
2020-02-24: Выходной (перенесено с 23.02.2020)
2020-03-09: Выходной (перенесено с 08.03.2020)
2020-05-11: Выходной (перенесено с 09.05.2020)

Registros en cada fecha festiva: 
date
2019-11-04    16430
2020-01-01     7644
2020-01-02    10776
2020-01-03    10617
2020-01-04    13084
2020-01-05    14554
2020-01-06    10621
2020-01-07    12922
2020-01-08    14004
2020-02-23     9817
2020-02-24    12724
Name: count, dtype: int64

Regi

Unnamed: 0_level_0,evento,producto,categoria,precio,usuario,sesion,date,año,mes,dia,hora,minuto,segundo,festivo
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2019-11-04 00:03:16,view,5867041,1783999064136745198,2.86,564305196,65d8eab8-db5f-42d5-907b-e56c3b358e31,2019-11-04,2019,11,4,0,3,16,1
2019-11-04 00:04:09,view,5809106,1487580012902088873,11.19,566717222,4cf1e000-6eb8-42e2-a8d6-6aa432a60526,2019-11-04,2019,11,4,0,4,9,1
2019-11-04 00:04:29,view,5897654,1783999072332415142,50.33,564304057,23d5c4ff-1a1a-407b-aef6-5e9718c3fad8,2019-11-04,2019,11,4,0,4,29,1
2019-11-04 00:06:53,view,5841799,1487580009471148064,0.13,537343814,c972074f-85db-4741-8d4c-30ddd265b3ea,2019-11-04,2019,11,4,0,6,53,1
2019-11-04 00:08:08,view,5670733,1487580006937789357,1.43,564305196,575132a2-8704-42e1-aba1-32b7be92feb0,2019-11-04,2019,11,4,0,8,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020-02-24 23:57:24,remove_from_cart,20904,1487580006300255120,2.22,456725508,2fa7abc2-c9a4-4e98-aed0-d2b438472c7c,2020-02-24,2020,2,24,23,57,24,1
2020-02-24 23:57:31,remove_from_cart,5780236,1602943681873052386,6.03,569520450,fbcfec54-39d5-40dd-9c41-c28aaaabf91b,2020-02-24,2020,2,24,23,57,31,1
2020-02-24 23:58:31,view,5930786,1487580005092295511,9.44,461248425,df2717ba-ec09-4689-a657-7f768c55b1c7,2020-02-24,2020,2,24,23,58,31,1
2020-02-24 23:58:43,cart,5930786,1487580005092295511,9.44,461248425,df2717ba-ec09-4689-a657-7f768c55b1c7,2020-02-24,2020,2,24,23,58,43,1


### Indicadores exógenos: Días no necesariamente festivos pero con interés comercial: Black Friday, Cyber Monday, Reyes, San Valentin
- Vamos a añadir indicadores para Black Friday y San Valentín

In [4]:
# 2019-11-29 = black friday en Rusia, creamos nueva columna y los registros que coincidan con la fecha los cambiamos a 1 en la variable
df['black_friday'] = 0
df.loc['2019-11-29','black_friday'] = 1

# 2020-02-14 = San Valentin en Rusia, creamos nueva columna y los registros que coincidan con la fecha los cambiamos a 1 en la variable
df['san_valentin'] = 0
df.loc['2020-02-14','san_valentin'] = 1

print(f"{df['black_friday'].value_counts()}\n")
print(f"{df['san_valentin'].value_counts()}")

black_friday
0    2051695
1      22331
Name: count, dtype: int64

san_valentin
0    2061781
1      12245
Name: count, dtype: int64


---
## Reordenar variables
---

In [5]:
# Extraemos las variables en una lista
variables = df.columns.to_list()

# Reordenamos las variables para que queden en el orden deseado
orden = ['usuario', 'sesion', 'categoria', 'evento', 'producto', 'precio']

# Extraemos el resto de las variables
resto_var = [nombre for nombre in variables if nombre not in orden]

# Reordenamos el DataFrame
df = df[orden + resto_var]
df

Unnamed: 0_level_0,usuario,sesion,categoria,evento,producto,precio,date,año,mes,dia,hora,minuto,segundo,festivo,black_friday,san_valentin
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2019-10-01 00:01:46,462033176,a18e0999-61a1-4218-8f8f-61ec1d375361,1487580005092295511,view,5843665,9.44,2019-10-01,2019,10,1,0,1,46,0,0,0
2019-10-01 00:01:55,514753614,e2fecb2d-22d0-df2c-c661-15da44b3ccf1,1487580013069861041,cart,5868461,3.57,2019-10-01,2019,10,1,0,1,55,0,0,0
2019-10-01 00:02:50,527418424,86e77869-afbc-4dff-9aa2-6b7dd8c90770,1487580006300255120,view,5877456,122.22,2019-10-01,2019,10,1,0,2,50,0,0,0
2019-10-01 00:03:41,555448072,b5f72ceb-0730-44de-a932-d16db62390df,1487580013749338323,view,5649270,6.19,2019-10-01,2019,10,1,0,3,41,0,0,0
2019-10-01 00:03:44,552006247,2d8f304b-de45-4e59-8f40-50c603843fe5,1487580005411062629,view,18082,16.03,2019-10-01,2019,10,1,0,3,44,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020-02-29 23:58:49,147995998,5ff96629-3627-493e-a25b-5a871ec78c90,1487580006317032337,cart,5815662,0.92,2020-02-29,2020,2,29,23,58,49,0,0,0
2020-02-29 23:58:57,147995998,5ff96629-3627-493e-a25b-5a871ec78c90,1487580006317032337,view,5815665,0.59,2020-02-29,2020,2,29,23,58,57,0,0,0
2020-02-29 23:59:05,147995998,5ff96629-3627-493e-a25b-5a871ec78c90,1487580006317032337,cart,5815665,0.59,2020-02-29,2020,2,29,23,59,5,0,0,0
2020-02-29 23:59:28,619841242,18af673b-7fb9-4202-a66d-5c855bc0fd2d,1487580010872045658,view,5817692,0.79,2020-02-29,2020,2,29,23,59,28,0,0,0


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2074026 entries, 2019-10-01 00:01:46 to 2020-02-29 23:59:54
Data columns (total 16 columns):
 #   Column        Dtype         
---  ------        -----         
 0   usuario       int64         
 1   sesion        object        
 2   categoria     int64         
 3   evento        category      
 4   producto      int64         
 5   precio        float64       
 6   date          datetime64[ns]
 7   año           int32         
 8   mes           int32         
 9   dia           int32         
 10  hora          int32         
 11  minuto        int32         
 12  segundo       int32         
 13  festivo       int64         
 14  black_friday  int64         
 15  san_valentin  int64         
dtypes: category(1), datetime64[ns](1), float64(1), int32(6), int64(6), object(1)
memory usage: 207.7+ MB


---
## GUARDAR EL DATAFRAME EN FORMATO PICKLE
---

In [7]:
# Guardar el DataFrame en formato pickle
df.to_pickle("../data/processed/ecommerce_transformado.pkl")
print("El DataFrame ha sido guardado en 'data/processed/' con el nombre 'ecommerce_transformado.pkl'")

El DataFrame ha sido guardado en 'data/processed/' con el nombre 'ecommerce_transformado.pkl'


In [8]:
# Guardar el DataFrame en formato CSV
df.to_csv("../data/originals/ecommerce_transformado.csv")
print("El DataFrame ha sido guardado en 'data/originals/' con el nombre 'ecommerce_transformado.csv'")

El DataFrame ha sido guardado en 'data/originals/' con el nombre 'ecommerce_transformado.csv'


conexion a .sql

In [9]:
from sqlalchemy import create_engine
df = pd.read_pickle('../data/processed/ecommerce_transformado.pkl')
engine = create_engine('mysql+pymysql://root:MySQL.2025@localhost/ecommerce')
df.to_sql('ecommerce_transformado', con=engine, index=False, if_exists='replace')


2074026