# ANÁLISIS EXPLORATORIO DE DATOS

<br>

En este apartado se hacen algunos análisis simples para entender un poco más el dato, como puede ser:
 * Primer contacto con el datos: Visualizcion de las tablas
 * Dimension de los dataframes
 * Comprobación de datos faltantes
 * Visualizacion de la distribucion de los datos para el dataframe concreto
 * 

# 1. Creación de funciones

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

# Visulaizar datos faltantes

def missing_values_table(df):
    mis_val = df.isnull().sum()
    mis_val_percent = 100 * df.isnull().sum() / len(df)
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    mis_val_table_ren_columns = mis_val_table.rename(
    columns = {0 : 'Valores faltantes', 1 : '% del total de valores'})
    mis_val_table_ren_columns = mis_val_table_ren_columns[
        mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
    '% del total de valores', ascending=False).round(1)
    print ("El dataframe seleccionado tiene " + str(df.shape[1]) + " columnas.\n"      
        "Existen " + str(mis_val_table_ren_columns.shape[0]) +
            " columnas que tienen valores perdidos.")
    return mis_val_table_ren_columns



def Plot_missing_data(df):
    sns.displot(
        data = df.isna().melt(value_name="missing"),
        y = "variable",
        hue = "missing",
        multiple = "fill",
        aspect = 0.9)
    
    print('\nAnálisis de datos faltantes:')
    print('_' * 30, '\n')
    print(missing_values_table(df))
    print('_' * 30, '\n')
    print(df.info())
    print('_' * 30, """\n Este gráfico se muestra en tan por uno el % de valores perdidos.
    1. Color azul: datos no flatnates. 
    2. Color Naranja: Datos faltantes""")


# 2. Lectura de ficheros

In [2]:
item_features = pd.read_csv('item_features.csv')
train_purchases = pd.read_csv('train_purchases.csv')
test_final_sessions = pd.read_csv('test_final_sessions.csv')
train_sessions = pd.read_csv('train_sessions.csv')

# 3. Exploracion de los datasets

## 3.1 Fichero `item_features.csv`

In [3]:
display(item_features.head(5))
Plot_missing_data(item_features)

Unnamed: 0,item_id,feature_category_id,feature_value_id
0,2,56,365
1,2,62,801
2,2,68,351
3,2,33,802
4,2,72,75


![im1](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_misingdata_item_features.png)

Como podemos ver en este gráfico y en la tabla de estadísticos de valores perdidos, esta dataset no contiene valores perdidos, por lo no hace falta realizar umputacion de valores faltantes. Veremos que pasa exactamente lo mismo para los otros datasets

In [None]:
fig = px.histogram(item_features, x = "feature_category_id")
fig.show()

![im2](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_Dist_item_features.png)

Con este histograma podemos ver que hay algunas caracteristicas que sale muy pocas veces en los items. Por ejemplo:
* La catagoria 47 aparece en 23.691 items, por lo que parece muchas mas veces que las categoria 1, que aparece solo 941 veces. En este sentido, esta ultima categoria parce clasificar/determinar mejor una prenda (a priori) que las categoria 47, que es mas común.
* Se puede ver categoria que aparecen muy poco y catgorias que aparecen bastante en los items/prendas

## 3.2 Fichero `train_purchases.csv`

In [16]:
display(item_features.head(5))
Plot_missing_data(item_features)

Unnamed: 0,item_id,feature_category_id,feature_value_id
0,2,56,365
1,2,62,801
2,2,68,351
3,2,33,802
4,2,72,75


![im3](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_misingdata_train_purchases.png)

In [None]:
train_purchases['datetime'] = pd.to_datetime(train_purchases['date'])


train_purchases['Franja'] =  np.where(  (train_purchases.datetime.dt.hour>=0) 
                                      & (train_purchases.datetime.dt.hour<7), 'madrugada',  
                             np.where(   (train_purchases.datetime.dt.hour>=7) 
                                      & (train_purchases.datetime.dt.hour<12), 'día',
                             np.where(  (train_purchases.datetime.dt.hour>=12) 
                                     & (train_purchases.datetime.dt.hour<18), 'tarde',
                                     'noche')
                                    ))

fig = px.histogram(train_purchases, x = "Franja")
fig.show()

![im4](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_dist_train_purchases.png)

Como podemos ver y a modo informatvo, los usuarios compran más cuando aparentemente estan en casa y disfrutan de su tiempo libre. 

## 3.3 Fichero `test_final_sessions.csv`

In [17]:
display(test_final_sessions.head(5))
Plot_missing_data(test_final_sessions)

Unnamed: 0,session_id,item_id,date,datetime,Franja,Type
0,61,27088,2021-06-01 08:12:39.664,2021-06-01 08:12:39.664,día,Test
1,96,11693,2021-06-19 17:48:05.227,2021-06-19 17:48:05.227,tarde,Test
2,96,18298,2021-06-19 17:49:08.589,2021-06-19 17:49:08.589,tarde,Test
3,96,4738,2021-06-19 17:49:15.838,2021-06-19 17:49:15.838,tarde,Test
4,96,495,2021-06-19 17:49:20.88,2021-06-19 17:49:20.880,tarde,Test


![im5](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_misingdata_test_final_sessions.png)

In [None]:
test_final_sessions['datetime'] = pd.to_datetime(test_final_sessions['date'])


test_final_sessions['Franja'] =  np.where(  (test_final_sessions.datetime.dt.hour>=0) 
                                          & (test_final_sessions.datetime.dt.hour<7), 'madrugada',  
                                 np.where(  (test_final_sessions.datetime.dt.hour>=7) 
                                          & (test_final_sessions.datetime.dt.hour<12), 'día',
                                 np.where(  (test_final_sessions.datetime.dt.hour>=12) 
                                          & (test_final_sessions.datetime.dt.hour<18), 'tarde',
                                     'noche')
                                    ))


fig = px.histogram(test_final_sessions, x = "Franja")
fig.show()

![im6](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_dist_test_final_sessions.png)

Aquí, como podemos ver, las franjas de visualozacion de items parace se asemeja a las compras, por lo que los entre la visualizacion de items en una sesion y la compra de uno de ellos no dista mucho en el tiempo

## 3.4 Fichero `train_sessions.csv`

In [21]:
display(train_sessions.head(5))
Plot_missing_data(train_sessions)

Unnamed: 0,session_id,item_id,date,datetime,Franja,Type
0,3,9655,2020-12-18 21:25:00.373,2020-12-18 21:25:00.373,noche,Train
1,3,9655,2020-12-18 21:19:48.093,2020-12-18 21:19:48.093,noche,Train
2,13,15654,2020-03-13 19:35:27.136,2020-03-13 19:35:27.136,noche,Train
3,18,18316,2020-08-26 19:18:30.833,2020-08-26 19:18:30.833,noche,Train
4,18,2507,2020-08-26 19:16:31.211,2020-08-26 19:16:31.211,noche,Train


![im7](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_misingdata_test_final_sessions.png)

![im6](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_dist_test_train_sessions.png)

In [None]:
train_sessions['datetime'] = pd.to_datetime(train_sessions['date'])


train_sessions['Franja'] =  np.where(   (train_sessions.datetime.dt.hour>=0) 
                                      & (train_sessions.datetime.dt.hour<7), 'madrugada',  
                            np.where(   (train_sessions.datetime.dt.hour>=7) 
                                      & (train_sessions.datetime.dt.hour<12), 'día',
                            np.where(   (train_sessions.datetime.dt.hour>=12) 
                                      & (train_sessions.datetime.dt.hour<18), 'tarde',
                                     'noche')
                                    ))


fig = px.histogram(train_sessions, x = "Franja")
fig.show()

![im8](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_dist_test_final_sessions.png)

Aquí, como podemos sacar las mismas conclusiones que antes.

### Dataset completo de Session

Con el data set completo de session (tran + test) sacamos el porcentaje de datos sobre el total para la validacion

In [None]:
train_sessions['Type'] = 'Train'
test_final_sessions['Type'] = 'Test'

full_sessions = train_sessions.append(test_final_sessions)
full_sessions['cnt'] = 1

fig = px.pie(full_sessions, values='cnt', names='Type')
fig.show()

![im9](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_piechart_fulldata.png)

In [None]:
fig = px.histogram(full_sessions, x = "Franja")
fig.show()

![im10](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_dist_fulldata_Franja.png)

In [12]:
full_sessions.shape

(4969958, 7)

In [None]:
fig = px.histogram(full_sessions, x = "item_id")
fig.show()

![im8](https://raw.githubusercontent.com/LucioBolatti/RecSys22-UB/gh-pages/Images/Image_dist_fulldata.png)

Resumen de la informacion para el conjunto de datos:

| Conjunto de datos   | Filas   | # Columnas                      | Datos Faltantes |
|---------------------|---------|-------------------------------|-----------------|
| item_features       | 471751  | 3 (se tratan com categóricas) | 0%              |
| train_purchases     | 1000000 | 3 (se tratan com categóricas) | 0%              |
| test_final_sessions | 226138  | 3 (se tratan com categóricas) | 0%              |
| train_sessions      | 4743820 | 3 (se tratan com categóricas) | 0%              |