# EDA dataset TiendaNube

Esta notebook ofrece un análisis de la distribución de los datos almacenados en el dataset (*Exploratory Data Analysis*). El objetvio es poder determinar con qué tipos de variables cuenta el dataset (numéricas o categóricas) y ver la distribución de los mismos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Lectura de datos

In [None]:
df_data = pd.read_csv('test_data.csv', delimiter=';', index_col=0)
df_data.head()

In [None]:
df_data.shape

**Chequeo de tipos de datos y nulidad**

In [None]:
# Tipos de datos 
df_data.info()

In [None]:
# Chequeo de NaN
df_data.isna().any()

In [None]:
df_data.describe()

Se puede observar que hay un conjunto de variables cuya media coincide con el percentil 50% (**admin_visits**, **creation_weekday**, **creation_hour**).

Hay otro conjunto de variables cuyo valor del percentil 75% está muy lejos del valor máximo, lo que indica, que hay valores *outliers* para esas variables (**admin_visits**, **intercom_conversations**, **products_with_description**, **total_products_with_images**, **total_product_categories**, **total_events_on_Android**, **total_events_on_Web**, **total_events_on_iOS**)

In [None]:
df_data['total_events_on_Web'].quantile(0.999)

## Limpieza de outliers

Para eliminar los outliers, se definen los valores mínimos y máximos validos para la variable utilizando los cuartiles

In [None]:
def clean_outliers_with_quartiles(df_sample, col):
    
    #Dropping the outlier rows with Percentiles of a column
    upper_lim = df_sample[col].quantile(0.999)

    df_sample = df_sample[(df_sample[col] < upper_lim)]
    
    return df_sample
    

In [None]:
columns_to_drop_outliers = [ 
    'products_with_description', 
    'total_products_with_images', 
    'total_product_categories',
    'total_events_on_Android',
    'total_events_on_Web',
    'total_events_on_iOS'
]

In [None]:
for col in columns_to_drop_outliers[1:2]:
    df_data = clean_outliers_with_quartiles(df_data, 'total_events_on_Web') 

In [None]:
df_data.describe()

In [None]:
df_data.shape

## Análisis de los datos

**Distribución de la etiqueta target**

Aquí se puede observar la cantidad casos en los que el *trial* se convirtió en *payment*· El valor 0 indica que no lo hizo y el 1 que sí. Como se observa en el gráfico, el dataset se encuentra desbalanceado en favor del valor 0.

In [None]:
df_data.target.value_counts()

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(x='target', data=df_data)

Con el fin de agilizar el procesamiento para los gráficos, se toma una muestra representativa del dataset

In [None]:
df_sample = df_data.sample(frac=0.1)
df_sample.shape

### Variables numéricas

En base al diccionario de datos, podemos clasificar a las siguiente variables como numéricas:

* **total_events_on_iOS**: registro de la cantidad de eventos que tuvo el trial por un dispositivo con sistema operativo Android
* **total_events_on_Web**: registro de la cantidad de eventos que tuvo el trial por una computadora
* **total_events_on_Android**: registro de la cantidad de eventos que tuvo el trial por un dispositivo con sistema operativo iOS
* **admin_visits**: cantidad de visitas que registró el administrador 
* **intercom_conversations**: cantidad de conversaciones que registró la tienda con el equipo de soporte
* **products_with_description**: cantidad de productos que poseen descripción 
* **total_products_with_images**: cantidad de productos que poseen imagen
* **total_product_categories**: cantidad de categorías de productos creadas

**Distribución de las variables tomadas de a pares**

A continuación se analiza como se distribuyen las variables numéricas, tomándolas de a pares.

Primero se analizó qué tipo de relación había entre los eventos registrados por los diversos tipos de dispositivos. Para ello se observaron las siguiente variables:

* **total_events_on_iOS**
* **total_events_on_Web**
* **total_events_on_Android**

Como podemos observar en el gráfico, los usuarios realizan acciones de manera combinada tanto de un dispositivo móvil (Android o iOS) como desde la Web. 

También resulta interesante observar la distribución dividida por clases para cada dispositivo: en el caso de los usuarios que usaron iOS o Web podemos observar la curva de la clase positiva posee un desvío a la derecha; y además, un pico "más alto" respecto de la clase negativa. Esto puede ser un indicio de la importancia que estas variables tendrán para el **clasificador**

In [None]:
plt.figure(figsize=(12,12))

df_sample['total_events_on_Web'].hist(bins=30)

In [None]:
plt.figure(figsize=(12,12))

sns.pairplot(df_sample[['total_events_on_iOS', 'total_events_on_Web', 'total_events_on_Android', 'target']], plot_kws={'alpha': 0.3}, hue='target')

Dado que se tratan de distribuciones con desvíos a la derecha se realiza una transformación logartimica para obtener una distribución que se acerque más a la estandar

In [None]:
df_sample['total_events_on_iOS'] = np.log((1+ df_sample['total_events_on_iOS']))
df_sample['total_events_on_Web'] = np.log((1+ df_sample['total_events_on_Web']))
df_sample['total_events_on_Android'] = np.log((1+ df_sample['total_events_on_Android']))

In [None]:
plt.figure(figsize=(12,12))

sns.pairplot(df_sample[['total_events_on_iOS', 'total_events_on_Web', 'total_events_on_Android', 'target']], plot_kws={'alpha': 0.3}, hue='target')

Aquí se muestran las relaciones entre las variables que se corresponden con los eventos registrados con un tipo de dispositivo y las siguientes variables:

* **admin_visits**
* **intercom_conversations**
* **products_with_description** 
* **total_products_with_images**
* **total_product_categories**

En este resulta interesante observar los picos de las curvas para las diferentes variables. Al igual que las anteriores, la mayoría de las variables muestran curvas con desvíos a la derecha, mostrando la curva de la clase positiva un pico "más alto". La única variable que difiere es la variable **admin_visits** que muestra dos picos y, a diferencia de las otras, los picos "más altos" corresponden a la clase negativa.

En cuanto a las relaciones entre las variable, a priori no se observa una relación que muestre una separación de las clases.

In [None]:
plt.figure(figsize=(12,12))

sns.pairplot(df_sample[['admin_visits', 'intercom_conversations','products_with_description', 'total_products_with_images', 'total_product_categories', 'total_events_on_Android', 'target']], plot_kws={'alpha': 0.3}, hue='target')

In [None]:
df_sample['products_with_description'] = np.log((1+ df_sample['products_with_description']))
df_sample['total_product_categories'] = np.log((1+ df_sample['total_product_categories']))
df_sample['total_products_with_images'] = np.log((1+ df_sample['total_products_with_images']))

In [None]:
plt.figure(figsize=(12,12))

sns.pairplot(df_sample[['admin_visits', 'intercom_conversations','products_with_description', 'total_products_with_images', 'total_product_categories', 'total_events_on_Web', 'target']], plot_kws={'alpha': 0.3}, hue='target')

In [None]:
plt.figure(figsize=(12,12))

sns.pairplot(df_sample[['admin_visits', 'intercom_conversations','products_with_description', 'total_products_with_images', 'total_product_categories', 'total_events_on_iOS', 'target']], plot_kws={'alpha': 0.3}, hue='target')

### Variables categoricas

Posteriormente se analizaron las distribuciones de las variables categóricas:

* **country**: país de origen del trial
* **creation_platform**: plataforma por la cual se creó la tienda 
* **source_pulido**: origen de la tienda por campaña de marketing
* **creation_weekday**: día de la semana en que se creó la tienda

Para un análisis más claro se discriminan las distribuciones de acuerdo a las clases. Aquí resulta interesante observar que si bien en Brasil el producto es mucho más utilizado, la relación entre los usuarios que pasan a ser *payment* y los que no lo hacen es "peor" que en Argentina, donde la cantidad de usuarios que pasaron a ser *payment* es similar a la de Brasil. 

También hay que destacar que la variable **creation_platform** muestra que la mayor cantidad de clase *payment* se da entre aquellos usuarios que los crearon a través del *desktop*.

Finalmente, en la variable **source_pulido** las categorías *Brand* y *Google Organic* ofrecen la "mejor" relación entre las clases; mientras que la variable **creation_weekday** parece mostrar una relación uniforme entre las clases, en otras palabras el día creación parecería no ser un factor a que ayude a predecir si el usuario se pasará a *payment* o no.

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(x='country', hue='target', data=df_sample)

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(x='creation_platform', hue= 'target', data=df_sample)

In [None]:
plt.figure(figsize=(8,8))
ax = sns.countplot(x='source_pulido', hue= 'target', data=df_sample)
ax.set_xticklabels(df_sample['source_pulido'].unique() ,rotation=80, fontsize=14)

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(x='creation_weekday', hue= 'target', data=df_sample)

In [None]:
plt.figure(figsize=(8,8))
sns.catplot(x='country', hue='creation_platform', col='target', data=df_sample, kind="count")

### Segmentación de los eventos de acuerdo a los cuartiles

In [None]:
quantile_list = [0, .25, .5, .75, 1.]
quantiles = df_sample['total_events_on_Web'].quantile(quantile_list)
quantiles

In [None]:
quantile_labels = ['0-25Q', '25-50Q', '50-75Q', '75-100Q']
df_sample['total_events_on_Web_qrange'] = pd.qcut(df_sample['total_events_on_Web'], q=quantile_list)
df_sample['total_events_on_Web_qlabel'] = pd.qcut(df_sample['total_events_on_Web'], q=quantile_list, labels=quantile_labels)

df_sample.head()

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(x='total_events_on_Web_qlabel', hue= 'target', data=df_sample)