In [1]:
import pandas as pd
import seaborn as sns 
import numpy as np
import matplotlib.pyplot as plt

In [2]:
subs = pd.read_csv("data/auctions.csv", dtype = {"platform": np.int8, "ref_type_id": np.int8, "source_id": np.int8}, usecols = ['date', 'platform', 'source_id'])
clks = pd.read_csv("data/clicks.csv", dtype = {"advertiser_id": np.int8, "action_id": np.float16, "source_id": np.int8, "wifi_connection": bool, "carrier_id": np.float16, "brand": np.float16, "touchX": np.float16, "touchY": np.float16})

FileNotFoundError: [Errno 2] File b'data/clicks.csv' does not exist: b'data/clicks.csv'

In [None]:
#Vconvierto las fechas a formato datetime
subs['date']=pd.to_datetime(subs['date'])
clks['created']=pd.to_datetime(clks['created'])

# Análisis sobre los clicks

In [None]:
clks.describe()

In [None]:
clks.head()

In [None]:
clks['wifi_connection'].value_counts()

In [None]:
clks.memory_usage(deep = True).sum()

## ¿Cómo se distribuye el tiempo que tardan los usuarios en dar click?

In [None]:
clks.count()

In [None]:
clks['timeToClick'].isnull().count()

In [None]:
clickTime = clks['timeToClick'].dropna()

In [None]:
clickTime.count()

In [None]:
clickTime.nlargest(5)

In [None]:
clickTime.nsmallest(5)

In [None]:
# Analizar si conviene convertir la frecuencia a escala logaritmica
grafico = clickTime.plot.hist(bins=50, color='cornflowerblue', figsize=(15,10))
grafico.set_title("Distribución de la cantidad de segundos que tarda un usuario en dar click", fontsize = 20)
grafico.set_xlabel("Tiempo en segundos",fontsize=15)
grafico.set_ylabel("Frecuencia", fontsize=15)
#Convierto la frecuencia a escala logaritimica par lograr una mejor
#visualizacion
#grafico.set_yscale('log')

Vemos que los usuarios en su mayor parte tardan menos de 2500 segundos hacer un click

In [None]:
clks.head()

Veamos si aplicando el logaritmo se logra un gráfico más descriptivo:

In [None]:
clickTimeLog = clickTime.transform(lambda x: np.log(x))

In [None]:
sns.set_style('darkgrid')
grafico_log = clickTimeLog.plot.hist(bins=50, color='skyblue', figsize=(10,5))
grafico_log.set_title("Histograma: cantidad de segundos (log) que tarda un usuario en dar click", fontsize = 20)
grafico_log.set_xlabel("Tiempo en segundos (log)",fontsize=15)
grafico_log.set_ylabel("Frecuencia", fontsize=15)

## Veamos ahora qué sucede con la posición desde donde se dan los clicks:

In [None]:
clickPos = clks.loc[:, ['touchX', 'touchY']].dropna()
clickPos.head()

In [None]:
clickPos['touchX'].value_counts().head()

In [None]:
clickPos['touchY'].value_counts().head()

Veo si un gráfico de distribución conjunta me muestra algo sobre estos valores

In [None]:
plt.figure(figsize=(8,8))
g_dist = sns.distplot(clickPos['touchX'], color='crimson', label = 'Posición en X')
g_dist = sns.distplot(clickPos['touchY'], color='royalblue', label = 'posición en Y')
g_dist.set_title("Distribución de la posición de clicks en pantalla", fontsize = 25)
g_dist.set_xlabel("Posición en pantalla", fontsize = 15)
g_dist.set_ylabel("Densidad", fontsize = 15)
g_dist.legend()

Alternativa utilizando un Scatter plot

In [None]:
plt.figure(figsize = (10,5))
g = sns.regplot(x = "touchX", y = "touchY", 
                    data = clickPos, color = 'orchid')
g.set_title("Relacion entre los clicks en la posición X e Y", fontsize = 20)
g.set_xlabel("Posición en X", fontsize = 15)
g.set_ylabel("Posición en Y", fontsize = 15)

# Analizo como se distribuyen los clicks en el tiempo

In [None]:
clks['año'] = pd.DatetimeIndex(clks['created']).year
clks['mes'] =clks['created'].dt.month
clks['día'] = clks['created'].dt.day
clks['hora'] = clks['created'].dt.hour
clks['minuto'] = clks['created'].dt.minute
clks['diaSemana'] = clks['created'].dt.weekday_name
clks.head()

In [None]:
grupo_clicks_por_dia=clks.groupby(['diaSemana'])['diaSemana'].count().sort_values(ascending=False).rename("Total clicks").reset_index()
grupo_clicks_por_dia.head(10) 

In [None]:
ax = sns.barplot(x='diaSemana', y='Total clicks', data=grupo_clicks_por_dia)
ax.set_title('Clicks totales según dia de la semana dede 5/3/19 al 13/3/19')
ax.figure.set_size_inches(16, 4)

Vemos que los dias martes, lunes y domingos son los días que se efectuan más clicks

In [None]:
grupo_clicks_por_hora=clks.groupby(['hora'])['diaSemana'].count().sort_values(ascending=False).rename("Total clicks").reset_index()
grupo_clicks_por_hora.head(10) 

In [None]:
ax = sns.barplot(x='hora', y='Total clicks', data=grupo_clicks_por_hora)
ax.set_title('Clicks totales según la hora del dia de la semana dede 5/3/19 al 13/3/19')
ax.figure.set_size_inches(16, 4)

Vemos que las horas en las cuales los usuarios hacen más clicks son: 1 23 y 2 de la mañana

In [None]:
grupo_clicks_por_dia_hora=clks.groupby(['diaSemana','hora'])['hora'].count().sort_values(ascending=False).rename("Total clicks").reset_index()
grupo_clicks_por_dia_hora.head(5) 

In [None]:
grid = sns.FacetGrid(clks,col="diaSemana", col_wrap=4, margin_titles=True,sharex=False)

grid.map(plt.hist,"hora",bins=np.linspace(0, 23,15),color="m");


En los graficos anteriores vemos que la disrtibución de los clicks para cada dia según la hora

# Análisis sobre las subastas

In [None]:
subs.describe()

In [None]:
subs.count()

## Veo que información puedo obtener de los días y horarios en que se realizan las subastas

In [None]:
subs.memory_usage(deep=True).sum()

In [None]:
subs['año'] = pd.DatetimeIndex(subs['date']).year.astype('category')
subs['mes'] =subs['date'].dt.month.astype('category')
subs['día'] = subs['date'].dt.day.astype('category')
subs['hora'] = subs['date'].dt.hour.astype('category')
subs['minuto'] = subs['date'].dt.minute.astype('category')
subs['diaSemana'] = subs['date'].dt.weekday_name.astype('category')
subs.head()

In [None]:
subs.memory_usage(deep=True).sum()

In [None]:
subs.info()

In [None]:
subs.memory_usage(deep=True).sum()

In [None]:
grupo_subastas_por_hora=subs.groupby(['hora'])['diaSemana'].count().sort_values(ascending=False).rename("Total subastas").reset_index()
grupo_subastas_por_hora.head(10) 

In [None]:
grupo_auctions_por_dia=subs.groupby(['diaSemana'])['diaSemana'].count().sort_values(ascending=False).rename("Totalauctions").reset_index()
grupo_auctions_por_dia.head() 

In [None]:
ax = sns.barplot(x='diaSemana', y='Totalauctions', data=grupo_auctions_por_dia)
ax.set_title('subastas totales según dia de la semana dede 5/3/19 al 13/3/19')
ax.figure.set_size_inches(16, 4)

In [None]:
subs['hora']=subs['hora'].astype('int8')

In [None]:
grupo_auctions_por_hora=subs.groupby(['diaSemana','hora'])['hora'].count().sort_values(ascending=False).rename("Subastas totales").reset_index()
grupo_auctions_por_hora.head(5) 

In [None]:
df2 = grupo_auctions_por_hora[['diaSemana', 'hora','Subastas totales']]
heatmap2_data = pd.pivot_table(df2,values='Subastas totales', index=['diaSemana'], columns={'hora'})
heatmap2_data.head(n=5)
ax=sns.heatmap(heatmap2_data, cmap="BuGn")
ax.set_title('subastas totales según dia y hora de la semana dede 5/3/19 al 13/3/19')
ax.figure.set_size_inches(16, 4)

En el grafico anterior se puede ver un heat map de las subastas por dia y hora. Se ve que las subastas se son mayores en los dias martes y miercoles . La horas picos son de entre las 0 y las 3 am

In [None]:
grid = sns.FacetGrid(subs,col="diaSemana", col_wrap=4, margin_titles=True,sharex=False)

grid.map(plt.hist,"hora",bins=np.linspace(0, 23,15),color="m");

In [None]:
subs_counts = subs_counts.reset_index()
subs_counts.head()

## Veo que información encuentro sobre el campo platform

In [None]:
plt.figure(figsize = (10,5))
heatMap = sns.heatmap(subs_day_hour,  cmap="PuRd", )
heatMap.set_title("Cantidad Promedio de Subastas por Día y Hora", fontsize = 20)
heatMap.set_xlabel("Hora", fontsize = 15)
heatMap.set_ylabel("Día", fontsize = 15)

In [None]:
platformCount = subs['platform'].value_counts().reset_index()
platformCount['platform_name'] = platformCount['index'].apply(lambda x: 'Android' if (x == 1) else 'IOS')
platformCount.columns = ['platform_id', 'platform_count', 'platform_name']
platformCount
plt.pie(platformCount['platform_count'].to_list(), labels = platformCount['platform_name'].to_list(), autopct='%1.1f%%', colors = ['yellowgreen', 'mediumaquamarine'], shadow=True, radius = 1.7)
plt.legend(platformCount['platform_name'].to_list(), loc = "upper right")
plt.title("Subastas: Plataforma de Dispositivo Utilizadas", {'fontsize': 20,
        'fontweight' : 20,
        'verticalalignment': 'bottom',
        'horizontalalignment': 'center'})
plt.show()