# Aplicaciones móviles: segmentación de usuarios y usuarias en función del comportamiento (1)

## Introducción 

## Objetivo

Identificar y caracterizar segmentos de usuarios con comportamientos diferenciados en la aplicación, con el fin de optimizar estrategias de engagement, retención y conversión, y comprender las diferencias en el comportamiento de los usuarios provenientes de diferentes canales de adquisición.

### Lista de tareas realizadas


* Carga de librerías 
* Carga de datos
* Exploración inicial de datos
    * Verificar nombres de columnas y tipos de datos
    * Modificar tipos de datos necesarios
    * Comprobación de datos ausentes y datos duplicados
* Ver el espacio de tiempo que abarcan los datos
* Revisión de comportamiento de usuario por evento (primera visita, canal de ingreso, primera c)
* Determinar el orden en que ocurren los eventos (embudo de eventos), hasta el evento objetivo 'contact_show'
* 

## Carga de librerías 

In [14]:
# Importación de librerías 
import pandas as pd
import os 

## Carga de datos

In [15]:
# Carga de datos 
data_path = os.path.join("..", "datasets")

dataset1_path = os.path.join(data_path, "mobile_dataset_us.csv")
dataset2_path = os.path.join(data_path, "mobile_sources_us.csv")

data = pd.read_csv(dataset1_path)
source = pd.read_csv(dataset2_path)

## Exploración inicial de datos

### Revisión de tipos de datos y datos ausentes / duplicados

In [23]:
# Revisión de 'data'
print(data.head())
print()
print(data.info())
print()
print("Cantidad de duplicados explícitos:")
print(data.duplicated().sum())
print()
print("Cantidad de datos nulos:")
print(data.isnull().sum())

                   event.time   event.name  \
0  2019-10-07 00:00:00.431357  advert_open   
1  2019-10-07 00:00:01.236320    tips_show   
2  2019-10-07 00:00:02.245341    tips_show   
3  2019-10-07 00:00:07.039334    tips_show   
4  2019-10-07 00:00:56.319813  advert_open   

                                user.id  
0  020292ab-89bc-4156-9acf-68bc2783f894  
1  020292ab-89bc-4156-9acf-68bc2783f894  
2  cf7eda61-9349-469f-ac27-e5b6f5ec475c  
3  020292ab-89bc-4156-9acf-68bc2783f894  
4  cf7eda61-9349-469f-ac27-e5b6f5ec475c  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74197 entries, 0 to 74196
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   event.time  74197 non-null  object
 1   event.name  74197 non-null  object
 2   user.id     74197 non-null  object
dtypes: object(3)
memory usage: 1.7+ MB
None

Cantidad de duplicados explícitos:
0

Cantidad de datos nulos:
event.time    0
event.name    0
user.id       0
dtype

In [29]:
# Cambio en el formato de datos de la columna 'event.time'
data['event.time'] = pd.to_datetime(data['event.time']).dt.date

In [25]:
print(source.head())
print()
print(source.info())
print()
print("Cantidad de duplicados explícitos:")
print(source.duplicated().sum())
print()
print("Cantidad de datos nulos:")
print(source.isnull().sum())

                                 userId  source
0  020292ab-89bc-4156-9acf-68bc2783f894   other
1  cf7eda61-9349-469f-ac27-e5b6f5ec475c    bing
2  8c356c42-3ba9-4cb6-80b8-3f868d0192c3    bing
3  d9b06b47-0f36-419b-bbb0-3533e582a6cb   other
4  f32e1e2a-3027-4693-b793-b7b3ff274439  google

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4293 entries, 0 to 4292
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userId  4293 non-null   object
 1   source  4293 non-null   object
dtypes: object(2)
memory usage: 67.2+ KB
None

Cantidad de duplicados explícitos:
0

Cantidad de datos nulos:
userId    0
source    0
dtype: int64


In [32]:
# Fechas iniciales y finales datos 
print(data['event.time'].min())
print(data['event.time'].max())

2019-10-07
2019-11-03


* Se tiene aproximadamente 1 mes de datos, con datos desde 07 de octubre de 2019, hasta 03 de noviembre de 2019 
* ¿Datos por día serían más relevantes?

In [33]:
# Tipos de eventos
data['event.name'].value_counts()

event.name
tips_show        40055
photos_show      10012
advert_open       6164
contacts_show     4450
map               3881
search_1          3506
favorites_add     1417
search_5          1049
tips_click         814
search_4           701
contacts_call      541
search_3           522
search_6           460
search_2           324
search_7           222
show_contacts       79
Name: count, dtype: int64

* Existen eventos como search_\* que están relacionados con búsquedas
* El evento show_contacts y contacts_show representan el evento objetivo, son lo mísmo. 
* ¿Cuántos usuarios hicieron más de una búsqueda? 

In [34]:
# Fuentes 
source['source'].value_counts()

source
bing      1934
other     1230
google    1129
Name: count, dtype: int64

* Las fuentes principales de búsqueda son bing y google, no se específica en la descripción del dataset a que se refiere 'otros'
* ¿Existe diferencia significativa entre los clientes obtenidos por las principales fuentes? 

## Sección de referencias

(1) os.path — Manipulaciones comunes de nombre de ruta

