# EDA - Mobile-Driven Purchase Behavior Analysis

_An exploratory data analysis (EDA) focused on identifying user behavior patterns related to mobile purchasing, buyer confidence, demographics, impulsive buying influenced by discounts, and the synchronization between mobile usage habits and online shopping activity._

<img src="https://www.itexchangeweb.com/blog/wp-content/uploads/2017/12/image-blog.png" width="90%">

## Objetivo

El CEO de una empresa de ecommerce está preocupado por la baja retención de los compradores y usuarios. Se ha propuesto poner en marcha 3 lineas de actuación con los siguientes objetivos:
1. Hacer más atractivo el catálogo de productos ofertados.
2. Mejorar la usabilidad de la web.
3. Aumentar el ratio de usuarios que compran a través de su app y de la versión móvil de su web.

En relación al tercer punto, han visto que la proporción del uso móvil es menor de lo habitual en el sector, y quieren analizar los datos que ya tienen de sus usuarios para sacar patrones que ayuden al equipo de producto y de marketing a tomar decisiones sobre estrategias a implementar.

Por una parte, el equipo de marketing lanzó una aplicación independiente del ecommerce que utilizan tan sólo para recabar información de usuarios, además de para enviarles publicidad y promociones, con la que han logrado tener datos del uso de los dispositivos móviles de los usuarios.

Por otra parte, tienen el registro de las operaciones de compra del ecommerce durante un año, en el que tienen identificados aquellos que han comprado a través de dispositivos móviles y de los cuales conocen su edad, género, tipo de dispositivo, etc.

## Hipótesis

- **Confianza del comprador** // Dataset 2<br>
Los usuarios que compran desde el móvil previamente han comprado desde Desktop

- **Confianza del comprador** // Dataset 2<br>
Hay relación entre plazos de entrega previos y la repetición de compra?

- **Perfil** // Dataset 2<br>
Hay diferencias de género o edad entre los compradores 'mobile' recurrentes?

- **Oferta** // Dataset 2<br>
Hay categorías de producto que destaquen para la primera compra móvil?

- **Compras impulsivas** // Dataset 2<br>
Tienen más efecto los descuentos en las compras móviles que en las Desktop?

- **Sincronía horaria de uso y compra** // Datasets 1 y 2 <br>
  ¿Se solapan las horas de mayor actividad en el móvil con las horas pico de compra online?


In [1]:
import numpy as np
import pandas as pd

## Datasets

### 1. Mobile Device Usage & User Behavior
   – Fuente: Kaggle  
   – Link: https://www.kaggle.com/datasets/valakhorasani/mobile-device-usage-and-user-behavior-dataset  

#### Resumen:
El dataset contiene 700 muestras sobre patrones de uso de dispositivos móviles y clasifica a los usuarios en cinco niveles de comportamiento, desde uso ligero hasta extremo. Incluye datos como tiempo diario de uso de apps, horas con pantalla activa, consumo de batería y datos móviles, además de características demográficas como edad y género. Cada usuario está identificado con un ID único, modelo de dispositivo y sistema operativo (iOS o Android).

#### Descripción de los Datos:
- **ID de usuario**: Identificador único de cada usuario.
- **Modelo del dispositivo**: Modelo del smartphone del usuario.
- **Sistema operativo**: El sistema operativo del dispositivo (iOS o Android).
- **Tiempo de uso de aplicaciones**: Tiempo diario dedicado a aplicaciones móviles, medido en minutos.
- **Tiempo con la pantalla encendida**: Promedio de horas diarias que la pantalla está activa.
- **Consumo de batería**: Consumo diario de batería en mAh.
- **Número de aplicaciones instaladas**: Total de aplicaciones disponibles en el dispositivo.
- **Uso de datos**: Consumo diario de datos móviles en megabytes.
- **Edad**: Edad del usuario.
- **Género**: Sexo del usuario (hombre o mujer).
- **Clase de comportamiento del usuario**: Clasificación del comportamiento del usuario según patrones de uso (1 a 5).

In [2]:
df_1 = pd.read_csv('data/user_behavior_dataset.csv')
df_1.head()

Unnamed: 0,User ID,Device Model,Operating System,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,Gender,User Behavior Class
0,1,Google Pixel 5,Android,393,6.4,1872,67,1122,40,Male,4
1,2,OnePlus 9,Android,268,4.7,1331,42,944,47,Female,3
2,3,Xiaomi Mi 11,Android,154,4.0,761,32,322,42,Male,2
3,4,Google Pixel 5,Android,239,4.8,1676,56,871,20,Male,3
4,5,iPhone 12,iOS,187,4.3,1367,58,988,31,Female,3


In [5]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   User ID                     700 non-null    int64  
 1   Device Model                700 non-null    object 
 2   Operating System            700 non-null    object 
 3   App Usage Time (min/day)    700 non-null    int64  
 4   Screen On Time (hours/day)  700 non-null    float64
 5   Battery Drain (mAh/day)     700 non-null    int64  
 6   Number of Apps Installed    700 non-null    int64  
 7   Data Usage (MB/day)         700 non-null    int64  
 8   Age                         700 non-null    int64  
 9   Gender                      700 non-null    object 
 10  User Behavior Class         700 non-null    int64  
dtypes: float64(1), int64(7), object(3)
memory usage: 60.3+ KB


**IMPORTANTE**
- No hay datos nulos en el Dataset.

In [6]:
df_1.describe()

Unnamed: 0,User ID,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,User Behavior Class
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,350.5,271.128571,5.272714,1525.158571,50.681429,929.742857,38.482857,2.99
std,202.21688,177.199484,3.068584,819.136414,26.943324,640.451729,12.012916,1.401476
min,1.0,30.0,1.0,302.0,10.0,102.0,18.0,1.0
25%,175.75,113.25,2.5,722.25,26.0,373.0,28.0,2.0
50%,350.5,227.5,4.9,1502.5,49.0,823.5,38.0,3.0
75%,525.25,434.25,7.4,2229.5,74.0,1341.0,49.0,4.0
max,700.0,598.0,12.0,2993.0,99.0,2497.0,59.0,5.0


In [14]:
df_1['User ID']

0        1
1        2
2        3
3        4
4        5
      ... 
695    696
696    697
697    698
698    699
699    700
Name: User ID, Length: 700, dtype: int64

### 2. E-commerce Dataset
   – Fuente: Kaggle  
   – Link: https://www.kaggle.com/datasets/mervemenekse/ecommerce-dataset/data

#### Resumen:
Este dataset contiene un año de datos de compras online de una empresa estadounidense, con detalles de cada pedido, como fechas, tiempos de entrega, perfil del cliente (género y login), así como información del producto (categoría, cantidad, descuentos) y aspectos financieros (ventas, beneficio, coste de envío). Quizás lo más importante que me va a permitir utilizarlo con mis hipótesis: también diferencia las compras por tipo de dispositivo.

Hay más de 50.000 registros en el dataset, de los cuales casi 40.000 son usuarios únicos.
Se identifican 3.658 registros realizados desde dispositivos móviles, de 3.557 usuarios diferentes.

#### Descripción de los Datos:
- **Order_Date**: Fecha en que se realizó el pedido.
- **Aging**: Tiempo desde la orden hasta la entrega del producto.
- **Customer_id**: Identificador único de cada cliente.
- **Gender**: Género del cliente.
- **Device_Type**: Dispositivo usado para realizar la compra (Web/Móvil).
- **Customer_Login_Type**: Tipo de inicio de sesión del cliente (Miembro, Invitado, etc.).
- **Product_Category**: Categoría del producto.
- **Product**: Producto.
- **Sales**: Importe total de ventas.
- **Quantity**: Cantidad de unidades del producto.
- **Discount**: Porcentaje de descuento aplicado.
- **Profit**: Beneficio.
- **Shipping_cost**: Coste de envío.
- **Order_Priority**: Prioridad del pedido (crítico, alta, etc.).
- **Payment_method**: Método de pago.

In [8]:
df_2 = pd.read_csv('data/E-commerce Dataset.csv')
#df_1[df_1['Device_Type'] =='Mobile']
df_2.head()

Unnamed: 0,Order_Date,Time,Aging,Customer_Id,Gender,Device_Type,Customer_Login_type,Product_Category,Product,Sales,Quantity,Discount,Profit,Shipping_Cost,Order_Priority,Payment_method
0,2018-01-02,10:56:33,8.0,37077,Female,Web,Member,Auto & Accessories,Car Media Players,140.0,1.0,0.3,46.0,4.6,Medium,credit_card
1,2018-07-24,20:41:37,2.0,59173,Female,Web,Member,Auto & Accessories,Car Speakers,211.0,1.0,0.3,112.0,11.2,Medium,credit_card
2,2018-11-08,08:38:49,8.0,41066,Female,Web,Member,Auto & Accessories,Car Body Covers,117.0,5.0,0.1,31.2,3.1,Critical,credit_card
3,2018-04-18,19:28:06,7.0,50741,Female,Web,Member,Auto & Accessories,Car & Bike Care,118.0,1.0,0.3,26.2,2.6,High,credit_card
4,2018-08-13,21:18:39,9.0,53639,Female,Web,Member,Auto & Accessories,Tyre,250.0,1.0,0.3,160.0,16.0,Critical,credit_card


In [4]:
print('Total registros:', len(df_2))
print('Usuarios únicos:', df_2['Customer_Id'].nunique())

print('\nRegistros mobile:', len(df_2[df_2['Device_Type'] == 'Mobile']))
print('Usuarios únicos + móvil:', df_2[df_2['Device_Type'] == 'Mobile']['Customer_Id'].nunique())

Total registros: 51290
Usuarios únicos: 38997

Registros mobile: 3658
Usuarios únicos + móvil: 3557


In [9]:
df_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51290 entries, 0 to 51289
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Order_Date           51290 non-null  object 
 1   Time                 51290 non-null  object 
 2   Aging                51289 non-null  float64
 3   Customer_Id          51290 non-null  int64  
 4   Gender               51290 non-null  object 
 5   Device_Type          51290 non-null  object 
 6   Customer_Login_type  51290 non-null  object 
 7   Product_Category     51290 non-null  object 
 8   Product              51290 non-null  object 
 9   Sales                51289 non-null  float64
 10  Quantity             51288 non-null  float64
 11  Discount             51289 non-null  float64
 12  Profit               51290 non-null  float64
 13  Shipping_Cost        51289 non-null  float64
 14  Order_Priority       51288 non-null  object 
 15  Payment_method       51290 non-null 

**IMPORTANTE**
- No hay datos nulos en el Dataset.

In [11]:
df_2.describe()

Unnamed: 0,Aging,Customer_Id,Sales,Quantity,Discount,Profit,Shipping_Cost
count,51289.0,51290.0,51289.0,51288.0,51289.0,51290.0,51289.0
mean,5.255035,58155.758764,152.340872,2.502983,0.303821,70.407226,7.041557
std,2.959948,26032.215826,66.495419,1.511859,0.131027,48.729488,4.871745
min,1.0,10000.0,33.0,1.0,0.1,0.5,0.1
25%,3.0,35831.25,85.0,1.0,0.2,24.9,2.5
50%,5.0,61018.0,133.0,2.0,0.3,59.9,6.0
75%,8.0,80736.25,218.0,4.0,0.4,118.4,11.8
max,10.5,99999.0,250.0,5.0,0.5,167.5,16.8
