# **Progetto Waze I**


L'obiettivo principale di quest'analisi **è comprendere le cause dell'abbandono degli utenti di Waze**.

A partire da questo obiettivo generale, l'analisi si concentra su:

- **Ispezionare e preparare i dati** degli utenti di Waze.

- **Identificare i fattori chiave** che portano gli utenti a smettere di usare l'applicazione.

- **Fornire un riassunto esecutivo** con le scoperte principali per il team.

# **Ispezionare e analizzare i dati**

In questa attività, esaminererò i dati forniti e li preparerò per l'analisi. Questa attività contribuirà a garantire che le informazioni siano:

1. Pronte a rispondere alle domande e a fornire spunti

2. Pronte per le visualizzazioni

3. Pronte per futuri test di ipotesi e metodi statistici
<br/>

**Lo scopo** di questo progetto è analizzare e comprendere i dati forniti.

**L'obiettivo** è utilizzare un dataframe costruito in Python, eseguire un'ispezione superficiale del set di dati fornito e informare i membri del team dei risultati.
<br/>

*Questa attività si compone di tre parti:*

**Parte 1:** Comprendere la situazione e organizzare le informazioni fornite.

**Parte 2:** Comprendere i dati.
* Creare un dataframe pandas per l'apprendimento dei dati, l'analisi esplorativa dei dati (EDA) e le attività statistiche future

* Raccogliere informazioni di riepilogo sui dati per orientare i passaggi successivi

**Parte 3:** Comprendere le variabili

* Utilizzare le informazioni ottenute dall'analisi dei dati di riepilogo per guidare un'indagine più approfondita sulle variabili

<br/>

# **Identify data types and compile summary information**


### **Importazioni e caricamento dei dati**
















Inizio importando i pacchetti che serviranno per caricare ed esplorare il dataset.

In [3]:
# Importazione pacchetti per la manipolazione dei dati
import pandas as pd
import numpy as np

Quindi, carico il dataset in un dataframe. La creazione di un dataframe mi aiuterà a gestire la manipolazione dei dati, l'analisi esplorativa dei dati (EDA) e le attività statistiche.


In [None]:
# Caricamento dataset in un dataframe
df = pd.read_csv('waze_dataset.csv')

### **Informazioni di riepilogo**

Visualizzare e analizzare le informazioni di riepilogo sul dataframe **codificando quanto segue:**

1. df.head(10)
2. df.info()

Queste funzioni mi aiuteranno a rispondere alle domande:

1. ci sono variabili con valori mancanti?

2. quali sono i tipi di dati? Quante righe e colonne?

3. il dataset presenta valori mancanti?

In [5]:
df.head(10)

Unnamed: 0,ID,label,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days,device
0,0,retained,283,226,296.748273,2276,208,0,2628.845068,1985.775061,28,19,Android
1,1,retained,133,107,326.896596,1225,19,64,13715.92055,3160.472914,13,11,iPhone
2,2,retained,114,95,135.522926,2651,0,0,3059.148818,1610.735904,14,8,Android
3,3,retained,49,40,67.589221,15,322,7,913.591123,587.196542,7,3,iPhone
4,4,retained,84,68,168.24702,1562,166,5,3950.202008,1219.555924,27,18,Android
5,5,retained,113,103,279.544437,2637,0,0,901.238699,439.101397,15,11,iPhone
6,6,retained,3,2,236.725314,360,185,18,5249.172828,726.577205,28,23,iPhone
7,7,retained,39,35,176.072845,2999,0,0,7892.052468,2466.981741,22,20,iPhone
8,8,retained,57,46,183.532018,424,0,26,2651.709764,1594.342984,25,20,Android
9,9,churned,84,68,244.802115,2997,72,0,6043.460295,2341.838528,7,3,iPhone


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID                       14999 non-null  int64  
 1   label                    14299 non-null  object 
 2   sessions                 14999 non-null  int64  
 3   drives                   14999 non-null  int64  
 4   total_sessions           14999 non-null  float64
 5   n_days_after_onboarding  14999 non-null  int64  
 6   total_navigations_fav1   14999 non-null  int64  
 7   total_navigations_fav2   14999 non-null  int64  
 8   driven_km_drives         14999 non-null  float64
 9   duration_minutes_drives  14999 non-null  float64
 10  activity_days            14999 non-null  int64  
 11  driving_days             14999 non-null  int64  
 12  device                   14999 non-null  object 
dtypes: float64(3), int64(8), object(2)
memory usage: 1.5+ MB


**Risposte:**

1. Nessuna delle variabili nelle prime 10 osservazioni presenta valori mancanti.

2. Le variabili `label` e `device` sono di tipo `object`; `total_sessions`, `driven_km_drives` e `duration_minutes_drives` sono di tipo `float64`; le restanti variabili sono di tipo `int64`. Ci sono 14.999 righe e 13 colonne.

3. Il set di dati presenta 700 valori mancanti nella colonna `label`.

### **Valori nulli e statistiche riassuntive**

Confronto le statistiche riassuntive delle 700 righe in cui mancano labels con le statistiche riassuntive delle righe in cui non mancano valori.

**Domanda:** C'è una differenza percepibile tra le due popolazioni?

In [None]:
# Isolo le righe con valori nulli
null_df = df[df['label'].isnull()]

#Visualizzo statistiche descrittive per le righe con valori nulli
null_df.describe()

Unnamed: 0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,7405.584286,80.837143,67.798571,198.483348,1709.295714,118.717143,30.371429,3935.967029,1795.123358,15.382857,12.125714
std,4306.900234,79.98744,65.271926,140.561715,1005.306562,156.30814,46.306984,2443.107121,1419.242246,8.772714,7.626373
min,77.0,0.0,0.0,5.582648,16.0,0.0,0.0,290.119811,66.588493,0.0,0.0
25%,3744.5,23.0,20.0,94.05634,869.0,4.0,0.0,2119.344818,779.009271,8.0,6.0
50%,7443.0,56.0,47.5,177.255925,1650.5,62.5,10.0,3421.156721,1414.966279,15.0,12.0
75%,11007.0,112.25,94.0,266.058022,2508.75,169.25,43.0,5166.097373,2443.955404,23.0,18.0
max,14993.0,556.0,445.0,1076.879741,3498.0,1096.0,352.0,15135.39128,9746.253023,31.0,30.0


In [None]:
# isolo le righe senza valori nulli
not_null_df = df[~df['label'].isnull()]
# Visualizzo statistiche descrittive per le righe senza valori nulli
not_null_df.describe()

Unnamed: 0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
count,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0
mean,7503.573117,80.62382,67.255822,189.547409,1751.822505,121.747395,29.638296,4044.401535,1864.199794,15.544653,12.18253
std,4331.207621,80.736502,65.947295,136.189764,1008.663834,147.713428,45.35089,2504.97797,1448.005047,9.016088,7.833835
min,0.0,0.0,0.0,0.220211,4.0,0.0,0.0,60.44125,18.282082,0.0,0.0
25%,3749.5,23.0,20.0,90.457733,878.5,10.0,0.0,2217.319909,840.181344,8.0,5.0
50%,7504.0,56.0,48.0,158.718571,1749.0,71.0,9.0,3496.545617,1479.394387,16.0,12.0
75%,11257.5,111.0,93.0,253.54045,2627.5,178.0,43.0,5299.972162,2466.928876,23.0,19.0
max,14998.0,743.0,596.0,1216.154633,3500.0,1236.0,415.0,21183.40189,15851.72716,31.0,30.0


**Risposta:**

> Confrontando le statistiche riassuntive delle osservazioni con valori labels mancanti con quelle senza valori mancanti, non emerge nulla di significativo. Le medie e le deviazioni standard sono abbastanza coerenti tra i due gruppi.

### **Valori nulli - conteggio dispositivi**

Successivamente, controllo le due popolazioni rispetto alla variabile `device`.

**Domanda:** Quanti utenti iPhone avevano valori nulli e quanti utenti Android avevano valori nulli?

In [None]:
# Riporto i numeri di valori per ciascun dispositivo
null_df['device'].value_counts()

device
iPhone     447
Android    253
Name: count, dtype: int64

**Risposta:**
> Delle 700 righe con valori nulli, 447 erano utenti iPhone e 253 erano utenti Android.

Ora, calcolo la percentuale delle righe con valori nulli per ciascun dispositivo: Android e iPhone. 

In [None]:
#Calcolo la % di iPhone nulli e Android nulli
null_df['device'].value_counts(normalize=True)

device
iPhone     0.638571
Android    0.361429
Name: proportion, dtype: float64

Come si confronta questo dato con il rapporto tra dispositivi nel set di dati completo?

In [11]:
# Calcolo la % di utenti iPhone e Android dell'intero dataset
df['device'].value_counts(normalize=True)

device
iPhone     0.644843
Android    0.355157
Name: proportion, dtype: float64

La distribuzione dei dati mancanti tra i diversi dispositivi (iPhone, Android, ecc.) è la stessa della distribuzione totale degli utenti.

Non c'è motivo di credere che i dati manchino per una causa specifica, ad esempio legata al tipo di dispositivo o al comportamento dell'utente. La mancanza dei dati sembra essere puramente casuale.

Esamino i conteggi e le percentuali degli utenti che hanno abbandonato il sito rispetto a quelli che sono rimasti. Quanti di ciascun gruppo sono rappresentati nei dati?

In [12]:
# Conteggio di churned vs. retained
print(df['label'].value_counts())
print()
print(df['label'].value_counts(normalize=True))

label
retained    11763
churned      2536
Name: count, dtype: int64

label
retained    0.822645
churned     0.177355
Name: proportion, dtype: float64


Questo set di dati contiene l'82% di utenti fidelizzati e il 18% di utenti che hanno abbandonato.

Successivamente, confronterò le mediane di ciascuna variabile per gli utenti che hanno abbandonato e quelli fidelizzati. 

Il motivo per cui utilizzerò la mediana e non la media è che non desidero che valori anomali influenzino eccessivamente la rappresentazione di un utente tipico.

> Ho notato, ad esempio, che il valore massimo nella colonna `driven_km_drives` è 21.183 km. Più della metà della circonferenza terrestre!

In [13]:
# Calcolo i valori mediani di tutte le colonne per gli utenti abbandonati e quelli mantenuti
df.groupby('label').median(numeric_only=True)

Unnamed: 0_level_0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
churned,7477.5,59.0,50.0,164.339042,1321.0,84.5,11.0,3652.655666,1607.183785,8.0,6.0
retained,7509.0,56.0,47.0,157.586756,1843.0,68.0,9.0,3464.684614,1458.046141,17.0,14.0


Questo offre una panoramica interessante dei due gruppi, gli utenti che hanno abbandonato (churned) e quelli che sono rimasti (retained):

- Gli utenti che hanno abbandonato hanno fatto in media circa 3 viaggi in più nell'ultimo mese rispetto a quelli rimasti, ma questi ultimi hanno usato l'app per più del doppio dei giorni nello stesso periodo.

- L'utente "mediano" che ha abbandonato ha guidato circa 200 chilometri in più e 2,5 ore in più nell'ultimo mese rispetto all'utente "mediano" che è rimasto.

- Sembra che gli utenti che hanno abbandonato abbiano fatto più viaggi in meno giorni, e che i loro percorsi siano stati più lunghi sia in termini di distanza che di durata. Forse questo suggerisce un profilo utente specifico. 


Calcolo i chilometri medi per percorso nell'ultimo mese, sia per gli utenti retained che churned.

Inizio dividendo la colonna `driven_km_drives` per la colonna `drives`. Poi, raggruppo i risultati per utenti churned/retained e calcolo i chilometri medi per percorso di ciascun gruppo.

In [None]:
# Aggiungo una colonna chiamata km per drive
df['km_per_drive'] = df['driven_km_drives'] / df['drives']

# Raggruppo per label, calcolo la mediana e isolo per km per dirve
median_km_per_drive = df.groupby('label').median(numeric_only=True)[['km_per_drive']]
median_km_per_drive

Unnamed: 0_level_0,km_per_drive
label,Unnamed: 1_level_1
churned,74.109416
retained,75.014702


L'utente mediano retained ha percorso circa un chilometro in più a guida rispetto all'utente churned. 

Ora voglio comprendere quanti km sono stati percorsi per giornata di guida.

In [15]:
# Aggiungo una colonna chiamata km per driving day
df['km_per_driving_day'] = df['driven_km_drives'] / df['driving_days']
# Raggruppo per label, calcolo la mediana e isolo per km per driving day
median_km_per_driving_day = df.groupby('label').median(numeric_only=True)[['km_per_driving_day']]
median_km_per_driving_day

Unnamed: 0_level_0,km_per_driving_day
label,Unnamed: 1_level_1
churned,697.541999
retained,289.549333


Ora calcolo il numero mediano di viaggi per giorno di guida per ciascun gruppo.

In [16]:
# Add a column to df called `drives_per_driving_day`
# Aggiungo una colonna chiamata drives per driving day
df['drives_per_driving_day'] = df['drives'] / df['driving_days']

# Group by `label`, calculate the median, and isolate for drives per driving day
# Ragguppo per label, calcolo la mediana e isolo per drives per driving day
median_drives_per_driving_day = df.groupby('label').median(numeric_only=True)[['drives_per_driving_day']]
median_drives_per_driving_day

Unnamed: 0_level_0,drives_per_driving_day
label,Unnamed: 1_level_1
churned,10.0
retained,4.0625


L'utente mediano che ha abbandonato il servizio ha guidato 698 chilometri ogni giorno in cui si è messo in viaggio il mese scorso, una distanza che è circa il 240% di quella percorsa per giorno di guida dagli utenti rimasti. L'utente mediano churned ha avuto un numero di viaggi per giorno di guida analogamente sproporzionato rispetto a quelli rimasti.

È chiaro da queste cifre che, indipendentemente dal fatto che un utente abbia abbandonato o meno, gli utenti rappresentati in questi dati sono guidatori molto attivi. È probabilmente lecito supporre che questi dati non rappresentino i tipici guidatori in generale. Forse il set di dati, e in particolare il campione di utenti che hanno abbandonato, contiene un'alta percentuale di camionisti a lunga percorrenza.

Considerando quanto questi utenti guidano, sarebbe utile raccomandare a Waze di raccogliere più dati su questi "super-guidatori". È possibile che la ragione per cui guidano così tanto sia anche la ragione per cui l'app di Waze non soddisfa il loro specifico insieme di bisogni, che potrebbero differire da quelli di un guidatore più tipico, come un pendolare.

---

Infine, verifico se c'è uno squilibrio nel numero di utenti che hanno abbandonato il servizio in base al tipo di dispositivo.

In [17]:
# Per ogni label, calcolo il numero di utenti Android e di utenti iPhone
df.groupby(['label', 'device']).size()

label     device 
churned   Android     891
          iPhone     1645
retained  Android    4183
          iPhone     7580
dtype: int64

Ora, all'interno di ciascun gruppo calcolo quale percentuale era Android e quale percentuale era iPhone.

In [19]:
# Per ogni etichetta, calcola la percentuale di utenti Android e utenti iPhone
df.groupby('label')['device'].value_counts(normalize=True)

label     device 
churned   iPhone     0.648659
          Android    0.351341
retained  iPhone     0.644393
          Android    0.355607
Name: proportion, dtype: float64

Il rapporto tra utenti iPhone e utenti Android è coerente tra il gruppo abbandonato e quello mantenuto, e entrambi i rapporti sono coerenti con il rapporto riscontrato nel set di dati complessivo.


### **Conclusione**

- Il set di dati presenta **700 valori mancanti** nella colonna `label`. Non è stato riscontrato uno schema evidente per i dati mancanti.

---

- L'utente mediano che ha abbandonato il servizio ha guidato per circa 698 chilometri ogni giorno in cui ha usato l'app il mese scorso, una distanza circa il **240% superiore** a quella degli utenti rimasti. Sarebbe utile sapere come sono stati raccolti questi dati e se rappresentano un campione non casuale di utenti.

---

- Gli utenti Android costituivano circa il **36%** del campione, mentre gli utenti iPhone rappresentavano circa il **64%**.

---

- In generale, gli utenti che hanno abbandonato hanno guidato per distanze maggiori e più a lungo, in un numero minore di giorni rispetto agli utenti rimasti. Hanno anche usato l'app circa la metà delle volte rispetto agli utenti rimasti nello stesso periodo.

---

- Il tasso di abbandono sia per gli utenti iPhone che per quelli Android era entro un punto percentuale l'uno dall'altro. Non c'è nulla che suggerisca una correlazione tra l'abbandono e il tipo di dispositivo.