# **Progetto Waze III**

Nella analisi precedenti ho utilizzato Python per esplorare e analizzare i dati degli utenti di Waze e per creare visualizzazioni dei dati. 

Il passo successivo sarà utilizzare metodi statistici per analizzare e interpretare i dati.

In particolare, desidero sapere se esiste una differenza statisticamente significativa nel numero medio di corse tra gli utenti iPhone e gli utenti Android.

Per far questo devo condurre un test di ipotesi a due campioni (t-test) per analizzare la differenza nel numero medio di corse tra gli utenti iPhone e gli utenti Android.

# **Esplorazione dei dati e test d'ipotesi**

**Lo scopo** di questo progetto è dimostrare di saper condurre un test di ipotesi a due campioni.

**L'obiettivo** è applicare la statistica descrittiva e il test di ipotesi in Python.


*Questa attività si compone di tre parti:*

**Parte 1:** Importazione e caricamento dei dati

**Parte 2:** Condurre il test di ipotesi

**Parte 3:** Comunicare le informazioni con gli stakeholder



#### **Domanda di ricerca:**

Gli automobilisti che aprono l'applicazione tramite iPhone effettuano in media lo stesso numero di viaggi degli automobilisti che utilizzano dispositivi Android?

### **Task 1. Importazione pacchetti e dati**

Importazione pacchetti e librerie necessari per calcolare statistiche descrittive ed eseguire un test di ipotesi.

In [2]:
import pandas as pd
from scipy import stats

Importazione dataset.


In [4]:
df = pd.read_csv('waze_dataset.csv')

### **Esplorazione dei dati**


**Nota:** Nel set di dati, `device` è una variabile categoriale con le etichette `iPhone` e `Android`.

Per eseguire questa analisi, è necessario trasformare ciascuna etichetta in un numero intero. Il codice seguente assegna `1` a un utente `iPhone` e `2` a `Android`. Assegna nuovamente questa etichetta alla variabile `device_type`.

**Nota:** Creare una nuova variabile è l'ideale per non sovrascrivere i dati originali.



### Procedimento
1. Creo un dizionario chiamato `map_dictionary` che contenga le etichette di classe (`'Android'` e `'iPhone'`) per le chiavi e i valori in cui vogio convertirle (`2` e `1`) come valori.

2. Creo una nuova colonna chiamata `device_type` che sia una copia della colonna `device`.

3. Utilizzo il metodo [`map()`] sulla serie `device_type` che passerà `map_dictionary` come argomento, riassegnando il risultato alla serie `device_type`.
</br></br>


In [7]:
# 1. Creazione `mappa dizionario`
mappa_dizionario = {'Android': 2, 'iPhone': 1}

# 2. Creazione colonna device_type
df['device_type'] = df['device']

# 3. Mappa la nuova colonna al dizionario
df['device_type'] = df['device_type'].map(map_dictionary)

df['device_type'].head()

0    2
1    1
2    2
3    1
4    2
Name: device_type, dtype: int64

Sono interessato alla relazione tra il tipo di dispositivo e il numero di unità. L'approccio consiste nell'osservare il numero medio di unità per ciascun tipo di dispositivo. 


Calcolo queste medie.

In [8]:
df.groupby('device_type')['drives'].mean()

device_type
1    67.859078
2    66.231838
Name: drives, dtype: float64

In base alle medie mostrate, sembra che gli automobilisti che utilizzano un dispositivo iPhone per interagire con l'applicazione effettuino in media un numero maggiore di viaggi. Tuttavia, questa differenza potrebbe derivare da un campionamento casuale, piuttosto che da una reale differenza nel numero di viaggi. Per valutare se la differenza è statisticamente significativa, è possibile condurre un test di ipotesi.


### **Test di ipotesi**

Il mio obiettivo è condurre un t-test a due campioni (indipendenti). 

1. Formulare l'ipotesi nulla e l'ipotesi alternativa
2. Scegliere un livello di significatività
3. Trovare il p-value
4. Rifiutare o non rifiutare l'ipotesi nulla

**Ipotesi:**

$H_0$: Non c'è differenza nel numero medio di viaggi tra gli automobilisti che utilizzano dispositivi iPhone e quelli che utilizzano dispositivi Android.

$H_A$: C'è una differenza nel numero medio di viaggi tra gli automobilisti che utilizzano dispositivi iPhone e quelli che utilizzano dispositivi Android.

Successivamente, scelgo il 5% come **livello di significatività** e procedi con un test t a due campioni, utilizzando la funzione `stats.ttest_ind()`.


> **Nota tecnica**: Il valore predefinito per l'argomento `equal_var` in `stats.ttest_ind()` è `True`, che presuppone che le varianze della popolazione siano uguali. Questa ipotesi di uguale varianza potrebbe non essere valida nella pratica (ovvero, non c'è una ragione valida per supporre che i due gruppi abbiano la stessa varianza); posso allentare questa ipotesi impostando `equal_var` a `False`, e `stats.ttest_ind()` eseguirà il test t per varianze disuguali (noto come t test di Welch).

1. Isolare la colonna "unità" per gli utenti iPhone.
2. Isolare la colonna "unità" per gli utenti Android.
3. Eseguire il t test.

In [10]:
# 1. Isolo la colonna `drives` per gli utenti iPhone.
iPhone = df[df['device_type'] == 1]['drives']

# 2. Isolo la colonna `drives` per gli utenti Android.
Android = df[df['device_type'] == 2]['drives']

# 3. Calcolo il t test
stats.ttest_ind(a=iPhone, b=Android, equal_var=False)

TtestResult(statistic=np.float64(1.463523206885235), pvalue=np.float64(0.143351972680206), df=np.float64(11345.066049381952))

Poiché il valore p è maggiore del livello di significatività scelto (5%), non rifiuto l'ipotesi nulla. 

In questo caso non c'è una differenza statisticamente significativa nel numero medio di viaggi tra i conducenti che utilizzano iPhone e quelli che utilizzano Android.

### **Insight**

> L'insight aziendale chiave è che gli automobilisti che utilizzano dispositivi iPhone effettuano in media un numero di viaggi simile a quello di coloro che utilizzano dispositivi Android.

> *Un potenziale passo successivo è esplorare quali altri fattori influenzano la variazione del numero di viaggi ed eseguire ulteriori test delle ipotesi per saperne di più sul comportamento degli utenti. Inoltre, modifiche temporanee al marketing o all'interfaccia utente dell'app Waze potrebbero fornire ulteriori dati per analizzare il tasso di abbandono.*