# Statistische Analyse des Waze Datensatzes

## 1: Importieren der Bibliotheken

In [8]:
import pandas as pd
from scipy import stats

## 2: Laden des Datensatzes und Übersicht über die Daten

In [9]:
df = pd.read_csv('waze_dataset.csv')

In [10]:
df.head()

Unnamed: 0,ID,label,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days,device
0,0,retained,283,226,296.748273,2276,208,0,2628.845068,1985.775061,28,19,Android
1,1,retained,133,107,326.896596,1225,19,64,13715.92055,3160.472914,13,11,iPhone
2,2,retained,114,95,135.522926,2651,0,0,3059.148818,1610.735904,14,8,Android
3,3,retained,49,40,67.589221,15,322,7,913.591123,587.196542,7,3,iPhone
4,4,retained,84,68,168.24702,1562,166,5,3950.202008,1219.555924,27,18,Android


In [11]:
# 1. Codieren von Android und iPhone `map_dictionary`
map_dictionary = {'Android': 2, 'iPhone': 1}

# 2. Neues Column `device_type`
df['device_type'] = df['device']

# 3. Codierung dem neuen Column zuordnen 
df['device_type'] = df['device_type'].map(map_dictionary)

df['device_type'].head()

0    2
1    1
2    2
3    1
4    2
Name: device_type, dtype: int64

Betrachtung des Zusammenhangs zwischen Device und Fahrten

In [12]:
df.groupby('device_type')['drives'].mean()

device_type
1    67.859078
2    66.231838
Name: drives, dtype: float64

## 3: Hypothesentest

$H_0$: Nullhypothese

$H_A$: Alternativhypothese

$H_0$: Es gibt keinen Unterschied in der durchschnittlichen Anzahl von Fahrten zwischen Fahrern, die iPhone-Geräte verwenden, und Fahrern, die Android-Geräte verwenden.

$H_A$: Es gibt einen Unterschied in der durchschnittlichen Anzahl von Fahrten zwischen Fahrern, die iPhone-Geräte verwenden, und Fahrern, die Android-Geräte verwenden.

**$Signifikanzniveau$**: 5% // 2 - Sample t-Test

In [13]:
# 1. Isolieren des `drives` Columns nach iPhone Nurtzern.
iPhone = df[df['device_type'] == 1]['drives']

# 2. Isolieren des `drives` Columns nach Android Nutzern.
Android = df[df['device_type'] == 2]['drives']

# 3. t-test
stats.ttest_ind(a=iPhone, b=Android, equal_var=False)

TtestResult(statistic=1.463523206885235, pvalue=0.143351972680206, df=11345.066049381952)

Da der p-Wert größer als das gewählte Signifikanzniveau (5 %) ist, kann die Nullhypothese nicht zurückweisen werden. 

Es gibt keinen statistisch signifikanten Unterschied in der durchschnittlichen Anzahl der Fahrten zwischen Fahrern, die iPhones nutzen, und Fahrern, die Android-Geräte nutzen.