# Automatidata project 

İstatistiksel analiz¶ Bu aktivitede, verileri analiz etmek ve yorumlamak için istatistik kullanma pratiği yapacaksınız. Aktivite, tanımlayıcı istatistikler ve hipotez testi gibi temel kavramları kapsar. Sağlanan verileri inceleyecek ve A/B ve hipotez testi yapılacak.

Bu projenin amacı, A/B testlerinin nasıl hazırlanacağı, oluşturulacağı ve analiz edileceğine dair bilgi göstermektir. A/B testi sonuçlarınız, taksi şoförleri için daha fazla gelir elde etmenin yollarını bulmayı hedeflemelidir.

Not: Bu alıştırmanın amacı için, örnek verilerin müşterilerin rastgele seçildiği ve iki gruba ayrıldığı bir deneyden geldiğini varsayın: 1) kredi kartıyla ödeme yapması gereken müşteriler, 2) nakit ödeme yapması gereken müşteriler. Bu varsayım olmadan, ödeme yönteminin ücret tutarını nasıl etkilediğine dair nedensel sonuçlar çıkaramayız.

<img src="images/Pace.png" width="100" height="100" align=left>

# **PACE aşamaları**


<img src="images/Plan.png" width="100" height="100" align=left>


## PACE: **Plan**
Amaç, Python'da tanımlayıcı istatistik ve hipotez testi uygulamaktır. Bu A/B testinin amacı, verileri örneklemek ve ödeme türü ile ücret tutarı arasında bir ilişki olup olmadığını analiz etmektir. Örneğin: kredi kartı kullanan müşterilerin nakit kullanan müşterilerden daha yüksek ücret tutarları ödeyip ödemediğini keşfedin.

Bu etkinliğin üç bölümü vardır:

Bölüm 1: veri yükleme

Bölüm 2: EDA ve hipotez testi yürütme

Bölüm 3: Paydaşlarla içgörüleri iletin


### Veri Yükleme

In [1]:
import pandas as pd
from scipy import stats

In [2]:
taxi_data = pd.read_csv("2017_Yellow_Taxi_Trip_Data.csv", index_col = 0)

<img src="images/Analyze.png" width="100" height="100" align=left>

<img src="images/Construct.png" width="100" height="100" align=left>

## PACE: **Analyze and Construct**

Bu aşamada TLC verilerini analiz ederek hipotez testleri uygulayalım, veriye dayalı içgörüler elde edilecek. Ardından, bulguları görsellerle destekleyip anlaşılır bir rapor haline getirip ve stratejik öneriler sunulur.


In [3]:
# descriptive stats code for EDA
taxi_data.describe(include='all')

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount
count,22699.0,22699,22699,22699.0,22699.0,22699.0,22699,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0
unique,,22687,22688,,,,2,,,,,,,,,,
top,,07/03/2017 3:45:19 PM,10/18/2017 8:07:45 PM,,,,N,,,,,,,,,,
freq,,2,2,,,,22600,,,,,,,,,,
mean,1.556236,,,1.642319,2.913313,1.043394,,162.412353,161.527997,1.336887,13.026629,0.333275,0.497445,1.835781,0.312542,0.299551,16.310502
std,0.496838,,,1.285231,3.653171,0.708391,,66.633373,70.139691,0.496211,13.243791,0.463097,0.039465,2.800626,1.399212,0.015673,16.097295
min,1.0,,,0.0,0.0,1.0,,1.0,1.0,1.0,-120.0,-1.0,-0.5,0.0,0.0,-0.3,-120.3
25%,1.0,,,1.0,0.99,1.0,,114.0,112.0,1.0,6.5,0.0,0.5,0.0,0.0,0.3,8.75
50%,2.0,,,1.0,1.61,1.0,,162.0,162.0,1.0,9.5,0.0,0.5,1.35,0.0,0.3,11.8
75%,2.0,,,2.0,3.06,1.0,,233.0,233.0,2.0,14.5,0.5,0.5,2.45,0.0,0.3,17.8


Ödeme türü ile müşterinin ödediği ücret tutarı arasındaki ilişkiyle ilgileniyoruz. Bir yaklaşım, her ödeme türü için ortalama ücret tutarına bakmaktır.

In [4]:
taxi_data.groupby('payment_type')['fare_amount'].mean()

payment_type
1    13.429748
2    12.213546
3    12.186116
4     9.913043
Name: fare_amount, dtype: float64

Gösterilen ortalamalara göre, kredi kartıyla ödeme yapan müşterilerin nakit ödeme yapan müşterilere göre daha fazla ücret ödeme eğiliminde olduğu görülmektedir. Ancak, bu fark gerçek bir ücret miktarı farkı olmaktan ziyade rastgele örneklemeden kaynaklanıyor olabilir. Farkın istatistiksel olarak anlamlı olup olmadığını değerlendirmek için bir hipotez testi yürütürsünüz.


### Task 2. Hypothesis testing


##### Sıfır hipotezi:
Kredi kartı kullanan müşteriler ile nakit kullanan müşteriler arasında ortalama ücrette fark yoktur. 
##### Alternatif hipotez: 
Kredi kartı kullanan müşteriler ile nakit kullanan müşteriler arasında ortalama ücrette fark vardır

Bir hipotez testi yürütme adımlarını hatırlayalım:


1.   Sıfır hipotezini ve alternatif hipotezi belirtin
2.   Bir önem düzeyi seçin
3.   p-değerini bulun
4.   Sıfır hipotezini reddedin veya reddetmede başarısız olun 



Not: Bu alıştırmanın amacı doğrultusunda, hipotez testiniz A/B testinizin ana bileşenidir.


Anlamlılık düzeyi olarak %5'i seçip iki örneklemli t-testi uygulayabiliriz.

In [5]:
#hipotez test, A/B test

credit_card = taxi_data[taxi_data['payment_type'] == 1]['fare_amount']
cash = taxi_data[taxi_data['payment_type'] == 2]['fare_amount']
stats.ttest_ind(a=credit_card, b=cash, equal_var=False)

Ttest_indResult(statistic=6.866800855655372, pvalue=6.797387473030518e-12)

p-değeri %5'lik önem seviyesinden önemli ölçüde daha küçük olduğundan, sıfır hipotezini reddediyoruz. 

p-değeri sonucunun sonundaki 'e-12'ye dikkat edin.

Kredi kartı kullanan müşteriler ile nakit kullanan müşteriler arasındaki ortalama ücret tutarında istatistiksel olarak anlamlı bir fark olduğu sonucuna varıyorsunuz.

<img src="images/Execute.png" width="100" height="100" align=left>

## PACE: **Execute**


### Görev 3. Paydaşlarla içgörüleri iletin

1.       Temel iş anlayışı, müşterileri kredi kartıyla ödeme yapmaya teşvik etmenin taksi şoförleri için daha fazla gelir yaratabileceğidir.

2.       Bu proje, yolcuların bir şekilde ödeme yapmaya zorlandığı ve bu gereklilik hakkında bilgilendirildikten sonra her zaman buna uydukları varsayımını gerektirir. Veriler bu şekilde toplanmamıştır; bu nedenle, bir A/B testi gerçekleştirmek için veri girişlerini rastgele gruplandırmak için bir varsayımda bulunulması gerekiyordu. Bu veri seti, diğer olası açıklamaları hesaba katmaz. Örneğin, yolcular çok fazla nakit taşımayabilir, bu nedenle daha uzun/daha uzak yolculuklar için kredi kartıyla ödeme yapmak daha kolaydır. Başka bir deyişle, ücret tutarının ödeme türünü belirlemesi, tam tersi durumdan çok daha olasıdır.

**Congratulations!** You've completed this lab. However, you may not notice a green check mark next to this item on Coursera's platform. Please continue your progress regardless of the check mark. Just click on the "save" icon at the top of this notebook to ensure your work has been logged.