# Data Analysis with Pandas (2nd Part)

**Outline:**

* [Knowing Basic Stats](#Knowing-Basic-Stats)
* [Grouping](#Grouping)
* [Creating Pivot Table](#Creating-Pivot-Table)


In [1]:
import pandas as pd

## Knowing Basic Stats

In [None]:
data = {
    'age': [25, 30, 35],
    'savings': [3000, 3100, 1500]
}
df = pd.DataFrame(data=data)

In [None]:
df.describe()

In [None]:
df.cov()

In [None]:
df.corr()

### Challenges

จาก Series ของค่าไฟปี 2015 โดยแต่ละเดือนมีค่าไฟตามนี้

* January มียอด 3,000 บาท
* February มียอด 3,512 บาท
* March มียอด 1,900 บาท
* April มียอด 1,988 บาท
* May มียอด 3,012 บาท
* June มียอด 2,912.35 บาท
* July มียอด 3,100 บาท
* August มียอด 2,501.02 บาท
* September มียอด 3,309 บาท
* October มียอด 2,087 บาท
* November มียอด 4,223 บาท
* December มียอด 3,566 บาท

Hint: ให้ใช้เดือนเป็น index และยอดเงินเป็นค่าของแต่ละ index

ลองตอบคำถามต่อไปนี้
1. รวมทั้งปีแล้วต้องจ่ายค่าไฟเท่าไหร่? เฉลี่ยเดือนละเท่าไหร่?
2. เดือนไหนจ่ายค่าไฟเยอะสุด?

จาก DataFrame ข้อมูลเงินเดือนของพนักงาน

คนที่ 1

* ชื่อ William
* อาชีพ Chief Investment Officer
* เงินเดือนทั้งปี 507,831.60 USD

คนที่ 2

* ชื่อ Ellen
* อาชีพ Asst Med Examiner
* เงินเดือนทั้งปี 279,311.10 USD

คนที่ 3

* ชื่อ Barbara
* อาชีพ Dept Head
* รายได้ทั้งปี 307,580.34 USD

ลองตอบคำถามต่อไปนี้
1. ใครได้รายได้ต่อปีเยอะที่สุด?
2. ใครได้รายได้ต่อปีต่ำกว่า 300,000 USD บ้าง?

---

## Grouping

In [None]:
adult_data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv(adult_data_url, names=columns)

In [None]:
adult.groupby('education').agg('mean').tail()

In [None]:
# Same result as above

adult_group = adult.groupby('education')
adult_group.mean().tail()

In [None]:
adult.groupby(['education', 'sex']).mean().head()

In [None]:
adult.groupby(['education', 'sex']).mean().head(30)

In [None]:
adult.columns = adult.columns.str.lower().str.replace(' ', '-')
adult[['capital-gain', 'capital-loss', 'money-per-year']].groupby('money-per-year').mean()

---

## Creating Pivot Table

ลองเล่นข้อมูล Sales Funnel จาก [Practical Business Python](https://pbpython.com/)

In [None]:
df = pd.read_excel('data/sales-funnel.xlsx')

In [None]:
df.head()

In [None]:
pd.pivot_table(df, index=['Name'])

In [None]:
pd.pivot_table(df, index=['Name', 'Product'])

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], values=['Quantity'])

In [None]:
import numpy as np

In [None]:
pd.pivot_table(df, index=['Product'], values=['Price'], aggfunc=[np.sum, np.mean])

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'])

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'], fill_value=0)

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'], fill_value=0, margins=True)

In [None]:
pd.pivot_table(df,index=['Manager', 'Status'], 
               columns=['Product'],
               values=['Quantity', 'Price'],
               aggfunc={'Quantity': len, 'Price': [np.sum, np.mean]},
               fill_value=0)

---

## Challenges

### Dataset 1: Adult

จากข้อมูล [Adult](https://archive.ics.uci.edu/ml/datasets/adult) ลองตอบคำถามต่อไปนี้

In [None]:
adult_data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv(adult_data_url, names=columns)

ในข้อมูลชุดนี้กลุ่มอายุที่มีจำนวนน้อยที่สุดคือกลุ่มอายุเท่าไหร่?

In [None]:
adult.age.value_counts(ascending=True)[0:5]

กลุ่มอายุที่มีจำนวนคนมากที่สุดคือกลุ่มอายุเท่าไหร่ และมีกี่คน?

In [None]:
adult.age.value_counts()

จากกลุ่มอายุที่ได้มาข้างต้น มีเพศชายกี่คน และเพศหญิงกี่คน?

In [None]:
adult[adult.age == adult.age.value_counts().index[0]]['sex'].value_counts()

### Dataset 2: Amazon Review

เลือกข้อมูล Amazon review ที่เป็น 5-core จาก http://jmcauley.ucsd.edu/data/amazon/ ของ Julian McAuley

```
reviewerID - ID of the reviewer, e.g. A2SUAM1J3GNN3B
asin - ID of the product, e.g. 0000013714
reviewerName - name of the reviewer
helpful - helpfulness rating of the review, e.g. 2/3
reviewText - text of the review
overall - rating of the product
summary - summary of the review
unixReviewTime - time of the review (unix time)
reviewTime - time of the review (raw)
```

**หมายเหตุ:** ข้อมูลนี้ใช้ทางด้านการวิจัยเท่านั้น :)

เก็บข้อมูล quarter ของแต่ละ review ในคอลัมภ์ใหม่ชื่อ quarter

เลือกข้อมูลที่มี overall rating 5 เฉพาะวันจันทร์ และมีคำว่า love ใน review

หาสินค้าที่มีคนรีวีวในวันที่มีคนรีวีวมากที่สุด

หารีวีวของสินค้า 3 อันดับแรกที่มีคนรีวีวมากที่สุด

หาค่า rating เฉลี่ยของแต่ละสินค้า

หาค่า rating ของผู้ใช้แต่ละคน

หาค่า rating เฉลี่ยของแต่ละวันใน 1 อาทิตย์

หาค่า standard deviation ของ rating ของแต่ละสินค้า

กราฟแสดงจำนวนคนที่มารีวีว

กราฟเปรียบเทียบค่า rating เฉลี่ยในแต่ละวันของอาทิตย์ระหว่างปี 2013 และ 2014

กราฟเปรียบเทียบจำนวนรีวีวต่อวันของเดือนระหว่างปี 2012, 2013 และ 2014

### Dataset 3: Stanford Open Policing

Download "Connecticut" from https://openpolicing.stanford.edu/data/

In [5]:
df = pd.read_csv('data/CT-clean.csv')

  interactivity=interactivity, compiler=compiler, result=result)


In [7]:
df.head()

Unnamed: 0,id,state,stop_date,stop_time,location_raw,county_name,county_fips,fine_grained_location,police_department,driver_gender,...,violation_raw,violation,search_conducted,search_type_raw,search_type,contraband_found,stop_outcome,is_arrested,officer_id,stop_duration
0,CT-2013-00001,CT,2013-10-01,00:01,westport,Fairfield County,9001.0,"00000 N I 95 (WESTPORT, T158) X 18 LL",State Police,F,...,Speed Related,Speeding,False,,,False,Ticket,False,1000002754,1-15 min
1,CT-2013-00002,CT,2013-10-01,00:02,mansfield,Tolland County,9013.0,rte 195 storrs,State Police,M,...,Moving Violation,Moving violation,False,,,False,Verbal Warning,False,1000001903,1-15 min
2,CT-2013-00003,CT,2013-10-01,00:07,franklin,New London County,9011.0,Rt 32/whippoorwill,State Police,M,...,Speed Related,Speeding,False,,,False,Ticket,False,1000002711,1-15 min
3,CT-2013-00004,CT,2013-10-01,00:10,danbury,Fairfield County,9001.0,I-84,State Police,M,...,Speed Related,Speeding,False,,,False,Written Warning,False,113658284,1-15 min
4,CT-2013-00005,CT,2013-10-01,00:10,east hartford,Hartford County,9003.0,"00000 W I 84 (EAST HARTFORD, T043)E.OF XT.56",State Police,M,...,Speed Related,Speeding,False,,,False,Ticket,False,830814942,1-15 min


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 318669 entries, 0 to 318668
Data columns (total 24 columns):
id                       318669 non-null object
state                    318669 non-null object
stop_date                318669 non-null object
stop_time                318447 non-null object
location_raw             318628 non-null object
county_name              318627 non-null object
county_fips              318627 non-null float64
fine_grained_location    317006 non-null object
police_department        318669 non-null object
driver_gender            318669 non-null object
driver_age_raw           318669 non-null int64
driver_age               318395 non-null float64
driver_race_raw          318669 non-null object
driver_race              318669 non-null object
violation_raw            318669 non-null object
violation                318669 non-null object
search_conducted         318669 non-null bool
search_type_raw          4846 non-null object
search_type              484

ผู้หญิงหรือผู้ชาย ใครขับเร็วกว่ากัน?

ผู้ชายทำผิดอะไรบ้าง แล้วอะไรเยอะที่สุด?

ผู้หญิงทำผิดอะไรบ้าง แล้วอะไรเยอะที่สุด?

เพศไหนโดนเรียกให้หยุดค้นเยอะที่สุด?

ทำไม `search_type` มี missing data เยอะสุด?

In [10]:
df.search_conducted.value_counts()

False    313337
True       5332
Name: search_conducted, dtype: int64

`search_type` จะหายไปแน่ๆ ถ้า `search_conducted` เป็น False

In [12]:
df[df.search_conducted == False].search_type.value_counts()

Series([], Name: search_type, dtype: int64)

ปีไหนมีจำนวน stop น้อยที่สุด?

แต่ละช่วงของวันมีคนโดนจับเป็นจำนวนเท่าไหร่บ้าง?