# Pandas for Data Analysis: Analyzing Data

## Outline:

* [Knowing Basic Stats](#Knowing-Basic-Stats)
* [Grouping](#Grouping)
* [Creating Pivot Table](#Creating-Pivot-Table)
* [Analyzing Public Datasets](#Analyzing-Public-Datasets)


## Knowing Basic Stats

In [None]:
import pandas as pd

In [None]:
data = {
    'age': [25, 30, 35],
    'savings': [3000, 3100, 1500]
}
df = pd.DataFrame(data=data)

In [None]:
df.describe()

In [None]:
df.cov()

In [None]:
df.corr()

### Challenges

จาก Series ของค่าไฟปี 2015 โดยแต่ละเดือนมีค่าไฟตามนี้

* January มียอด 3,000 บาท
* February มียอด 3,512 บาท
* March มียอด 1,900 บาท
* April มียอด 1,988 บาท
* May มียอด 3,012 บาท
* June มียอด 2,912.35 บาท
* July มียอด 3,100 บาท
* August มียอด 2,501.02 บาท
* September มียอด 3,309 บาท
* October มียอด 2,087 บาท
* November มียอด 4,223 บาท
* December มียอด 3,566 บาท

Hint: ให้ใช้เดือนเป็น index และยอดเงินเป็นค่าของแต่ละ index

ลองตอบคำถามต่อไปนี้
1. รวมทั้งปีแล้วต้องจ่ายค่าไฟเท่าไหร่? เฉลี่ยเดือนละเท่าไหร่?
2. เดือนไหนจ่ายค่าไฟเยอะสุด?

In [None]:
data = {
    'January': 3000,
    'February': 3512,
    'March': 1900,
    'April': 1988,
    'May': 3012,
    'June': 2912,
    'July': 3100,
    'August': 2501,
    'September': 3309,
    'October': 2087,
    'November': 4233,
    'December': 3566
}
expenses = pd.Series(data)
expenses

In [None]:
expenses.sum()

In [None]:
expenses.mean()

In [None]:
expenses.idxmax()

จาก DataFrame ข้อมูลเงินเดือนของพนักงาน

คนที่ 1

* ชื่อ William
* อาชีพ Chief Investment Officer
* เงินเดือนทั้งปี 507,831.60 USD

คนที่ 2

* ชื่อ Ellen
* อาชีพ Asst Med Examiner
* เงินเดือนทั้งปี 279,311.10 USD

คนที่ 3

* ชื่อ Barbara
* อาชีพ Dept Head
* รายได้ทั้งปี 307,580.34 USD

ลองตอบคำถามต่อไปนี้
1. ใครได้รายได้ต่อปีเยอะที่สุด?
2. ใครได้รายได้ต่อปีต่ำกว่า 300,000 USD บ้าง?

In [None]:
data = {
    'name': ['William', 'Ellen', 'Barbara'],
    'occupation': ['Chief Investment Officer', 'Asst Med Examiner', 'Dept Head'],
    'income': [507831.60, 279311.10, 307580.34]
}
income = pd.DataFrame(data=data)
income

In [None]:
income.loc[income.income.idxmax()]

In [None]:
income[income.income > 300000]

---

## Grouping

In [None]:
import pandas as pd

In [None]:
adult_data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv(adult_data_url, names=columns)

In [None]:
adult.head()

In [None]:
adult.groupby('education').agg('mean').tail()

ถ้าการทำ Chaining แบบด้านบน ดูแล้วอ่านลำบาก เราสามารถแยกคำสั่งเก็บใส่ตัวแปรแบบด้านล่างนี้ได้ มีค่าเท่ากัน

In [None]:
adult_group = adult.groupby('education')
adult_group.mean().tail()

In [None]:
adult.groupby(['education', 'sex']).mean().head()

In [None]:
adult.groupby(['education', 'sex']).mean().head(30)

In [None]:
adult.columns = adult.columns.str.lower().str.replace(' ', '-')
adult[['capital-gain', 'capital-loss', 'money-per-year']].groupby('money-per-year').mean()

### Challenges

ลองจัดกลุ่มตาม race แล้วดูค่าเฉลี่ยของอายุ

In [None]:
adult.groupby('race').age.mean()

ลองจัดกลุ่มตาม education, occupation, race และ sex แล้วลองดูว่าเค้าทำงานเฉลี่ยแล้วกี่ ชม. ต่อสัปดาห์

In [None]:
adult.groupby(['education', 'occupation', 'race', 'sex'])['hours-per-week'].mean()

---

## Creating Pivot Table

<img src="images/pandas_pivot.png" width="700" />

Credit: http://jalammar.github.io/visualizing-pandas-pivoting-and-reshaping/

In [None]:
import pandas as pd

In [None]:
data = {
    'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
    'baz': [1, 2, 3, 4, 5, 6],
    'zoo': ['x', 'y', 'z', 'q', 'w', 't']
}
df = pd.DataFrame(data=data)

In [None]:
df.head()

In [None]:
df.pivot(index='foo', columns='bar', values='baz')

ลองเล่นข้อมูล Sales Funnel จาก [Practical Business Python](https://pbpython.com/)

In [None]:
df = pd.read_excel('data/sales-funnel.xlsx')

In [None]:
df.head()

In [None]:
pd.pivot_table(df, index=['Name', 'Product'])

ถ้าเราต้องการคำนวนค่าเพิ่มเติม เราสามารถเอาฟังก์ชั่นของ Numpy มาใช้ร่วมได้

In [None]:
import numpy as np

In [None]:
pd.pivot_table(df, index=['Product'], values=['Price'], aggfunc=[np.sum, np.mean])

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'])

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'], fill_value=0)

In [None]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'], fill_value=0, margins=True)

In [None]:
pd.pivot_table(df,
               index=['Manager', 'Status'], 
               columns=['Product'],
               values=['Quantity', 'Price'],
               aggfunc={'Quantity': len, 'Price': [np.sum, np.mean]},
               fill_value=0)

### Challenges

ลองทำตาราง Pivot โดยมี index คือ Product มี columns คือ Status และมี values เป็น Quantity

In [None]:
pd.pivot_table(df, index=['Product'], columns=['Status'], values=['Quantity'], fill_value=0)

---

## Analyzing Public Datasets

### Dataset 1: Adult

จากข้อมูล [Adult](https://archive.ics.uci.edu/ml/datasets/adult) ลองตอบคำถามต่อไปนี้

In [None]:
adult_data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv(adult_data_url, names=columns)

ในข้อมูลชุดนี้กลุ่มอายุที่มีจำนวนน้อยที่สุดคือกลุ่มอายุเท่าไหร่?

In [None]:
adult.age.value_counts(ascending=True)[0:5]

กลุ่มอายุที่มีจำนวนคนมากที่สุดคือกลุ่มอายุเท่าไหร่ และมีกี่คน?

In [None]:
adult.age.value_counts()

จากกลุ่มอายุที่ได้มาข้างต้น มีเพศชายกี่คน และเพศหญิงกี่คน?

In [None]:
adult[adult.age == adult.age.value_counts().index[0]]['sex'].value_counts()

### Dataset 2: Amazon Review

เลือกข้อมูล Amazon review ที่เป็น 5-core จาก http://jmcauley.ucsd.edu/data/amazon/ ของ Julian McAuley

```
reviewerID - ID of the reviewer, e.g. A2SUAM1J3GNN3B
asin - ID of the product, e.g. 0000013714
reviewerName - name of the reviewer
helpful - helpfulness rating of the review, e.g. 2/3
reviewText - text of the review
overall - rating of the product
summary - summary of the review
unixReviewTime - time of the review (unix time)
reviewTime - time of the review (raw)
```

**หมายเหตุ:** ข้อมูลนี้ใช้ทางด้านการวิจัยเท่านั้น :)

โหลดข้อมูลมาเข้า DataFrame

In [None]:
import pandas as pd

import gzip
music_review_lines = gzip.open('data/reviews_Digital_Music_5.json.gz', 'rt').readlines()

import json
df = pd.DataFrame(list(map(json.loads, music_review_lines)))

In [None]:
df.head()

เก็บข้อมูล quarter ของแต่ละ review ในคอลัมภ์ใหม่ชื่อ quarter

In [None]:
df['unixReviewTime'] = pd.to_datetime(df['unixReviewTime'], unit='s')
df['quarter'] = df.unixReviewTime.dt.quarter
df.head()

เลือกข้อมูลที่มี overall rating 5 เฉพาะวันจันทร์ และมีคำว่า love ใน review

In [None]:
df[(df.overall == 5) & (df.unixReviewTime.dt.dayofweek == 0) & (df.summary.str.contains('love'))]

หาสินค้าที่มีคนรีวีวในวันที่มีคนรีวีวมากที่สุด

In [None]:
days = df.unixReviewTime.value_counts()
df[df.unixReviewTime == days.index[0]]

หารีวีวของสินค้า 3 อันดับแรกที่มีคนรีวีวมากที่สุด

In [None]:
products = df.asin.value_counts()[0:3].index
df[df.asin.isin(products)]

หาค่า rating เฉลี่ยของแต่ละสินค้า

In [None]:
df.groupby('asin').overall.mean().sort_values(ascending=False)

หาค่า rating ของผู้ใช้แต่ละคน

In [None]:
df.groupby('reviewerID').overall.mean().sort_values(ascending=False)

หาค่า rating เฉลี่ยของแต่ละวันใน 1 อาทิตย์

In [None]:
df.groupby(df.unixReviewTime.dt.dayofweek).overall.mean()

หาค่า standard deviation ของ rating ของแต่ละสินค้า

In [None]:
df.groupby('asin').overall.std().sort_values(ascending=False)

### Dataset 3: Stanford Open Policing

Download "Connecticut" from https://openpolicing.stanford.edu/data/

In [None]:
df = pd.read_csv('data/CT-clean.csv')

In [None]:
df.head()

ผู้หญิงหรือผู้ชาย ใครขับเร็วกว่ากัน?

In [None]:
df[df.violation == 'Speeding'].driver_gender.value_counts()

ผู้ชายทำผิดอะไรบ้าง แล้วอะไรเยอะที่สุด?

In [None]:
df[df.driver_gender == 'M'].violation.value_counts()[0:5]

ผู้หญิงทำผิดอะไรบ้าง แล้วอะไรเยอะที่สุด?

In [None]:
df[df.driver_gender == 'F'].violation.value_counts()[0:5]

เพศไหนโดนเรียกให้หยุดค้นเยอะที่สุด?

In [None]:
df.groupby('driver_gender').search_conducted.mean()

ทำไม `search_type` มี missing data เยอะสุด?

In [None]:
df.search_conducted.value_counts()

`search_type` จะหายไปแน่ๆ ถ้า `search_conducted` เป็น False

In [None]:
df[df.search_conducted == False].search_type.value_counts()

ปีไหนมีจำนวน stop น้อยที่สุด?

In [None]:
combined = df.stop_date.str.cat(df.stop_time, sep=' ')

In [None]:
df.stop_date = pd.to_datetime(combined)

In [None]:
df.head()

In [None]:
df.stop_date.dtype

In [None]:
df.stop_date.dt.year.value_counts(ascending=True)

แต่ละช่วงของวันมีคนโดนเรียกให้หยุดค้นเป็นจำนวนเท่าไหร่บ้าง?

In [None]:
df.groupby(df.stop_date.dt.hour).search_conducted.mean()