# Data Analysis with Pandas (2nd Part)

**Outline:**

* [Knowing Basic Stats](#Knowing-Basic-Stats)
* [Grouping](#Grouping)
* [Creating Pivot Table](#Creating-Pivot-Table)
  * https://pbpython.com/pandas-pivot-table-explained.html


In [7]:
import pandas as pd

## Knowing Basic Stats

In [15]:
data = {
    'age': [25, 30, 35],
    'savings': [3000, 3100, 1500]
}
df = pd.DataFrame(data=data)

In [16]:
df.describe()

Unnamed: 0,age,savings
count,3.0,3.0
mean,30.0,2533.333333
std,5.0,896.288644
min,25.0,1500.0
25%,27.5,2250.0
50%,30.0,3000.0
75%,32.5,3050.0
max,35.0,3100.0


In [17]:
df.cov()

Unnamed: 0,age,savings
age,25.0,-3750.0
savings,-3750.0,803333.333333


In [18]:
df.corr()

Unnamed: 0,age,savings
age,1.0,-0.836784
savings,-0.836784,1.0


### Challenges

จาก Series ของค่าไฟปี 2015 โดยแต่ละเดือนมีค่าไฟตามนี้

* January มียอด 3,000 บาท
* February มียอด 3,512 บาท
* March มียอด 1,900 บาท
* April มียอด 1,988 บาท
* May มียอด 3,012 บาท
* June มียอด 2,912.35 บาท
* July มียอด 3,100 บาท
* August มียอด 2,501.02 บาท
* September มียอด 3,309 บาท
* October มียอด 2,087 บาท
* November มียอด 4,223 บาท
* December มียอด 3,566 บาท

Hint: ให้ใช้เดือนเป็น index และยอดเงินเป็นค่าของแต่ละ index

ลองตอบคำถามต่อไปนี้
1. รวมทั้งปีแล้วต้องจ่ายค่าไฟเท่าไหร่? เฉลี่ยเดือนละเท่าไหร่?
2. เดือนไหนจ่ายค่าไฟเยอะสุด?

จาก DataFrame ข้อมูลเงินเดือนของพนักงาน

คนที่ 1

* ชื่อ William
* อาชีพ Chief Investment Officer
* เงินเดือนทั้งปี 507,831.60 USD

คนที่ 2

* ชื่อ Ellen
* อาชีพ Asst Med Examiner
* เงินเดือนทั้งปี 279,311.10 USD

คนที่ 3

* ชื่อ Barbara
* อาชีพ Dept Head
* รายได้ทั้งปี 307,580.34 USD

ลองตอบคำถามต่อไปนี้
1. ใครได้รายได้ต่อปีเยอะที่สุด?
2. ใครได้รายได้ต่อปีต่ำกว่า 300,000 USD บ้าง?

---

## Grouping

In [19]:
adult_data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv(adult_data_url, names=columns)

In [33]:
adult.groupby('education').agg('mean').tail()

Unnamed: 0_level_0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
HS-grad,38.974479,189538.739739,9.0,576.800114,70.466622,40.575374
Masters,44.049913,179852.362739,14.0,2562.563552,166.719675,43.836332
Preschool,42.764706,235889.372549,1.0,898.392157,66.490196,36.647059
Prof-school,44.746528,185663.706597,15.0,10414.416667,231.203125,47.425347
Some-college,35.756275,188742.92237,10.0,598.824167,71.637087,38.852284


In [34]:
# Same result as above

adult_group = adult.groupby('education')
adult_group.mean().tail()

Unnamed: 0_level_0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
HS-grad,38.974479,189538.739739,9.0,576.800114,70.466622,40.575374
Masters,44.049913,179852.362739,14.0,2562.563552,166.719675,43.836332
Preschool,42.764706,235889.372549,1.0,898.392157,66.490196,36.647059
Prof-school,44.746528,185663.706597,15.0,10414.416667,231.203125,47.425347
Some-college,35.756275,188742.92237,10.0,598.824167,71.637087,38.852284


In [35]:
adult.groupby(['education', 'sex']).mean().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
education,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10th,Female,35.447458,187333.010169,6.0,174.901695,69.132203,32.111864
10th,Male,38.346395,201224.846395,6.0,510.77116,51.164577,39.336991
11th,Female,30.546296,193806.465278,7.0,128.108796,21.578704,29.821759
11th,Male,33.407806,195580.212651,7.0,265.675639,66.650067,36.312248
12th,Female,29.756944,182910.145833,8.0,174.729167,11.951389,31.791667


In [None]:
adult.groupby(['education', 'sex']).mean().head(30)

In [38]:
adult.columns = adult.columns.str.lower().str.replace(' ', '-')
adult[['capital-gain', 'capital-loss', 'money-per-year']].groupby('money-per-year').mean()

Unnamed: 0_level_0,capital-gain,capital-loss
money-per-year,Unnamed: 1_level_1,Unnamed: 2_level_1
<=50K,148.752468,53.142921
>50K,4006.142456,195.00153


---

## Creating Pivot Table

ลองเล่นข้อมูล Sales Funnel จาก [Practical Business Python](https://pbpython.com/)

In [26]:
df = pd.read_excel('data/sales-funnel.xlsx')

In [27]:
df.head()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


In [30]:
pd.pivot_table(df, index=['Name'])

Unnamed: 0_level_0,Account,Price,Quantity
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barton LLC,740150,35000,1.0
"Fritsch, Russel and Anderson",737550,35000,1.0
Herman LLC,141962,65000,2.0
Jerde-Hilpert,412290,5000,2.0
"Kassulke, Ondricka and Metz",307599,7000,3.0
Keeling LLC,688981,100000,5.0
Kiehn-Spinka,146832,65000,2.0
Koepp Ltd,729833,35000,2.0
Kulas Inc,218895,25000,1.5
Purdy-Kunde,163416,30000,1.0


In [31]:
pd.pivot_table(df, index=['Name', 'Product'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Account,Price,Quantity
Name,Product,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,CPU,740150,35000,1
"Fritsch, Russel and Anderson",CPU,737550,35000,1
Herman LLC,CPU,141962,65000,2
Jerde-Hilpert,Maintenance,412290,5000,2
"Kassulke, Ondricka and Metz",Maintenance,307599,7000,3
Keeling LLC,CPU,688981,100000,5
Kiehn-Spinka,CPU,146832,65000,2
Koepp Ltd,CPU,729833,65000,2
Koepp Ltd,Monitor,729833,5000,2
Kulas Inc,CPU,218895,40000,2


In [36]:
pd.pivot_table(df, index=['Name', 'Product'], values=['Quantity'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity
Name,Product,Unnamed: 2_level_1
Barton LLC,CPU,1
"Fritsch, Russel and Anderson",CPU,1
Herman LLC,CPU,2
Jerde-Hilpert,Maintenance,2
"Kassulke, Ondricka and Metz",Maintenance,3
Keeling LLC,CPU,5
Kiehn-Spinka,CPU,2
Koepp Ltd,CPU,2
Koepp Ltd,Monitor,2
Kulas Inc,CPU,2


In [45]:
import numpy as np

In [56]:
pd.pivot_table(df, index=['Product'], values=['Price'], aggfunc=[np.sum, np.mean])

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,Price,Price
Product,Unnamed: 1_level_2,Unnamed: 2_level_2
CPU,465000,51666.666667
Maintenance,22000,5500.0
Monitor,5000,5000.0
Software,30000,10000.0


In [54]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price
Unnamed: 0_level_1,Status,declined,pending,presented,won
Name,Product,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Barton LLC,CPU,35000.0,,,
"Fritsch, Russel and Anderson",CPU,35000.0,,,
Herman LLC,CPU,,,,65000.0
Jerde-Hilpert,Maintenance,,5000.0,,
"Kassulke, Ondricka and Metz",Maintenance,,,,7000.0
Keeling LLC,CPU,,,,100000.0
Kiehn-Spinka,CPU,,,,65000.0
Koepp Ltd,CPU,65000.0,,,
Koepp Ltd,Monitor,,,5000.0,
Kulas Inc,CPU,,40000.0,,


In [55]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'], fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price
Unnamed: 0_level_1,Status,declined,pending,presented,won
Name,Product,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Barton LLC,CPU,35000,0,0,0
"Fritsch, Russel and Anderson",CPU,35000,0,0,0
Herman LLC,CPU,0,0,0,65000
Jerde-Hilpert,Maintenance,0,5000,0,0
"Kassulke, Ondricka and Metz",Maintenance,0,0,0,7000
Keeling LLC,CPU,0,0,0,100000
Kiehn-Spinka,CPU,0,0,0,65000
Koepp Ltd,CPU,65000,0,0,0
Koepp Ltd,Monitor,0,0,5000,0
Kulas Inc,CPU,0,40000,0,0


In [57]:
pd.pivot_table(df, index=['Name', 'Product'], columns=['Status'], values=['Price'], fill_value=0, margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price,Price
Unnamed: 0_level_1,Status,declined,pending,presented,won,All
Name,Product,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Barton LLC,CPU,35000,0,0,0,35000
"Fritsch, Russel and Anderson",CPU,35000,0,0,0,35000
Herman LLC,CPU,0,0,0,65000,65000
Jerde-Hilpert,Maintenance,0,5000,0,0,5000
"Kassulke, Ondricka and Metz",Maintenance,0,0,0,7000,7000
Keeling LLC,CPU,0,0,0,100000,100000
Kiehn-Spinka,CPU,0,0,0,65000,65000
Koepp Ltd,CPU,65000,0,0,0,65000
Koepp Ltd,Monitor,0,0,5000,0,5000
Kulas Inc,CPU,0,40000,0,0,40000


In [62]:
pd.pivot_table(df,index=['Manager', 'Status'], 
               columns=['Product'],
               values=['Quantity', 'Price'],
               aggfunc={'Quantity': len, 'Price': [np.sum, np.mean]},
               fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price,Price,Price,Price,Price,Quantity,Quantity,Quantity,Quantity
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,mean,mean,mean,sum,sum,sum,sum,len,len,len,len
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Manager,Status,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3
Debra Henley,declined,35000,0,0,0,70000,0,0,0,2,0,0,0
Debra Henley,pending,40000,5000,0,0,40000,10000,0,0,1,2,0,0
Debra Henley,presented,30000,0,0,10000,30000,0,0,20000,1,0,0,2
Debra Henley,won,65000,0,0,0,65000,0,0,0,1,0,0,0
Fred Anderson,declined,65000,0,0,0,65000,0,0,0,1,0,0,0
Fred Anderson,pending,0,5000,0,0,0,5000,0,0,0,1,0,0
Fred Anderson,presented,30000,0,5000,10000,30000,0,5000,10000,1,0,1,1
Fred Anderson,won,82500,7000,0,0,165000,7000,0,0,2,1,0,0


---

## Challenges

### Adult

จากข้อมูล [Adult](https://archive.ics.uci.edu/ml/datasets/adult) ลองตอบคำถามต่อไปนี้

In [21]:
adult_data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv(adult_data_url, names=columns)

ในข้อมูลชุดนี้กลุ่มอายุที่มีจำนวนน้อยที่สุดคือกลุ่มอายุเท่าไหร่?

In [22]:
adult.age.value_counts(ascending=True)[0:5]

86    1
87    1
88    3
85    3
83    6
Name: age, dtype: int64

กลุ่มอายุที่มีจำนวนคนมากที่สุดคือกลุ่มอายุเท่าไหร่ และมีกี่คน?

In [25]:
adult.age.value_counts()

36    898
31    888
34    886
23    877
35    876
33    875
28    867
30    861
37    858
25    841
27    835
32    828
38    827
39    816
29    813
41    808
24    798
40    794
26    785
42    780
43    770
22    765
20    753
46    737
45    734
44    724
21    720
19    712
47    708
50    602
     ... 
60    312
61    300
62    258
63    230
64    208
65    178
67    151
66    150
68    120
69    108
70     89
71     72
72     67
73     64
74     51
76     46
75     45
90     43
77     29
78     23
80     22
79     22
81     20
82     12
84     10
83      6
85      3
88      3
87      1
86      1
Name: age, Length: 73, dtype: int64

จากกลุ่มอายุที่ได้มาข้างต้น มีเพศชายกี่คน และเพศหญิงกี่คน?

In [23]:
adult[adult.age == adult.age.value_counts().index[0]]['sex'].value_counts()

 Male      611
 Female    287
Name: sex, dtype: int64

### Amazon Review

เลือกข้อมูล Amazon review ที่เป็น 5-core จาก http://jmcauley.ucsd.edu/data/amazon/ ของ Julian McAuley

```
reviewerID - ID of the reviewer, e.g. A2SUAM1J3GNN3B
asin - ID of the product, e.g. 0000013714
reviewerName - name of the reviewer
helpful - helpfulness rating of the review, e.g. 2/3
reviewText - text of the review
overall - rating of the product
summary - summary of the review
unixReviewTime - time of the review (unix time)
reviewTime - time of the review (raw)
```

**หมายเหตุ:** ข้อมูลนี้ใช้ทางด้านการวิจัยเท่านั้น :)

เก็บข้อมูล quarter ของแต่ละ review ในคอลัมภ์ใหม่ชื่อ quarter

เลือกข้อมูลที่มี overall rating 5 เฉพาะวันจันทร์ และมีคำว่า love ใน review

หาสินค้าที่มีคนรีวีวในวันที่มีคนรีวีวมากที่สุด

หารีวีวของสินค้า 3 อันดับแรกที่มีคนรีวีวมากที่สุด

หาค่า rating เฉลี่ยของแต่ละสินค้า

หาค่า rating ของผู้ใช้แต่ละคน

หาค่า rating เฉลี่ยของแต่ละวันใน 1 อาทิตย์

หาค่า standard deviation ของ rating ของแต่ละสินค้า

กราฟแสดงจำนวนคนที่มารีวีว

กราฟเปรียบเทียบค่า rating เฉลี่ยในแต่ละวันของอาทิตย์ระหว่างปี 2013 และ 2014

กราฟเปรียบเทียบจำนวนรีวีวต่อวันของเดือนระหว่างปี 2012, 2013 และ 2014