# Data Analysis with Pandas

## Outline

### Part 1

* [Intro to Pandas](#Intro-to-Pandas)
* [Pandas Data Structures](#Pandas-Data-Structures)
* [DataFrame](#DataFrame)
* [Dealing with Columns](#Dealing-with-Columns)

### Part 2

* [Indexing & Selecting](#Indexing-&-Selecting)
* [Grouping](#Grouping)
* [Handling Missing Data](#Handling-Missing-Data)


### Part 3

* [Plotting](#Plotting)

---

## Part 1

### Intro to Pandas

In [None]:
from IPython.core.display import HTML
HTML("<iframe src=http://pandas.pydata.org width=800 height=350></iframe>")

In [None]:
import pandas as pd

## DataFrame

### Reading Data from File

UCI Machine Learning Repository: [Adult Data Set](https://archive.ics.uci.edu/ml/datasets/Adult)

การอ่านไฟล์ เราไม่จำเป็นต้องมีไฟล์บนเครื่องก็ได้ ในที่นี้เราจะอ่านไฟล์จาก URL ซึ่งข้อมูลจะต้องอยู่ในรูปแบบที่เราจะอ่าน ในที่นี้คือ CSV ถ้าเป็น JSON ก็ให้ใช้คำสั่ง `read_json` แทน

In [None]:
adult = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data')

In [None]:
adult.head(3)

ข้างต้นเราสังเกตเห็นว่าข้อมูลแถวแรกของเรากลายเป็น header ไป เนื่องจากว่าข้อมูลที่โหลดมาไม่มี header ที่แถวแรกนั่นเอง เราแก้ได้โดยการใส่ `header=None` เข้าไปตอนที่โหลดข้อมูล

In [None]:
adult = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', header=None)

In [None]:
adult.head()

เราสามารถใส่ชื่อ column ได้ดังนี้

In [None]:
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult.columns = columns

In [None]:
adult.head(2)

In [None]:
adult['age'][0:3]

In [None]:
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', names=columns)

In [None]:
adult.head()

เราสามารถเลือกข้อมูลเฉพาะ column นั้นๆ ได้ตามนี้

In [None]:
adult['age']

คำสั่ง `value_count` เป็นคำสั่งเอาไว้นับจำนวนของค่าที่อยู่ใน column นั้นๆ เช่นถ้าเราต้องการนับจำนวนของคนที่มีอายุในแต่ละช่วง ทำได้ตามนี้

In [None]:
adult.age.value_counts(ascending=True)

คำนวณค่าสถิติพื้นฐานได้

In [None]:
adult.age.mean()

In [None]:
adult.age.std()

In [None]:
adult.age.value_counts(ascending=True)[0:5]

In [None]:
adult.age.value_counts().index[0]

In [None]:
adult[adult['age'] > 50]

In [None]:
adult[adult.age > 60] 

In [None]:
adult_age_36 = adult.age == adult.age.value_counts().index[0]

In [None]:
adult[adult_age_36]['sex'].value_counts()

In [None]:
adult.age.value_counts()

## Dealing with Columns

### Renaming Columns

In [None]:
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', names=columns)

In [None]:
adult.head()

In [None]:
adult.rename(columns={'Work Class': 'workclass'})

In [None]:
adult.head(1)

In [None]:
adult_new = adult.rename(columns={'Work Class': 'workclass'})

In [None]:
adult_new.head(1)

In [None]:
adult_new.columns.str.lower()

In [None]:
adult_new.columns = adult_new.columns.str.lower() \
    .str.replace(' ', '-') \
    .str.replace('-', '_')

In [None]:
adult_new.columns

In [None]:
adult_new.money_per_year.value_counts()

In [None]:
adult_new.info()

### Adding New Columns

In [None]:
adult['normalized-age'] = (adult.age - adult.age.mean()) / adult.age.std()

In [None]:
adult.head()

In [None]:
adult[adult['capital-gain'] > 5000]

In [None]:
adult['normalized-age'] > 1

In [None]:
adult[adult['normalized-age'] > 1]

In [None]:
adult.sex[0]

In [None]:
adult.head(2)

In [None]:
' yyy'.strip() 

In [None]:
adult[adult['sex'].str.strip() == 'Male']

In [None]:
adult.info()

### Removing Existing Columns

In [None]:
adult.drop('normalized-age')

We need to specify the parameter called `axis` when we drop.

In [None]:
adult.drop('normalized-age', axis='columns')

In [None]:
adult.head()

In [None]:
adult = adult.drop('normalized-age', axis='columns')

In [None]:
adult.head(2)

In [None]:
adult.drop([0, 1], axis='index')

---

## Part 2

## Indexing & Selecting

In [None]:
import pandas as pd

In [None]:
columns = ['age', 'Work Class', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'Money Per Year']
adult = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', names=columns)

In [None]:
adult.head(2)

การเลือก column นั้นมาทำได้โดยสั่ง

In [None]:
adult['age']

ถ้าต้องการมากกว่า 1 column ทำได้โดยสั่ง

In [None]:
adult[['age', 'education', 'occupation']].head()

การอ้างอิงถึง column นั้น เราสามารถใช้ . ในการอ้างถึงได้ เช่น ถ้าเราอยากได้ค่า age

In [None]:
adult.age

ซึ่งในการใช้ . นั้น ชื่อ column จำเป็นต้องอยู่ในรูปแบบของชื่อตัวแปร คือ ห้ามมาเว้นวรรค แล้วก็ห้ามมี -

ถ้าเราอยาก filter ข้อมูลของคนที่มีอายุมากกว่า 30 ทำได้ดังนี้

In [None]:
adult[adult.age > 30].head(3)

ถ้าอยากใส่มากกว่า 1 condition

In [None]:
adult[(adult.age > 30) & (adult['capital-gain'] > 2000)].head()

In [None]:
adult.loc[11:12, ['age', 'education']]

In [None]:
adult[(adult['capital-gain'] > 30000) & (adult['capital-gain'] < 50000)][['age', 'education']]

In [None]:
adult.loc[(adult['capital-gain'] > 30000) & (adult['capital-gain'] < 50000), ['age', 'education', 'capital-gain']]

In [None]:
adult[adult.education == 'Masters']

In [None]:
adult.education[0]

ข้อมูลมีเว้นวรรคปนเข้ามา เราสามารถตัดออกได้ตามนี้

In [None]:
adult.education = adult.education.str.strip()

In [None]:
adult[adult.education == 'Masters'].head()

In [None]:
adult[adult.education.isin(['Bachelors', 'Masters'])].head()

In [None]:
adult[adult.education.str.contains('Mas')]

## Grouping

การ group ข้อมูล จำเป็นต้องมี aggregation ตามมาเสมอ เช่น group เสร็จแล้วหาค่า mean หรือ group เสร็จแล้วหาค่า median เป็นต้น

In [None]:
#adult.groupby('education').agg('mean').head(2)
adult.groupby('education').mean().head(2)

In [None]:
adult.groupby('education').mean().reset_index().head(2)

เราไม่จำเป็นต้องทำภายในคำสั่งเดียวเสมอไป เราสามารถเก็บใส่ตัวแปรก่อนได้

In [None]:
# Same result as above

adult_group = adult.groupby('education')
adult_group.mean().tail()

เราสามารถ group ข้อมูลได้มากกว่า 1 column ซึ่งลำดับจะมีผลต่อผลลัพธ์ที่ได้ออกมา

In [None]:
adult.groupby(['education', 'sex']).mean().head()

In [None]:
adult.groupby(['sex', 'education']).mean()

In [None]:
adult.columns = adult.columns.str.lower().str.replace(' ', '-')
adult[['capital-gain', 'capital-loss', 'money-per-year']].groupby('money-per-year').mean()

## Handling Missing Data

การจัดการ missing data เบื้องต้นทำได้หลายวิธี ไม่ว่าจะเป็น
1. แทนที่ค่านั้นด้วยค่าเฉลี่ย
2. แทนที่ค่านั้นด้วยค่าที่เกิดขึ้นบ่อยที่สุด
3. แทนที่ค่านั้นด้วยการเดา หรือมาจาก domain expert
4. ลบข้อมูลที่มี missing data ทิ้งไปเลย

_หมายเหตุ:_ ในการทำงานจริงกับข้อมูลจริง วิธีจัดการ missing data ข้างต้นอาจจะไม่เหมาะ อยากลองไปศึกษาเพิ่มเติมดูว่ามีวิธีอะไรบ้างที่ดีกว่า เหมาะสมกว่า

In [None]:
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv')

เราใช้ `info` ดูได้เบื้องต้นว่ามี missing data หรือเปล่า

In [None]:
titanic.info()

เนื่องจาก `info` จะนับจำนวนแถวที่มีค่าอยู่จริง ดังนั้นเราจะดูว่ามี missing data ได้ เช่น boat มีค่าจริงๆ อยู่ 486 ค่าเท่านั้นจากข้อมูลทั้งหมด 1309

In [None]:
titanic.shape

In [None]:
titanic.isnull().head()

In [None]:
titanic.notnull().head()

In [None]:
titanic.isnull().sum()

In [None]:
df = titanic.drop('body', axis='columns')

In [None]:
df.dropna().shape

โค้ดด้านล่างนี้เป็นการ drop แถวที่ age หรือ body ตัวใดตัวหนึ่ง มี missing data

In [None]:
titanic.dropna(subset=['age', 'body'], how='any').shape

โค้ดด้านล่างนี้เป็นการ drop แถวที่ age และ body มี missinge data ทั้งคู่

In [None]:
titanic.dropna(subset=['age', 'body'], how='all').shape

แทนค่า missing data ที่ column ชื่อ body ด้วยค่าเฉลี่ย

In [None]:
body_mean = titanic.body.mean()

In [None]:
titanic.body = titanic.body.fillna(body_mean)

In [None]:
titanic.head()

In [None]:
titanic.info()

In [None]:
titanic.cabin.value_counts(dropna=False).head()

แทนค่า missing data ที่ column ชื่อ cabin ด้วยค่าของ cabin ที่เกิดขึ้นบ่อยที่สุด ในที่นี้คือ "C23 C25 C27"

In [None]:
titanic.cabin.fillna('C23 C25 C27').value_counts().head()

---

## Part 3

## Plotting

In [None]:
%matplotlib inline 

import pandas as pd

คำสั่ง `%matplotlib inline` เป็นการบอกว่ากราฟที่เราสร้างขึ้นมาให้แสดงผลออกทาง notebook นี้

### Biometric statistics for a group of office workers

In [None]:
df = pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/biostats.csv')

In [None]:
df.columns

In [None]:
df.columns = ['Name', 'Sex', 'Age', 'Height (in)', 'Weight (lbs)']

In [None]:
df.head()

In [None]:
df['Sex'] = df['Sex'].str.replace('"', '')

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.hist()

In [None]:
df.groupby('Sex').hist()

In [None]:
df.boxplot(column=['Age'], by='Sex')

In [None]:
df.boxplot(column=['Height (in)'], by='Sex')

ถ้าเราอยากให้กราฟของเรามาอยู่รวมๆ กัน เราจะนำความสามารถของ `subplots` ใน `matplotlib` เข้ามาช่วย

In [None]:
import matplotlib.pyplot as plt

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(16, 4))

df.boxplot(column=['Age'], by='Sex', ax=ax1)
df.boxplot(column=['Height (in)'], by='Sex', ax=ax2)
df.boxplot(column=['Weight (lbs)'], by='Sex', ax=ax3)

### Seaborn

Seaborn เป็น package ที่แนะนำให้ศึกษาก่อน ถ้าอยากจะทำ data visualization ใน Python เพราะว่าง่ายกว่าการใช้ Matplotlib หรือการใช้ Pandas สร้างกราฟ

In [None]:
import seaborn as sns

### Revisit: Total awards vs. population by state

In [None]:
df = pd.read_csv('data/pop_vs_degrees.csv')
df['pop'] = df['pop'] / 1000000
df['degrees'] = df['degrees'] / 10000

g = sns.regplot(x='pop', y='degrees', data=df, color='g')

g.set_xlabel('Population [millions]')
g.set_ylabel('Total degrees/awards in 2013 [x10k]')
g.set_title('Total awards vs. population by state')

In [None]:
sns.barplot(data=df)

### Revisit: Biometric statistics for a group of office workers

In [None]:
df = pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/biostats.csv')
df.columns = ['Name', 'Sex', 'Age', 'Height (in)', 'Weight (lbs)']
df['Sex'] = df['Sex'].str.replace('"', '')

In [None]:
_, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(16, 4))
sns.barplot(x='Sex', y='Age', data=df, ax=ax1)
sns.barplot(x='Sex', y='Height (in)', data=df, ax=ax2)
sns.barplot(x='Sex', y='Weight (lbs)', data=df, ax=ax3)

In [None]:
_, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(16, 4))
sns.boxplot(x='Sex', y='Age', data=df, ax=ax1)
sns.boxplot(x='Sex', y='Height (in)', data=df, ax=ax2)
sns.boxplot(x='Sex', y='Weight (lbs)', data=df, ax=ax3)

In [None]:
sns.distplot(df['Age'])

### Titatic

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
titanic_df = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv')
titanic_df = titanic_df.drop(['name', 'ticket', 'boat', 'body', 'cabin', 'home.dest'], axis='columns').dropna(how='any')

In [None]:
titanic_df.info()

In [None]:
sns.barplot(x="sex", y="survived", hue="pclass", data=titanic_df)

In [None]:
sns.barplot(x="sex", y="survived", hue="pclass", data=titanic_df, palette=sns.cubehelix_palette(4, start=0.5, rot=-.75))

In [None]:
sns.countplot(y="embarked", hue="pclass", data=titanic_df, palette="Greens_d");

In [None]:
g = sns.FacetGrid(titanic_df, row="sex", col="survived")
g.map(plt.hist, 'age')

In [None]:
g = sns.FacetGrid(titanic_df, row="sex", col="pclass")
g.map(plt.hist, 'survived')

In [None]:
g = sns.FacetGrid(titanic_df, row="sex", col="survived")
g.map(sns.regplot, 'age', 'parch')