# Pandas for Data Analysis: Knowing Data Structures & Types

## Outline:

* [Pandas Data Structures](#Pandas-Data-Structures)
  * [Python List](#Python-List)
  * [Python Dict](#Python-Dict)
  * [Pandas Series](#Pandas-Series)
  * [Pandas DataFrame](#Pandas-DataFrame)
* [Pandas Data Types](#Pandas-Data-Types)
* [Challenges](#Challenges)

รูปแบบของการเรียกใช้ Pandas ที่ใช้กันจะใช้กันแบบนี้

In [None]:
import pandas as pd

## Pandas Data Structures

ลองเปรียบเทียบ Data Structure ของ Python และที่เพิ่มเข้ามาของ Pandas

### Python List

In [None]:
data = [113, 1463, 95, 33]

เราสามารถเข้าถึงข้อมูลโดยใช้ค่า Index (เริ่มที่ 0)

In [None]:
data[2]

### Python Dict

In [None]:
data = {
    'name': 'Kan'
}

เราสามารถเข้าถึงข้อมูลโดยใช้ค่า Key

In [None]:
data['name']

### Pandas Series

เราจะสร้างตัวแปรแบบ Series โดยใช้ `pd.Series`

In [None]:
pd.Series()

สร้างจาก Python List

In [None]:
data = [113, 1463, 95, 33]

In [None]:
series_data = pd.Series(data)
series_data

In [None]:
type(series_data)

In [None]:
series_data[2]

สร้างจาก Python Dict

In [None]:
series_data = pd.Series({'a': 113, 'b': 1463, 'c': 95, 'd': 33})
series_data

In [None]:
series_data[1]

In [None]:
series_data['b']

เรากำหนด Index เองให้กับ Series ได้

In [None]:
data = {'a': 113, 'b': 1463, 'c': 95, 'd': 33}
index = ['b', 'c', 'd', 'e', 'f']

In [None]:
series_data = pd.Series(data, index=index)
series_data

In [None]:
series_data.index

In [None]:
series_data.values

In [None]:
series_data.append(pd.Series([113, 1463, 95, 33]))

In [None]:
series_data = series_data.append(pd.Series({'b': 99}))

In [None]:
series_data

In [None]:
series_data.index

In [None]:
series_data['b']

In [None]:
series_data[5]

Series มี method ให้เราเรียกใช้ภายในตัวเอง

In [None]:
series_data.value_counts()

ความแตกต่างระหว่าง Python List กับ Series

In [None]:
[1, 2, 3] + [3, 4, 6]

In [None]:
pd.Series([1, 2, 3]) + pd.Series([4, 5, 6])

### Pandas DataFrame

การสร้าง DataFrame เราสามารถสร้างได้จาก Python Dict โดยที่แต่ละ Key มี Value เป็น Python List

In [None]:
personal_data_dict = {
    'age': [39, 50, 38],
    'education': ['Bachelors', 'Bachelors', 'HS-grad'],
    'occupation': ['Adm-clerical', 'Tech-support', 'Sales'],
    'sex': ['Male', 'Female', 'Female'],
    'capital-gain': [2174, 111, 993]
}

เราจะใส่ลงไปใน `pd.DataFrame` ตามนี้

In [None]:
df = pd.DataFrame(personal_data_dict)

In [None]:
df

In [None]:
type(df)

In [None]:
df.shape

In [None]:
df.index

In [None]:
df.values

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df['occupation']

In [None]:
df.occupation

In [None]:
type(df.occupation)

<img src="images/df-n-series.png" style="width: 500px;"/>

In [None]:
df['age']

In [None]:
df['capital-gain']

ถ้าเราลองอ้างอิงถึงข้อมูลที่ไม่มีอยู่จริง?

In [None]:
df['name']

---

## Pandas Data Types

In [None]:
data = {
    'float': [1.0],
    'int': [1],
    'datetime': [pd.Timestamp('20180310')],
    'string': ['foo'],
    'boolean': [True]
}
df = pd.DataFrame(data)

In [None]:
df.dtypes

In [None]:
df.info()

---

# Challenges

## Challenge 1

สร้าง Series ของค่าไฟปี 2015 โดยแต่ละเดือนมีค่าไฟตามนี้

* January มียอด 3,000 บาท
* February มียอด 3,512 บาท
* March มียอด 1,900 บาท
* April มียอด 1,988 บาท
* May มียอด 3,012 บาท
* June มียอด 2,912.35 บาท
* July มียอด 3,100 บาท
* August มียอด 2,501.02 บาท
* September มียอด 3,309 บาท
* October มียอด 2,087 บาท
* November มียอด 4,223 บาท
* December มียอด 3,566 บาท

Hint: ให้ใช้เดือนเป็น index และยอดเงินเป็นค่าของแต่ละ index

## Challenge 2

สร้าง DataFrame ข้อมูลเงินเดือนของพนักงาน

คนที่ 1

* ชื่อ William
* อาชีพ Chief Investment Officer
* เงินเดือนทั้งปี 507,831.60 USD

คนที่ 2

* ชื่อ Ellen
* อาชีพ Asst Med Examiner
* เงินเดือนทั้งปี 279,311.10 USD

คนที่ 3

* ชื่อ Barbara
* อาชีพ Dept Head
* รายได้ทั้งปี 307,580.34 USD