# Data Manipulation, Exploration, Preparation and Cleansing with pandas

Instructor: Dr. Sirasit Lochanachit

# 1. How to read a tabular data file into pandas?

What is tabular data?
> Data that looks like a table

> Data with rows and columns

> Looks like excel spreadsheet

Common formats of tabular data is csv (comma separated value)

# read_table

Example dataset ที่จะใช้คือ คำสั่งซื้อของ Chipotle restaurant เป็นร้าน chain ขนาดใหญ่ในอเมริกา

เราจะใช้ function read_table ในการอ่านไฟล์ตารางเข้ามา เราก็ใส่ชื่อไฟล์ รวมถึงตำแหน่งที่อยู่ของไฟล์เข้าไป เช่นเก็บไว้ใน folder data ก็คั่นด้วย / แล้วตามด้วยชื่อไฟล์ เช่น chipotle.tsv

read_table สามารถอ่านไฟล์จาก working directory ในเครื่องของเรา หรืออ่านจาก URL ที่เป็น link ของไฟล์ที่อยู่ใน internet ได้

https://github.com/TheUpshot/chipotle

## head & tail


## A bit harder case for read_table

ลองมาดู case ที่ format ของข้อมูลในไฟล์ที่ไม่เรียบร้อยหรือเรียบง่ายแบบ chipotle.tsv 

dataset นีคือ ข้อมูลเกี่ยวกับ users บน website ที่เกี่ยวกับการให้คะแนนหรือ rate ภาพยนตร์

https://grouplens.org/datasets/movielens/100k/

# 2. How to select a pandas Series from a DataFrame?

ใน pandas จะมีประเภทของ object อยู่ 2 อันหลักๆสำหรับการเก็บข้อมูลคือ Series และ DataFrame

DataFrame ง่ายๆคือ ตารางที่มี row & column

แต่ละ column คือ Series

แต่โดยปกติเรามักจะใช้ dataframe เป็นหลักมากกว่าจะใช้ Series แยกออกมา

ในตัวอย่างนี้จะใช้ข้อมูล dataset ของ UFO report คือเป็น รายงานที่เกี่ยวกับ การพบเจอ UFO ของอเมริกา ตั้งแต่ปี 1930 ถึง 2000

https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv

## Selecting a series

Important: Case sensitive

### Selecting a single column

Or use dot notation instead

### Selecting Multiple columns (as a DataFrame)

### Select only few columns from reading a file

Example: City and Colors Reported

## Create a new pandas Series in a DataFrame

Have to use bracket notation only

## Getting cities that have shape reported as TRIANGLE

# 3. Why do some pandas commands end with (), and other commands don't?

## IMDB ratings

https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/imdb_1000.csv

ถ้า column ใดที่มีข้อมูลเป็นตัวเลข เช่น star_rating duration ก็จะแสดงข้อมูลสถิติเชิง descriptive ออกมา

From raw count into percentages

Cross tabulation

# 4. How to rename columns in a pandas DataFrame?

## 1. rename method

To actually change, use inplace=True

## 2. list to rename all columns

## 3. rename while reading

## Replace space in column names with underscore

# 5. How to remove columns from a pandas DataFrame

ถ้าอยาก ลบ column colours reported

ทุกครั้งที่ใช้ drop method จะต้องระบุ ชื่อ column ที่ต้องการลบ และ axis

    axis = 0 คือ index
    axis = 1 คือ column

## Remove rows instead of columns

ลบ 2 แถวแรกโดยใช้ index

axis = 0 is by default

# 6. How to filter rows of a pandas DataFrame by column value?

## Movies that are at least 200 minutes long - The long way

### 1. Create a list of booleans of rows that match the condition

เรากำลังจะสร้าง list ของค่า boolean ตัว list จะมีจำนวนสมาชิกเท่ากับ จำนวนแถวของ DataFrame

    Boolean จะมีค่า true ถ้า แถวนั้นมี duration >= 200 mins
    Boolean จะมีค่า false ถ้า แถวนั้นมี duration < 200 mins

เราก็จะได้ boolean list ที่บอกว่า แถวไหนที่เข้าหรือตรงกับเงื่อนไข

### 2. Convert the boolean's list into a pandas Series

### 3. Pass a Series into a DataFrame using bracket notation

ปกติ [] ใช้ดึง column ออกมาเช่น 

## Movies that are at least 200 minutes long - The short way

Inner part = which row to select

# 7. How to sort a pandas DataFrame or Series?

## Sort a Series

ข้อมูลใน movies ไม่ได้ถูกเปลี่ยน นอกจากจะใช้ inplace=True

original order ยังเหมือนเดิม

## Sort DataFrame by a Series

## Sort a DataFrame by Multiple Columns

# 8. How to apply multiple filter criteria to a pandas DataFrame?

ถ้าจะเพิ่ม filter criteria ต้องทำอย่างไร เช่น >= 200 นาที และ genre drama

ใช้ and/or operator

### Multiple ORs

either crime/drama/action genre

# 9. How to use string methods in pandas?

More info on https://pandas.pydata.org/pandas-docs/dev/user_guide/text.html

# 10. Change data type of a pandas Series

Change from str to float (removing dollar sign)

# 11. How to select specific rows and columns from a DataFrame?

`loc` gets rows (and/or columns) with particular labels.

`iloc` gets rows (and/or columns) at integer locations.

Can't use movies.loc[[0:1]]

# 12. When to use a groupby command in pandas?

Drinks dataset: https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/drinks.csv

Source: https://github.com/fivethirtyeight/data/tree/master/alcohol-consumption

What is the average beer servings across all countries?

What is the average beer servings by continent?

Answer: when want to analyse by some category (e.g. beer servings by continent)

## Across all numeric columns

In [1]:
%matplotlib inline

# 13. How to handle missing values?

isnull or isna

False = not null

True = null (missing)

For summing booleans, it converts True to 1 and False to 0 

## What to do with missing value?

No right or wrong answer

### 1. Drop Missing values

Drop a row if any of columns has a missing value

Drop a row if either city or shape reported are missing

### 2. Filling missing values

By default, missing values are excluded in value_counts()

# 14. Output