# Pandas (Part 2)


**Reference for pandas**
1. [Pandas official Document](https://pandas.pydata.org/docs/reference/index.html)
1. [Python Data Science Handbook
](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Đọc dữ liệu từ file vào dataframe

pd.read_csv

Dữ liệu: [MovieLens 100K Dataset](https://files.grouplens.org/datasets/movielens/ml-latest-small.zip). Có tất cả 4 file csv, trong phần demo bên dưới chỉ dùng 2 file.

Theo [file mô tả dữ liệu](https://files.grouplens.org/datasets/movielens/ml-latest-small-README.html):
>This dataset (ml-latest-small) describes 5-star rating and free-text tagging activity from MovieLens, a movie recommendation service. It contains 100836 ratings and 3683 tag applications across 9742 movies. These data were created by 610 users between March 29, 1996 and September 24, 2018. This dataset was generated on September 26, 2018.
>
>Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

In [None]:
# Đọc dữ liệu từ file movies.csv vào dataframe movies_df
# Đọc dữ liệu từ file ratings.csv vào dataframe ratings_df
# Mình đặt các file csv trong thư mục Data/ml-latest-small
movies_df = pd.read_csv('Data/ml-latest-small/movies.csv')
ratings_df = pd.read_csv('Data/ml-latest-small/ratings.csv')

## Xem nhanh một vài dòng của dataframe

- df.head
- df.tail
- df.sample

In [None]:
movies_df.head()

In [None]:
ratings_df.head()

## Xem các thông tin của dataframe

- len(df)
- df.shape
- df.index
- df.columns
- df.dtypes
- df.values (vì tương lai, nên thay bằng df.to_numpy)
- df.info

## Truy xuất dữ liệu ở dataframe

- df.iloc[r, c]
- df.loc[r, c]
- df[...]

## Thay đổi dữ liệu ở dataframe

- df.iloc[...] = ...
- df.loc[...] = ...
- df[...] = ...

## Thay đổi tên dòng/cột ở dataframe

- df.rename
- df.columns = ...
- df.index = ...
- df.set_index, df.reset_index

## Thay đổi kiểu dữ liệu của cột ở dataframe

- s.astype
- pd.to_datetime

## Thực hiện thao tác với cột có kiểu dữ liệu dạng thời gian ở dataframe
s.dt.

## Thực hiện thao tác với cột có kiểu dữ liệu dạng chuỗi ở dataframe

s.str.

## Thêm/xóa dòng/cột ở dataframe

- pd.concat, df[tên cột] = ...
- df.drop

## Xử lý giá trị thiếu ở dataframe

### NaN (Missing numerical data)
Để biểu diễn giá trị bị thiếu trong pandas: Dùng `NaN` (*Not a Number*)\
Đây là một giá trị của kiểu *floating-point*, theo chuẩn IEEE.\
Tham khảo thêm [Floating point NaN](https://en.wikipedia.org/wiki/NaN)

In [None]:
# Phép toán với NaN sẽ tạo thành NaN


In [None]:
# Numpy cung cấp hàm để tính toán trên dữ liệu có NaN


Lưu ý rằng `NaN` là một giá trị floating-point đặc biệt. Không có giá trị `NaN` tương ứng cho interger, string hay kiểu dữ liệu khác.

### NaN và None Trong pandas
NaN và None mang cùng nghĩa trong pandas

In [None]:
# None sẽ được cast thành NaN


In [None]:
# Mảng số nguyên sẽ được up-cast thành số thực nếu có NaN


Quy luật up-cast khi dữ liệu có giá trị bị thiếu
|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

### Thao tác trên giá trị null
- ``isnull()``: Tạo ra mảng boolean tại các vị trí giá trị bị thiếu
- ``notnull()``: Ngược với ``isnull()``
- ``dropna()``: Trả về version đã lọc giá trị na
- ``fillna()``: Trả về version với các giá trị bị thiếu được filled
- `bfill()` : fill backward
- `ffill()` : fill forward

In [None]:
df = pd.DataFrame({'col1': [1, 1, np.nan], 
                   'col2': [2, np.nan, np.nan],
                   'col3': [np.nan, np.nan, np.nan]})
df

Một cách xử lý giá trị thiếu: điền giá trị thiếu bằng một giá trị nào đó.

Một cách khác để xử lý giá trị thiếu: bỏ các dòng (hoặc các cột) liên quan.

In [None]:
# Bỏ đi những dòng mà có ít nhất một cột bị thiếu giá trị


In [None]:
# Bỏ đi những dòng mà tất cả các cột đều bị thiếu giá trị


In [None]:
# Bỏ đi những dòng mà col2 và col3 đều bị thiếu giá trị


In [None]:
# Bỏ đi những dòng mà có ít hơn 2 giá trị not null


In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
# backward-fill


In [None]:
# forward-fill


## Kết hợp dữ liệu từ nhiều dataframe

**Nhắc lại**: Concatenation các mảng Numpy

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

In [None]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

## Simple Concatenation with ``pd.concat``

In [None]:
df1 = pd.DataFrame({'c1': [1, 1, 1], 'c2': [2, 22, 222]})
df1

In [None]:
df2 = pd.DataFrame({'c3': [3, 3, 3, 3], 'c4': [22, 222, 2222, 22222]})
df2

### Merge

In [None]:
df1 = pd.DataFrame({'c1': [1, 1, 1], 'c2': [2, 22, 222]})
df1

In [None]:
df2 = pd.DataFrame({'c3': [3, 3, 3, 3], 'c2': [22, 222, 2222, 22222]})
df2

Merge df1và df2 lại dựa vào cột c2

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
df1

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
df4

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
df5

## Gom nhóm và tính toán trong mỗi nhóm

![](figures/03.08-split-apply-combine.png)

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

## Example 1

Cho biết mỗi movie (dùng title để biểu diễn movie) có bao nhiêu người đánh giá và điểm TB là bao nhiêu?

Các bước:
1. Từ ratings_df, merge với movies_df để có thông tin về title của movie
2. Từ kết quả ở trên, tiến hành gom nhóm các dòng theo title; với mỗi nhóm, tính số người đánh giá (số dòng) và điểm TB

Vấn đề: có thể có các movie bị trùng title!

Điều chỉnh lại các bước như sau:
1. Từ ratings_df, tiến hành gom nhóm các dòng theo movieId; với mỗi nhóm, tính số người đánh giá (số dòng) và điểm TB
2. Từ kết quả ở trên, merge với movies_df để có thông tin về title của movie

Với các movie được sản xuất vào năm 1999, cho biết mỗi movie (dùng title để biểu diễn movie) có bao nhiêu người đánh giá và điểm TB là bao nhiêu?

## Thay đổi shape của dataframe

Với mỗi năm sản xuất, movie nào là movie của năm (được nhiều người đánh giá nhất)?

In [None]:
# Chuyển các giá trị của cột index chỉ số 1 (movieId) 
# lên thành các cột!
# Sau khi chuyển: thông tin về số lượng người đánh giá của các movie
# thuộc cùng một năm sản xuất đã nằm trên một dòng! --> sẵn sàng để 
# tìm ra movie được nhiều người đánh giá nhất của mỗi năm
# (Hình dung: series cao và gầy --> dataframe lùn và mập)


In [None]:
# Nói thêm về unstack
index = pd.MultiIndex.from_tuples([('one', 'a'), ('one', 'b'),
                                   ('two', 'a'), ('two', 'b')])
s = pd.Series(np.arange(1, 5), index=index)
s

### Example 2
([Nguồn](https://github.com/brandon-rhodes/pycon-pandas-tutorial))

In [None]:
# Dữ liệu ở file sales1 nhìn chung là đã ngăn nắp
# Đơn vị tiền tệ ở đây là USD


In [None]:
# Dữ liệu ở file sale2 rất loạn
# 3 cột "Units sold", "List price", "Royalty" lần lượt tương ứng 
# với 3 cột "Number sold", "Sales price", "Royalty paid" ở sale1


*Yêu cầu: gộp dữ liệu ở sale1 và sale2 lại thành một dataframe
 với các cột "Book title", "Number sold", "Sales price", "Royalty paid", "Currency" (đơn vị tiền tệ); mỗi dòng ứng với thông tin của một quyển sách, không có dòng "lạc loài".*
 
 Gợi ý:
 - Bạn có thể sẽ cần dùng đến tham số `method` trong phương thức `fillna`.
 - Kết quả sau cùng sẽ có 15 dòng.

In [None]:
# Tính tổng số tiền bán sách trên mỗi cuốn sách theo từng Currency


## Xem phân bố các giá trị của mỗi cột ở dataframe

- df.agg([col_function1, col_function2...])
- s.plot.hist
- s.value_counts().plot.barh

## Sắp xếp dữ liệu ở dataframe

- df.sort_values
- df.sort_index

## Thực hiện thao tác trên dataframe mà không được định nghĩa sẵn

In [None]:
df = movies_df[['title', 'genres']]
df

Tính chiều dài của mỗi chuỗi trong dataframe df.

In [None]:
# Cách 1: Tạo cột phụ


In [None]:
# Cách 2: áp dụng một hàm nào đó lên từng cột của dataframe


In [None]:
# Cách 3: áp dụng một hàm nào đó lên từng phần tử của dataframe


**Nói thêm về apply**

In [None]:
df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
df

In [None]:
# numpy universal function


In [None]:
# reducing function


In [None]:
# reducing function


Để ý sự khác biệt khi gọi phương thức apply từ dataframe và khi gọi từ series.

## Xem mối quan hệ giữa 2 cột numeric trong dataframe

([Nguồn tham khảo](https://inferentialthinking.com/chapters/15/1/Correlation.html))

### Line plot

Dùng để trực quan hóa mối quan hệ giữa 2 cột numeric, trong đó một cột thường là datetime

In [None]:
df = pd.DataFrame({'date': pd.date_range(start='1/1/2021', periods=8),
                   'temperature': np.random.randint(20, 35, size=8)})
df

In [None]:
df.plot.line(x='date', y='temperature', marker='o');

### Scatter plot

Dùng để trực quan hóa mối quan hệ của 2 cột numeric nói chung; giống line plot nhưng không nối các điểm lại với nhau

In [None]:
cars_df = pd.read_csv('Data/Cars.csv')
cars_df.head()

Theo mô tả dữ liệu ở https://www.inferentialthinking.com/chapters/15/1/Correlation.html:

- "vehicle": model of the car
- "year": year of manufacture
- "msrp": manufacturer's suggested retail price in 2013 dollars
- "acceleration": acceleration rate in km per hour per second
- "mpg": fuel econonmy in miles per gallon
- "class": the model's class.

In [None]:
# Đổi tên cột "msrp" thành "price" cho dễ nhớ


In [None]:
# "acceleration" & "price" có quan hệ gì với nhau?


In [None]:
# "mpg" & "price" có quan hệ gì với nhau?


In [None]:
# "mpg" & "price" của class SUV có quan hệ gì với nhau?


In [None]:
# "acceleration" & "price" của class SUV có quan hệ gì với nhau?


In [None]:
# Trong class SUV, so sánh 
# mức độ quan hệ tuyến tính giữa "acceleration" & "price"
# với mức độ quan hệ tuyến tính giữa "mpg" & "price"
# Để có thể so sánh bằng cách trực quan hóa thì ta cần
# chuẩn hóa các cột về đơn vị chuẩn bằng cách lấy mỗi
# cột trừ đi mean của cột rồi chia cho std của cột



fig, axs = plt.subplots(1, 2)
axs[0].set(xlim=(-3, 3), ylim=(-3, 3), aspect=1)
axs[1].set(xlim=(-3, 3), ylim=(-3, 3), aspect=1)
df.plot.scatter('acceleration', 'price', ax=axs[0])
df.plot.scatter('mpg', 'price', ax=axs[1]);

### Correlation coefficient (r)

**Correlation coefficient (r):** giá trị cho biết mức độ quan hệ TUYẾN TÍNH giữa 2 biến.
- r thuộc [-1, 1].
- |r| càng lớn nghĩa là mức độ quan hệ tuyến tính càng cao.
- r > 0 nghĩa là đồng biến, r < 0 nghĩa là nghịch biến.

Cách tính: r = trung bình của tích các giá trị tương ứng của 2 biến trong đơn vị chuẩn.

In [None]:
# r - ví dụ 1


In [None]:
# r - ví dụ 2


In [None]:
# Trong class SUV, so sánh 
# mức độ quan hệ tuyến tính giữa "acceleration" & "price"
# với mức độ quan hệ tuyến tính giữa "mpg" & "price"

# Dùng r



In [None]:
# Nếu r của 2 biến bằng 0
# thì có chắc là 2 biến không có quan hệ gì với nhau?


In [None]:
# r có bị ảnh hưởng bởi outlier?


In [None]:
# r có bị ảnh hưởng bởi outlier?


**Lưu ý**: 2 biến có quan hệ với nhau thì không chắc là quan hệ nhân-quả.

Ví dụ, người ta thấy khả năng đọc của các đứa trẻ có quan hệ đồng biến với kích thước giày của các đứa trẻ. Vậy cho trẻ mang giày có kích thước lớn có làm khả năng đọc của trẻ tăng lên?

Bạn có thể đọc [câu chuyện về John Snow trong những ngày bệnh dịch tả bùng phát](https://inferentialthinking.com/chapters/02/causality-and-experiments.html) để hiểu về cách để có thể kết luận một mối quan hệ là quan hệ nhân-quả.