# Pandas (Part 2)


**Reference for pandas**
1. [Pandas official Document](https://pandas.pydata.org/docs/reference/index.html)
1. [Python Data Science Handbook
](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html)

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Đọc dữ liệu từ file vào dataframe

pd.read_csv

Dữ liệu: [MovieLens 100K Dataset](https://files.grouplens.org/datasets/movielens/ml-latest-small.zip). Có tất cả 4 file csv, trong phần demo bên dưới chỉ dùng 2 file.

Theo [file mô tả dữ liệu](https://files.grouplens.org/datasets/movielens/ml-latest-small-README.html):
>This dataset (ml-latest-small) describes 5-star rating and free-text tagging activity from MovieLens, a movie recommendation service. It contains 100836 ratings and 3683 tag applications across 9742 movies. These data were created by 610 users between March 29, 1996 and September 24, 2018. This dataset was generated on September 26, 2018.
>
>Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

In [20]:
# Đọc dữ liệu từ file movies.csv vào dataframe movies_df
# Đọc dữ liệu từ file ratings.csv vào dataframe ratings_df
# Mình đặt các file csv trong thư mục Data/ml-latest-small
movies_df = pd.read_csv('Data/ml-latest-small/movies.csv')
ratings_df = pd.read_csv('Data/ml-latest-small/ratings.csv')

## Xem nhanh một vài dòng của dataframe

- df.head
- df.tail
- df.sample

In [3]:
movies_df.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [4]:
ratings_df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


## Xem các thông tin của dataframe

- len(df)
- df.shape
- df.index
- df.columns
- df.dtypes
- df.values (vì tương lai, nên thay bằng df.to_numpy)
- df.info

## Truy xuất dữ liệu ở dataframe

- df.iloc[r, c]
- df.loc[r, c]
- df[...]

## Thay đổi dữ liệu ở dataframe

- df.iloc[...] = ...
- df.loc[...] = ...
- df[...] = ...

## Thay đổi tên dòng/cột ở dataframe

- df.rename
- df.columns = ...
- df.index = ...
- df.set_index, df.reset_index

## Thay đổi kiểu dữ liệu của cột ở dataframe

- s.astype
- pd.to_datetime

## Thực hiện thao tác với cột có kiểu dữ liệu dạng thời gian ở dataframe
s.dt.

## Thực hiện thao tác với cột có kiểu dữ liệu dạng chuỗi ở dataframe

s.str.

## Thêm/xóa dòng/cột ở dataframe

- pd.concat, df[tên cột] = ...
- df.drop

## Xử lý giá trị thiếu ở dataframe

### NaN (Missing numerical data)
Để biểu diễn giá trị bị thiếu trong pandas: Dùng `NaN` (*Not a Number*)\
Đây là một giá trị của kiểu *floating-point*, theo chuẩn IEEE.\
Tham khảo thêm [Floating point NaN](https://en.wikipedia.org/wiki/NaN)

In [None]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

In [None]:
# Phép toán với NaN sẽ tạo thành NaN
1 + np.nan

In [None]:
0 * np.nan

In [None]:
vals2.sum(), vals2.min(), vals2.max()

In [None]:
# Numpy cung cấp hàm để tính toán trên dữ liệu có NaN
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

Lưu ý rằng `NaN` là một giá trị floating-point đặc biệt. Không có giá trị `NaN` tương ứng cho interger, string hay kiểu dữ liệu khác.

### NaN và None Trong pandas
NaN và None mang cùng nghĩa trong pandas

In [5]:
# None sẽ được cast thành NaN
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [6]:
# Mảng số nguyên sẽ được up-cast thành số thực nếu có NaN
x = pd.Series(range(4), dtype=int)
x

0    0
1    1
2    2
3    3
dtype: int32

In [None]:
x[0] = None
x

Quy luật up-cast khi dữ liệu có giá trị bị thiếu
|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

### Thao tác trên giá trị null
- ``isnull()``: Tạo ra mảng boolean tại các vị trí giá trị bị thiếu
- ``notnull()``: Ngược với ``isnull()``
- ``dropna()``: Trả về version đã lọc giá trị na
- ``fillna()``: Trả về version với các giá trị bị thiếu được filled
- `bfill()` : fill backward
- `ffill()` : fill forward

In [7]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [8]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [9]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [13]:
df = pd.DataFrame({'col1': [1, 1, np.nan], 
                   'col2': [2, np.nan, np.nan],
                   'col3': [np.nan, np.nan, np.nan]})
df

Unnamed: 0,col1,col2,col3
0,1.0,2.0,
1,1.0,,
2,,,


Một cách xử lý giá trị thiếu: điền giá trị thiếu bằng một giá trị nào đó.

In [11]:
df.fillna(-1)

Unnamed: 0,col1,col2,col3
0,1.0,2.0,-1.0
1,1.0,-1.0,-1.0
2,-1.0,-1.0,-1.0


Một cách khác để xử lý giá trị thiếu: bỏ các dòng (hoặc các cột) liên quan.

In [14]:
# Bỏ đi những dòng mà có ít nhất một cột bị thiếu giá trị
df.dropna(how='any', axis=0)

Unnamed: 0,col1,col2,col3


In [15]:
# Bỏ đi những dòng mà tất cả các cột đều bị thiếu giá trị
df.dropna(how='all', axis=0)

Unnamed: 0,col1,col2,col3
0,1.0,2.0,
1,1.0,,


In [16]:
# Bỏ đi những dòng mà col2 và col3 đều bị thiếu giá trị
df.dropna(how='all', subset=['col2', 'col3'], axis=0)

Unnamed: 0,col1,col2,col3
0,1.0,2.0,


## Kết hợp dữ liệu từ nhiều dataframe

**Nhắc lại**: Concatenation các mảng Numpy

In [17]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

## Simple Concatenation with ``pd.concat``

In [18]:
df1 = pd.DataFrame({'c1': [1, 1, 1], 'c2': [2, 22, 222]})
df1

Unnamed: 0,c1,c2
0,1,2
1,1,22
2,1,222


In [19]:
df2 = pd.DataFrame({'c3': [3, 3, 3, 3], 'c4': [22, 222, 2222, 22222]})
df2

Unnamed: 0,c3,c4
0,3,22
1,3,222
2,3,2222
3,3,22222


In [20]:
pd.concat([df1,df2])

Unnamed: 0,c1,c2,c3,c4
0,1.0,2.0,,
1,1.0,22.0,,
2,1.0,222.0,,
0,,,3.0,22.0
1,,,3.0,222.0
2,,,3.0,2222.0
3,,,3.0,22222.0


In [21]:
pd.concat([df1,df2],axis = 1)

Unnamed: 0,c1,c2,c3,c4
0,1.0,2.0,3,22
1,1.0,22.0,3,222
2,1.0,222.0,3,2222
3,,,3,22222


In [22]:
pd.concat([df1,df2],ignore_index=True)

Unnamed: 0,c1,c2,c3,c4
0,1.0,2.0,,
1,1.0,22.0,,
2,1.0,222.0,,
3,,,3.0,22.0
4,,,3.0,222.0
5,,,3.0,2222.0
6,,,3.0,22222.0


### Merge

In [3]:
df1 = pd.DataFrame({'c1': [1, 1, 1], 'c2': [2, 22, 222]})
df1

Unnamed: 0,c1,c2
0,1,2
1,1,22
2,1,222


In [4]:
df2 = pd.DataFrame({'c3': [3, 3, 3, 3], 'c2': [22, 222, 2222, 22222]})
df2

Unnamed: 0,c3,c2
0,3,22
1,3,222
2,3,2222
3,3,22222


Merge df1và df2 lại dựa vào cột c2

In [5]:
df1.merge(df2, how='inner', indicator=True)

Unnamed: 0,c1,c2,c3,_merge
0,1,22,3,both
1,1,222,3,both


In [6]:
df1.merge(df2, how='outer', indicator=True)

Unnamed: 0,c1,c2,c3,_merge
0,1.0,2,,left_only
1,1.0,22,3.0,both
2,1.0,222,3.0,both
3,,2222,3.0,right_only
4,,22222,3.0,right_only


In [7]:
df1.merge(df2, how='left', indicator=True)

Unnamed: 0,c1,c2,c3,_merge
0,1,2,,left_only
1,1,22,3.0,both
2,1,222,3.0,both


In [8]:
df1.merge(df2, how='right', indicator=True)

Unnamed: 0,c1,c2,c3,_merge
0,1.0,22,3,both
1,1.0,222,3,both
2,,2222,3,right_only
3,,22222,3,right_only


In [9]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [10]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [11]:
df3 = df1.merge(df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [12]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
df4

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [13]:
df3.merge(df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


In [14]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
df5

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization


In [15]:
df1.merge(df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


## Gom nhóm và tính toán trong mỗi nhóm

![](figures/03.08-split-apply-combine.png)

In [16]:
field_names = ['State', 'Sex', 'Year', 'Name', 'Count']
babynames_df = pd.read_csv('Data/STATE.CA.TXT',header=None,names=field_names)
babynames_df

Unnamed: 0,State,Sex,Year,Name,Count
0,CA,F,1910,Mary,295
1,CA,F,1910,Helen,239
2,CA,F,1910,Dorothy,220
3,CA,F,1910,Margaret,163
4,CA,F,1910,Frances,134
...,...,...,...,...,...
407423,CA,M,2022,Zayvier,5
407424,CA,M,2022,Zia,5
407425,CA,M,2022,Zora,5
407426,CA,M,2022,Zuriel,5


In [17]:
# Tính tổng số trẻ được sinh ra trong từng năm
babynames_df[['Year','Count']].groupby('Year').sum()

Unnamed: 0_level_0,Count
Year,Unnamed: 1_level_1
1910,9163
1911,9983
1912,17946
1913,22094
1914,26926
...,...
2018,395436
2019,386996
2020,362882
2021,362582


In [18]:
# Năm đầu tiên mỗi tên xuất hiện
babynames_df.groupby('Name')['Year'].min()

Name
Aadan      2008
Aadarsh    2019
Aaden      2007
Aadhav     2014
Aadhini    2022
           ... 
Zymir      2020
Zyon       1999
Zyra       2012
Zyrah      2011
Zyrus      2021
Name: Year, Length: 20437, dtype: int64

In [21]:

df = ratings_df
# df = df.groupby('movieId')['rating'].agg(['mean','size'])
df


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352


Cho biết mỗi movie (dùng title để biểu diễn movie) có bao nhiêu người đánh giá và điểm TB là bao nhiêu?

Các bước:
1. Từ ratings_df, merge với movies_df để có thông tin về title của movie
2. Từ kết quả ở trên, tiến hành gom nhóm các dòng theo title; với mỗi nhóm, tính số người đánh giá (số dòng) và điểm TB

Vấn đề: có thể có các movie bị trùng title!

Điều chỉnh lại các bước như sau:
1. Từ ratings_df, tiến hành gom nhóm các dòng theo movieId; với mỗi nhóm, tính số người đánh giá (số dòng) và điểm TB
2. Từ kết quả ở trên, merge với movies_df để có thông tin về title của movie

In [22]:
# Bước 1
df = ratings_df
# df = df[['movieId', 'rating']].groupby('movieId').agg(['mean', 'size'])
df = df.groupby('movieId')['rating'].agg(['mean', 'size'])
# df = df.groupby('movieId').agg(['mean', 'size'])['rating']

# Bước 2
df2 = movies_df[['movieId', 'title']]
df = df.merge(df2, on='movieId')
df = df.sort_values('size', ascending=False)
df.head(10)

Unnamed: 0,movieId,mean,size,title
314,356,4.164134,329,Forrest Gump (1994)
277,318,4.429022,317,"Shawshank Redemption, The (1994)"
257,296,4.197068,307,Pulp Fiction (1994)
510,593,4.16129,279,"Silence of the Lambs, The (1991)"
1938,2571,4.192446,278,"Matrix, The (1999)"
224,260,4.231076,251,Star Wars: Episode IV - A New Hope (1977)
418,480,3.75,238,Jurassic Park (1993)
97,110,4.031646,237,Braveheart (1995)
507,589,3.970982,224,Terminator 2: Judgment Day (1991)
461,527,4.225,220,Schindler's List (1993)


Với các movie được sản xuất vào năm 1999, cho biết mỗi movie (dùng title để biểu diễn movie) có bao nhiêu người đánh giá và điểm TB là bao nhiêu?

In [23]:
movies_df['title'].str.extract(r'\((\d{4})\)')

Unnamed: 0,0
0,1995
1,1995
2,1995
3,1995
4,1995
...,...
9737,2017
9738,2017
9739,2017
9740,2018


In [24]:
df = movies_df['title'].str.extract(r'\((\d{4})\)')
df.columns = ['year']
movies_with_year_df = pd.concat([movies_df, df], axis=1)
movies_with_year_df.head(5)

Unnamed: 0,movieId,title,genres,year
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995
1,2,Jumanji (1995),Adventure|Children|Fantasy,1995
2,3,Grumpier Old Men (1995),Comedy|Romance,1995
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,1995
4,5,Father of the Bride Part II (1995),Comedy,1995


In [25]:
df = ratings_df
df = df.merge(movies_with_year_df[['movieId', 'year']])
df = df[df['year'] == '1999']

df = df.groupby('movieId')['rating'].agg(['mean', 'size'])

df = df.merge(movies_df[['movieId', 'title']], on='movieId')
df = df.sort_values('size', ascending=False)
df.head(10)

Unnamed: 0,movieId,mean,size,title
32,2571,4.192446,278,"Matrix, The (1999)"
123,2959,4.272936,218,Fight Club (1999)
103,2858,4.056373,204,American Beauty (1999)
82,2762,3.893855,179,"Sixth Sense, The (1999)"
51,2628,3.107143,140,Star Wars: Episode I - The Phantom Menace (1999)
59,2683,3.198347,121,Austin Powers: The Spy Who Shagged Me (1999)
162,3147,4.148649,111,"Green Mile, The (1999)"
67,2706,3.378641,103,American Pie (1999)
136,2997,3.954545,99,Being John Malkovich (1999)
154,3114,3.860825,97,Toy Story 2 (1999)


## Thay đổi shape của dataframe

Với mỗi năm sản xuất, movie nào là movie của năm (được nhiều người đánh giá nhất)?

In [26]:
df = ratings_df
df = df.merge(movies_with_year_df[['movieId', 'year']])
s = df.groupby(['year', 'movieId']).size()
s

year  movieId
1902  32898      5
1903  49389      2
1908  140541     1
1915  7065       1
1916  7243       1
                ..
2018  189333     2
      189381     1
      189713     1
      190183     1
      193587     1
Length: 9711, dtype: int64

In [27]:
# Chuyển các giá trị của cột index chỉ số 1 (movieId) 
# lên thành các cột!
# Sau khi chuyển: thông tin về số lượng người đánh giá của các movie
# thuộc cùng một năm sản xuất đã nằm trên một dòng! --> sẵn sàng để 
# tìm ra movie được nhiều người đánh giá nhất của mỗi năm
# (Hình dung: series cao và gầy --> dataframe lùn và mập)
s.unstack(1)

movieId,32898,49389,140541,7065,7243,62383,72921,102747,8511,3132,...,188751,188797,188833,189043,189111,189333,189381,189713,190183,193587
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1902,5.0,,,,,,,,,,...,,,,,,,,,,
1903,,2.0,,,,,,,,,...,,,,,,,,,,
1908,,,1.0,,,,,,,,...,,,,,,,,,,
1915,,,,1.0,,,,,,,...,,,,,,,,,,
1916,,,,,1.0,2.0,1.0,1.0,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2014,,,,,,,,,,,...,,,,,,,,,,
2015,,,,,,,,,,,...,,,,,,,,,,
2016,,,,,,,,,,,...,,,,,,,,,,
2017,,,,,,,,,,,...,,,,,,,,,,


In [28]:
df = s.unstack(1)  
df = df.idxmax(axis=1).to_frame() # Mặc định thì Pandas sẽ bỏ qua nan
df.columns = ['movieId']
df = df.reset_index()
df = df.merge(movies_df[['movieId', 'title']])
df.tail(10)

Unnamed: 0,year,movieId,title
96,2009,68954,Up (2009)
97,2010,79132,Inception (2010)
98,2011,88125,Harry Potter and the Deathly Hallows: Part 2 (...
99,2012,91529,"Dark Knight Rises, The (2012)"
100,2013,106782,"Wolf of Wall Street, The (2013)"
101,2014,109487,Interstellar (2014)
102,2015,134130,The Martian (2015)
103,2016,122904,Deadpool (2016)
104,2017,122918,Guardians of the Galaxy 2 (2017)
105,2018,122912,Avengers: Infinity War - Part I (2018)


### Example
([Nguồn](https://github.com/brandon-rhodes/pycon-pandas-tutorial))

In [None]:
# Dữ liệu ở file sales1 nhìn chung là đã ngăn nắp
# Đơn vị tiền tệ ở đây là USD
sale1_df = pd.read_csv('Data/sales1.csv')
sale1_df

In [None]:
# Dữ liệu ở file sale2 rất loạn
# 3 cột "Units sold", "List price", "Royalty" lần lượt tương ứng 
# với 3 cột "Number sold", "Sales price", "Royalty paid" ở sale1
sale2_df = pd.read_csv('Data/sales2.csv')
sale2_df.fillna('')

*Yêu cầu: gộp dữ liệu ở sale1 và sale2 lại thành một dataframe
 với các cột "Book title", "Number sold", "Sales price", "Royalty paid", "Currency" (đơn vị tiền tệ); mỗi dòng ứng với thông tin của một quyển sách, không có dòng "lạc loài".*
 
 Gợi ý:
 - Bạn có thể sẽ cần dùng đến tham số `method` trong phương thức `fillna`.
 - Kết quả sau cùng sẽ có 15 dòng.

In [None]:
df1 = sale1_df
df1['Currency'] = 'USD'
df1

In [None]:
df2 = sale2_df
s = df2['Title'].str.extract(r'\((.+)\)').bfill()
df2['Currency'] = s
df2 = df2.dropna()
df2.columns = df1.columns
df2

In [None]:
pd.merge(df1,df2,on='Book title')

In [None]:
temp = pd.concat([df1, df2], axis=0).reset_index(drop=True)
temp

In [None]:
temp = pd.concat([df1, df2], axis=0).reset_index(drop=True)
temp

## Xem phân bố các giá trị của mỗi cột ở dataframe

- df.agg([col_function1, col_function2...])
- s.plot.hist
- s.value_counts().plot.barh

## Sắp xếp dữ liệu ở dataframe

- df.sort_values
- df.sort_index

## Thực hiện thao tác trên dataframe mà không được định nghĩa sẵn

In [None]:
df = movies_df[['title', 'genres']]
df

Tính chiều dài của mỗi chuỗi trong dataframe df.

In [None]:
# Cách 1: áp dụng một hàm nào đó lên từng cột của dataframe
df.apply(lambda s: s.str.len(), axis=0)

In [None]:
# Cách 2: áp dụng một hàm nào đó lên từng phần tử của dataframe
df.map(len)

Để ý sự khác biệt khi gọi phương thức apply từ dataframe và khi gọi từ series.

In [None]:
df.apply(len)

In [None]:
df['title'].apply(len)

## Xem mối quan hệ giữa 2 cột numeric trong dataframe

([Nguồn tham khảo](https://inferentialthinking.com/chapters/15/1/Correlation.html))

### Line plot

Dùng để trực quan hóa mối quan hệ giữa 2 cột numeric, trong đó một cột thường là datetime

In [None]:
df = pd.DataFrame({'date': pd.date_range(start='1/1/2021', periods=8),
                   'temperature': np.random.randint(20, 35, size=8)})
df

In [None]:
df.plot.line(x='date', y='temperature', marker='o');

### Scatter plot

Dùng để trực quan hóa mối quan hệ của 2 cột numeric nói chung; giống line plot nhưng không nối các điểm lại với nhau

In [None]:
cars_df = pd.read_csv('Data/Cars.csv')
cars_df.head()

Theo mô tả dữ liệu ở https://www.inferentialthinking.com/chapters/15/1/Correlation.html:

- "vehicle": model of the car
- "year": year of manufacture
- "msrp": manufacturer's suggested retail price in 2013 dollars
- "acceleration": acceleration rate in km per hour per second
- "mpg": fuel econonmy in miles per gallon
- "class": the model's class.

In [None]:
cars_df.info()

In [None]:
# Đổi tên cột "msrp" thành "price" cho dễ nhớ
cars_df.rename(columns={'msrp': 'price'}, inplace=True)
cars_df.head()

In [None]:
# "acceleration" & "price" có quan hệ gì với nhau?
cars_df.plot.scatter(x='acceleration', y='price');

In [None]:
# "mpg" & "price" có quan hệ gì với nhau?
cars_df.plot.scatter(x='mpg', y='price');

In [None]:
# "mpg" & "price" của class SUV có quan hệ gì với nhau?
df = cars_df
df = df[df['class'] == 'SUV']
df.plot.scatter('mpg', 'price');

In [None]:
# "acceleration" & "price" của class SUV có quan hệ gì với nhau?
df = cars_df
df = df[df['class'] == 'SUV']
df.plot.scatter('acceleration', 'price');

In [None]:
# Trong class SUV, so sánh 
# mức độ quan hệ tuyến tính giữa "acceleration" & "price"
# với mức độ quan hệ tuyến tính giữa "mpg" & "price"
# Để có thể so sánh bằng cách trực quan hóa thì ta cần
# chuẩn hóa các cột về đơn vị chuẩn bằng cách lấy mỗi
# cột trừ đi mean của cột rồi chia cho std của cột

df = cars_df
df = df[df['class'] == 'SUV']
df = df[['acceleration', 'mpg', 'price']]
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0) # Lưu ý ddof!

fig, axs = plt.subplots(1, 2)
axs[0].set(xlim=(-3, 3), ylim=(-3, 3), aspect=1)
axs[1].set(xlim=(-3, 3), ylim=(-3, 3), aspect=1)
df.plot.scatter('acceleration', 'price', ax=axs[0])
df.plot.scatter('mpg', 'price', ax=axs[1]);

### Correlation coefficient (r)

**Correlation coefficient (r):** giá trị cho biết mức độ quan hệ TUYẾN TÍNH giữa 2 biến.
- r thuộc [-1, 1].
- |r| càng lớn nghĩa là mức độ quan hệ tuyến tính càng cao.
- r > 0 nghĩa là đồng biến, r < 0 nghĩa là nghịch biến.

Cách tính: r = trung bình của tích các giá trị tương ứng của 2 biến trong đơn vị chuẩn.

In [None]:
# r - ví dụ 1
x = np.arange(20)
y = 2 * x + 1
df = pd.DataFrame({'x': x, 'y': y})
df.plot.scatter('x', 'y')
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0)
# df.prod(axis=1).mean()

In [None]:
# r - ví dụ 2
xy = np.random.normal(loc=1, scale=5, size=(1000, 2))
df = pd.DataFrame(xy)
df.plot.scatter(0, 1)
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0)
df.prod(axis=1).mean()

In [None]:
# Trong class SUV, so sánh 
# mức độ quan hệ tuyến tính giữa "acceleration" & "price"
# với mức độ quan hệ tuyến tính giữa "mpg" & "price"

# Dùng r

df = cars_df
df = df[df['class'] == 'SUV']
df = df[['acceleration', 'mpg', 'price']]
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0)

r_ap = (df['acceleration'] * df['price']).mean()
r_mp = (df['mpg'] * df['price']).mean()
r_ap, r_mp

In [None]:
# Nếu r của 2 biến bằng 0
# thì có chắc là 2 biến không có quan hệ gì với nhau?
x = np.arange(-4, 4.1, 0.5)
df = pd.DataFrame({'x': x, 'y': x**2})
df.plot.scatter(x='x', y='y')
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0)
df.prod(axis=1).mean()

In [None]:
# r có bị ảnh hưởng bởi outlier?
x = np.array([1, 2, 3, 4])
y = x
df = pd.DataFrame({'x': x, 'y': y})
df.plot.scatter('x', 'y')
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0)
df.prod(axis=1).mean()

In [None]:
# r có bị ảnh hưởng bởi outlier?
x = np.array([1, 2, 3, 4, 5])
y = np.array([1, 2, 3, 4, 0])
df = pd.DataFrame({'x': x, 'y': y})
df.plot.scatter('x', 'y')
df = (df - df.mean(axis=0)) / df.std(axis=0, ddof=0)
df.prod(axis=1).mean()

**Lưu ý**: 2 biến có quan hệ với nhau thì không chắc là quan hệ nhân-quả.

Ví dụ, người ta thấy khả năng đọc của các đứa trẻ có quan hệ đồng biến với kích thước giày của các đứa trẻ. Vậy cho trẻ mang giày có kích thước lớn có làm khả năng đọc của trẻ tăng lên?

Bạn có thể đọc [câu chuyện về John Snow trong những ngày bệnh dịch tả bùng phát](https://inferentialthinking.com/chapters/02/causality-and-experiments.html) để hiểu về cách để có thể kết luận một mối quan hệ là quan hệ nhân-quả.