## Giới thiệu
Trong bài thực hành này, chúng ta sẽ thực hành kỹ năng đọc, chuyển đổi kiểu dữ liệu của `DataFrame` (kèm một số kỹ năng khác).

## Dữ liệu
Dữ liệu của bài thực hành này được tổng hợp từ [trang wiki](https://leagueoflegends.fandom.com/wiki/League_of_Legends_Wiki) của trò chơi Liên minh Huyền thoại. (*cập nhật ngày 23-12-2020*)

Dữ liệu này được lưu tại đường dẫn https://raw.githubusercontent.com/Levytan/mis_hutech/master/data/lol_champions.csv

Dữ liệu bao gồm các cột:
* `champion`: tên của tướng.
* `title`: danh hiệu tướng.
* `primary`: phân lớp chính.
* `secondary`: phân lớp phụ.
* `release_date`: ngày ra mắt.
* `base_attack`: tấn công cơ bản.
* `base_health`: máu cơ bản.

## Phần 1: Đọc và chuyển đổi dữ liệu
Phần này ôn lại cách dùng của:
* Hàm `pd.read_csv()`, `pd.to_datetime()` và `pd.to_numeric()`.
* Accessor `.str`.
* Phương thức `.assign()` của `DataFrame`.
* Cùng một số hàm và phương thức khác.

In [None]:
import pandas as pd
import numpy as np

**Câu 1**: Mở đường dẫn dữ liệu ở trên và xem xét cẩn thận. Sau đó, dùng `pd.read_csv()` với các tham số phù hợp để đọc dữ liệu. Lưu dữ liệu đọc được với tên `data`.

*Gợi ý*
- Xem documentation của pd.read_csv() tại https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- Tham số filepath_or_buffer chính là đường dẫn đến file csv.
- Tuy nhiên file csv này có lỗi. Để bỏ qua lỗi, tham khảo các tham số có chứa từ "error" trong documentation.
- Theo mặc định, pd.read_csv() cho rằng các cột của dữ liệu được phân chia bằng dấu ",". Tên gọi của ký hiệu phân chia cột trong tiếng Anh là delimiter.

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/Levytan/mis_hutech/master/data/lol_champions.csv', delimiter=';').drop(columns='Unnamed: 0')
data

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
0,Aatrox,the Darkin Blade,Juggernaut,,2013-06-13,600,5800
1,Ahri,the Nine-Tailed Fox,Burst,,2011-12-14,5304,5260
2,Akali,the Rogue Assassin,Assassin,,2010-05-11,624,5750
3,Alistar,the Minotaur,Vanguard,,2009-02-21,620,6000
4,Amumu,the Sad Mummy,Vanguard,,2009-06-26,5338,6150
...,...,...,...,...,...,...,...
148,Zed,the Master of Shadows,Assassin,,2012-11-13,630,5840
149,Ziggs,the Hexplosives Expert,Artillery,,2012-02-01,54208,5360
150,Zilean,the Chronokeeper,Specialist,,2009-04-18,5164,5040
151,Zoe,the Aspect of Twilight,Burst,,2017-11-21,580,5600


**Câu 2**: In ra kiểu dữ liệu của các cột trong `data`.


In [None]:
data.dtypes

champion        object
title           object
primary         object
secondary       object
release_date    object
base_attack     object
base_health     object
dtype: object

**Câu 3**: Thực hiện chuyển đổi kiểu dữ liệu (nếu cần) cho các cột `release_date`, `base_attack` và `base_health` về kiểu dữ liệu phù hợp.

In [None]:
data = data.assign(base_attack = pd.to_numeric(data['base_attack'].str.replace(',','.')))
data = data.assign(base_health = pd.to_numeric(data['base_health'].str.replace(',','.')))
data = data.assign(release_date = pd.to_datetime(data['release_date']))
data

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
0,Aatrox,the Darkin Blade,Juggernaut,,2013-06-13,60.000,580.0
1,Ahri,the Nine-Tailed Fox,Burst,,2011-12-14,53.040,526.0
2,Akali,the Rogue Assassin,Assassin,,2010-05-11,62.400,575.0
3,Alistar,the Minotaur,Vanguard,,2009-02-21,62.000,600.0
4,Amumu,the Sad Mummy,Vanguard,,2009-06-26,53.380,615.0
...,...,...,...,...,...,...,...
148,Zed,the Master of Shadows,Assassin,,2012-11-13,63.000,584.0
149,Ziggs,the Hexplosives Expert,Artillery,,2012-02-01,54.208,536.0
150,Zilean,the Chronokeeper,Specialist,,2009-04-18,51.640,504.0
151,Zoe,the Aspect of Twilight,Burst,,2017-11-21,58.000,560.0


**Câu 4**: In lại kiểu dữ liệu của các cột trong `data` để kiểm tra việc chuyển dữ liệu.

In [None]:
data.dtypes

champion                object
title                   object
primary                 object
secondary               object
release_date    datetime64[ns]
base_attack            float64
base_health            float64
dtype: object

## Phần 2: Một số thao tác với `DataFrame`.
Phần này ôn lại các thao tác cơ bản trong `DataFrame`.

**Câu 5**: In ra số lượng tướng có trong `data`.

In [None]:
data.champion.size

153

**Câu 6**: In ra các tướng ra mắt trong năm 2020.

*Gợi ý*: có thể dùng accessor `.dt` và thuộc tính `.year` của kiểu thời gian.

In [None]:
data[data['release_date'].dt.year == 2020]

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
64,Lillia,the Bashful Bloom,Skirmisher,,2020-07-22,61.0,580.0
94,Rell,the Iron Maiden,Vanguard,,2020-12-10,55.0,540.0
100,Samira,the Desert Rose,Marksman,,2020-09-21,57.0,530.0
103,Seraphine,the Starry-Eyed Songstress,Burst,Enchanter,2020-10-29,50.0,500.0
104,Sett,the Boss,Juggernaut,,2020-01-14,60.0,600.0
144,Yone,the Unforgotten,Assassin,Skirmisher,2020-08-06,60.0,550.0


**Câu 7**: In ra ngày ra mắt của các tướng có phân lớp chính là `'Marksman'`.

In [None]:
data[data['primary']=='Marksman']['release_date']

7     2019-12-11
8     2009-02-21
15    2011-01-04
19    2009-09-19
23    2012-06-06
27    2010-03-16
46    2016-02-01
47    2013-10-10
48    2018-03-07
49    2014-11-20
58    2015-10-14
60    2010-06-24
66    2013-08-22
73    2010-09-08
100   2020-09-21
102   2019-11-10
110   2009-02-21
123   2009-02-21
127   2009-05-01
130   2012-05-08
131   2011-05-10
140   2017-04-19
Name: release_date, dtype: datetime64[ns]

**Câu 8**: In ra những tướng có tên bắt đầu bằng chữ `'N'`.

*Gợi ý*: dùng `.str.startswith()`.


In [None]:
data.champion[data.champion.str.startswith('N')]

76              Nami
77             Nasus
78          Nautilus
79             Neeko
80           Nidalee
81          Nocturne
82    Nunu & Willump
Name: champion, dtype: object

**Câu 9**: In ra những tướng có dấu nháy đơn `'` trong tên.

*Gợi ý*: dùng `.str.find()`.

In [None]:
data.champion[data.champion.str.find("'")!=-1]

18     Cho'Gath
48       Kai'Sa
57      Kha'Zix
60      Kog'Maw
93      Rek'Sai
133     Vel'Koz
Name: champion, dtype: object

**Câu 10**: In ra những tướng không có từ `'the'` trong danh hiệu.

In [None]:
data.champion[data['title'].str.find('the')==-1]

26     Evelynn
44         Jax
90       Quinn
145     Yorick
Name: champion, dtype: object

**Câu 11**: Lấy ra những tướng có cùng phân loại chính với **Yasuo**.

In [None]:

data[data['primary']== data[data.champion == 'Yasuo' ].primary.array[0]]


Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
29,Fiora,the Grand Duelist,Skirmisher,,2012-02-29,68.0,550.0
44,Jax,Grandmaster at Arms,Skirmisher,,2009-02-21,68.0,592.8
55,Kayn,the Shadow Reaper,Skirmisher,,2017-07-12,68.0,585.0
64,Lillia,the Bashful Bloom,Skirmisher,,2020-07-22,61.0,580.0
72,Master Yi,the Wuju Bladesman,Skirmisher,,2009-02-21,66.0,598.56
97,Riven,the Exile,Skirmisher,,2011-09-14,64.0,560.0
125,Tryndamere,the Barbarian King,Skirmisher,,2009-05-01,69.0,625.64
143,Yasuo,the Unforgiven,Skirmisher,,2013-12-13,60.0,490.0


**Câu 12**: Lấy ra tướng `'Assassin'` mới nhất được ra mắt.

In [None]:
s = data[data['primary']=='Assassin']
s[s['release_date']==max(s['release_date'])]

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
144,Yone,the Unforgotten,Assassin,Skirmisher,2020-08-06,60.0,550.0


**Câu 13**: Có bao nhiêu phân loại chính?

*Gợi ý*: dùng phương thức `.nunique()`.

In [None]:
data.primary.nunique()

13

**Câu 14**: Có bao nhiêu tướng có phân loại phụ?

*Gợi ý*: dùng phương thức `.count()`

In [None]:
data.secondary.count()

13

**Câu 15**: Sắp xếp `data` theo `base_attack` tăng dần.

In [None]:
data.sort_values('base_attack')

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
84,Orianna,the Lady of Clockwork,Burst,,2011-06-01,40368,5300
51,Karthus,the Deathsinger,Battlemage,,2009-06-12,4566,5500
42,Janna,the Storm's Fury,Enchanter,,2009-09-02,460,5000
67,Lulu,the Fae Sorceress,Enchanter,,2012-03-20,470,5250
56,Kennen,the Heart of the Tempest,Specialist,,2010-04-08,480,5410
...,...,...,...,...,...,...,...
18,Cho'Gath,the Terror of the Void,Specialist,,2009-06-26,690,5744
49,Kalista,the Spear of Vengeance,Marksman,,2014-11-20,690,5340
125,Tryndamere,the Barbarian King,Skirmisher,,2009-05-01,690,62564
95,Renekton,the Butcher of the Sands,Diver,,2011-01-18,690,5750


**Câu 16**: In ra những tướng có `base_health` lớn hơn 600.

In [None]:
data.champion[data['base_health'] > 600]

4           Amumu
23         Draven
33          Garen
47           Jinx
53       Katarina
111       Skarner
124       Trundle
125    Tryndamere
127        Twitch
147           Zac
Name: champion, dtype: object

**Câu 17**: In ra tướng có `base_health` lớn nhất của phân lớp chính `'Juggernaut'`.

In [None]:
a = data[data['primary']== 'Juggernaut']
a[a['base_health']==max(a['base_health'])]

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
33,Garen,the Might of Demacia,Juggernaut,,2010-04-27,66.0,620.0


**Câu 18**: In ra tướng có `base_attack` thấp nhất của phân lớp chính `'Marksman'`.

In [None]:
b = data[data['primary']== 'Marksman']
b[b['base_attack']== min(b['base_attack'])]

Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
102,Senna,the Redeemer,Marksman,Enchanter,2019-11-10,50.0,520.0


**Câu 19**: In ra `base_attack` và `base_health` trung bình của các tướng thuộc phân lớp chính `'Skirmisher'`.

In [None]:
data.base_attack[data['primary']=='Skirmisher'].mean()

65.5

In [None]:
data.base_health[data['primary']=='Skirmisher'].mean()

572.75

**Câu 20**: Đổi kiểu dữ liệu cột `primary` và `secondary` sang kiểu `'category'`.

*Gợi ý*: dùng `.astype('category')` và `.assign()`.

In [None]:
data = data.assign(primary = data['primary'].astype('category'))
data = data.assign(secondary = data['secondary'].astype('category'))
data.dtypes

champion                object
title                   object
primary               category
secondary             category
release_date    datetime64[ns]
base_attack            float64
base_health            float64
dtype: object