## Giới thiệu
Trong bài thực hành này, chúng ta sẽ thực hành kỹ năng đọc, chuyển đổi kiểu dữ liệu của `DataFrame` (kèm một số kỹ năng khác).

## Dữ liệu
Dữ liệu của bài thực hành này được tổng hợp từ [trang wiki](https://leagueoflegends.fandom.com/wiki/League_of_Legends_Wiki) của trò chơi Liên minh Huyền thoại. (*cập nhật ngày 23-12-2020*)

Dữ liệu bao gồm các cột:
* `champion`: tên của tướng.
* `title`: danh hiệu tướng.
* `primary`: phân lớp chính.
* `secondary`: phân lớp phụ.
* `release_date`: ngày ra mắt.
* `base_attack`: tấn công cơ bản.
* `base_health`: máu cơ bản.

## Phần 1: Đọc và chuyển đổi dữ liệu
Phần này ôn lại cách dùng của:
* Hàm `pd.read_csv()`, `pd.to_datetime()` và `pd.to_numeric()`.
* Accessor `.str`.
* Phương thức `.assign()` của `DataFrame`.
* Cùng một số hàm và phương thức khác.

In [1]:
import pandas as pd
import datetime
import numpy as np

**Câu 1**: Mở đường dẫn dữ liệu ở trên và xem xét cẩn thận. Sau đó, dùng `pd.read_csv()` với các tham số phù hợp để đọc dữ liệu. Lưu dữ liệu đọc được với tên `data`.

*Gợi ý*
- Xem documentation của pd.read_csv() tại https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- Tham số filepath_or_buffer chính là đường dẫn đến file csv.
- Tuy nhiên file csv này có lỗi. Để bỏ qua lỗi, tham khảo các tham số có chứa từ "error" trong documentation.
- Theo mặc định, pd.read_csv() cho rằng các cột của dữ liệu được phân chia bằng dấu ",". Tên gọi của ký hiệu phân chia cột trong tiếng Anh là delimiter.

In [3]:
data = pd.read_csv('Faker.csv' ,sep = ';')
data

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
0,0,Aatrox,the Darkin Blade,Juggernaut,,2013-06-13,600,5800
1,1,Ahri,the Nine-Tailed Fox,Burst,,2011-12-14,5304,5260
2,2,Akali,the Rogue Assassin,Assassin,,2010-05-11,624,5750
3,3,Alistar,the Minotaur,Vanguard,,2009-02-21,620,6000
4,4,Amumu,the Sad Mummy,Vanguard,,2009-06-26,5338,6150
...,...,...,...,...,...,...,...,...
148,148,Zed,the Master of Shadows,Assassin,,2012-11-13,630,5840
149,149,Ziggs,the Hexplosives Expert,Artillery,,2012-02-01,54208,5360
150,150,Zilean,the Chronokeeper,Specialist,,2009-04-18,5164,5040
151,151,Zoe,the Aspect of Twilight,Burst,,2017-11-21,580,5600


**Câu 2**: In ra kiểu dữ liệu của các cột trong `data`.


In [4]:
data.dtypes

Unnamed: 0       int64
champion        object
title           object
primary         object
secondary       object
release_date    object
base_attack     object
base_health     object
dtype: object

**Câu 3**: Thực hiện chuyển đổi kiểu dữ liệu (nếu cần) cho các cột `release_date`, `base_attack` và `base_health` về kiểu dữ liệu phù hợp.

In [5]:
data = data.assign(
    release_date = pd.to_datetime(data.release_date),
    base_attack = pd.to_numeric(data.base_attack.str.replace(',','.')),
    base_health = pd.to_numeric(data.base_health.str.replace(',','.'))
)

**Câu 4**: In lại kiểu dữ liệu của các cột trong `data` để kiểm tra việc chuyển dữ liệu.

In [6]:
data.dtypes

Unnamed: 0               int64
champion                object
title                   object
primary                 object
secondary               object
release_date    datetime64[ns]
base_attack            float64
base_health            float64
dtype: object

## Phần 2: Một số thao tác với `DataFrame`.
Phần này ôn lại các thao tác cơ bản trong `DataFrame`.

**Câu 5**: In ra số lượng tướng có trong `data`.

In [7]:
print(data.shape[0])

153


**Câu 6**: In ra các tướng ra mắt trong năm 2020.

*Gợi ý*: có thể dùng accessor `.dt` và thuộc tính `.year` của kiểu thời gian.

In [8]:
#data[(data['release_date']>'2020-01-01')&(data['release_date']<'2020-12-31')]
data[data['release_date'].dt.year == 2020]

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
64,64,Lillia,the Bashful Bloom,Skirmisher,,2020-07-22,61.0,580.0
94,94,Rell,the Iron Maiden,Vanguard,,2020-12-10,55.0,540.0
100,100,Samira,the Desert Rose,Marksman,,2020-09-21,57.0,530.0
103,103,Seraphine,the Starry-Eyed Songstress,Burst,Enchanter,2020-10-29,50.0,500.0
104,104,Sett,the Boss,Juggernaut,,2020-01-14,60.0,600.0
144,144,Yone,the Unforgotten,Assassin,Skirmisher,2020-08-06,60.0,550.0


**Câu 7**: In ra ngày ra mắt của các tướng có phân lớp chính là `'Marksman'`.

In [9]:
data[(data.primary == 'Marksman') & (data.secondary == 'Enchanter')]

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
102,102,Senna,the Redeemer,Marksman,Enchanter,2019-11-10,50.0,520.0


**Câu 8**: In ra những tướng có tên bắt đầu bằng chữ `'N'`.

*Gợi ý*: dùng `.str.startswith()`.


In [10]:
data[
     data.champion.str.startswith('N')
]

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
76,76,Nami,the Tidecaller,Enchanter,,2012-12-07,51.208,475.0
77,77,Nasus,the Curator of the Sands,Juggernaut,,2009-10-01,67.0,561.2
78,78,Nautilus,the Titan of the Depths,Vanguard,,2012-02-14,61.0,576.48
79,79,Neeko,the Curious Chameleon,Burst,Catcher,2018-12-05,48.0,540.0
80,80,Nidalee,the Bestial Huntress,Specialist,,2009-12-17,58.0,545.0
81,81,Nocturne,the Eternal Nightmare,Assassin,,2011-03-15,62.0,585.0
82,82,Nunu & Willump,the Boy and His Yeti,Vanguard,,2009-02-21,61.0,570.0


**Câu 9**: In ra những tướng có dấu nháy đơn `'` trong tên.

*Gợi ý*: dùng `.str.find()`.

In [1]:
data[data.champion.str.find("'") != -1]

NameError: name 'data' is not defined

**Câu 10**: In ra những tướng không có từ `'the'` trong danh hiệu.

In [12]:
data[
     data.title.str.find('the') == -1
]

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
26,26,Evelynn,Agony's Embrace,Assassin,,2009-05-01,61.0,572.0
44,44,Jax,Grandmaster at Arms,Skirmisher,,2009-02-21,68.0,592.8
90,90,Quinn,Demacia's Wings,Specialist,,2013-03-01,59.0,532.8
145,145,Yorick,Shepherd of Souls,Juggernaut,,2011-06-22,62.0,580.0


**Câu 11**: Lấy ra những tướng có cùng phân loại chính với **Yasuo**.

In [13]:
phan_loai = data[data['champion'] == 'Yasuo']
phan_loai_Yasuo = phan_loai.primary.array[0]
#data[data.primary.str.find(phan_loai_Yasuo) != -1]
data[data['primary'] == phan_loai_Yasuo]

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
29,29,Fiora,the Grand Duelist,Skirmisher,,2012-02-29,68.0,550.0
44,44,Jax,Grandmaster at Arms,Skirmisher,,2009-02-21,68.0,592.8
55,55,Kayn,the Shadow Reaper,Skirmisher,,2017-07-12,68.0,585.0
64,64,Lillia,the Bashful Bloom,Skirmisher,,2020-07-22,61.0,580.0
72,72,Master Yi,the Wuju Bladesman,Skirmisher,,2009-02-21,66.0,598.56
97,97,Riven,the Exile,Skirmisher,,2011-09-14,64.0,560.0
125,125,Tryndamere,the Barbarian King,Skirmisher,,2009-05-01,69.0,625.64
143,143,Yasuo,the Unforgiven,Skirmisher,,2013-12-13,60.0,490.0


**Câu 12**: Lấy ra tướng `'Assassin'` mới nhất được ra mắt.

In [14]:
new_assassin = data[data.primary =='Assassin']
new_assassin.sort_values(by = 'release_date').iloc[-1]

Unnamed: 0                      144
champion                       Yone
title               the Unforgotten
primary                    Assassin
secondary                Skirmisher
release_date    2020-08-06 00:00:00
base_attack                    60.0
base_health                   550.0
Name: 144, dtype: object

**Câu 13**: Có bao nhiêu phân loại chính?

*Gợi ý*: dùng phương thức `.nunique()`.

In [15]:
data.primary.nunique()

13

**Câu 14**: Có bao nhiêu tướng có phân loại phụ?

*Gợi ý*: dùng phương thức `.count()`

In [16]:
data.secondary.count()

13

**Câu 15**: Sắp xếp `data` theo `base_attack` tăng dần.

In [17]:
data.sort_values(by = 'base_attack')

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
84,84,Orianna,the Lady of Clockwork,Burst,,2011-06-01,40.368,530.00
51,51,Karthus,the Deathsinger,Battlemage,,2009-06-12,45.660,550.00
42,42,Janna,the Storm's Fury,Enchanter,,2009-09-02,46.000,500.00
67,67,Lulu,the Fae Sorceress,Enchanter,,2012-03-20,47.000,525.00
56,56,Kennen,the Heart of the Tempest,Specialist,,2010-04-08,48.000,541.00
...,...,...,...,...,...,...,...,...
18,18,Cho'Gath,the Terror of the Void,Specialist,,2009-06-26,69.000,574.40
49,49,Kalista,the Spear of Vengeance,Marksman,,2014-11-20,69.000,534.00
125,125,Tryndamere,the Barbarian King,Skirmisher,,2009-05-01,69.000,625.64
95,95,Renekton,the Butcher of the Sands,Diver,,2011-01-18,69.000,575.00


**Câu 16**: In ra những tướng có `base_health` lớn hơn 600.

In [18]:
data[data.base_health > 600]

Unnamed: 0.1,Unnamed: 0,champion,title,primary,secondary,release_date,base_attack,base_health
4,4,Amumu,the Sad Mummy,Vanguard,,2009-06-26,53.38,615.0
23,23,Draven,the Glorious Executioner,Marksman,,2012-06-06,60.0,605.0
33,33,Garen,the Might of Demacia,Juggernaut,,2010-04-27,66.0,620.0
47,47,Jinx,the Loose Cannon,Marksman,,2013-10-10,57.0,610.0
53,53,Katarina,the Sinister Blade,Assassin,,2009-09-19,58.0,602.0
111,111,Skarner,the Crystal Vanguard,Diver,,2011-08-09,65.0,601.28
124,124,Trundle,the Troll King,Juggernaut,,2010-12-01,68.0,616.0
125,125,Tryndamere,the Barbarian King,Skirmisher,,2009-05-01,69.0,625.64
127,127,Twitch,the Plague Rat,Marksman,,2009-05-01,59.0,612.0
147,147,Zac,the Secret Weapon,Vanguard,,2013-03-29,60.0,615.0


**Câu 17**: In ra tướng có `base_health` lớn nhất của phân lớp chính `'Juggernaut'`.

In [19]:
jug = data[data.primary.str.find('Juggernaut') != -1]
jug.sort_values(by = 'base_health').iloc[-1].champion

'Garen'

**Câu 18**: In ra tướng có `base_attack` thấp nhất của phân lớp chính `'Marksman'`.

In [20]:
mar = data[data.primary.str.find('Marksman') != -1]
mar.sort_values(by = 'base_attack').iloc[0].champion

'Senna'

**Câu 19**: In ra `base_attack` và `base_health` trung bình của các tướng thuộc phân lớp chính `'Skirmisher'`.

In [21]:
skr = data[data.primary.str.find('Skirmisher') != -1]
print(skr.base_attack.mean())
print(skr.base_health.mean())

65.5
572.75


**Câu 20**: Đổi kiểu dữ liệu cột `primary` và `secondary` sang kiểu `'category'`.

*Gợi ý*: dùng `.astype('category')` và `.assign()`.

In [22]:
data = data.assign(
     primary = data.primary.astype('category'),
     secondary = data.secondary.astype('category')
)
data.dtypes

Unnamed: 0               int64
champion                object
title                   object
primary               category
secondary             category
release_date    datetime64[ns]
base_attack            float64
base_health            float64
dtype: object