Dịch có chỉnh sửa từ notebook "Pandas tutorial with interactive exercises" của PistaK trên Kaggle.

# Phân tích dữ liệu với pandas

In [None]:
import os
import numpy as np
import pandas as pd
from IPython.display import Image
from matplotlib import pyplot as plt

In [None]:
%matplotlib inline 
pd.options.mode.chained_assignment = None  # default='warn'

Pokémon là một thương hiệu truyền thông điều hành bởi Tổng Công ty Pokémon, sự kết hợp giữa các công ty Nhật Bản gồm Nintendo, Game Freak và Creatures. Nó bao gồm trò chơi điện tử, thẻ bài, phim hoạt hình, phim điện ảnh, truyện tranh và đồ chơi.

In [None]:
Image('http://cdn-static.denofgeek.com/sites/denofgeek/files/pokemon_4.jpg')

### 1. Đọc dữ liệu vào bộ nhớ

Giả sử chúng ta đã có sẵn dữ liệu trên đĩa, ta có thể đọc nó dưới dạng DataFrame của pandas, lưu trong bộ nhớ của Python.

In [None]:
# cho biết vị trí hiện hành trên máy tính
os.getcwd()

In [None]:
# đọc file .csv và nhập dữ liệu vào bộ nhớ
poke = pd.read_csv('../Data/Pokemon.csv')

In [None]:
# xem trước một số dòng đầu tiên của bộ dữ liệu
poke.head()

**Q: DataFrame của pandas là gì?**

Nó là tập hợp các Series (cột) với độ dài bằng nhau và được tạo thành bởi các array (mảng) của numpy

In [None]:
# Dữ liệu của chúng ta lưu dưới kiểu dữ liệu DataFrame
type(poke)

In [None]:
# Các cột có kiểu dữ liệu Series
type(poke['Name'])

In [None]:
# Dữ liệu trong các cột được lưu dưới dạng các mảng (array) numpy
type(poke['Name'].values)

In [None]:
# Các phần tử mang giá trị cơ bản của python (str, int,...)
type(poke['Name'].values[0])

In [None]:
poke['Name'].head()

In [None]:
len(poke)

In [None]:
len(poke) == len(poke['Name'])

### 2. Khám phá bộ dữ liệu

Có gì trong bộ dữ liệu của chúng ta? Trong phần này, chúng ta sẽ đi tìm câu trả lời cho câu hỏi đó.

In [None]:
# Thông tin chung về các cột dữ liệu
poke.info()

In [None]:
# Kiểm tra các phần tử null (rỗng)
poke.isnull().sum()

In [None]:
# Đặc trưng thống kê của các cột dữ liệu
poke.describe()

In [None]:
# Đếm số lượng các pokemon huyền thoại (Legendary)
poke['Legendary'].sum()

Q: Tại sao có được các con số này?

#### Cắt lát và lọc

In [None]:
# Lọc luận lý (sử dụng biểu thức luận lý làm số chỉ của mảng)
poke[poke['Name'] == 'Pikachu']

In [None]:
# Lọc luận lý kết hợp sử dụng loc, isin
poke[poke.loc[:,'Name'].isin(['Pikachu', 'Bulbasaur', 'Charmander', 'Squirtle'])]

In [None]:
# Tạo DataFrame con
image_poke = poke[poke.loc[:,'Name'].isin(['Pikachu', 'Bulbasaur', 'Charmander', 'Squirtle'])]
image_poke

### 3. Tiền xử lý dữ liệu

Với một bộ dữ liệu bất kì, liệu ta có thể sử dụng nó ngay hay cần tiền xử lý? Điền/xóa các giá trị rỗng (null), tạo cột mới với các tính toán, xóa các cột dư thừa, loại bỏ các cột chưa hoàn thiện, tạo ra các bộ dữ liệu con, đổi kiểu dữ liệu, sửa tên cột,... Tất cả đều nằm trong bước tiền xử lý dữ liệu trước khi phân tích dữ liệu.

Đổi tên cột

In [None]:
poke = poke.rename(columns={'#':'Number'})
poke.columns

Tạo bộ dữ liệu con chỉ gồm các pokémon thường

In [None]:
# Pokémon thường tức là không phải huyền thoại ^^
only_common = # điền vào chỗ trống
only_common

Tạo bộ dữ liệu con gồm các pokémon không chứa 'Mega ' trong tên

In [None]:
# Gợi ý 1: sử dụng .str để biến kiểu dữ liệu Series thành một mảng các chuỗi
# Gợi ý 2: dùng phương thức .contains(s) của kiểu dữ liệu chuỗi để kiểm tra xem chuỗi có chứa chuỗi s hay không 
#          ví dụ: "PiMA 2018".constains("MA 20") trả về True
no_mega = # hoàn thành dòng lệnh này
no_mega.head()

Phương thức **Group by** để gom nhóm dữ liệu

In [None]:
# kiểm tra liệu có hai dòng có cùng một số (Number) hay không
poke['Number'].groupby(poke['Number']).count().sort_values(ascending=False)
# thêm dấu ; ở cuối dòng lệnh để không hiển thị output ra màn hình. Thử xem!

Removing mega wasn't enough. Let's consider all pokemon with same number as duplicates, drop them and keep only the first one.

In [None]:
# loại bỏ các dòng bị trùng
nodup_poke =  # gợi ý: sử dụng .drop_duplicates('Number', keep='first', inplace=False)
nodup_poke.head()

In [None]:
# Khi loại bỏ, index (chỉ số) của các dòng không tự động cập nhật, cần đánh chỉ số lại (từ 0 tới n - 1)
nodup_poke.reset_index(inplace=True, drop=True)
nodup_poke.head()

Now that we have desired and clean dataset, let's move to another step.

### 4. Xử lý dữ liệu

Trong bước này, chúng ta đã sẵn sàng để nghiên cứu trả lời các câu hỏi từ bộ dữ liệu. 

Một số câu hỏi ví dụ:
- Hệ (fire, water,...) nào là thông dụng nhất?
- Hệ nào là mạnh/yếu nhất?
- 5 con pokemon mạnh nhất trong số các con pokemon thường?
- Gen nào có các pokemon mạnh nhất về trung bình?
- Pikachu mạnh thế nào so với các pokemon cùng hệ?

In [None]:
# Kiểm tra số lượng pokemon
len(nodup_poke['Number'].unique())

In [None]:
# Hệ nào là mạnh/yếu nhất?
strongest_type_avg = nodup_poke[['Type 1','Total']].groupby(nodup_poke['Type 1']).mean().sort_values(by='Total', ascending=False)
strongest_type_avg

Đoạn code dài ngoằng trên đã làm gì?

Thế còn đoạn dưới này?

In [None]:
strongest_type_max = nodup_poke[['Total', 'Name', 'Type 1']].sort_values(
                                by='Total', ascending=False).groupby('Type 1', as_index=False)
strongest_type_max 

Tương tự, hãy trả lời các câu hỏi sau bằng đoạn mã

In [None]:
# Hệ pokemon nào là thông dụng nhất?
type_frequency = # điền vào đoạn sau
type_frequency

In [None]:
# 5 pokemon thường mạnh nhất?
top5_poke = # điền vào đoạn sau
top5_poke

In [None]:
# Gen nào có các pokemon mạnh nhất về trung bình?
generation_comparison = # điền vào đoạn sau
generation_comparison

In [None]:
# Pikachu có hệ gì?
pikachu_type = # điền vào đoạn sau
pikachu_type

In [None]:
# Pikachu mạnh thứ mấy so với pokemon cùng hệ?
pikachu_rank = nodup_poke[nodup_poke['Type 1'] == pikachu_type].sort_values();
pikachu_rank;
# đoạn mã trên đã làm gì?

In [None]:
# đánh chỉ số lại
pikachu_rank.reset_index(inplace=True)
pikachu_rank

### 5. Mô phỏng kết quả

- Vẽ một histogram thông số Tổng của mọi pokemon thường
- Vẽ một biểu đồ hộp (boxplot) của thông số Tổng theo hệ
- Vẽ một biểu đồ hộp (boxplot) của thông số Tổng theo gen
- Vẽ một biểu đồ cột (barplot) của thông số Tổng theo gen
- Mô phỏng thông số của Pikachu so với các pokemon cùng hệ

In [None]:
# Vẽ một histogram thông số Tổng của mọi pokemon thường
# Gợi ý: sử dụng .plot.hist(bins=15)

In [None]:
import matplotlib.cm as cm  

# colormaps https://matplotlib.org/examples/color/colormaps_reference.html
type_colors = cm.spring(np.linspace(0.05,0.95,len(type_frequency)))
type_frequency.plot.bar(color=type_colors)

In [None]:
# Vẽ một biểu đồ hộp (boxplot) của thông số Tổng theo hệ.
nodup_poke.boxplot(column='Total', by='Type 1')

In [None]:
# Giả sử chỉ cần vẽ cho các hệ Bug, Grass, Fire.
nodup_poke # hoàn thành đoạn mã này

In [None]:
# Vẽ một biểu đồ hộp (boxplot) của thông số Tổng theo gen
nodup_poke # hoàn thành đoạn mã này

In [None]:
# Vẽ một biểu đồ cột (barplot) của thông số Tổng theo gen
generation_comparison['Generation'] = generation_comparison['Generation'].astype('str')
gen_colors = cm.summer(np.linspace(0.05,0.95,len(generation_comparison)))
generation_comparison.plot.bar(x='Generation',color=gen_colors, title='Comparison of avg total stats between pokemon generations')

In [None]:
# Vẽ biểu đồ cột (barplot) độ mạnh Tổng của pokemon mạnh nhất trong từng hệ


In [None]:
# Biểu diễn thông số của Pikachu so với các pokemon cùng hệ
pikachu_rank['color'] = 'Grey'
pikachu_rank['size'] = 30
pikachu_rank['color'][pikachu_rank['Name']=='Pikachu']='Yellow'
pikachu_rank['size'][pikachu_rank['Name']=='Pikachu']=100
pika_plot = pikachu_rank.plot.scatter(x='Generation', y='Total', 
                                      c=pikachu_rank['color'], s=pikachu_rank['size'],
                          title='Pikachu vs other electric pokemon')

Lưu biểu đồ dưới dạng png

In [None]:
fig = pika_plot.get_figure()
fig.savefig('pika_plot.png')