# Biến đổi data

Sau khi đã đọc data, cần làm sạch và biến đổi data cho phù hợp với mục đích sử dụng. `DataFrame` của pandas là 1 công cụ rất tốt để thực hiện việc này.
Có thể nghĩ đơn giản về DataFrame như 1 spreadsheet. Nó cung cấp các chức năng:
- Lưu trữ và biểu diễn data dưới dạng bảng
- Thêm, xóa, sửa hàng, cột
- Xoay bảng, ghép cột, ghép bảng
- Vẽ đồ thị
- ...

In [7]:
import pandas as pd

pd.set_option('max.rows', 6)

data = pd.read_csv('data/titanic.csv')
data.index

RangeIndex(start=0, stop=891, step=1)

In [2]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [3]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


pandas tự động tạo thêm 1 cột index để dễ dàng quản lý data. Tuy nhiên với bộ data này ta đã có sẵn cột `PassengerId` có thể dùng làm index

In [8]:
data.set_index('PassengerId', inplace=True)
# data = data.set_index('PassengerId') cho kết quả tương tự
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Truy xuất dữ liệu

Để tách lấy 1 cột trong `DataFrame`, có thể dùng _attribute lookup_

In [9]:
data.Survived

PassengerId
1      0
2      1
3      1
      ..
889    0
890    1
891    0
Name: Survived, Length: 891, dtype: int64

hoặc dùng kiểu truy xuất theo key _getitem_ như với dict

In [10]:
data['Name']

PassengerId
1                                Braund, Mr. Owen Harris
2      Cumings, Mrs. John Bradley (Florence Briggs Th...
3                                 Heikkinen, Miss. Laina
                             ...                        
889             Johnston, Miss. Catherine Helen "Carrie"
890                                Behr, Mr. Karl Howell
891                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

2 cách trên trả ra object với kiểu dữ liệu là `Series`. Nếu vẫn muốn kiểu trả ra là `DataFrame`, có thể truyền 1 list vào làm index cho _getitem_

In [12]:
name_series = data['Name']
print(type(name_series))
name_df = data[['Name']]
print(type(name_df))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


Có thể dùng cách này để select 1 lúc nhiều cột

In [13]:
data[['Name', 'Survived']]

Unnamed: 0_level_0,Name,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,"Braund, Mr. Owen Harris",0
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1
3,"Heikkinen, Miss. Laina",1
...,...,...
889,"Johnston, Miss. Catherine Helen ""Carrie""",0
890,"Behr, Mr. Karl Howell",1
891,"Dooley, Mr. Patrick",0


Để select data theo hàng, dùng `loc` và `iloc`.
`loc` select data theo __giá trị__ của index

In [14]:
data.loc[1]

Survived                          0
Pclass                            3
Name        Braund, Mr. Owen Harris
                     ...           
Fare                           7.25
Cabin                           NaN
Embarked                          S
Name: 1, Length: 11, dtype: object

`iloc` select data theo __thứ tự__ (từ 0)

In [15]:
data.iloc[1]

Survived                                                    1
Pclass                                                      1
Name        Cumings, Mrs. John Bradley (Florence Briggs Th...
                                  ...                        
Fare                                                  71.2833
Cabin                                                     C85
Embarked                                                    C
Name: 2, Length: 11, dtype: object

Cả 2 đều support sử dụng __slice__ để lấy dữ liệu

In [16]:
data.loc[2:16]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
...,...,...,...,...,...,...,...,...,...,...,...
14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S


Có thể kết hợp select hàng và cột

In [18]:
data.iloc[:3, [1, 2]]  # Chọn 3 row đầu, và chỉ lấy cột 1, 2 

Unnamed: 0_level_0,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3,"Braund, Mr. Owen Harris"
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,3,"Heikkinen, Miss. Laina"


In [19]:
data.loc[[1, 3, 5], ['Name', 'Survived']]

Unnamed: 0_level_0,Name,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,"Braund, Mr. Owen Harris",0
3,"Heikkinen, Miss. Laina",1
5,"Allen, Mr. William Henry",0


### Excersise

Có 1 số cách khác để select dữ liệu từ `DataFrame`. Thử tìm cách select
- Tất cả các hàng có `PassengerId` lẻ
- Tất cả các cột trừ cột `Survived`

In [20]:
# Code vào đây

In [None]:
# %load solutions/select_data.py
