# Pandas

In [4]:
import pandas as pd

## Creating Data

Có hai đối tượng chính trong Pandas là Dataframe và Series.

#### Dataframe

Dataframe là một bảng. Nó chứa một mảng các mục riêng lẻ, mỗi mục có một giá trị nhất định. Mỗi mục tương ứng với một hàng (hoặc bản ghi) và một cột.


In [5]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


In [6]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Chúng ta đang sử dụng hàm pd.DataFrame () để tạo các đối tượng DataFrame này. Cú pháp khai báo một khung dữ liệu mới là một dictionary có các key là tên cột (Bob và Sue trong ví dụ này) và có value là một danh sách các mục. Đây là cách tiêu chuẩn để xây dựng một DataFrame mới và là cách bạn thường hay phải sử dụng nhất.

Chúng ta có thể sửa *Index* tùy ý thay vì để số 0, 1, 2,... 

In [7]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


## Reading data files

Đọc file dữ liệu. Data lấy ở đây https://www.kaggle.com/c/titanic/data. Bạn tải dữ liệu về nhé.

In [8]:
df = pd.read_csv("C:/Users/hiept/OneDrive/Desktop/AI Lecture for ITPTIT/Data Processing/Pandas/train.csv")

In [9]:
df.shape # Kiểm tra kích thước file. Sẽ thấy nó có 891 hàng và 12 cột.

(891, 12)

In [10]:
df.head() # Xem 5 hàng đầu nào

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Chúng ta có thể xem thông tin của từng cột


In [11]:
df['Survived'].head() # Tên của cột cần xem trong [' '] nha. Mình để hàm .head() cho đỡ dài :))

0    0
1    1
2    1
3    1
4    0
Name: Survived, dtype: int64

Bạn cũng có thể xem thông tin nhiều cột hoặc đích danh một hàng nào đó.

In [12]:
df[['Age', 'Parch']].head()

Unnamed: 0,Age,Parch
0,22.0,0
1,38.0,0
2,26.0,0
3,35.0,0
4,35.0,0


In [13]:
df['Age'][0]

22.0

## Indexing in pandas


In [14]:
df.iloc[0] # Xem thông tin hàng đầu tiên

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                                 22
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [15]:
df.iloc[:, 1] # Xem thông tin của tất cả hàng với cột Survived (iloc là chọn dựa trên chỉ số)

0      0
1      1
2      1
3      1
4      0
5      0
6      0
7      0
8      1
9      1
10     1
11     1
12     0
13     0
14     0
15     1
16     0
17     1
18     0
19     1
20     0
21     1
22     1
23     1
24     0
25     1
26     0
27     0
28     1
29     0
      ..
861    0
862    1
863    0
864    0
865    1
866    1
867    0
868    0
869    1
870    0
871    1
872    0
873    0
874    1
875    1
876    0
877    0
878    0
879    1
880    1
881    0
882    0
883    0
884    0
885    0
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

In [16]:
df.loc[:5, ['Pclass','Name']] # .loc là chọn dựa trên tên cột

Unnamed: 0,Pclass,Name
0,3,"Braund, Mr. Owen Harris"
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,3,"Heikkinen, Miss. Laina"
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,3,"Allen, Mr. William Henry"
5,3,"Moran, Mr. James"


## Manipulating the index

Đôi khi bạn muốn đặt chỉ số là cột khác (Trong trường hợp này tớ sẽ thử là "PassengerId") ta sẽ làm như sau

In [17]:
df.set_index('PassengerId').head()


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Conditional selection

Chọn lọc những hàng thỏa mãn điều kiện

In [18]:
df.loc[(df.Survived == 1) & (df.Pclass == 1)].head() # Kiểm tra xem nhưng ai còn sống và ở khoang 1 :v bằng syntax kia nha

# Note: Khi có hơn 2 điều kiện thì nhớ là dùng kí hiệu & (và), | (hoặc) chứ không phải && hay || đâu nhé :)))

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C


In [19]:
df.loc[df.Pclass.isin(['1','2'])] # Lấy các thông tin mà Pclass nằm trong giá trị 1 và 2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.00,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.00,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.00,0,0,17463,51.8625,E46,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.00,1,0,237736,30.0708,,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.00,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.00,0,0,248706,16.0000,,S
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S
20,21,0,2,"Fynney, Mr. Joseph J",male,35.00,0,0,239865,26.0000,,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.00,0,0,248698,13.0000,D56,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.00,0,0,113788,35.5000,A6,S
