<img align="center" width="500" height="500" src="https://cdn.analyticsvidhya.com/wp-content/uploads/2020/07/panda-tips.jpg">

# 1. Giới thiệu về thư viện pandas

Thư viện là một package được xây dựng dựa trên numpy giúp chúng có thể xử lý dataframe dạng bảng gồm nhiều thuộc tính được gán nhãn.

In [1]:
import pandas as pd
pd.__version__

'1.1.5'

# 2. Tạo dữ liệu Series trong pandas

## `pd.Series()`

In [2]:
data=pd.Series([1,2,3,4,5])
data

0    1
1    2
2    3
3    4
4    5
dtype: int64

Ta thấy rằng Series là kiểu mảng 1 chiều và được đánh index cho dữ liệu.

**Xem kiểu của dữ liệu**

In [3]:
type(data)

pandas.core.series.Series

Ở đây dữ liệu thuộc kiểu series.

**Giá trị của dữ liệu là 1 mảng array**

In [4]:
data.values

array([1, 2, 3, 4, 5], dtype=int64)

## Lấy index và subset của dữ liệu

In [5]:
data.index

RangeIndex(start=0, stop=5, step=1)

In [6]:
data[1]

2

In [7]:
data[0:3]

0    1
1    2
2    3
dtype: int64

**Tự tạo index**

In [8]:
data=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
data

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [9]:
data['c']

3

**Tạo dữ liệu dựa vào dictionary**

In [10]:
car_dict={"Audi":1994,"Tesla":2010,"Toyota":2012}
car=pd.Series(car_dict)
car

Audi      1994
Tesla     2010
Toyota    2012
dtype: int64

Các key của dict khi bỏ vào dữ liệu series sẽ đóng vai trò là index.

In [11]:
car['Audi']

1994

In [12]:
car['Audi':'Tesla']

Audi     1994
Tesla    2010
dtype: int64

## Mảng 2 chiều với DataFrame 

In [13]:
car_dict={"Audi":1994,"Tesla":2010,"Toyota":2012}
car=pd.Series(car_dict)
car

Audi      1994
Tesla     2010
Toyota    2012
dtype: int64

In [14]:
df_car=pd.DataFrame({"year":car})
df_car

Unnamed: 0,year
Audi,1994
Tesla,2010
Toyota,2012


Tương tự như kiểu Series thì DataFrame sẽ có 2 chỉ số hàng và cột.

In [15]:
df_car.index

Index(['Audi', 'Tesla', 'Toyota'], dtype='object')

In [16]:
df_car.columns

Index(['year'], dtype='object')

In [17]:
df_car['year']

Audi      1994
Tesla     2010
Toyota    2012
Name: year, dtype: int64

In [18]:
pd.DataFrame(df_car,columns=['year'])

Unnamed: 0,year
Audi,1994
Tesla,2010
Toyota,2012


**Tạo dữ liệu DataFrame phối hợp dict với list**

In [19]:
a_dict={'a':1,'b':2}
b_dict={'b':3,'c':4}
pd.DataFrame([a_dict,b_dict])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


**Tạo dữ liệu đầy đủ**

In [20]:
import numpy as np
df=pd.DataFrame(np.random.rand(3, 2),
             columns=['height', 'long'],
             index=['a', 'b', 'c'])
df

Unnamed: 0,height,long
a,0.313269,0.773446
b,0.327772,0.848469
c,0.378675,0.228913


In [21]:
'height' in df

True

In [22]:
'c' in df

False

**Phương thức `key()` và `items()` trong python lõi**

In [23]:
df.keys()

Index(['height', 'long'], dtype='object')

In [24]:
list(df.items())

[('height', a    0.313269
  b    0.327772
  c    0.378675
  Name: height, dtype: float64), ('long', a    0.773446
  b    0.848469
  c    0.228913
  Name: long, dtype: float64)]

**Thêm một cột cho dữ liệu**

In [25]:
df['d']=2
df

Unnamed: 0,height,long,d
a,0.313269,0.773446,2
b,0.327772,0.848469,2
c,0.378675,0.228913,2


**Lấy tập con theo chiều index**

In [26]:
df['a':'b']

Unnamed: 0,height,long,d
a,0.313269,0.773446,2
b,0.327772,0.848469,2


In [27]:
df[0:2]

Unnamed: 0,height,long,d
a,0.313269,0.773446,2
b,0.327772,0.848469,2


In [28]:
df.iloc[1:3]

Unnamed: 0,height,long,d
b,0.327772,0.848469,2
c,0.378675,0.228913,2


**Lấy theo chiều thuộc tính**

In [29]:
df['long']

a    0.773446
b    0.848469
c    0.228913
Name: long, dtype: float64

In [30]:
df.long

a    0.773446
b    0.848469
c    0.228913
Name: long, dtype: float64

# 3. Phép toán trên DataFrame

In [31]:
df['height/long']=df['height']/df['long']
df

Unnamed: 0,height,long,d,height/long
a,0.313269,0.773446,2,0.40503
b,0.327772,0.848469,2,0.386309
c,0.378675,0.228913,2,1.654229


In [32]:
df.values

array([[0.31326869, 0.77344634, 2.        , 0.40502964],
       [0.32777156, 0.84846891, 2.        , 0.38630945],
       [0.37867486, 0.22891314, 2.        , 1.65422946]])

In [33]:
df.values[0]

array([0.31326869, 0.77344634, 2.        , 0.40502964])

In [34]:
df.T

Unnamed: 0,a,b,c
height,0.313269,0.327772,0.378675
long,0.773446,0.848469,0.228913
d,2.0,2.0,2.0
height/long,0.40503,0.386309,1.654229


In [35]:
df[df.long>0.8]

Unnamed: 0,height,long,d,height/long
b,0.327772,0.848469,2,0.386309


**Phép cộng trên dữ liệu Series**

In [36]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A+B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

Ta thấy rằng có những chổ có index thiếu khi cộng sẽ hiện thị ra NaN(Not a Number).

In [37]:
4+np.nan

nan

**Phép cộng cho phép điền đầy giá trị bị khuyết trước khi cộng vào**

In [38]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

# 4. Xử lý dữ liệu bị khuyết

In [39]:
a=np.array([9,3,None,41])
a.dtype

dtype('O')

Do None là kiểu trong python lõi không có trong mảng khi chuyển qua mảng array sẽ hiểu là kiểu Object.

In [40]:
b=np.array([1,np.nan,3,4])
b.dtype

dtype('float64')

In [41]:
b.sum()

nan

In [42]:
pd.Series([1,np.nan,2,None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

## Tính giá trị bị khuyết
## `isnull()` sẽ trả về mask kiểu boolean

In [43]:
data = pd.Series([1, np.nan, '3', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [44]:
data.isnull().sum()

2

**Ngược lại với isnull ta có notnul().**

## `notnull()`

In [45]:
data.notnull()

0     True
1    False
2     True
3    False
dtype: bool

**Xóa bỏ hàng có giá trị bị khuyết**
## `dropna()`

In [46]:
data.dropna()

0    1
2    3
dtype: object

**Điền vào giá trị bị khuyết**
## `fillna()`

In [47]:
data.fillna(0)

0    1
1    0
2    3
3    0
dtype: object

Phương thức method **'ffill'** có nghĩa là forward fill còn **'bfill'** là back fill.

In [48]:
data.fillna(method='ffill')

0    1
1    1
2    3
3    3
dtype: object

In [49]:
data.fillna(method='bfill')

0       1
1       3
2       3
3    None
dtype: object

**Sử dụng nội suy**
## `interpolate()`

In [50]:
data.interpolate()

0       1
1     NaN
2       3
3    None
dtype: object

## Kết nối 2 mảng series bằng phương thức concatenation
## `pd.concat()`

In [51]:
sr1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
sr2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([sr1, sr2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [52]:
df1 = pd.DataFrame([['A', 1], ['B', 2]], columns=['spam', 'foo'])
df2 = pd.DataFrame([['C', 3], ['D', 4]],columns=['spam', 'foo'])

In [53]:
pd.concat([df1, df2])

Unnamed: 0,spam,foo
0,A,1
1,B,2
0,C,3
1,D,4


## Kết hợp 2 dataframe bằng merge và join
## `pd.merge()`, `pd.join()`

In [54]:
df1 = pd.DataFrame({'Nhân viên': ['Lambda', 'Beta', 'Alpha', 'Omega'],
'Phòng ban': ['Nhân sự', 'Kế toán', 'Kỹ thuật', 'Kỹ thuật']})
df1

Unnamed: 0,Nhân viên,Phòng ban
0,Lambda,Nhân sự
1,Beta,Kế toán
2,Alpha,Kỹ thuật
3,Omega,Kỹ thuật


In [55]:
df2 = pd.DataFrame({'Nhân viên': ['Lambda', 'Beta', 'Alpha', 'Omega'],'Tuổi': [20, 22,29, 27]})
df2

Unnamed: 0,Nhân viên,Tuổi
0,Lambda,20
1,Beta,22
2,Alpha,29
3,Omega,27


In [56]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,Nhân viên,Phòng ban,Tuổi
0,Lambda,Nhân sự,20
1,Beta,Kế toán,22
2,Alpha,Kỹ thuật,29
3,Omega,Kỹ thuật,27


In [57]:
df4 = pd.DataFrame({'Phòng ban': ['Kế toán', 'Kỹ thuật', 'Nhân sự'],
'Trưởng phòng': ['Logs', 'Delta', 'Gamma']})
df4

Unnamed: 0,Phòng ban,Trưởng phòng
0,Kế toán,Logs
1,Kỹ thuật,Delta
2,Nhân sự,Gamma


In [58]:
df5=pd.merge(df3,df4)
df5

Unnamed: 0,Nhân viên,Phòng ban,Tuổi,Trưởng phòng
0,Lambda,Nhân sự,20,Gamma
1,Beta,Kế toán,22,Logs
2,Alpha,Kỹ thuật,29,Delta
3,Omega,Kỹ thuật,27,Delta


**Hợp nhiều thành phần**

In [59]:
df6 = pd.DataFrame({'Phòng ban': ['Kế toán', 'Kế toán','Kỹ thuật', 
                              'Kỹ thuật', 'Nhân sự', 'Nhân sự'],
                    'skills': ['math', 'physics', 'developer', 'coder',
                               'hacker','cracker']})
df6

Unnamed: 0,Phòng ban,skills
0,Kế toán,math
1,Kế toán,physics
2,Kỹ thuật,developer
3,Kỹ thuật,coder
4,Nhân sự,hacker
5,Nhân sự,cracker


In [60]:
df7=pd.merge(df1,df6)
df7

Unnamed: 0,Nhân viên,Phòng ban,skills
0,Lambda,Nhân sự,hacker
1,Lambda,Nhân sự,cracker
2,Beta,Kế toán,math
3,Beta,Kế toán,physics
4,Alpha,Kỹ thuật,developer
5,Alpha,Kỹ thuật,coder
6,Omega,Kỹ thuật,developer
7,Omega,Kỹ thuật,coder


## `set_index()`

In [61]:
df1a = df1.set_index('Nhân viên')
df2a = df2.set_index('Nhân viên')

In [62]:
df1a.join(df2a)

Unnamed: 0_level_0,Phòng ban,Tuổi
Nhân viên,Unnamed: 1_level_1,Unnamed: 2_level_1
Lambda,Nhân sự,20
Beta,Kế toán,22
Alpha,Kỹ thuật,29
Omega,Kỹ thuật,27


## Kỹ thuật Split, apply, combine

<img align="left" width="500" height="500" src="https://www.w3resource.com/w3r_images/pandas-groupby-split-apply-combine.svg">

## `DataFrame.groupby()`

In [63]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'data': range(6)}, 
                  columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [64]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x06D509F0>

In [65]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


## Hàm tổng hợp dữ liệu
## `Aggregate()`

In [66]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'data1': range(6),
                    'data2': rng.randint(0, 10, 6)},
                    columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [67]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [68]:
df.groupby('key').aggregate({'data1': 'min','data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


## `fillter()`

In [69]:
print(df)

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9


In [70]:
print(df.groupby('key').std())

       data1     data2
key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641


In [71]:
def filter_func(x):
    return x['data2'].std() > 4
print(df.groupby('key').filter(filter_func))

  key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9


## `transform()`

In [72]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


## `apply()`

In [73]:
def norm_by_data2(x):
    x['data1'] /= x['data2'].sum()
    return x
print(df); print(df.groupby('key').apply(norm_by_data2))

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
  key     data1  data2
0   A  0.000000      5
1   B  0.142857      0
2   C  0.166667      3
3   A  0.375000      3
4   B  0.571429      7
5   C  0.416667      9


# 4. Xem một số thông tin cơ bản của DataFrame

## Đọc dữ liệu
##  `pd.read_csv()`

In [74]:
data_frame=pd.read_csv('data/housing.csv')

In [75]:
type(data_frame)

pandas.core.frame.DataFrame

Ta thấy rằng file csv sẽ chuyển thành kiểu dataframe trong pandas.

## Xem dữ liệu đầu tiên và cuối
## `DataFrame.head()` và `DataFrame.tail()`

In [76]:
data_frame.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [77]:
data_frame.shape

(20640, 10)

## Xem thông tin information dữ liệu cơ bản

## `DataFrame.info()`

In [78]:
#Xem information số hàng,cột,dữ liệu rỗng, kiểu dữ liệu 
data_frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.5+ MB


In [79]:
data_frame.columns

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value', 'ocean_proximity'],
      dtype='object')

In [80]:
data_frame.index

RangeIndex(start=0, stop=20640, step=1)

In [81]:
data_frame['households'].unique()

array([ 126., 1138.,  177., ..., 1767., 1832., 1818.])

**Sử dụng toán thổng kê để tính toán từ trường dữ liệu**
## `DataFrame.describe()`

In [82]:
data_frame.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


**Sort dữ liệu**
## `DataFrame.sort_values()`

In [83]:
data_frame['longitude'].sort_values(ascending=True)

2655    -124.35
1861    -124.30
1851    -124.30
2631    -124.27
2653    -124.26
          ...  
12450   -114.56
2780    -114.55
12447   -114.49
13923   -114.47
13924   -114.31
Name: longitude, Length: 20640, dtype: float64

**Đếm giá trị dữ liệu**
## `DataFrame.value_counts()`

In [84]:
data_frame['housing_median_age'].value_counts()

52.0    1273
36.0     862
35.0     824
16.0     771
17.0     698
34.0     689
26.0     619
33.0     615
18.0     570
25.0     566
32.0     565
37.0     537
15.0     512
19.0     502
27.0     488
24.0     478
30.0     476
28.0     471
20.0     465
29.0     461
31.0     458
23.0     448
21.0     446
14.0     412
22.0     399
38.0     394
39.0     369
42.0     368
44.0     356
43.0     353
40.0     304
13.0     302
41.0     296
45.0     294
10.0     264
11.0     254
46.0     245
5.0      244
12.0     238
8.0      206
9.0      205
47.0     198
4.0      191
48.0     177
7.0      175
6.0      160
50.0     136
49.0     134
3.0       62
2.0       58
51.0      48
1.0        4
Name: housing_median_age, dtype: int64

**Tìm thõa điều kiện**

In [85]:
data_frame.loc[(data_frame.total_rooms>7000)]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
283,-122.16,37.79,22.0,12842.0,2048.0,4985.0,1967.0,5.9849,371000.0,NEAR BAY
508,-122.30,37.84,14.0,7355.0,2408.0,3100.0,2051.0,4.0018,143800.0,NEAR BAY
568,-122.24,37.73,21.0,7031.0,1249.0,2930.0,1235.0,4.5213,228400.0,NEAR BAY
570,-122.24,37.72,5.0,18634.0,2885.0,7427.0,2718.0,7.6110,350700.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20530,-121.76,38.57,11.0,15018.0,3008.0,7984.0,2962.0,3.1371,201800.0,INLAND
20539,-121.71,38.56,20.0,8627.0,1516.0,4071.0,1466.0,4.2198,164100.0,INLAND
20544,-121.76,38.55,23.0,8800.0,1857.0,6330.0,1832.0,2.0650,219400.0,INLAND
20563,-121.75,38.67,9.0,12139.0,2640.0,6837.0,2358.0,3.1250,132500.0,INLAND


In [86]:
data_frame.loc[(data_frame.total_rooms>7000),['longitude','latitude','households']]

Unnamed: 0,longitude,latitude,households
1,-122.22,37.86,1138.0
283,-122.16,37.79,1967.0
508,-122.30,37.84,2051.0
568,-122.24,37.73,1235.0
570,-122.24,37.72,2718.0
...,...,...,...
20530,-121.76,38.57,2962.0
20539,-121.71,38.56,1466.0
20544,-121.76,38.55,1832.0
20563,-121.75,38.67,2358.0


## Tìm index

## `DataFrame.iloc[ ]`

In [87]:
data_frame.iloc[[9]]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0,NEAR BAY


In [88]:
data_frame.iloc[2:5]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [89]:
data_frame.iloc[2:5,-1]

2    NEAR BAY
3    NEAR BAY
4    NEAR BAY
Name: ocean_proximity, dtype: object

-------