# Pandas - Xử lý dữ liệu

In [1]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## 1. Làm sạch dữ liệu

In [11]:
dic = {
    'name': pd.Series(['nam','an','binh', 'hoa', 'lan'], index=['a','b','c', 'd', 'e']),
    'age': pd.Series([19,20,19], index=['a','b','d']),
    'class': pd.Series(['DS1','DS2','DS3'], index=['a','b','e'])
}
df = pd.DataFrame(dic)
df2 = df.copy()
df

Unnamed: 0,name,age,class
a,nam,19.0,DS1
b,an,20.0,DS2
c,binh,,
d,hoa,19.0,
e,lan,,DS3


### 1.1. Thay thế giá trị

In [12]:
# Thay thế một giá trị (19 -> 21)
df.replace(19, 21)

Unnamed: 0,name,age,class
a,nam,21.0,DS1
b,an,20.0,DS2
c,binh,,
d,hoa,21.0,
e,lan,,DS3


In [13]:
# Thay thế nhiều giá trị (19 -> 21, DS2 -> DS4)
df2.replace({19: 21, 'DS2': 'DS4'}, inplace=True)
df2

Unnamed: 0,name,age,class
a,nam,21.0,DS1
b,an,20.0,DS4
c,binh,,
d,hoa,21.0,
e,lan,,DS3


In [14]:
# Thay thế theo cột (thay theo Series)
df2['class'].replace('DS1', 'DS2', inplace=True)
df2

Unnamed: 0,name,age,class
a,nam,21.0,DS2
b,an,20.0,DS4
c,binh,,
d,hoa,21.0,
e,lan,,DS3


### 1.2. Xử lý giá trị null

In [15]:
df.info

<bound method DataFrame.info of    name   age class
a   nam  19.0   DS1
b    an  20.0   DS2
c  binh   NaN   NaN
d   hoa  19.0   NaN
e   lan   NaN   DS3>

In [16]:
# Xem thống kê giá trị null
df.isnull()

Unnamed: 0,name,age,class
a,False,False,False
b,False,False,False
c,False,True,True
d,False,False,True
e,False,True,False


In [15]:
# Xem số giá trị null theo cột
df.isnull().sum()

name     0
age      2
class    2
dtype: int64

In [17]:
# Check dòng có null hay không
df.isnull().any(axis=1)

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [18]:
# Show dòng nào bị null
df[df.isnull().any(axis=1)]

Unnamed: 0,name,age,class
c,binh,,
d,hoa,19.0,
e,lan,,DS3


In [19]:
# Thay giá trị null bằng dữ liệu phía trên
df2.fillna(method='ffill') # or backfill

Unnamed: 0,name,age,class
a,nam,21.0,DS2
b,an,20.0,DS4
c,binh,20.0,DS4
d,hoa,21.0,DS4
e,lan,21.0,DS3


In [20]:
# Thay giá trị null bằng dữ liệu khác
df2.fillna(0)

Unnamed: 0,name,age,class
a,nam,21.0,DS2
b,an,20.0,DS4
c,binh,0.0,0
d,hoa,21.0,0
e,lan,0.0,DS3


In [21]:
# Thay giá trị null bằng dữ liệu khác theo từng cột
df2['age'].fillna(df.age.mode()[0], inplace=True)
df2

Unnamed: 0,name,age,class
a,nam,21.0,DS2
b,an,20.0,DS4
c,binh,19.0,
d,hoa,21.0,
e,lan,19.0,DS3


In [22]:
# Thay giá trị null bằng dữ liệu khác theo dict các cột
df2.fillna(value={'age': df.age.mean(), 'class': df['class'].mode()[0]}, inplace=True)
df2

Unnamed: 0,name,age,class
a,nam,21.0,DS2
b,an,20.0,DS4
c,binh,19.0,DS1
d,hoa,21.0,DS1
e,lan,19.0,DS3


### 1.3. Xóa bỏ dòng, cột

In [42]:
# Xóa null theo dòng
df.dropna()

Unnamed: 0,name,age,class
a,nam,19.0,DS1
b,an,20.0,DS2


In [41]:
# Xóa null theo cột
df.dropna(axis=1)

Unnamed: 0,name
a,nam
b,an
c,binh
d,hoa
e,lan


In [43]:
# Xóa null theo dòng của một cột cụ thể
df.dropna(subset=['class'])

Unnamed: 0,name,age,class
a,nam,19.0,DS1
b,an,20.0,DS2
e,lan,,DS3


### 1.4. Nội suy giá trị

In [5]:
df.interpolate()

Unnamed: 0,name,age,class
a,nam,19.0,DS1
b,an,20.0,DS2
c,binh,19.5,
d,hoa,19.0,
e,lan,19.0,DS3


## 3. Thống kê - gom nhóm

### 3.1. Groupby

In [3]:
df = pd.read_csv('data/drinks.csv', index_col=0)
df.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


In [4]:
# Gom nhóm theo cột châu lục
gr = df.groupby('continent')
type(gr)

pandas.core.groupby.generic.DataFrameGroupBy

In [5]:
# Số lượng quốc gia ở mỗi châu lục
df.continent.value_counts()

AF    53
EU    45
AS    44
OC    16
SA    12
Name: continent, dtype: int64

In [25]:
# Gom nhóm theo châu lục và tính trung bình các giá trị
df.groupby('continent').mean()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AF,61.471698,16.339623,16.264151,3.007547
AS,37.045455,60.840909,9.068182,2.170455
EU,193.777778,132.555556,142.222222,8.617778
OC,89.6875,58.4375,35.625,3.38125
SA,175.083333,114.75,62.416667,6.308333


In [8]:
# Gom nhóm theo châu lục và tính trung bình beer_servings
df.groupby('continent')['beer_servings'].mean()

continent
AF     61.471698
AS     37.045455
EU    193.777778
OC     89.687500
SA    175.083333
Name: beer_servings, dtype: float64

In [27]:
# Gom nhóm theo châu lục và tính trung bình beer_servings và wine_servings
df.groupby('continent')[['beer_servings', 'wine_servings']].mean()

Unnamed: 0_level_0,beer_servings,wine_servings
continent,Unnamed: 1_level_1,Unnamed: 2_level_1
AF,61.471698,16.264151
AS,37.045455,9.068182
EU,193.777778,142.222222
OC,89.6875,35.625
SA,175.083333,62.416667


In [28]:
# Gom nhóm theo châu lục và tính beer_servings thấp nhất
# Hay tìm châu lục có lượng bia tiêu thụ thấp nhất
df.groupby('continent')['beer_servings'].min()

continent
AF     0
AS     0
EU     0
OC     0
SA    93
Name: beer_servings, dtype: int64

In [109]:
# Gom nhóm theo châu lục và thống kê số giá trị
df.groupby('continent').size()

continent
AF    53
AS    44
EU    45
OC    16
SA    12
dtype: int64

In [29]:
# Gom nhóm theo châu lục và thống kê số giá trị
df.continent.value_counts()

AF    53
EU    45
AS    44
OC    16
SA    12
Name: continent, dtype: int64

In [30]:
# Gom nhóm theo châu lục và tính beer_servings thấp nhất, cao nhất, trung bình
df.groupby('continent')['beer_servings'].agg(['min', 'max', 'mean']).reset_index()

Unnamed: 0,continent,min,max,mean
0,AF,0,376,61.471698
1,AS,0,247,37.045455
2,EU,0,361,193.777778
3,OC,0,306,89.6875
4,SA,93,333,175.083333


### 3.2. Crosstab
Phù hợp nếu gom nhóm từ 2 cột trở lên

In [31]:
dic = {
    'name' : ['nam','an','binh','trung'],
    'sex':['male','female','male','male'],
    'class':['DS1','DS2','DS1','DS3'], 
    'mark': [5,6,7,8]
}

df = pd.DataFrame(dic,index=['a','b','c','d'])
df

Unnamed: 0,name,sex,class,mark
a,nam,male,DS1,5
b,an,female,DS2,6
c,binh,male,DS1,7
d,trung,male,DS3,8


In [121]:
# Gom nhóm theo sex, class và tính mark trung bình
df.groupby(['sex', 'class'])['mark'].mean()

sex     class
female  DS2      6
male    DS1      6
        DS3      8
Name: mark, dtype: int64

In [32]:
# Gom nhóm theo sex, class và tính mark trung bình
pd.crosstab(index=df['sex'], columns=df['class'], values=df['mark'], aggfunc='mean')

class,DS1,DS2,DS3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,,6.0,
male,6.0,,8.0


In [33]:
# Gom nhóm theo sex, class và tính mark trung bình
pd.pivot_table(data=df, index='sex', columns='class', values='mark', aggfunc='mean')

class,DS1,DS2,DS3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,,6.0,
male,6.0,,8.0


## 4. Gộp dữ liệu

In [34]:
dic = {
    'name' : ['nam','an','binh'],
    'age':[19,20,21],
    'class':['DS1',np.nan,'DS3']
}

df1 = pd.DataFrame(dic)
df1

Unnamed: 0,name,age,class
0,nam,19,DS1
1,an,20,
2,binh,21,DS3


In [35]:
dic = {
    'name' : ['nam','hoa'],
    'sex':['male','female']
}

df2 = pd.DataFrame(dic)
df2

Unnamed: 0,name,sex
0,nam,male
1,hoa,female


In [36]:
# Gộp df1, df2 dùng concat ko care merge
df3 = pd.concat([df1, df2], ignore_index=True)
df3

Unnamed: 0,name,age,class,sex
0,nam,19.0,DS1,
1,an,20.0,,
2,binh,21.0,DS3,
3,nam,,,male
4,hoa,,,female


In [128]:
# Gộp dùng concat với mode outer (gộp hết vào)
df3 = pd.concat([df1, df2], axis=1, join='outer')
df3

Unnamed: 0,name,age,class,name.1,sex
0,nam,19,DS1,nam,male
1,an,20,,hoa,female
2,binh,21,DS3,,


In [37]:
# Gộp dùng concat với mode inner (gộp cái chung)
df3 = pd.concat([df1, df2], axis=1, join='inner')
df3

Unnamed: 0,name,age,class,name.1,sex
0,nam,19,DS1,nam,male
1,an,20,,hoa,female


In [130]:
# Append hai dataframe
df3 = df1.append(df2, ignore_index=True)
df3

Unnamed: 0,name,age,class,sex
0,nam,19.0,DS1,
1,an,20.0,,
2,binh,21.0,DS3,
3,nam,,,male
4,hoa,,,female


In [131]:
# Merge với mode inner
df3 = pd.merge(df1, df2, how='inner')
df3

Unnamed: 0,name,age,class,sex
0,nam,19,DS1,male


In [132]:
# Merge với mode outer
df3 = pd.merge(df1, df2, how='outer')
df3

Unnamed: 0,name,age,class,sex
0,nam,19.0,DS1,male
1,an,20.0,,
2,binh,21.0,DS3,
3,hoa,,,female


In [133]:
# Merge với mode left
df3 = pd.merge(df1, df2, how='left')
df3

Unnamed: 0,name,age,class,sex
0,nam,19,DS1,male
1,an,20,,
2,binh,21,DS3,


In [134]:
# Merge với mode right
df3 = pd.merge(df1, df2, how='right')
df3

Unnamed: 0,name,age,class,sex
0,nam,19.0,DS1,male
1,hoa,,,female


In [135]:
df1

Unnamed: 0,name,age,class
0,nam,19,DS1
1,an,20,
2,binh,21,DS3


In [136]:
dic = {
    'ten' : ['nam','hoa'],
    'sex':['male','female']
}

df2 = pd.DataFrame(dic)
df2

Unnamed: 0,ten,sex
0,nam,male
1,hoa,female


In [137]:
# Merge có chỉ định cột sẽ merge
df3 = pd.merge(df1, df2, left_on='name', right_on='ten', how='outer')
df3

Unnamed: 0,name,age,class,ten,sex
0,nam,19.0,DS1,nam,male
1,an,20.0,,,
2,binh,21.0,DS3,,
3,,,,hoa,female
