# Pandas

Pandas là một thư viện được viết cho ngôn ngữ lập trình Python được sử dụng để thao tác với dữ liệu và phân tích dữ liệu. Thư viện cung cấp cho chúng ta các cấu trúc dữ liệu và các phép toán phục vụ thao tác với các bảng.

Tính năng của thư viện Pandas
- Tạo Series
- Tạo bảng DataFrame
- Đọc ghi các biểu bảng
- Các thao tác phân tích dữ liệu
- Các thao tác lọc và làm sạch dữ liệu
- Vẽ biểu bảng cho dữ liệu


# Cài đặt và khai báo thư viện

In [None]:
!pip install pandas # Cài đặt pandas

In [2]:
import pandas as pd
import numpy as np

# Series

Series là kiểu dữ một trong hai kiểu dữ liệu cơ bản của Pandas. Series là kiểu dữ liệu mảng một chiều

In [None]:
arr = [1,2,3,4,5]
s = pd.Series(arr)
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

Series có nhiều thao tác giống với ndarray của Numpy. Tuy nhiên Series chỉ cho phép mảng một chiều

In [None]:
s[0]=2
s

0    2
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
print(s.sum())

16


In [None]:
print(s.cumsum())

0     2
1     4
2     7
3    11
4    16
dtype: int64


In [None]:
print(s.mean())

3.2


In [None]:
print(s.argmax())

4


Điều khác biệt lớn nhất giữa Series và ndarray có lẽ là 
  - Series chỉ cho phép sử dụng mảng một chiều
  - Series cho phép chỉ số được quyền là chữ và truy cập theo tên của chỉ số

In [None]:
arr = [[1,2],[3,4],[5,6]]
s = pd.Series(arr)
s

0    [1, 2]
1    [3, 4]
2    [5, 6]
dtype: object

In [None]:
s[0]

[1, 2]

In [3]:
data = {'An':9,
        'Bình':8,
        'Cường':8,
        'Diễm':9}
s = pd.Series(data)
s

An       9
Bình     8
Cường    8
Diễm     9
dtype: int64

In [4]:
s['An']

9

- Tạo Series s
- Sửa Điểm của Bình = 9
- Thêm Điểm của Đạt = 7

# DataFrame

## Khởi tạo

### Tạo DataFrame từ list

In [None]:
data = [['An',9],['Bình',8],['Cường',8],['Diễm',10]]
df = pd.DataFrame(data,columns =['Tên','Điểm'])
df

Unnamed: 0,Tên,Điểm
0,An,9
1,Bình,8
2,Cường,8
3,Diễm,10


### Tạo DataFrame từ dict

In [None]:
data = {'Tên':['An','Bình','Cường','Diễm'],'Điểm':[9,8,8,10]}
df = pd.DataFrame(data)
df

Unnamed: 0,Tên,Điểm
0,An,9
1,Bình,8
2,Cường,8
3,Diễm,10


Tạo dữ liệu sau sử dụng cả hai cách:

||date|volumes_max|volumes|temperature|
|-|-:|-:|-:|-:|
|0|	01/01/2022|	120.0	|120.0|	22.0|
|1|	02/01/2022|	123.0	|130.0|	23.0|
|2|	03/01/2022|	102.0	|102.0|	21.0
|3|	04/01/2022|	NaN	  |NaN  |	36.0
|4|	05/01/2022|	111.0	|111.0|	NaN
|5|	06/01/2022|	NaN	  |NaN	|31.0
|6|	06/01/2022|	124.0	|124.0|	25.0

``` python
NaN = None
```

**Ở đây có đáp án**
<!-- data = {'data' : ['01/01/2022','02/01/2022','03/01/2022','04/01/2022','05/01/2022','06/01/2022','06/01/2022'],
        'volumes_max' : [120.0, 123.0, 102.0, None, 111.0, None, 124.0],
        'volumes': [120.0, 130.0, 102.0, None, 111.0	,None , 124.0],
        'temperature' : [22.0, 23.0, 21.0, 36.0, None, 31.0, 25.0]}
df = pd.DataFrame(data)
df -->

### Lấy DataFrame từ file

In [None]:
df = pd.read_csv('Salary_Data.csv')
df.head()

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2.csv")
df.head()

Unnamed: 0,datetime,station_antwerp,station_paris,station_london
0,2019-05-07 02:00:00,,,23.0
1,2019-05-07 03:00:00,50.5,25.0,19.0
2,2019-05-07 04:00:00,45.0,27.7,19.0
3,2019-05-07 05:00:00,,50.4,16.0
4,2019-05-07 06:00:00,,61.9,


## Thuộc tính và dữ liệu cơ bản

- DataFrame.index : Chỉ số dòng của DataFrame

- DataFrame.columns : Chỉ số cột của DataFrame

- DataFrame.dtypes : Kiểu dữ liệu của DataFrame

- DataFrame.info : In ra bản tóm tắt về DataFrame

- DataFrame.select_dtypes([include, exclude]) : Trả về một bảng dữ liệu con dựa trên kiểu dữ liệu

- DataFrame.values : Trả về mảng NumPy dữ liệu DataFrame

- DataFrame.axes : Trả về các trục (axis/axes) của DataFrame

- DataFrame.ndim : Trả về số chiểu của dữ liệu/ số trục

- DataFrame.size : Trả về số lượng phần tử

- DataFrame.shape : Trả về một tuple thể hiện hình dạng của DataFrame

- DataFrame.memory_usage(index, deep) : Trả về bộ nhớ sử dụng cho mỗi cột đơn vị byte

- DataFrame.empty : Xác định xem DataFrame có rỗng không

- DataFrame.describe(): Mô tả dữ liệu, thống kê dữ liệu


In [None]:
data = {'date' : pd.to_datetime(['01/01/2022','02/01/2022','03/01/2022','04/01/2022','05/01/2022','06/01/2022','06/01/2022'],format='%d/%m/%Y'),
        'volumes_max' : [120.0, 123.0, 102.0, None, 111.0, None, 124.0],
        'volumes': [120.0, 130.0, 102.0, None, 111.0	,None , 124.0],
        'temperature' : [22.0, 23.0, 21.0, 36.0, None, 31.0, 25.0]}
df = pd.DataFrame(data)
df

Unnamed: 0,date,volumes_max,volumes,temperature
0,2022-01-01,120.0,120.0,22.0
1,2022-01-02,123.0,130.0,23.0
2,2022-01-03,102.0,102.0,21.0
3,2022-01-04,,,36.0
4,2022-01-05,111.0,111.0,
5,2022-01-06,,,31.0
6,2022-01-06,124.0,124.0,25.0


In [None]:
df.index # Có thể sử dụng để thay đổi chỉ số dòng

RangeIndex(start=0, stop=7, step=1)

In [None]:
df.index = ['Thứ 2','Thứ 3','Thứ 4','Thứ 5','Thứ 6','Thứ 7','Chủ nhật']
df

Unnamed: 0,date,volumes_max,volumes,temperature
Thứ 2,2022-01-01,120.0,120.0,22.0
Thứ 3,2022-01-02,123.0,130.0,23.0
Thứ 4,2022-01-03,102.0,102.0,21.0
Thứ 5,2022-01-04,,,36.0
Thứ 6,2022-01-05,111.0,111.0,
Thứ 7,2022-01-06,,,31.0
Chủ nhật,2022-01-06,124.0,124.0,25.0


In [None]:
for i in df.index:
  print(i)

Thứ 2
Thứ 3
Thứ 4
Thứ 5
Thứ 6
Thứ 7
Chủ nhật


In [None]:
df.columns # Có thể sử dụng để đổi tên cột

Index(['date', 'volumes_max', 'volumes', 'temperature'], dtype='object')

In [None]:
df.columns = ['Date', 'Volumes_max', 'Volumes', 'Temperature']
df

Unnamed: 0,Date,Volumes_max,Volumes,Temperature
Thứ 2,2022-01-01,120.0,120.0,22.0
Thứ 3,2022-01-02,123.0,130.0,23.0
Thứ 4,2022-01-03,102.0,102.0,21.0
Thứ 5,2022-01-04,,,36.0
Thứ 6,2022-01-05,111.0,111.0,
Thứ 7,2022-01-06,,,31.0
Chủ nhật,2022-01-06,124.0,124.0,25.0


In [None]:
df.dtypes

date           datetime64[ns]
volumes_max           float64
volumes               float64
temperature           float64
dtype: object

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Thứ 2 to Chủ nhật
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   date         7 non-null      datetime64[ns]
 1   volumes_max  5 non-null      float64       
 2   volumes      5 non-null      float64       
 3   temperature  6 non-null      float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 280.0+ bytes


In [None]:
df.describe()

Unnamed: 0,volumes_max,volumes,temperature
count,5.0,5.0,6.0
mean,116.0,117.4,26.333333
std,9.354143,11.036304,5.921711
min,102.0,102.0,21.0
25%,111.0,111.0,22.25
50%,120.0,120.0,24.0
75%,123.0,124.0,29.5
max,124.0,130.0,36.0


In [None]:
data = [['An','A'],['Bình','B+'],['Cường','B+'],['Diễm',"A+"]]
df2 = pd.DataFrame(data,columns =['Tên','Điểm'])
df2

Unnamed: 0,Tên,Điểm
0,An,A
1,Bình,B+
2,Cường,B+
3,Diễm,A+


In [None]:
df2.describe()

Unnamed: 0,Tên,Điểm
count,4,4
unique,4,3
top,An,B+
freq,1,2


In [None]:
data = {'Tên':['An','Bình','Cường','Diễm'],'Điểm':[9,8,8,10]}
df3 = pd.DataFrame(data)
df3

Unnamed: 0,Tên,Điểm
0,An,9
1,Bình,8
2,Cường,8
3,Diễm,10


In [None]:
df3.describe()

Unnamed: 0,Điểm
count,4.0
mean,8.75
std,0.957427
min,8.0
25%,8.0
50%,8.5
75%,9.25
max,10.0


In [None]:
df3.describe(include = 'all')

Unnamed: 0,Tên,Điểm
count,4,4.0
unique,4,
top,An,
freq,1,
mean,,8.75
std,,0.957427
min,,8.0
25%,,8.0
50%,,8.5
75%,,9.25


In [None]:
df.values

array([[Timestamp('2022-01-01 00:00:00'), 120.0, 120.0, 22.0],
       [Timestamp('2022-01-02 00:00:00'), 123.0, 130.0, 23.0],
       [Timestamp('2022-01-03 00:00:00'), 102.0, 102.0, 21.0],
       [Timestamp('2022-01-04 00:00:00'), nan, nan, 36.0],
       [Timestamp('2022-01-05 00:00:00'), 111.0, 111.0, nan],
       [Timestamp('2022-01-06 00:00:00'), nan, nan, 31.0],
       [Timestamp('2022-01-06 00:00:00'), 124.0, 124.0, 25.0]],
      dtype=object)

In [None]:
df.axes

[Index(['Thứ 2', 'Thứ 3', 'Thứ 4', 'Thứ 5', 'Thứ 6', 'Thứ 7', 'Chủ nhật'], dtype='object'),
 Index(['date', 'volumes_max', 'volumes', 'temperature'], dtype='object')]

In [None]:
df.ndim

2

In [None]:
df.size

28

In [None]:
df.shape

(7, 4)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Thứ 2 to Chủ nhật
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   date         7 non-null      datetime64[ns]
 1   volumes_max  5 non-null      float64       
 2   volumes      5 non-null      float64       
 3   temperature  6 non-null      float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 580.0+ bytes


In [None]:
df.memory_usage()

Index          356
date            56
volumes_max     56
volumes         56
temperature     56
dtype: int64

In [None]:
df.empty

False

In [None]:
data = {'date' :[],
        'volumes_max' : [],
        'volumes': [],
        'temperature' : []}
df = pd.DataFrame(data)
df.empty

True

In [None]:
data = {'date' :[None],
        'volumes_max' : [None],
        'volumes': [None],
        'temperature' : [None]}
df = pd.DataFrame(data)
df.empty

False

In [None]:
exam_data = {'score': [12.5, 9, 16.5, None, 9, 20, 14.5, None, 8, 19],
'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels =['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas']

df = pd.DataFrame(exam_data,index = labels)
df

- Kiểm tra thông tin của bảng dữ liệu
- Mô tả bảng dữ liệu
- Kiểm tra kiểu dữ liệu của từng cột
- Hiển thị ra số cột của bảng
- Hiện thị ra số dòng của bảng
- Hiển thị tổng bộ nhớ mà bảng này chiếm

## Chuyển đổi


- DataFrame.astype(dtype) : Ép kiểu DataFrame

- DataFrame.convert_dtypes() : Ép kiểu sáng kiểu dữ liệu tốt nhất có thể sử dụng kiểu dữ liệu có hỗ trợ NA

- DataFrame.copy() : Tạo một bản sao


In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
print(df.dtypes)
df.head()

alcohol                         float64
malic_acid                      float64
ash                             float64
alcalinity_of_ash               float64
magnesium                       float64
total_phenols                   float64
flavanoids                      float64
nonflavanoid_phenols            float64
proanthocyanins                 float64
color_intensity                 float64
hue                             float64
od280/od315_of_diluted_wines    float64
proline                         float64
dtype: object


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
df.astype('int').head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14,1,2,15,127,2,3,0,2,5,1,3,1065
1,13,1,2,11,100,2,2,0,1,4,1,3,1050
2,13,2,2,18,101,2,3,0,2,5,1,3,1185
3,14,1,2,16,113,3,3,0,2,7,0,3,1480
4,13,2,2,21,118,2,2,0,1,4,1,2,735


In [None]:
df.astype('bool').head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,True,True,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True,True


In [None]:
data = {'date' : pd.to_datetime(['01/01/2022','02/01/2022','03/01/2022','04/01/2022','05/01/2022','06/01/2022','06/01/2022'],format='%d/%m/%Y'),
        'volumes_max' : [120.0, 123.0, 102.0, None, 111.0, None, 124.0],
        'volumes': [120.0, 130.0, 102.0, None, 111.0	,None , 124.0],
        'temperature' : [22.0, 23.0, 21.0, 36.0, None, 31.0, 25.0]}
df = pd.DataFrame(data)
df_ct = df.convert_dtypes()
print(df_ct.dtypes)
df_ct

date           datetime64[ns]
volumes_max             Int64
volumes                 Int64
temperature             Int64
dtype: object


Unnamed: 0,date,volumes_max,volumes,temperature
0,2022-01-01,120.0,120.0,22.0
1,2022-01-02,123.0,130.0,23.0
2,2022-01-03,102.0,102.0,21.0
3,2022-01-04,,,36.0
4,2022-01-05,111.0,111.0,
5,2022-01-06,,,31.0
6,2022-01-06,124.0,124.0,25.0


In [None]:
data = [['An',9],['Bình',8],['Cường',8],['Diễm',10]]
df = pd.DataFrame(data,columns =['Tên','Điểm'])
df

Unnamed: 0,Tên,Điểm
0,An,9
1,Bình,8
2,Cường,8
3,Diễm,10


In [None]:
df_2 = df
df_2['Tên'] = pd.Series(['Bình','Cường','Diễm','Đạt'])
df

Unnamed: 0,Tên,Điểm
0,Bình,9
1,Cường,8
2,Diễm,8
3,Đạt,10


In [None]:
data = [['An',9],['Bình',8],['Cường',8],['Diễm',10]]
df = pd.DataFrame(data,columns =['Tên','Điểm'])
df

Unnamed: 0,Tên,Điểm
0,An,9
1,Bình,8
2,Cường,8
3,Diễm,10


In [None]:
df_2 = df.copy()
df_2['Tên'] = pd.Series(['Bình','Cường','Diễm','Đạt'])
df

Unnamed: 0,Tên,Điểm
0,An,9
1,Bình,8
2,Cường,8
3,Diễm,10


## Một vài thao tác với DataFrame cơ bản

### Thao tác với cột

In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [None]:
df.alcohol # Trả về Series

0      14.23
1      13.20
2      13.16
3      14.37
4      13.24
       ...  
173    13.71
174    13.40
175    13.27
176    13.17
177    14.13
Name: alcohol, Length: 178, dtype: float64

In [None]:
df.od280/od315_of_diluted_wines # không dùng cách này để lấy ra tên có ký tự đặc biệt 

In [None]:
df['od280/od315_of_diluted_wines'] # Trả về Series

0      3.92
1      3.40
2      3.17
3      3.45
4      2.93
       ... 
173    1.74
174    1.56
175    1.56
176    1.62
177    1.60
Name: od280/od315_of_diluted_wines, Length: 178, dtype: float64

In [None]:
df[['alcohol']]  # Trả về bảng dữ liệu

Unnamed: 0,alcohol
0,14.23
1,13.20
2,13.16
3,14.37
4,13.24
...,...
173,13.71
174,13.40
175,13.27
176,13.17


In [None]:
df[['alcohol']]  > 14

Unnamed: 0,alcohol
0,True
1,False
2,False
3,True
4,False
...,...
173,False
174,False
175,False
176,False


In [None]:
df[['alcohol']]  + 13

Unnamed: 0,alcohol
0,27.23
1,26.20
2,26.16
3,27.37
4,26.24
...,...
173,26.71
174,26.40
175,26.27
176,26.17


In [None]:
df[['alcohol']] **2

Unnamed: 0,alcohol
0,202.4929
1,174.2400
2,173.1856
3,206.4969
4,175.2976
...,...
173,187.9641
174,179.5600
175,176.0929
176,173.4489


In [None]:
df**2

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,202.4929,2.9241,5.9049,243.36,16129.0,7.8400,9.3636,0.0784,5.2441,31.8096,1.0816,15.3664,1134225.0
1,174.2400,3.1684,4.5796,125.44,10000.0,7.0225,7.6176,0.0676,1.6384,19.1844,1.1025,11.5600,1102500.0
2,173.1856,5.5696,7.1289,345.96,10201.0,7.8400,10.4976,0.0900,7.8961,32.2624,1.0609,10.0489,1404225.0
3,206.4969,3.8025,6.2500,282.24,12769.0,14.8225,12.1801,0.0576,4.7524,60.8400,0.7396,11.9025,2190400.0
4,175.2976,6.7081,8.2369,441.00,13924.0,7.8400,7.2361,0.1521,3.3124,18.6624,1.0816,8.5849,540225.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,187.9641,31.9225,6.0025,420.25,9025.0,2.8224,0.3721,0.2704,1.1236,59.2900,0.4096,3.0276,547600.0
174,179.5600,15.2881,6.1504,529.00,10404.0,3.2400,0.5625,0.1849,1.9881,53.2900,0.4900,2.4336,562500.0
175,176.0929,18.3184,5.1076,400.00,14400.0,2.5281,0.4761,0.1849,1.8225,104.0400,0.3481,2.4336,697225.0
176,173.4489,6.7081,5.6169,400.00,14400.0,2.7225,0.4624,0.2809,2.1316,86.4900,0.3600,2.6244,705600.0


### Thao tác thêm sửa xóa cột

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


In [None]:
df['Hóa'] = [6,7,8,8]
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,6
Bình,8,6,7
Cường,8,4,8
Diễm,10,8,8


In [None]:
df = df[['Toán','Hóa']]
df

Unnamed: 0,Toán,Hóa
An,9,6
Bình,8,7
Cường,8,8
Diễm,10,8


In [None]:
df['Lý'] = [9,8,9,8]
df

Unnamed: 0,Toán,Hóa,Lý
An,9,6,9
Bình,8,7,8
Cường,8,8,9
Diễm,10,8,8


In [None]:
df = df[['Toán','Lý','Hóa']]
df

Unnamed: 0,Toán,Lý,Hóa
An,9,9,6
Bình,8,8,7
Cường,8,9,8
Diễm,10,8,8


### Bài tập

In [None]:
df = load_wine(as_frame=True).data
df

In [None]:
target = load_wine(as_frame=True).target

- Lấy ra cột nồng độ cồn dưới dạng mảng
- Lấy ra các cột nồng độ cồn, tỷ lệ tro
- Lấy ra các cột liên quan đến hóa chất trong rượu
- Lấy ra các cột liên quan đến mầu sắc
- Lấy ra bảng df nhưng thứ tự các cột là đảo ngược
- Sửa cột proline với giá trị mới bằng 1 phần 10 giá trị cũ
- Thêm cột target vào bảng
- Xóa cột 'od280/od315_of_diluted_wines'

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


- Lấy ra điểm Toán của cả lớp
- Sửa điểm Lý của Cường thành 5
- Sửa điểm Hóa của cả lớp thành [6,7,8,9]

## Lấy mẫu 

- DataFrame.head(n) : Trả về n dòng đầu tiên

- DataFrame.tail(n) : Trả về n dòng cuối cùng

- DataFrame.sample([n, frac, replace, random_state]) : Trả về mẫu ngẫu nhiên
  - n : Số lượng phần tử lấy mẫu
  - frac : Tỷ lệ phần tử lấy mẫu
  - replace : Cho phép mẫu có được lặp lại không
  - random_state : Hạt giống cho ngẫu nhiên

In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data

In [None]:
df.head() #lấy 5 dòng đầu tiên

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
df.tail() # lấy ra 5 dòng cuối cùng

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.7,0.64,1.74,740.0
174,13.4,3.91,2.48,23.0,102.0,1.8,0.75,0.43,1.41,7.3,0.7,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.2,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.3,0.6,1.62,840.0
177,14.13,4.1,2.74,24.5,96.0,2.05,0.76,0.56,1.35,9.2,0.61,1.6,560.0


In [None]:
df.head(10) # lấy ra 10 dòng đầu tiền

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0
5,14.2,1.76,2.45,15.2,112.0,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450.0
6,14.39,1.87,2.45,14.6,96.0,2.5,2.52,0.3,1.98,5.25,1.02,3.58,1290.0
7,14.06,2.15,2.61,17.6,121.0,2.6,2.51,0.31,1.25,5.05,1.06,3.58,1295.0
8,14.83,1.64,2.17,14.0,97.0,2.8,2.98,0.29,1.98,5.2,1.08,2.85,1045.0
9,13.86,1.35,2.27,16.0,98.0,2.98,3.15,0.22,1.85,7.22,1.01,3.55,1045.0


In [None]:
df.sample(5) # Lấy ngẫu nhiên 5 dòng

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
134,12.51,1.24,2.25,17.5,85.0,2.0,0.58,0.6,1.25,5.45,0.75,1.51,650.0
108,12.22,1.29,1.94,19.0,92.0,2.36,2.04,0.39,2.08,2.7,0.86,3.02,312.0
112,11.76,2.68,2.92,20.0,103.0,1.75,2.03,0.6,1.05,3.8,1.23,2.5,607.0
140,12.93,2.81,2.7,21.0,96.0,1.54,0.5,0.53,0.75,4.6,0.77,2.31,600.0
98,12.37,1.07,2.1,18.5,88.0,3.52,3.75,0.24,1.95,4.5,1.04,2.77,660.0


In [None]:
df.sample(frac = 0.2) # Lấy ngẫu nhiên 20% không cho phép lặp lại

In [None]:
df.sample(frac = 2, replace = True) # Lấy ngẫu nhiên 200% có cho phép lặp lại

- Hãy lấy ra 15 dòng đầu tiên
- Hãy lấy ra 2 dòng cuối
- Hãy lấy ra 50 dòng đầu tiên
- Hãy lấy ra 50 dòng cuối cùng
- Hãy lấy ngẫu nhiên 20 phần tử
- Hãy lấy ngẫu nhiên 80% dữ liệu

## Lựa chọn dòng cột

- DataFrame.xs(key[, axis, level, drop_level]) : Lấy ra dữ liệu theo cột hoặc dòng
- DataFrame.get(key) : Lấy dữ liệu theo tên cột

- DataFrame.take(indices[, axis]) : Lấy ra dựa danh sách các vị trí
  - indices : Danh sách các chỉ số

- DataFrame.truncate([before, after, axis]) : Lấy ra dựa trên khoảng
  - before : Chỉ số bắt đầu
  - after : Chỉ số kết thúc







In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
df.get('alcohol') # Lấy theo tên cột và trả về series

0      14.23
1      13.20
2      13.16
3      14.37
4      13.24
       ...  
173    13.71
174    13.40
175    13.27
176    13.17
177    14.13
Name: alcohol, Length: 178, dtype: float64

In [None]:
df.get(['alcohol']) # Lấy theo tên cột và trả về DataFrame

Unnamed: 0,alcohol
0,14.23
1,13.20
2,13.16
3,14.37
4,13.24
...,...
173,13.71
174,13.40
175,13.27
176,13.17


In [None]:
df.get(['alcohol','ash','flavanoids','color_intensity'])

Unnamed: 0,alcohol,ash,flavanoids,color_intensity
0,14.23,2.43,3.06,5.64
1,13.20,2.14,2.76,4.38
2,13.16,2.67,3.24,5.68
3,14.37,2.50,3.49,7.80
4,13.24,2.87,2.69,4.32
...,...,...,...,...
173,13.71,2.45,0.61,7.70
174,13.40,2.48,0.75,7.30
175,13.27,2.26,0.69,10.20
176,13.17,2.37,0.68,9.30


In [None]:
df.get('alcol') # nếu không có thì không trả về gì cả

In [None]:
df.xs(0)  # lấy theo chỉ số

alcohol                           14.23
malic_acid                         1.71
ash                                2.43
alcalinity_of_ash                 15.60
magnesium                        127.00
total_phenols                      2.80
flavanoids                         3.06
nonflavanoid_phenols               0.28
proanthocyanins                    2.29
color_intensity                    5.64
hue                                1.04
od280/od315_of_diluted_wines       3.92
proline                         1065.00
Name: 0, dtype: float64

In [None]:
df.xs(0)

alcohol                           14.23
malic_acid                         1.71
ash                                2.43
alcalinity_of_ash                 15.60
magnesium                        127.00
total_phenols                      2.80
flavanoids                         3.06
nonflavanoid_phenols               0.28
proanthocyanins                    2.29
color_intensity                    5.64
hue                                1.04
od280/od315_of_diluted_wines       3.92
proline                         1065.00
Name: 0, dtype: float64

In [None]:
df.xs(178) # nếu không có thì báo lỗi

KeyError: ignored

In [None]:
df.xs('alcohol',axis ='columns') # lấy theo tên cột

0      14.23
1      13.20
2      13.16
3      14.37
4      13.24
       ...  
173    13.71
174    13.40
175    13.27
176    13.17
177    14.13
Name: alcohol, Length: 178, dtype: float64

In [None]:
df.take([2,3,5,6])

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
5,14.2,1.76,2.45,15.2,112.0,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450.0
6,14.39,1.87,2.45,14.6,96.0,2.5,2.52,0.3,1.98,5.25,1.02,3.58,1290.0


In [None]:
df.take([2,3,5,6], axis= 'columns')

Unnamed: 0,ash,alcalinity_of_ash,total_phenols,flavanoids
0,2.43,15.6,2.80,3.06
1,2.14,11.2,2.65,2.76
2,2.67,18.6,2.80,3.24
3,2.50,16.8,3.85,3.49
4,2.87,21.0,2.80,2.69
...,...,...,...,...
173,2.45,20.5,1.68,0.61
174,2.48,23.0,1.80,0.75
175,2.26,20.0,1.59,0.69
176,2.37,20.0,1.65,0.68


In [None]:
df.truncate(before = 70, after = 90)

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
70,12.29,1.61,2.21,20.4,103.0,1.1,1.02,0.37,1.46,3.05,0.906,1.82,870.0
71,13.86,1.51,2.67,25.0,86.0,2.95,2.86,0.21,1.87,3.38,1.36,3.16,410.0
72,13.49,1.66,2.24,24.0,87.0,1.88,1.84,0.27,1.03,3.74,0.98,2.78,472.0
73,12.99,1.67,2.6,30.0,139.0,3.3,2.89,0.21,1.96,3.35,1.31,3.5,985.0
74,11.96,1.09,2.3,21.0,101.0,3.38,2.14,0.13,1.65,3.21,0.99,3.13,886.0
75,11.66,1.88,1.92,16.0,97.0,1.61,1.57,0.34,1.15,3.8,1.23,2.14,428.0
76,13.03,0.9,1.71,16.0,86.0,1.95,2.03,0.24,1.46,4.6,1.19,2.48,392.0
77,11.84,2.89,2.23,18.0,112.0,1.72,1.32,0.43,0.95,2.65,0.96,2.52,500.0
78,12.33,0.99,1.95,14.8,136.0,1.9,1.85,0.35,2.76,3.4,1.06,2.31,750.0
79,12.7,3.87,2.4,23.0,101.0,2.83,2.55,0.43,1.95,2.57,1.19,3.13,463.0


In [None]:
df.sort_index(axis = 'columns').truncate(before ='ash',after = 'hue',axis = 'columns')

Unnamed: 0,ash,color_intensity,flavanoids,hue
0,2.43,5.64,3.06,1.04
1,2.14,4.38,2.76,1.05
2,2.67,5.68,3.24,1.03
3,2.50,7.80,3.49,0.86
4,2.87,4.32,2.69,1.04
...,...,...,...,...
173,2.45,7.70,0.61,0.64
174,2.48,7.30,0.75,0.70
175,2.26,10.20,0.69,0.59
176,2.37,9.30,0.68,0.60


In [None]:
exam_data = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(exam_data,index = labels)
df

Unnamed: 0,name,score,attempts,qualify
a,Anastasia,12.5,1,yes
b,Dima,9.0,3,no
c,Katherine,16.5,2,yes
d,James,,3,no
e,Emily,9.0,2,no
f,Michael,20.0,3,yes
g,Matthew,14.5,1,yes
h,Laura,,1,no
i,Kevin,8.0,2,no
j,Jonas,19.0,1,yes



- Lấy ra dữ liệu tại các dòng 2,3,5,7
- Lấy ra tên và số lần thi của Dima, Katherine, Emily, Laura
- Lấy ra các dòng từ d-h


In [None]:
df.take([2,3,5,6])

df.get(['name','attempts']).take([1,2,4,7])

df.truncate(before = 'd', after = 'h')

**Ở đây có lời giải**
<!-- 
df.take([2,3,5,6])

df.get(['name','attempts']).take([1,2,4,7])

df.truncate(before = 'd', after = 'h')
 -->

## Truy cập DataFrame


- DataFrame.at : Truy cập tới một phần từ theo cặp tên dòng/cột

- DataFrame.iat : Truy cập tới một phần tử theo cặp chỉ số dòng/cột

- DataFrame.loc : Truy cập tới tập hợp các phần tử theo tên dòng và cột hoặc theo một mảng bool

- DataFrame.iloc : Truy cập tới tập hợp các phần tử theo chỉ số dòng và cột

In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


In [None]:
df.at['An',"Toán"]

9

In [None]:
df.at['Cường','Hóa'] = 9
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,9
Diễm,10,8,1


In [None]:
df.iat[0,0]

9

In [None]:
df.loc[:,'Toán']

An        9
Bình      8
Cường     8
Diễm     10
Name: Toán, dtype: int64

In [None]:
df.iloc[2,:]

Toán    8
Lý      4
Hóa     3
Name: Cường, dtype: int64

In [None]:
df.loc['Diễm']

Toán    10
Lý       8
Hóa      1
Name: Diễm, dtype: int64

In [None]:
df.iloc[1]

Toán    8
Lý      6
Hóa     0
Name: Bình, dtype: int64

In [None]:
data = {'Toán':[9,8,8,10],'Văn':[8,6,7,9],'Lý':[7,6,4,8],'Hóa':[8,8,9,9],'Sinh':[8,8,7,9]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Văn,Lý,Hóa,Sinh
An,9,8,7,8,8
Bình,8,6,6,8,8
Cường,8,7,4,9,7
Diễm,10,9,8,9,9


- Lấy ra điểm Toán của cả lớp
- Lấy ra điểm của bạn Diễm
  - Tính điểm trung bình của bạn Diễm
- Lấy ra điểm Toán của bạn An
- Lấy ra điểm Lý của bạn Cường
- Lẩy ra điểm Văn Hóa của bạn Bình và bạn Diễm
- Lấy ra điểm Sinh Lý của bạn An và bạn Cường
- Sửa điểm Lý của Cường thành 5
- Sửa điểm Hóa của cả lớp thành [6,7,8,9]

## Thêm và xóa



- DataFrame.insert(loc, column, value) : Thêm cột
  - loc : Vị trí thêm
  - column : Tên của cột thêm mới
  - value : Giá trị của cột thêm vào

- DataFrame.pop(item) : Xóa cột theo tên và trả về cột vừa xóa
  - item : Tên của cột

- DataFrame.drop([labels, axis]) : Xóa dòng hoặc cột
  - labels : Tên muốn xóa
  - axis : Trục tìm tên
Drop specified labels from rows or columns.

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[8,8,9,9],'Sinh':[8,8,7,9]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa,Sinh
An,9,7,8,8
Bình,8,6,8,8
Cường,8,4,9,7
Diễm,10,8,9,9


In [None]:
df.insert(1,'Văn',[7,7,6,8]) # Nếu thêm trùng tên mà không có allow_duplicates=True sẽ báo lỗi
df

Unnamed: 0,Toán,Văn,Lý,Hóa,Sinh
An,9,7,7,8,8
Bình,8,7,6,8,8
Cường,8,6,4,9,7
Diễm,10,8,8,9,9


In [None]:
pop_data= df.pop('Hóa') # Xóa cột mà không tồn tại sẽ báo lỗi
df

Unnamed: 0,Toán,Văn,Lý,Sinh
An,9,7,7,8
Bình,8,7,6,8
Cường,8,6,4,7
Diễm,10,8,8,9


In [None]:
pop_data

An       8
Bình     8
Cường    9
Diễm     9
Name: Hóa, dtype: int64

In [None]:
data = {'Toán':[9,8,8,10],'Văn':[8,6,7,9],'Lý':[7,6,4,8],'Hóa':[8,8,9,9],'Sinh':[8,8,7,9]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Văn,Lý,Hóa,Sinh
An,9,8,7,8,8
Bình,8,6,6,8,8
Cường,8,7,4,9,7
Diễm,10,9,8,9,9


In [None]:
df.drop(['Bình','An']) # Tạo một bản sao mới df gốc vẫn y nguyên

Unnamed: 0,Toán,Văn,Lý,Hóa,Sinh
Cường,8,7,4,9,7
Diễm,10,9,8,9,9


In [None]:
df.drop(['Sinh','Lý'],axis = 'columns')

Unnamed: 0,Toán,Văn,Hóa
An,9,8,8
Bình,8,6,8
Cường,8,7,9
Diễm,10,9,9


In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


- Thêm điểm Văn vào vị trí phía sau điểm Toán với giá trị là [7,7,6,8]
- Thêm điểm Tiếng Anh vào vị trí sau điểm Lý với giá trị là [7,8,9,10]
- Sửa điểm Hóa thành [5,7,6,8] (Sửa sao cho vị trí của cột điểm không thay đổi). Lưu lại điểm cũ

## Truy vấn

- Tìm kiếm
  - DataFrame.isin(values) : Kiểu tra các phẩn tử trong DataFrame có nằm trong values không
    - values tập hợp các phần tử cần tìm

  - DataFrame.query(expr) : Truy vấn các cột của DataFrame bằng biểu thức logic
    - expr : Biểu thức thể hiện điều kiện tìm kiếm

- Tìm kiếm theo tên cột hoặc tên dòng
  - DataFrame.filter([items, like, regex, axis]) : Lấy ra dòng hoặc cột theo dựa theo tên
    - items : Tên chính xác
    - like : Có chứa ký tự
    - regex : Biểu thức chính quy
    - axis : Chọn trục

- Tìm vị trí max vị trí min
  - DataFrame.idxmax([axis, skipna, numeric_only]) : Trả về chỉ số vị trí của giá trị lớn nhất đầu tiên xuất hiện
    - axis : Chọn trục lấy max
    - skipna : Lựa chọn có bỏ qua giá trị NA hay không

  - DataFrame.idxmin([axis, skipna, numeric_only]) : Trả về chỉ số vị trí của giá trị lớn nhỏ đầu tiên xuất hiện
    - axis : Chọn trục lấy min
    - skipna : Lựa chọn có bỏ qua giá trị NA hay không


- Tìm kiếm theo thời gian

  - DataFrame.at_time(time) : Lựa chọn giá trị tại một thời điểm trong ngày

  - DataFrame.between_time(start_time, end_time) : Lựa chọn những giá trị nằm trong một khoảng thời gian trong ngày
    - start_time : Thời gian bắt đầu khoảng
    - end_time : Thời gian kết thúc khoảng
  - DataFrame.first(offset) : Lựa chọn khoảng thời gian đầu

  - DataFrame.last(offset) : Lựa chọn khoảng thời gian cuối

### Truy vấn DataFrame (phần 1)

In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [None]:
df[df['alcohol']<12.36]

- Lấy ra những dòng có chỉ số 'hue' thuộc top 25%
- Lấy ra những dòng có chỉ số 'alcohol' thuộc 50% nằm giữa
- Lấy ra những dòng có chỉ số 'malic_acid' thuộc bottom 25%
- Lấy ra những dòng có đồng thời chỉ số 'alcohol' top 25% và 'malic_acid' bottom 25%

Gợi ý:
- Toán tử và là &
- Toán tử hoặc là |
- Toán tử phủ định là ~

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


- Lấy ra nhưng dòng có bạn điểm 10 (bất kỳ môn nào)
- Lẩy ra những dòng có bạn điểm dưới 4 ( bất kỳ môn nào)
- Lấy ra những dòng mà có điểm toán khác 8

In [None]:
exam_data = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(exam_data,index = labels)
df

Unnamed: 0,name,score,attempts,qualify
a,Anastasia,12.5,1,yes
b,Dima,9.0,3,no
c,Katherine,16.5,2,yes
d,James,,3,no
e,Emily,9.0,2,no
f,Michael,20.0,3,yes
g,Matthew,14.5,1,yes
h,Laura,,1,no
i,Kevin,8.0,2,no
j,Jonas,19.0,1,yes


- Lấy ra thông tin của những người thi đạt
- Lấy ra thông tin của những người không đạt tiêu chuẩn
- Lấy ra thông tin của những người không có điểm
- Lấy ra thông tin của những với số lần thi là nhiều nhất
- Lấy ra thông tin của những người có số lần thi lớn hơn hoặc bằng 2
- Lấy ra thông tin của những người thi đạt và chỉ thi 1 lần
- Lấy ra thông tin của những người thi không đạt hoặc thi 3 lần
- Lấy ra tên danh sách những người có tên với chữ cái bắt đầu nằm trong khoảng A-L  [A, B, C, D, E, F, G, H, I ,J, K, L]


**Ở đây có lời giải**
<!-- df[df['qualify']=='yes']

df[df['qualify']=='no']

df[~(df.score <=float('inf'))]

df[df['attempts']==df['attempts'].max()]

df[df.attempts>=2]

df[(df['attempts']==df['attempts'].min()) & (df['qualify']=='yes')]

df[(df['attempts']==df['attempts'].max()) | (df['qualify']=='no')]

df[df.name < "M"] 
-->


### Truy vấn DataFrame (phần 2)


- DataFrame.isin(values) : Kiểu tra các phẩn tử trong DataFrame có nằm trong values không
  - values tập hợp các phần tử cần tìm

- DataFrame.query(expr) : Truy vấn các cột của DataFrame bằng biểu thức logic
  - expr : Biểu thức thể hiện điều kiện tìm kiếm

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


In [None]:
df.isin([8,9,10])

Unnamed: 0,Toán,Lý,Hóa
An,True,False,False
Bình,True,False,False
Cường,True,False,False
Diễm,True,True,False


In [None]:
df[df['Toán'].isin([8,9,10])]

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


In [None]:
df[df['Lý'].isin([8,9,10])]

Unnamed: 0,Toán,Lý,Hóa
Diễm,10,8,1


In [None]:
df[df['Hóa'].isin([0])]

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0


In [None]:
df.query('(Toán + Lý)>15')

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Diễm,10,8,1


In [None]:
df.query('Toán > 9')

Unnamed: 0,Toán,Lý,Hóa
Diễm,10,8,1


In [None]:
df.query('Toán > 9 or Toán <=8')

Unnamed: 0,Toán,Lý,Hóa
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


- Lấy ra những dòng có nồng độ cồn đạt max hoặc min
- Lấy ra những dòng có chỉ số 'hue' dạt max hoặc min
- Lấy ra những dòng có chỉ số 'malic_acid' thuộc một trong nhưng con số sau [0.74,1.6,1.8,3,5.8]
- Lấy ra những dòng có chỉ số 'total_phenols' lớn hơn 'flavanoids'
- Lấy ra những dòng có chỉ số 'malic_acid' lớn hơn 'ash'

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[8,8,9,9]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,8
Bình,8,6,8
Cường,8,4,9
Diễm,10,8,9


- Lấy ra bạn có điểm tổng lớn hơn 23

In [None]:
exam_data = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(exam_data,index = labels)
df

Unnamed: 0,name,score,attempts,qualify
a,Anastasia,12.5,1,yes
b,Dima,9.0,3,no
c,Katherine,16.5,2,yes
d,James,,3,no
e,Emily,9.0,2,no
f,Michael,20.0,3,yes
g,Matthew,14.5,1,yes
h,Laura,,1,no
i,Kevin,8.0,2,no
j,Jonas,19.0,1,yes


- Lấy ra thông tin của những người thi được trên 15 điểm
- Lấy ra thông tin của những người thi được dưới 10 điểm
- Lấy ra thông tin của những người không có điểm
- Lấy ra thông tin của những người có trung bình điểm trên số lần thi lớn hơn 7
- Lấy ra thông tin của những người có tên với chữ cái bắt đầu là A hoặc K
- Lấy ra thông tin của những người có tên với chữ cái kết thúc bằng chữ a hoặc s


**Ở đây có lời giải**

<!-- df.query('score > 15')

df.query('score < 10')

df.query('not (score >=0)')

df.query('score/attempts > 7')

df[df.name.str[0].isin(['A','K'])]

df[df.name.str[-1].isin(['a','s'])] -->

### Truy vấn DataFrame (phần 3)

- DataFrame.filter([items, like, regex, axis]) : Lấy ra dòng hoặc cột theo dựa theo tên
  - items : Tên chính xác
  - like : Có chứa ký tự
  - regex : Biểu thức chính quy
  - axis : Chọn trục


In [None]:
exam_data = {'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}

df = pd.DataFrame(exam_data,index = ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'])
df

Unnamed: 0,score,attempts,qualify
Anastasia,12.5,1,yes
Dima,9.0,3,no
Katherine,16.5,2,yes
James,,3,no
Emily,9.0,2,no
Michael,20.0,3,yes
Matthew,14.5,1,yes
Laura,,1,no
Kevin,8.0,2,no
Jonas,19.0,1,yes


In [None]:
df.filter(items = ['name','score'])

Unnamed: 0,score
Anastasia,12.5
Dima,9.0
Katherine,16.5
James,
Emily,9.0
Michael,20.0
Matthew,14.5
Laura,
Kevin,8.0
Jonas,19.0


In [None]:
df.filter(like = 's') # Có chứa chữ s

Unnamed: 0,score,attempts
Anastasia,12.5,1
Dima,9.0,3
Katherine,16.5,2
James,,3
Emily,9.0,2
Michael,20.0,3
Matthew,14.5,1
Laura,,1
Kevin,8.0,2
Jonas,19.0,1


In [None]:
df.filter(like = 'e',axis = 'index') # Có chứa chữ e là dòng

Unnamed: 0,score,attempts,qualify
Katherine,16.5,2,yes
James,,3,no
Michael,20.0,3,yes
Matthew,14.5,1,yes
Kevin,8.0,2,no


In [None]:
df.filter(regex='e$',axis = 'index') # Kết thúc bởi chữ e

Unnamed: 0,score,attempts,qualify
Katherine,16.5,2,yes


In [None]:
df.filter(regex='a$',axis = 'index') # Kết thúc bởi chữ a

Unnamed: 0,score,attempts,qualify
Anastasia,12.5,1,yes
Dima,9.0,3,no
Laura,,1,no



- Lẩy ra thông tin của Anastasia, Katherine, Emily, Laura
- Lấy ra thông tin của những người mà tên có chứa chữ s
- Lấy ra thông tin của những người có tên với chữ cái bắt đầu là A hoặc K (Sử dụng biểu thức chính quy)
- Lấy ra thông tin của những người có tên với chữ cái kết thúc bằng chữ a hoặc s(Sử dụng biểu thức chính quy)


RegEx 
- https://www.w3schools.com/python/python_regex.asp

### Truy vấn DataFrame (phần 4)


- DataFrame.idxmax([axis, skipna, numeric_only]) : Trả về chỉ số vị trí của giá trị lớn nhất đầu tiên xuất hiện
  - axis : Chọn trục lấy max
  - skipna : Lựa chọn có bỏ qua giá trị NA hay không

- DataFrame.idxmin([axis, skipna, numeric_only]) : Trả về chỉ số vị trí của giá trị lớn nhỏ đầu tiên xuất hiện
  - axis : Chọn trục lấy min
  - skipna : Lựa chọn có bỏ qua giá trị NA hay không

In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [None]:
df.idxmax()

alcohol                           8
malic_acid                      123
ash                             121
alcalinity_of_ash                73
magnesium                        95
total_phenols                    52
flavanoids                      121
nonflavanoid_phenols            105
proanthocyanins                 110
color_intensity                 158
hue                             115
od280/od315_of_diluted_wines     22
proline                          18
dtype: int64

In [None]:
df.idxmax(axis = 'columns')

0      proline
1      proline
2      proline
3      proline
4      proline
        ...   
173    proline
174    proline
175    proline
176    proline
177    proline
Length: 178, dtype: object

In [None]:
exam_data = {'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1]}

df = pd.DataFrame(exam_data,index = ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'])
df

Unnamed: 0,score,attempts
Anastasia,12.5,1
Dima,9.0,3
Katherine,16.5,2
James,,3
Emily,9.0,2
Michael,20.0,3
Matthew,14.5,1
Laura,,1
Kevin,8.0,2
Jonas,19.0,1


In [None]:
df.idxmax()

score       Michael
attempts       Dima
dtype: object

In [None]:
df.idxmax(skipna=False)

score        NaN
attempts    Dima
dtype: object

In [None]:
df.dtypes

name         object
score       float64
attempts      int64
qualify      object
dtype: object

In [None]:
data = {'Toán':[9,8,8,10],'Văn':[8,6,7,9],'Lý':[7,6,4,8],'Hóa':[8,8,9,9],'Sinh':[8,8,7,9]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Văn,Lý,Hóa,Sinh
An,9,8,7,8,8
Bình,8,6,6,8,8
Cường,8,7,4,9,7
Diễm,10,9,8,9,9


- Tìm ra môn học giỏi nhất của từng bạn
- Tìm ra bạn học giỏi nhất của từng môn

### Truy vấn DataFrame(phần 5)


- DataFrame.at_time(time) : Lựa chọn giá trị tại một thời điểm trong ngày

- DataFrame.between_time(start_time, end_time) : Lựa chọn những giá trị nằm trong một khoảng thời gian trong ngày
  - start_time : Thời gian bắt đầu khoảng
  - end_time : Thời gian kết thúc khoảng
- DataFrame.first(offset) : Lựa chọn khoảng thời gian đầu

- DataFrame.last(offset) : Lựa chọn khoảng thời gian cuối

In [None]:
data = {
        'volumes_max' : [120.0, 123.0, 102.0, None, 111.0, None, 124.0],
        'volumes': [120.0, 130.0, 102.0, None, 111.0	,None , 124.0],
        'temperature' : [22.0, 23.0, 21.0, 36.0, None, 31.0, 25.0]}
df = pd.DataFrame(data,index = pd.to_datetime(['01/01/2022 12:00','02/01/2022 11:30','03/01/2022 13:00','04/01/2022 12:30','05/01/2022 11:30','06/01/2022 13:30','06/01/2022 14:30'],format='%d/%m/%Y %H:%M'))
df

Unnamed: 0,volumes_max,volumes,temperature
2022-01-01 12:00:00,120.0,120.0,22.0
2022-01-02 11:30:00,123.0,130.0,23.0
2022-01-03 13:00:00,102.0,102.0,21.0
2022-01-04 12:30:00,,,36.0
2022-01-05 11:30:00,111.0,111.0,
2022-01-06 13:30:00,,,31.0
2022-01-06 14:30:00,124.0,124.0,25.0


In [None]:
df.at_time('12:00')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-01 12:00:00,120.0,120.0,22.0


In [None]:
df.at_time('12:30')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-04 12:30:00,,,36.0


In [None]:
df.at_time('11:30')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-02 11:30:00,123.0,130.0,23.0
2022-01-05 11:30:00,111.0,111.0,


In [None]:
df.between_time('11:00','13:00')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-01 12:00:00,120.0,120.0,22.0
2022-01-02 11:30:00,123.0,130.0,23.0
2022-01-03 13:00:00,102.0,102.0,21.0
2022-01-04 12:30:00,,,36.0
2022-01-05 11:30:00,111.0,111.0,


In [None]:
df.between_time('12:00','14:00')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-01 12:00:00,120.0,120.0,22.0
2022-01-03 13:00:00,102.0,102.0,21.0
2022-01-04 12:30:00,,,36.0
2022-01-06 13:30:00,,,31.0


In [None]:
df.first('2D')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-01 12:00:00,120.0,120.0,22.0
2022-01-02 11:30:00,123.0,130.0,23.0


In [None]:
df.last('3H')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-06 13:30:00,,,31.0
2022-01-06 14:30:00,124.0,124.0,25.0


In [None]:
df.first('2D')

Unnamed: 0,volumes_max,volumes,temperature
2022-01-01 12:00:00,120.0,120.0,22.0
2022-01-02 11:30:00,123.0,130.0,23.0


In [None]:
air_quality = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2.csv",index_col=0, parse_dates=True)
air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019-05-07 02:00:00,,,23.0
2019-05-07 03:00:00,50.5,25.0,19.0
2019-05-07 04:00:00,45.0,27.7,19.0
2019-05-07 05:00:00,,50.4,16.0
2019-05-07 06:00:00,,61.9,


- Lấy ra dữ liệu 3 ngày đầu tiên
- Lấy ra dữ liệu 5 ngày cuối cùng
- Lấy dữ liệu 1 tháng cuối cùng
- Lấy dữ liệu 1 tháng dầu tiên
- Lấy ra dữ liệu vào thời điểm 12 giờ trưa
- Lấy ra dữ liệu vào thời điểm 00 giờ sáng
- Lấy ra dữ liệu vào khoảng thời gian 8 giờ sáng đến 10 giờ sáng
- Lẩy ra dữ liệu vào khoảng thời gian từ 4 giờ chiều đến 7 giờ chiều

## Thay đổi giá trị theo điều kiện

- DataFrame.where(cond, other) : Thay đổi giá trị tại vị trí có logic là False

- DataFrame.mask(cond, other) : Thay đổi giá trị tại vị trí có logic là True

In [None]:
data = {'Toán':[9,8,8,10],'Lý':[7,6,4,8],'Hóa':[0,0,0,1]}
df = pd.DataFrame(data,index = ['An','Bình','Cường','Diễm'])
df

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,1


In [None]:
df.where(df==0,10)

Unnamed: 0,Toán,Lý,Hóa
An,10,10,0
Bình,10,10,0
Cường,10,10,0
Diễm,10,10,10


In [None]:
df.where(df['Hóa']==0,10)

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,10,10


In [None]:
df[['Hóa']].where(df['Hóa']==0,10)

Unnamed: 0,Hóa
An,0
Bình,0
Cường,0
Diễm,10


In [None]:
df.mask(df == 0,1)

Unnamed: 0,Toán,Lý,Hóa
An,9,7,1
Bình,8,6,1
Cường,8,4,1
Diễm,10,8,1


In [None]:
df.mask(df == 1,2)

Unnamed: 0,Toán,Lý,Hóa
An,9,7,0
Bình,8,6,0
Cường,8,4,0
Diễm,10,8,2


## Chạy vòng lặp

- DataFrame.\_\_iter\_\_() : Chạy theo tên cột

- DataFrame.keys() : Lấy ra danh sách tên cột

- DataFrame.items() : Chạy theo tên cột và dữ liệu cột

- DataFrame.iterrows() : Chạy theo chỉ số dòng và dữ liệu dòng

- DataFrame.itertuples() : Chạy theo DataFrame theo dòng mỗi dòng sẽ là một tuples được đánh tên


In [None]:
from sklearn.datasets import load_wine
df = load_wine(as_frame=True).data
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
for i in df.__iter__():
  print(i)

alcohol
malic_acid
ash
alcalinity_of_ash
magnesium
total_phenols
flavanoids
nonflavanoid_phenols
proanthocyanins
color_intensity
hue
od280/od315_of_diluted_wines
proline


In [None]:
df.keys()

Index(['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium',
       'total_phenols', 'flavanoids', 'nonflavanoid_phenols',
       'proanthocyanins', 'color_intensity', 'hue',
       'od280/od315_of_diluted_wines', 'proline'],
      dtype='object')

In [None]:
df.keys()[0]

'alcohol'

In [None]:
for label,content in  df.items():
  print(label)
  print(content)
  break

alcohol
0      14.23
1      13.20
2      13.16
3      14.37
4      13.24
       ...  
173    13.71
174    13.40
175    13.27
176    13.17
177    14.13
Name: alcohol, Length: 178, dtype: float64


In [None]:
for index,row in df.iterrows():
  print('index:',index)
  print(row)
  break

index: 0
alcohol                           14.23
malic_acid                         1.71
ash                                2.43
alcalinity_of_ash                 15.60
magnesium                        127.00
total_phenols                      2.80
flavanoids                         3.06
nonflavanoid_phenols               0.28
proanthocyanins                    2.29
color_intensity                    5.64
hue                                1.04
od280/od315_of_diluted_wines       3.92
proline                         1065.00
Name: 0, dtype: float64


In [None]:
for i in df.itertuples():
  print(i)
  print(len(i))
  print(i[0])
  print(i[1])
  print(i.alcohol)
  break

Pandas(Index=0, alcohol=14.23, malic_acid=1.71, ash=2.43, alcalinity_of_ash=15.6, magnesium=127.0, total_phenols=2.8, flavanoids=3.06, nonflavanoid_phenols=0.28, proanthocyanins=2.29, color_intensity=5.64, hue=1.04, _12=3.92, proline=1065.0)
14
0
14.23
14.23


# Tài liệu tham khảo


https://pandas.pydata.org/docs/user_guide/indexing.html

https://pandas.pydata.org/docs/reference/frame.html

https://pandas.pydata.org/docs/user_guide/index.html

https://pandas.pydata.org/docs/user_guide/io.html

https://pandas.pydata.org/docs/user_guide/10min.html

https://pandas.pydata.org/docs/reference/general_functions.html

https://www.w3schools.com/python/python_datetime.asp