### 4. Các phương thức thao tác trên chuỗi trong pandas

Trong **pandas**, thao tác trên chuỗi được thực hiện thông qua **`.str`**, một thuộc tính đặc biệt của **Series** chứa kiểu dữ liệu **chuỗi (string)**. Các phương thức này giúp xử lý dữ liệu dạng chuỗi một cách dễ dàng và hiệu quả.


In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [4]:
# Đọc dữ liệu 
laptop = pd.read_csv('data_bai_7/laptop.csv')
laptop.head()

Unnamed: 0,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros,received_date
0,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1339.69,7/19/2022
1,Apple,Macbook Air,Ultrabook,13.3,1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,1.34kg,898.94,4/1/2021
2,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,1.86kg,575.0,2/18/2022
3,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45,11/23/2021
4,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.6,11/14/2021


In [6]:
laptop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Company           20 non-null     object 
 1   Product           20 non-null     object 
 2   TypeName          20 non-null     object 
 3   Inches            20 non-null     float64
 4   ScreenResolution  20 non-null     object 
 5   Cpu               20 non-null     object 
 6   Ram               20 non-null     object 
 7   Memory            20 non-null     object 
 8   Gpu               20 non-null     object 
 9   OpSys             20 non-null     object 
 10  Weight            20 non-null     object 
 11  Price_euros       20 non-null     float64
 12  received_date     20 non-null     object 
dtypes: float64(2), object(11)
memory usage: 2.2+ KB


In [8]:
laptop['Product']

0            MacBook Pro
1            Macbook Air
2                 250 G6
3            MacBook Pro
4            MacBook Pro
5            MacBook Pro
6            Macbook Air
7        ZenBook UX430UN
8                Swift 3
9                 250 G6
10                250 G6
11           MacBook Pro
12         Inspiron 3567
13           MacBook 12"
14           MacBook Pro
15         Inspiron 3567
16           MacBook Pro
17     IdeaPad 320-15IKB
18                XPS 13
19    Legion Y520-15IKBN
Name: Product, dtype: object

In [9]:
laptop['Product'].str.lower().head()

0    macbook pro
1    macbook air
2         250 g6
3    macbook pro
4    macbook pro
Name: Product, dtype: object

#### 1. Các phương thức cơ bản để xử lý chuỗi  
#### 1.1. Chuyển đổi chữ hoa, chữ thường  

| Phương thức | Mô tả |
|------------|-------|
| `.str.lower()` | Chuyển tất cả ký tự thành chữ thường |
| `.str.upper()` | Chuyển tất cả ký tự thành chữ hoa |
| `.str.title()` | Viết hoa chữ cái đầu của mỗi từ |
| `.str.capitalize()` | Viết hoa chữ cái đầu tiên của chuỗi |
| `.str.swapcase()` | Đảo ngược hoa/thường của ký tự |

In [14]:
print(laptop['Product'].str.lower().head(),'\n')      # Chuyển thành chữ thường
print(laptop['Product'].str.upper().head(),'\n')      # Chuyển thành chữ hoa
print(laptop['Product'].str.title().head(),'\n')      # Viết hoa chữ cái đầu mỗi từ
print(laptop['Product'].str.capitalize().head(),'\n') # Chỉ viết hoa chữ cái đầu chuỗi
print(laptop['Product'].str.swapcase().head(),'\n')   # Đảo ngược chữ hoa/thường

0    macbook pro
1    macbook air
2         250 g6
3    macbook pro
4    macbook pro
Name: Product, dtype: object 

0    MACBOOK PRO
1    MACBOOK AIR
2         250 G6
3    MACBOOK PRO
4    MACBOOK PRO
Name: Product, dtype: object 

0    Macbook Pro
1    Macbook Air
2         250 G6
3    Macbook Pro
4    Macbook Pro
Name: Product, dtype: object 

0    Macbook pro
1    Macbook air
2         250 g6
3    Macbook pro
4    Macbook pro
Name: Product, dtype: object 

0    mACbOOK pRO
1    mACBOOK aIR
2         250 g6
3    mACbOOK pRO
4    mACbOOK pRO
Name: Product, dtype: object 



#### 2. Cắt chuỗi, thay thế và tách chuỗi
#### 2.1. Tách chuỗi  

| Phương thức | Mô tả |
|------------|-------|
| `.str.split(sep)` | Tách chuỗi theo ký tự `sep`, trả về danh sách |
| `.str.rsplit(sep)` | Tương tự `.split()`, nhưng tách từ cuối chuỗi |
| `.str.partition(sep)` | Tách chuỗi thành ba phần: phần trước, `sep`, phần sau |
| `.str.rpartition(sep)` | Tách từ cuối chuỗi |


In [16]:
print(laptop['Product'].str.split(" ").head(),'\n')              # Tách chuỗi thành danh sách các phần tử theo khoảng trắng 
print(laptop['ScreenResolution'].str.partition(" ").head(),'\n') # Tách theo khoảng trắng thành 3 phần


0    [MacBook, Pro]
1    [Macbook, Air]
2         [250, G6]
3    [MacBook, Pro]
4    [MacBook, Pro]
Name: Product, dtype: object 

          0  1                               2
0       IPS     Panel Retina Display 2560x1600
1  1440x900                                   
2      Full                       HD 1920x1080
3       IPS     Panel Retina Display 2880x1800
4       IPS     Panel Retina Display 2560x1600 



#### 2.2. Thay thế chuỗi  

| Phương thức | Mô tả |
|------------|-------|
| `.str.replace(old, new)` | Thay thế chuỗi con `old` thành `new` |



In [18]:
print(laptop['Product'].str.replace("Pro", "Profestional").head()) # Thay thế "Pro" bằng "Profestional"


0    MacBook Profestional
1             Macbook Air
2                  250 G6
3    MacBook Profestional
4    MacBook Profestional
Name: Product, dtype: object


In [78]:
laptop.head()

Unnamed: 0,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros,received_date
0,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1339.69,7/19/2022
1,Apple,Macbook Air,Ultrabook,13.3,1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,1.34kg,898.94,4/1/2021
2,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,1.86kg,575.0,2/18/2022
3,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45,11/23/2021
4,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.6,11/14/2021


#### 2.3. Cắt chuỗi (Substring)  

| Phương thức | Mô tả |
|------------|-------|
| `.str.slice(start, stop, step)` | Cắt chuỗi theo khoảng từ `start` đến `stop` |
| `.str[:n]` | Lấy `n` ký tự đầu tiên |
| `.str[-n:]` | Lấy `n` ký tự cuối cùng |


In [20]:
s = laptop['ScreenResolution']	
print(s)
print(s.str.slice(4, 9).head()) # Cắt từ vị trí 4 đến 9
print(s.str[:10].head())        # Lấy 10 ký tự đầu tiên (0->9)
print(s.str[-3:].head())        # Lấy 3 ký tự cuối cùng (-1 ->-3)

0            IPS Panel Retina Display 2560x1600
1                                      1440x900
2                             Full HD 1920x1080
3            IPS Panel Retina Display 2880x1800
4            IPS Panel Retina Display 2560x1600
5            IPS Panel Retina Display 2880x1800
6                                      1440x900
7                             Full HD 1920x1080
8                   IPS Panel Full HD 1920x1080
9                                      1366x768
10                            Full HD 1920x1080
11           IPS Panel Retina Display 2880x1800
12                            Full HD 1920x1080
13           IPS Panel Retina Display 2304x1440
14           IPS Panel Retina Display 2560x1600
15                            Full HD 1920x1080
16           IPS Panel Retina Display 2880x1800
17                            Full HD 1920x1080
18    IPS Panel Full HD / Touchscreen 1920x1080
19                  IPS Panel Full HD 1920x1080
Name: ScreenResolution, dtype: object
0 

#### 3. Kiểm tra chuỗi  

| Phương thức | Mô tả |
|------------|-------|
| `.str.startswith(sub)` | Kiểm tra chuỗi có bắt đầu bằng `sub` không |
| `.str.endswith(sub)` | Kiểm tra chuỗi có kết thúc bằng `sub` không |
| `.str.contains(sub)` | Kiểm tra chuỗi có chứa `sub` không |
| `.str.isalpha()` | Kiểm tra chuỗi chỉ chứa chữ cái |
| `.str.isnumeric()` | Kiểm tra chuỗi chỉ chứa số |
| `.str.isdigit()` | Kiểm tra chuỗi chỉ chứa chữ số (0-9) |
| `.str.isspace()` | Kiểm tra chuỗi chỉ chứa khoảng trắng |
| `.str.islower()` | Kiểm tra chuỗi có toàn bộ là chữ thường không |
| `.str.isupper()` | Kiểm tra chuỗi có toàn bộ là chữ hoa không |

In [21]:
laptop.head()

Unnamed: 0,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros,received_date
0,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1339.69,7/19/2022
1,Apple,Macbook Air,Ultrabook,13.3,1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,1.34kg,898.94,4/1/2021
2,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,1.86kg,575.0,2/18/2022
3,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45,11/23/2021
4,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.6,11/14/2021


In [22]:
laptop.Gpu.str.startswith('AMD')

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
12     True
13    False
14    False
15     True
16     True
17    False
18    False
19    False
Name: Gpu, dtype: bool

#### 3. Kiểm tra chuỗi  

| Phương thức | Mô tả |
|------------|-------|
| `.str.startswith(sub)` | Kiểm tra chuỗi có bắt đầu bằng `sub` không |
| `.str.endswith(sub)` | Kiểm tra chuỗi có kết thúc bằng `sub` không |
| `.str.contains(sub)` | Kiểm tra chuỗi có chứa `sub` không |
| `.str.isalpha()` | Kiểm tra chuỗi chỉ chứa chữ cái |
| `.str.isnumeric()` | Kiểm tra chuỗi chỉ chứa số |
| `.str.isdigit()` | Kiểm tra chuỗi chỉ chứa chữ số (0-9) |
| `.str.isspace()` | Kiểm tra chuỗi chỉ chứa khoảng trắng |
| `.str.islower()` | Kiểm tra chuỗi có toàn bộ là chữ thường không |
| `.str.isupper()` | Kiểm tra chuỗi có toàn bộ là chữ hoa không |

In [23]:
# lọc ra các laptop có chuỗi có bắt đầu AMD trong cột Gpu 
laptop[laptop.Gpu.str.startswith('AMD')]

Unnamed: 0,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros,received_date
3,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45,11/23/2021
11,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.8GHz,16GB,256GB SSD,AMD Radeon Pro 555,macOS,1.83kg,2439.97,12/13/2022
12,Dell,Inspiron 3567,Notebook,15.6,Full HD 1920x1080,Intel Core i3 6006U 2GHz,4GB,256GB SSD,AMD Radeon R5 M430,Windows 10,2.2kg,498.9,4/11/2022
15,Dell,Inspiron 3567,Notebook,15.6,Full HD 1920x1080,Intel Core i7 7500U 2.7GHz,8GB,256GB SSD,AMD Radeon R5 M430,Windows 10,2.2kg,745.0,3/27/2022
16,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.9GHz,16GB,512GB SSD,AMD Radeon Pro 560,macOS,1.83kg,2858.0,6/17/2022


In [24]:
# lọc ra các laptop có màn hình Full HD
laptop[laptop.ScreenResolution.str.contains('Full HD')]

Unnamed: 0,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros,received_date
2,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,1.86kg,575.0,2/18/2022
7,Asus,ZenBook UX430UN,Ultrabook,14.0,Full HD 1920x1080,Intel Core i7 8550U 1.8GHz,16GB,512GB SSD,Nvidia GeForce MX150,Windows 10,1.3kg,1495.0,1/21/2022
8,Acer,Swift 3,Ultrabook,14.0,IPS Panel Full HD 1920x1080,Intel Core i5 8250U 1.6GHz,8GB,256GB SSD,Intel UHD Graphics 620,Windows 10,1.6kg,770.0,5/30/2021
10,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i3 6006U 2GHz,4GB,500GB HDD,Intel HD Graphics 520,No OS,1.86kg,344.99,7/18/2022
12,Dell,Inspiron 3567,Notebook,15.6,Full HD 1920x1080,Intel Core i3 6006U 2GHz,4GB,256GB SSD,AMD Radeon R5 M430,Windows 10,2.2kg,498.9,4/11/2022
15,Dell,Inspiron 3567,Notebook,15.6,Full HD 1920x1080,Intel Core i7 7500U 2.7GHz,8GB,256GB SSD,AMD Radeon R5 M430,Windows 10,2.2kg,745.0,3/27/2022
17,Lenovo,IdeaPad 320-15IKB,Notebook,15.6,Full HD 1920x1080,Intel Core i3 7100U 2.4GHz,8GB,1TB HDD,Nvidia GeForce 940MX,No OS,2.2kg,499.0,9/25/2022
18,Dell,XPS 13,Ultrabook,13.3,IPS Panel Full HD / Touchscreen 1920x1080,Intel Core i5 8250U 1.6GHz,8GB,128GB SSD,Intel UHD Graphics 620,Windows 10,1.22kg,979.0,12/13/2022
19,Lenovo,Legion Y520-15IKBN,Gaming,15.6,IPS Panel Full HD 1920x1080,Intel Core i5 7300HQ 2.5GHz,8GB,128GB SSD + 1TB HDD,Nvidia GeForce GTX 1050,Windows 10,2.5kg,999.0,7/17/2021


#### 4. Xử lý khoảng trắng và ký tự đặc biệt  

| Phương thức | Mô tả |
|------------|-------|
| `.str.strip()` | Xóa khoảng trắng ở đầu và cuối chuỗi |
| `.str.lstrip()` | Xóa khoảng trắng bên trái |
| `.str.rstrip()` | Xóa khoảng trắng bên phải |
| `.str.zfill(width)` | Thêm số 0 vào đầu chuỗi để đủ `width` ký tự |
| `.str.pad(width, side, fillchar)` | Thêm ký tự để đạt độ dài `width` |

In [25]:
print(laptop['ScreenResolution'].str.strip().head(),'\n')   # Xóa khoảng trắng hai bên
print(laptop['ScreenResolution'].str.zfill(20).head()) # Thêm số 0 vào đầu chuỗi


0    IPS Panel Retina Display 2560x1600
1                              1440x900
2                     Full HD 1920x1080
3    IPS Panel Retina Display 2880x1800
4    IPS Panel Retina Display 2560x1600
Name: ScreenResolution, dtype: object 

0    IPS Panel Retina Display 2560x1600
1                  0000000000001440x900
2                  000Full HD 1920x1080
3    IPS Panel Retina Display 2880x1800
4    IPS Panel Retina Display 2560x1600
Name: ScreenResolution, dtype: object


#### 5. Ghép chuỗi  

| Phương thức | Mô tả |
|------------|-------|
| `.str.cat(sep)` | Ghép các phần tử với nhau, phân tách bằng `sep` |
| `.str.repeat(n)` | Lặp lại chuỗi `n` lần |

In [27]:
print(laptop['Product'].str.cat(sep=" "),'\n')    # Ghép chuỗi 
print(laptop['Product'].str.repeat(2).head())     # Nhân đôi chuỗi


MacBook Pro Macbook Air 250 G6 MacBook Pro MacBook Pro MacBook Pro Macbook Air ZenBook UX430UN Swift 3 250 G6 250 G6 MacBook Pro Inspiron 3567 MacBook 12" MacBook Pro Inspiron 3567 MacBook Pro IdeaPad 320-15IKB XPS 13 Legion Y520-15IKBN 

0    MacBook ProMacBook Pro
1    Macbook AirMacbook Air
2              250 G6250 G6
3    MacBook ProMacBook Pro
4    MacBook ProMacBook Pro
Name: Product, dtype: object


#### 6. Biểu thức chính quy Regular Expressions (Regex)  
Regular Expressions (Regex) là một công cụ mạnh mẽ giúp thao tác với chuỗi, cho phép tìm kiếm, so khớp, trích xuất và thay thế dữ liệu một cách hiệu quả.  
✅ 1. Giới thiệu về Regex  
Trong pandas, Regex thường được sử dụng kết hợp với các phương thức của .str, như:  
* .str.contains()  – Kiểm tra chuỗi có chứa mẫu không   
* .str.extract()   – Trích xuất dữ liệu theo nhóm  
* .str.findall()   – Tìm tất cả mẫu khớp  
* .str.replace()   – Thay thế chuỗi  
* .str.match()     – Kiểm tra chuỗi có khớp toàn bộ mẫu không  
* .str.split()     – Chia chuỗi thành các phần tử  

✅ 2. Các ký hiệu và cú pháp cơ bản của Regex  

| Ký hiệu | Ý nghĩa | Ví dụ |
|---------|--------|-------|
| `.` | Bất kỳ ký tự nào ngoại trừ xuống dòng | `a.c` khớp với `"abc"`, `"aac"` nhưng không khớp `"ac"` |
| `^` | Bắt đầu chuỗi | `^Hello` khớp với `"Hello world"` nhưng không khớp `"world Hello"` |
| `$` | Kết thúc chuỗi | `world$` khớp với `"Hello world"` nhưng không khớp `"world Hello"` |
| `*` | Lặp lại ký tự trước đó **0 hoặc nhiều lần** | `ab*c` khớp với `"ac"`, `"abc"`, `"abbc"` |
| `+` | Lặp lại ký tự trước đó **1 hoặc nhiều lần** | `ab+c` khớp với `"abc"`, `"abbc"` nhưng không khớp `"ac"` |
| `?` | Ký tự trước đó xuất hiện **0 hoặc 1 lần** | `colou?r` khớp với `"color"` và `"colour"` |
| `{n}` | Ký tự trước đó lặp lại đúng **n lần** | `a{3}` khớp với `"aaa"` nhưng không khớp `"aa"` |
| `{n,}` | Ký tự trước đó lặp lại **ít nhất n lần** | `a{2,}` khớp với `"aa"`, `"aaa"`, `"aaaa"` |
| `{n,m}` | Ký tự trước đó lặp lại từ **n đến m lần** | `a{2,4}` khớp với `"aa"`, `"aaa"`, `"aaaa"` nhưng không khớp `"a"` hoặc `"aaaaa"` |
| `[]` | Một tập hợp các ký tự có thể khớp | `[aeiou]` khớp với bất kỳ nguyên âm nào |
| `[^]` | Phủ định tập hợp ký tự | `[^aeiou]` khớp với bất kỳ ký tự nào không phải nguyên âm |
| `\d` | Bất kỳ chữ số nào (**0-9**) | `\d+` khớp với `"123"`, `"456"` |
| `\D` | Bất kỳ ký tự nào **không phải số** | `\D+` khớp với `"abc"`, `"Hello"` |
| `\w` | Bất kỳ ký tự chữ cái, số hoặc dấu gạch dưới (**A-Z, a-z, 0-9, _**) | `\w+` khớp với `"hello_123"` |
| `\W` | Bất kỳ ký tự nào **không phải chữ, số, gạch dưới** | `\W+` khớp với `"@!# $"` |
| `\s` | Khoảng trắng (space, tab, xuống dòng) | `\s+` khớp với `"   "` |
| `\S` | Bất kỳ ký tự nào **không phải khoảng trắng** | `\S+` khớp với `"hello123"` |
| `|` | Hoặc (OR) | `cat|dog` khớp với `"cat"` hoặc `"dog"` |
| `()` | Nhóm lại để áp dụng toán tử | `(ab)+` khớp với `"ab"`, `"abab"`, `"ababab"` |

([\w\.-]+@[\w\.-]+\.\w+)


✅ 3. Sử dụng Regex trong pandas  
🔹 3.1. str.contains() – Kiểm tra chuỗi có chứa mẫu không  

Trong Python, việc đặt chữ r trước một chuỗi (ví dụ: r'...') có nghĩa là raw string (chuỗi thô).  
Khi sử dụng raw string, Python không xử lý ký tự escape (\) mà giữ nguyên chúng. Điều này đặc biệt hữu ích khi làm việc với Regular Expressions (Regex), vì Regex sử dụng nhiều ký tự \.  

In [12]:
laptop['Ram']

0      8GB
1      8GB
2      8GB
3     16GB
4      8GB
5     16GB
6      8GB
7     16GB
8      8GB
9      4GB
10     4GB
11    16GB
12     4GB
13     8GB
14     8GB
15     8GB
16    16GB
17     8GB
18     8GB
19     8GB
Name: Ram, dtype: object

In [13]:
laptop['Ram'].str.contains(r'\d{2}[A-Z]{2}')

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9     False
10    False
11     True
12    False
13    False
14    False
15    False
16     True
17    False
18    False
19    False
Name: Ram, dtype: bool

In [29]:
# Lọc ra Ram có dung lượng 2 số trở lên 
laptop[laptop['Ram'].str.contains(r'\d{2}[A-Z]{2}')]


Unnamed: 0,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros,received_date,width,height
3,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45,11/23/2021,2880,1800
5,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.2GHz,16GB,256GB Flash Storage,Intel Iris Pro Graphics,Mac OS X,2.04kg,2139.97,7/8/2021,2880,1800
7,Asus,ZenBook UX430UN,Ultrabook,14.0,Full HD 1920x1080,Intel Core i7 8550U 1.8GHz,16GB,512GB SSD,Nvidia GeForce MX150,Windows 10,1.3kg,1495.0,1/21/2022,1920,1080
11,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.8GHz,16GB,256GB SSD,AMD Radeon Pro 555,macOS,1.83kg,2439.97,12/13/2022,2880,1800
16,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.9GHz,16GB,512GB SSD,AMD Radeon Pro 560,macOS,1.83kg,2858.0,6/17/2022,2880,1800


🔹 3.2. str.extract() – Trích xuất dữ liệu theo nhóm

In [34]:
# Trích xuất dữ liệu theo nhóm .str.extract
# Trích xuất thông tin "width" và "height" từ cột "ScreenResolution" và đưa vào hai cột mới  

laptop['width'] = laptop['ScreenResolution'].str.extract(r'(\d+)x\d+').astype('int')
laptop['height'] = laptop['ScreenResolution'].str.extract(r'\d+x(\d+)').astype('int')
laptop[['ScreenResolution', 'width', 'height']].head()

Unnamed: 0,ScreenResolution,width,height
0,IPS Panel Retina Display 2560x1600,2560,1600
1,1440x900,1440,900
2,Full HD 1920x1080,1920,1080
3,IPS Panel Retina Display 2880x1800,2880,1800
4,IPS Panel Retina Display 2560x1600,2560,1600


In [32]:
laptop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Company           20 non-null     object 
 1   Product           20 non-null     object 
 2   TypeName          20 non-null     object 
 3   Inches            20 non-null     float64
 4   ScreenResolution  20 non-null     object 
 5   Cpu               20 non-null     object 
 6   Ram               20 non-null     object 
 7   Memory            20 non-null     object 
 8   Gpu               20 non-null     object 
 9   OpSys             20 non-null     object 
 10  Weight            20 non-null     object 
 11  Price_euros       20 non-null     float64
 12  received_date     20 non-null     object 
 13  width             20 non-null     int64  
 14  height            20 non-null     int64  
dtypes: float64(2), int64(2), object(11)
memory usage: 2.5+ KB


In [35]:
laptop[['width', 'height']] = laptop['ScreenResolution'].str.extract(r'(\d+)x(\d+)').astype(int)
laptop[['ScreenResolution', 'width', 'height']].head()

Unnamed: 0,ScreenResolution,width,height
0,IPS Panel Retina Display 2560x1600,2560,1600
1,1440x900,1440,900
2,Full HD 1920x1080,1920,1080
3,IPS Panel Retina Display 2880x1800,2880,1800
4,IPS Panel Retina Display 2560x1600,2560,1600


In [94]:
laptop['Speed(GHz)']=laptop['Cpu'].str.extract(r"(\d\.?\d?)GHz").astype('float')
laptop['cpu_type'] = laptop['Cpu'].str.extract(r"(.+\d)\s\d+")
laptop[['Cpu', 'Speed(GHz)', 'cpu_type']].head()

Unnamed: 0,Cpu,Speed(GHz),cpu_type
0,Intel Core i5 2.3GHz,2.3,Intel Core i5
1,Intel Core i5 1.8GHz,1.8,Intel Core i5
2,Intel Core i5 7200U 2.5GHz,2.5,Intel Core i5
3,Intel Core i7 2.7GHz,2.7,Intel Core i7
4,Intel Core i5 3.1GHz,3.1,Intel Core i5


In [95]:
# Trích xuất địa chỉ email từ văn bản 
df = pd.DataFrame({'text': ['Contact me at example@email.com', 'No email here']})
print(df)


                              text
0  Contact me at example@email.com
1                    No email here


In [96]:
# Trích xuất email
df['email'] = df['text'].str.extract(r'([\w\.-]+@[\w\.-]+\.\w+)')
print(df)


                              text              email
0  Contact me at example@email.com  example@email.com
1                    No email here                NaN


In [97]:
import pandas as pd

df = pd.DataFrame({
    'text': [
        'Contact john.doe@email.com and jane123@domain.org',
        'Send to admin@company.com',
        'No email here'
    ]
})
print(df)

                                                text
0  Contact john.doe@email.com and jane123@domain.org
1                          Send to admin@company.com
2                                      No email here


In [98]:
# Trích xuất tất cả email có trong mỗi chuỗi
df['emails'] = df['text'].str.findall(r'[\w\.-]+@[\w\.-]+\.\w+')
print(df)


                                                text  \
0  Contact john.doe@email.com and jane123@domain.org   
1                          Send to admin@company.com   
2                                      No email here   

                                     emails  
0  [john.doe@email.com, jane123@domain.org]  
1                       [admin@company.com]  
2                                        []  


🔹 3.3. str.split() – Chia chuỗi thành các phần tử

In [99]:
# Tạo DataFrame
order = pd.DataFrame({'order_id': ['20230209-TT*CV#0001', '20230208-DT*LT#0010', '20230207-CT*BA#0012']})
order

Unnamed: 0,order_id
0,20230209-TT*CV#0001
1,20230208-DT*LT#0010
2,20230207-CT*BA#0012


In [100]:
# \W là bất kỳ ký tự nào không phải là chữ, số, gạch dưới
reg = order['order_id'].str.split(r'\W', expand=True)
print(reg)

          0   1   2     3
0  20230209  TT  CV  0001
1  20230208  DT  LT  0010
2  20230207  CT  BA  0012


In [101]:
reg[0]

0    20230209
1    20230208
2    20230207
Name: 0, dtype: object

In [102]:
order['order_date'] = pd.to_datetime(reg[0])
order['category'] = reg[1]
order['product'] = reg[2]
order['item'] = reg[3]
order

Unnamed: 0,order_id,order_date,category,product,item
0,20230209-TT*CV#0001,2023-02-09,TT,CV,1
1,20230208-DT*LT#0010,2023-02-08,DT,LT,10
2,20230207-CT*BA#0012,2023-02-07,CT,BA,12


In [103]:
# Gán tên trước chuỷen kiểu sau 
# order['order_date'] = reg[0]
# order['order_date'] = pd.to_datetime(order['order_date'])
# order

🔹 3.4. str.replace() – Thay thế chuỗi

In [104]:
# Loại bỏ ký tự đặc biệt khỏi văn bản
# [^] Phủ định của tập hợp ký tự
# \w	Bất kỳ ký tự chữ cái, số hoặc dấu gạch dưới (A-Z, a-z, 0-9, _)
# \s	Khoảng trắng (space, tab, xuống dòng)	\s+ khớp với "   "
# Tham số regex=True cho replace() của Pandas có nghĩa là:
# Chuỗi được truyền vào (ở đây là '[^\w\s]') sẽ được xử lý như một biểu thức chính quy (regex), chứ không phải là một chuỗi thuần túy.

df1 = pd.DataFrame({'text': ['Call me at 123-456-7890', 'My number is 987-654-3210', 'No phone here']})
df1['clean_text'] = df1['text'].str.replace(r'[^\w\s]', '', regex=True)
print(df1)


                        text               clean_text
0    Call me at 123-456-7890    Call me at 1234567890
1  My number is 987-654-3210  My number is 9876543210
2              No phone here            No phone here


In [105]:
# Tạo DataFrame
df2 = pd.DataFrame({'P': ['$40,000*', '$40000 conditions attached']})
df2

Unnamed: 0,P
0,"$40,000*"
1,$40000 conditions attached


In [106]:
df2['P'] = df2['P'].str.replace(r'\D+','',regex = True).astype('int')
df2

Unnamed: 0,P
0,40000
1,40000


In [107]:
# Chuyển đổi số điện thoại từ nhiều định dạng khác nhau về dạng chuẩn (123-456-7890)
df = pd.DataFrame({'phone': ['123.456.7890', '(123) 456-7890', '123-456-7890']})

# Chuẩn hóa về định dạng 123-456-7890
df['standard_phone'] = df['phone'].str.replace(r'\D', '', regex=True).str.replace(r'(\d{3})(\d{3})(\d{4})', r'\1-\2-\3', regex=True)

print(df)


            phone standard_phone
0    123.456.7890   123-456-7890
1  (123) 456-7890   123-456-7890
2    123-456-7890   123-456-7890


🔹 3.5.Tạo cột mới từ cột chứa dữ liệu chuỗi  

In [108]:
dict = {'Cap_bac_cong_viec': ['Quản lý/Trưởng phòng','Trưởng nhóm/Giám sát','NV có kinh nghiệm','Mới ra trường'],
        'Luong_trung_binh' : ['30.000.000 VNĐ','20.000.000 đ','15.600.000 vnđ','7.500.000 VNĐ']
       }
khoang_luong_IT = pd.DataFrame(dict)
khoang_luong_IT

Unnamed: 0,Cap_bac_cong_viec,Luong_trung_binh
0,Quản lý/Trưởng phòng,30.000.000 VNĐ
1,Trưởng nhóm/Giám sát,20.000.000 đ
2,NV có kinh nghiệm,15.600.000 vnđ
3,Mới ra trường,7.500.000 VNĐ


In [109]:
khoang_luong_IT.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Cap_bac_cong_viec  4 non-null      object
 1   Luong_trung_binh   4 non-null      object
dtypes: object(2)
memory usage: 196.0+ bytes


In [110]:
khoang_luong_IT['Luong_trung_binh_new'] = khoang_luong_IT['Luong_trung_binh'].str.lower().str.replace('.','').str.replace(' đ','').str.replace(' vnđ','').astype('float')
khoang_luong_IT

Unnamed: 0,Cap_bac_cong_viec,Luong_trung_binh,Luong_trung_binh_new
0,Quản lý/Trưởng phòng,30.000.000 VNĐ,30000000.0
1,Trưởng nhóm/Giám sát,20.000.000 đ,20000000.0
2,NV có kinh nghiệm,15.600.000 vnđ,15600000.0
3,Mới ra trường,7.500.000 VNĐ,7500000.0


🔹 3.6. Tạo cột mới từ cột chứa dữ liệu chuỗi  

In [111]:
khoang_luong_IT['Muc_luong'] = khoang_luong_IT['Luong_trung_binh_new'].apply(lambda x : "Cao" if x>=30000000 else "Trung bình" if x>=15000000 else "Thấp")
khoang_luong_IT

Unnamed: 0,Cap_bac_cong_viec,Luong_trung_binh,Luong_trung_binh_new,Muc_luong
0,Quản lý/Trưởng phòng,30.000.000 VNĐ,30000000.0,Cao
1,Trưởng nhóm/Giám sát,20.000.000 đ,20000000.0,Trung bình
2,NV có kinh nghiệm,15.600.000 vnđ,15600000.0,Trung bình
3,Mới ra trường,7.500.000 VNĐ,7500000.0,Thấp


#### 7. Sử dụng thư viện re trong Python

**Kiểm tra tính hợp lệ của password:** <br>
1. Có ít nhất 1 chữ viết thường
2. Có ít nhất 1 chữ viết hoa
3. Có ít nhất 1 số
4. Có ít nhất 1 ký tự đặc biệt (@$!%*#?&)
5. Độ dài từ 6-20 ký tự

In [112]:
import re
 
def check_pass(passwd):
    reg = "^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*#?&])[A-Za-z\d@$!#%*?&]{6,20}$"
     
    # compiling regex
    pat = re.compile(reg)
     
    # searching regex                
    mat = re.search(pat, passwd)
     
    # validating conditions
    if mat:
        print("Password is valid.")
    else:
        print("Password invalid !!")

In [65]:
passwd = 'QaF@1234'

In [66]:
check_pass(passwd)

Password is valid.


### 5. Các phương thức thao tác trên dữ liệu thời gian trong pandas 

In [67]:
laptop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Company           20 non-null     object 
 1   Product           20 non-null     object 
 2   TypeName          20 non-null     object 
 3   Inches            20 non-null     float64
 4   ScreenResolution  20 non-null     object 
 5   Cpu               20 non-null     object 
 6   Ram               20 non-null     object 
 7   Memory            20 non-null     object 
 8   Gpu               20 non-null     object 
 9   OpSys             20 non-null     object 
 10  Weight            20 non-null     object 
 11  Price_euros       20 non-null     float64
 12  received_date     20 non-null     object 
 13  width             20 non-null     int64  
 14  height            20 non-null     int64  
 15  Speed(GHz)        20 non-null     float64
 16  cpu_type          20 non-null     object 
dtyp

In [68]:
laptop[['Company', 'Product', 'Gpu', 'received_date']].head(10)

Unnamed: 0,Company,Product,Gpu,received_date
0,Apple,MacBook Pro,Intel Iris Plus Graphics 640,7/19/2022
1,Apple,Macbook Air,Intel HD Graphics 6000,4/1/2021
2,HP,250 G6,Intel HD Graphics 620,2/18/2022
3,Apple,MacBook Pro,AMD Radeon Pro 455,11/23/2021
4,Apple,MacBook Pro,Intel Iris Plus Graphics 650,11/14/2021
5,Apple,MacBook Pro,Intel Iris Pro Graphics,7/8/2021
6,Apple,Macbook Air,Intel HD Graphics 6000,5/28/2022
7,Asus,ZenBook UX430UN,Nvidia GeForce MX150,1/21/2022
8,Acer,Swift 3,Intel UHD Graphics 620,5/30/2021
9,HP,250 G6,Intel HD Graphics 620,3/15/2021


In [39]:
laptop.dtypes

Company              object
Product              object
TypeName             object
Inches              float64
ScreenResolution     object
Cpu                  object
Ram                  object
Memory               object
Gpu                  object
OpSys                object
Weight               object
Price_euros         float64
received_date        object
width                 int32
height                int32
Speed(GHz)          float64
cpu_type             object
dtype: object

In [70]:
laptop['received_date'] = pd.to_datetime(laptop['received_date'])
laptop[['Company', 'Product', 'Gpu', 'received_date']].head(10)

Unnamed: 0,Company,Product,Gpu,received_date
0,Apple,MacBook Pro,Intel Iris Plus Graphics 640,2022-07-19
1,Apple,Macbook Air,Intel HD Graphics 6000,2021-04-01
2,HP,250 G6,Intel HD Graphics 620,2022-02-18
3,Apple,MacBook Pro,AMD Radeon Pro 455,2021-11-23
4,Apple,MacBook Pro,Intel Iris Plus Graphics 650,2021-11-14
5,Apple,MacBook Pro,Intel Iris Pro Graphics,2021-07-08
6,Apple,Macbook Air,Intel HD Graphics 6000,2022-05-28
7,Asus,ZenBook UX430UN,Nvidia GeForce MX150,2022-01-21
8,Acer,Swift 3,Intel UHD Graphics 620,2021-05-30
9,HP,250 G6,Intel HD Graphics 620,2021-03-15


In [71]:
laptop.dtypes

Company                     object
Product                     object
TypeName                    object
Inches                     float64
ScreenResolution            object
Cpu                         object
Ram                         object
Memory                      object
Gpu                         object
OpSys                       object
Weight                      object
Price_euros                float64
received_date       datetime64[ns]
width                        int64
height                       int64
Speed(GHz)                 float64
cpu_type                    object
dtype: object

In [72]:
laptop['year']= laptop['received_date'].dt.year
laptop['month']= laptop['received_date'].dt.month
laptop['day']= laptop['received_date'].dt.day

laptop[['received_date', 'year', 'month', 'day']].drop_duplicates()

Unnamed: 0,received_date,year,month,day
0,2022-07-19,2022,7,19
1,2021-04-01,2021,4,1
2,2022-02-18,2022,2,18
3,2021-11-23,2021,11,23
4,2021-11-14,2021,11,14
5,2021-07-08,2021,7,8
6,2022-05-28,2022,5,28
7,2022-01-21,2022,1,21
8,2021-05-30,2021,5,30
9,2021-03-15,2021,3,15


In [73]:
ser = pd.Series(['2016-16-10 20:30:0', 
                '2016-27-1 19:45:30', 
                '2013-10-12 4:5:1'])

# Định dạng ngày tháng trong dữ liệu không phải chuẩn YYYY-MM-DD.
# Ở đây, %d và %m bị đảo vị trí so với chuẩn YYYY-MM-DD, do đó cần chỉ rõ "%Y-%d-%m" thay vì "%Y-%m-%d".
# format="%Y-%d-%m %H:%M:%S" là format gốc của dữ liệu cần đưa về dứ liệu chuẩn YYYY-MM-DD
ser = pd.to_datetime(ser, format="%Y-%d-%m %H:%M:%S")
ser

0   2016-10-16 20:30:00
1   2016-01-27 19:45:30
2   2013-12-10 04:05:01
dtype: datetime64[ns]

In [74]:
ser.dt.date

0    2016-10-16
1    2016-01-27
2    2013-12-10
dtype: object

In [75]:
# Thay đổi định dạng
ser = ser.dt.strftime("%d/%m/%Y")
ser

0    16/10/2016
1    27/01/2016
2    10/12/2013
dtype: object

In [76]:
pd.date_range(start='1/1/2021', end='1/8/2021')

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08'],
              dtype='datetime64[ns]', freq='D')

In [77]:
pd.DataFrame(pd.date_range(start='1/1/2021', end='1/8/2021'))

Unnamed: 0,0
0,2021-01-01
1,2021-01-02
2,2021-01-03
3,2021-01-04
4,2021-01-05
5,2021-01-06
6,2021-01-07
7,2021-01-08


In [113]:
# Ngày bắt đầu start='1/1/2022' cộng thêm periods=8 ngày nữa 
pd.date_range(start='1/1/2022', periods=8)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08'],
              dtype='datetime64[ns]', freq='D')

In [114]:
# Ngày bắt đầu start='1/1/2022' cộng thêm periods=5 ngày nữa, lấy ngày đầu tháng freq='MS'
pd.date_range(start='1/1/2022', periods=5, freq='MS') # đầu tháng

DatetimeIndex(['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01',
               '2022-05-01'],
              dtype='datetime64[ns]', freq='MS')

In [115]:
# 3M cách nhau 3 tháng - cuối mỗi tháng  
pd.date_range(start='1/1/2022', periods=5, freq='3M') 

DatetimeIndex(['2022-01-31', '2022-04-30', '2022-07-31', '2022-10-31',
               '2023-01-31'],
              dtype='datetime64[ns]', freq='3ME')

In [116]:
# Tạo date range là ngày 10 hàng tháng từ tháng 1/2022 - 6/2022
pd.date_range(start = '1/1/2022', end ='6/30/2022', 
              freq='MS').shift(9, freq = 'd')

DatetimeIndex(['2022-01-10', '2022-02-10', '2022-03-10', '2022-04-10',
               '2022-05-10', '2022-06-10'],
              dtype='datetime64[ns]', freq=None)

In [117]:
# Cách tạo danh sách ngày cách nhau 2 ngày (freq='2D')
pd.date_range(start="2025-03-01", periods=5, freq="2D")


DatetimeIndex(['2025-03-01', '2025-03-03', '2025-03-05', '2025-03-07',
               '2025-03-09'],
              dtype='datetime64[ns]', freq='2D')

In [118]:
# Tạo danh sách ngày làm việc (B) 
pd.date_range(start="2025-03-01", periods=5, freq="B")


DatetimeIndex(['2025-03-03', '2025-03-04', '2025-03-05', '2025-03-06',
               '2025-03-07'],
              dtype='datetime64[ns]', freq='B')

In [119]:
thu_vien = pd.DataFrame({'ngay_muon': ['2023-01-03', '2023-02-06', '2023-02-18']})
thu_vien

Unnamed: 0,ngay_muon
0,2023-01-03
1,2023-02-06
2,2023-02-18


In [120]:
thu_vien.ngay_muon = pd.to_datetime(thu_vien.ngay_muon)
thu_vien

Unnamed: 0,ngay_muon
0,2023-01-03
1,2023-02-06
2,2023-02-18


In [121]:
from datetime import timedelta

In [122]:
thu_vien['ngay_het_han'] = thu_vien.ngay_muon + timedelta(days = 10)
thu_vien

Unnamed: 0,ngay_muon,ngay_het_han
0,2023-01-03,2023-01-13
1,2023-02-06,2023-02-16
2,2023-02-18,2023-02-28


In [123]:
thu_vien['ngay_tra'] = pd.to_datetime(pd.Series(['2023-01-10', '2023-02-17', '2023-02-28']))
thu_vien

Unnamed: 0,ngay_muon,ngay_het_han,ngay_tra
0,2023-01-03,2023-01-13,2023-01-10
1,2023-02-06,2023-02-16,2023-02-17
2,2023-02-18,2023-02-28,2023-02-28


In [124]:
thu_vien['tra_cham'] = thu_vien.ngay_tra > thu_vien.ngay_het_han
thu_vien

Unnamed: 0,ngay_muon,ngay_het_han,ngay_tra,tra_cham
0,2023-01-03,2023-01-13,2023-01-10,False
1,2023-02-06,2023-02-16,2023-02-17,True
2,2023-02-18,2023-02-28,2023-02-28,False


In [125]:
# Timestamp ở dạng số Unix timestamp – một giá trị thường là số giây kể từ "Epoch" (1/1/1970 UTC)
# Ví dụ Giá trị 1260759144 là một Unix timestamp. Nó biểu diễn số giây kể từ 00:00:00 UTC ngày 1/1/1970
ratings = pd.read_excel('data/movies.xlsx', 'ratings') # Mở sheet ratings 
ratings.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/movies.xlsx'

In [61]:
ratings.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

In [111]:
# Giá trị timestamp = 1260759144 là một UNIX timestamp, đại diện cho số giây kể từ 00:00:00 ngày 01/01/1970 (UTC).
# Nghĩa là 1260759144 giây kể từ 01/01/1970 sẽ chuyển thành 2009-12-14 02:52:24 UTC.
# 1260759144 giây sau ngày 1/1/1970 là thời điểm ngày 14 tháng 12 năm 2009 lúc 04:32:24 (UTC).
# Tham số unit='s' nghĩa là timestamp này đang tính theo giây.
# Cũng có thể gặp unit='ms' (mili-giây), us (microsecond), ns (nanosecond)...

ratings['parsed_time'] = pd.to_datetime(ratings.timestamp, unit='s')
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp,parsed_time
52635,383,21,3.0,789652009,1995-01-09 11:46:49
52641,383,47,5.0,789652009,1995-01-09 11:46:49
52684,383,1079,3.0,789652009,1995-01-09 11:46:49
56907,409,21,5.0,828212412,1996-03-30 19:00:12
56909,409,25,4.0,828212412,1996-03-30 19:00:12


In [112]:
# Sắp xếp dữ liệu theo thời gian: df.sort_values(by=“tên_cột”)

ratings = ratings.sort_values('parsed_time')
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp,parsed_time
52635,383,21,3.0,789652009,1995-01-09 11:46:49
52641,383,47,5.0,789652009,1995-01-09 11:46:49
52684,383,1079,3.0,789652009,1995-01-09 11:46:49
56917,409,85,5.0,828212412,1996-03-30 19:00:12
56913,409,35,4.0,828212412,1996-03-30 19:00:12


In [113]:
(ratings['parsed_time']>='2003-06') & (ratings['parsed_time'] <='2003-12')

52635    False
52641    False
52684    False
56917    False
56913    False
         ...  
35125    False
35172    False
35140    False
35096    False
35069    False
Name: parsed_time, Length: 100004, dtype: bool

In [64]:
# Lọc dữ liệu và thống kê
ratings[(ratings['parsed_time']>='2003-06') & (ratings['parsed_time'] <='2003-12')]

Unnamed: 0,userId,movieId,rating,timestamp,parsed_time
1955,15,5792,4.0,1054449327,2003-06-01 06:35:27
1876,15,5010,4.5,1054449333,2003-06-01 06:35:33
1856,15,4881,1.5,1054449340,2003-06-01 06:35:40
1853,15,4848,2.0,1054449351,2003-06-01 06:35:51
1858,15,4888,3.0,1054449355,2003-06-01 06:35:55
...,...,...,...,...,...
51621,380,5803,2.5,1069525416,2003-11-22 18:23:36
51623,380,5816,3.0,1069525444,2003-11-22 18:24:04
51614,380,5574,2.5,1069525481,2003-11-22 18:24:41
94183,624,4159,2.0,1070185956,2003-11-30 09:52:36


In [65]:
ratings.loc[ratings['parsed_time'].dt.year == 2008, 'rating'].count()

3676

In [66]:
ratings.loc[ratings['parsed_time'].dt.year == 2008, 'rating'].mean()

3.505848748639826

In [67]:
ratings.loc[ratings['parsed_time'].dt.year == 2008].groupby('movieId')[['rating']].mean()

Unnamed: 0_level_0,rating
movieId,Unnamed: 1_level_1
1,3.75
2,3.20
3,4.50
5,2.50
6,4.00
...,...
63393,1.75
63436,3.50
63540,0.50
64034,4.50
