In [1]:
import pandas as pd

# Tạo DataFrame từ dữ liệu thô
data = {
    'Name': ['Alice', 'Bob', 'Charlie', None, 'Emily'],
    'Age': [25, None, 40, 30, 27],
    'Email': ['alice@gmail.com', 'bob@gmail.com', '', 'david@example.com', 'emily@gmail.com'],
    'Country': ['USA', '', 'UK', 'Canada', 'USA'],
    'Income': [50000, 60000, -20000, 45000, None]
}
df = pd.DataFrame(data)

# 1. Loại bỏ hàng trống hoàn toàn
df.dropna(how='all', inplace=True)

# 2. Điền giá trị mặc định hoặc giá trị trung bình cho cột 'Age'
df['Age'].fillna(df['Age'].mean(), inplace=True)

# 3. Loại bỏ hoặc sửa dữ liệu không hợp lệ (Income không thể âm)
df = df[df['Income'] >= 0]

# 4. Điền giá trị mặc định cho cột 'Country' bị thiếu
df['Country'].replace('', 'Unknown', inplace=True)

# 5. Loại bỏ hàng không có email hợp lệ
df = df[df['Email'] != '']

# 6. Điền giá trị trung bình cho cột 'Income' bị thiếu
df['Income'].fillna(df['Income'].mean(), inplace=True)

print(df)

    Name   Age              Email  Country   Income
0  Alice  25.0    alice@gmail.com      USA  50000.0
1    Bob  30.5      bob@gmail.com  Unknown  60000.0
3   None  30.0  david@example.com   Canada  45000.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Country'].replace('', 'Unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting 

In [2]:
import re

text = "My email is example@gmail.com."
cleaned_text = re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[REDACTED]', text)
print(cleaned_text)

My email is [REDACTED].


In [3]:
import re

text = "Hello, how are you? I hope you're doing well."
result = re.split(r'[,.?]', text)
print(result)

['Hello', ' how are you', " I hope you're doing well", '']


In [4]:
import pandas as pd

# Tạo DataFrame từ dữ liệu đã crawl
data = {'name': ['hhhhh', 'kkkkk'], 'class': ['edwede', 'dưedwe']}
df = pd.DataFrame(data)

# Lưu DataFrame vào file CSV
df.to_csv('output.csv', index=False, encoding='utf-8')

In [1]:
import pandas as pd
import sqlite3

# Tạo DataFrame ví dụ
data = {
    "name": ["hhhh", "hhhh", "kk", "ffff", "kk"],
    "class": ['gg', 'jj', 'gg', 'jj', 'gg']
}
df = pd.DataFrame(data)

print("Dữ liệu gốc:")
print(df)

# 1. Phát hiện các giá trị trùng lặp
duplicates = df.duplicated()
print("\nHàng trùng lặp:")
print(df[duplicates])

# 2. Loại bỏ các giá trị trùng lặp
df_cleaned = df.drop_duplicates()
print("\nDữ liệu sau khi loại bỏ giá trị trùng lặp:")
print(df_cleaned)

# 1. Kết nối hoặc tạo cơ sở dữ liệu SQLite
conn = sqlite3.connect("example.db")  # Tạo hoặc mở file SQLite

# 2. Lưu DataFrame vào bảng SQLite
df_cleaned.to_sql("Users", conn, if_exists="replace", index=False)
print("Dữ liệu đã được lưu vào bảng 'Users' trong SQLite.")

# 3. Đọc lại dữ liệu từ bảng SQLite
df_from_db = pd.read_sql("SELECT * FROM Users", conn)
print("\nDữ liệu đọc từ SQLite:")
print(df_from_db)

conn.close()

Dữ liệu gốc:
   name class
0  hhhh    gg
1  hhhh    jj
2    kk    gg
3  ffff    jj
4    kk    gg

Hàng trùng lặp:
  name class
4   kk    gg

Dữ liệu sau khi loại bỏ giá trị trùng lặp:
   name class
0  hhhh    gg
1  hhhh    jj
2    kk    gg
3  ffff    jj
Dữ liệu đã được lưu vào bảng 'Users' trong SQLite.

Dữ liệu đọc từ SQLite:
   name class
0  hhhh    gg
1  hhhh    jj
2    kk    gg
3  ffff    jj


In [None]:
import requests
from requests.exceptions import RequestException
import time

url = "https://example.com"
max_retries = 5

for attempt in range(max_retries):
    try:
        response = requests.get(url, timeout=5)
        if response.status_code == 200:
            print("Request thành công!")
            break
    except RequestException as e:
        print(f"Thử lại {attempt + 1}/{max_retries}... Lỗi: {e}")
        time.sleep(2)  # Chờ trước khi thử lại
else:
    print("Request thất bại sau nhiều lần thử.")

In [None]:
from selenium import webdriver

# mô phỏng trình duyệt
driver = webdriver.Chrome()
driver.get("https://example.com/resource")
print(driver.page_source)
driver.quit()