# Pandas Cheatsheet

In [52]:
# Import Pandas
import pandas as pd

In [53]:
# Tạo DataFrame từ dictionary
data = {'Tên': ['Nguyễn A', 'Lê B', 'Trần C', 'Phạm D'],
        'Tuổi': [25, 30, 22, 22],
        'Lương': [5000, 6000, 4500, 4000]}
df = pd.DataFrame(data)

In [54]:
# In DataFrame
print("DataFrame:\n", df)

DataFrame:
         Tên  Tuổi  Lương
0  Nguyễn A    25   5000
1      Lê B    30   6000
2    Trần C    22   4500
3    Phạm D    22   4000


---

In [55]:
# Tạo dữ liệu giả định về đội bóng Barcelona
data = {
    'Tên cầu thủ': ['Lionel Messi', 'Sergio Busquets', 'Gerard Piqué', 'Ansu Fati', 'Sergi Roberto'],
    'Vị trí': ['Tiền đạo', 'Tiền vệ', 'Hậu vệ', 'Tiền đạo', 'Tiền vệ'],
    'Số trận đấu': [778, 685, 616, 89, 292],
    'Số bàn thắng': [672, 18, 56, 25, 12],
    'Quốc tịch': ['Argentina', 'Tây Ban Nha', 'Tây Ban Nha', 'Tây Ban Nha', 'Tây Ban Nha']
}

In [56]:
# Đọc dữ liệu từ file CSV
df_from_csv = pd.read_csv('data.csv')  # Đọc từ file CSV
print("\nĐọc dữ liệu từ CSV:\n", df_from_csv)


Đọc dữ liệu từ CSV:
        Tên cầu thủ    Vị trí  Số trận đấu  Số bàn thắng    Quốc tịch
0     Lionel Messi  Tiền đạo          778           672    Argentina
1  Sergio Busquets   Tiền vệ          685            18  Tây Ban Nha
2     Gerard Piqué    Hậu vệ          616            56  Tây Ban Nha
3        Ansu Fati  Tiền đạo           89            25  Tây Ban Nha
4    Sergi Roberto   Tiền vệ          292            12  Tây Ban Nha


---

In [57]:
# Tạo Series từ list
series = pd.Series([1, 2, 3, 4])
print("\nSeries:\n", series)


Series:
 0    1
1    2
2    3
3    4
dtype: int64


---

In [58]:
# Kiểm tra thông tin cơ bản về DataFrame
print("\nThông tin DataFrame:\n", df.info())  # Thông tin tổng quan về DataFrame
print("\nMô tả dữ liệu:\n", df.describe())  # Thống kê mô tả của DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Tên     4 non-null      object
 1   Tuổi    4 non-null      int64 
 2   Lương   4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes

Thông tin DataFrame:
 None

Mô tả dữ liệu:
             Tuổi        Lương
count   4.000000     4.000000
mean   24.750000  4875.000000
std     3.774917   853.912564
min    22.000000  4000.000000
25%    22.000000  4375.000000
50%    23.500000  4750.000000
75%    26.250000  5250.000000
max    30.000000  6000.000000


---

In [59]:
# Chọn cột trong DataFrame
age_column = df['Tuổi']  # Chọn cột 'Tuổi'
print("\nCột 'Tuổi':\n", age_column)


Cột 'Tuổi':
 0    25
1    30
2    22
3    22
Name: Tuổi, dtype: int64


---

In [60]:
# Chọn nhiều cột trong DataFrame
selected_columns = df[['Tên', 'Lương']]  # Chọn cột 'Tên' và 'Lương'
print("\nChọn nhiều cột:\n", selected_columns)


Chọn nhiều cột:
         Tên  Lương
0  Nguyễn A   5000
1      Lê B   6000
2    Trần C   4500
3    Phạm D   4000


---

In [61]:
# Lọc dữ liệu theo điều kiện
young_people = df[df['Tuổi'] < 30]  # Lọc các bản ghi có 'Tuổi' < 30
print("\nNhững người dưới 30 tuổi:\n", young_people)


Những người dưới 30 tuổi:
         Tên  Tuổi  Lương
0  Nguyễn A    25   5000
2    Trần C    22   4500
3    Phạm D    22   4000


---

In [62]:
# Sắp xếp dữ liệu
sorted_by_age = df.sort_values(by='Tuổi', ascending=False)  # Sắp xếp theo cột 'Tuổi'
print("\nSắp xếp theo tuổi (giảm dần):\n", sorted_by_age)


Sắp xếp theo tuổi (giảm dần):
         Tên  Tuổi  Lương
1      Lê B    30   6000
0  Nguyễn A    25   5000
2    Trần C    22   4500
3    Phạm D    22   4000


---

In [63]:
# Thêm cột mới vào DataFrame
df['Kinh nghiệm'] = [2, 5, 1, 6]  # Thêm cột 'Kinh nghiệm'
print("\nDataFrame với cột mới:\n", df)


DataFrame với cột mới:
         Tên  Tuổi  Lương  Kinh nghiệm
0  Nguyễn A    25   5000            2
1      Lê B    30   6000            5
2    Trần C    22   4500            1
3    Phạm D    22   4000            6


```

---

In [64]:
# Cập nhật giá trị trong DataFrame
df.loc[1, 'Lương'] = 6500  # Cập nhật lương của người thứ 2
print("\nCập nhật lương:\n", df)


Cập nhật lương:
         Tên  Tuổi  Lương  Kinh nghiệm
0  Nguyễn A    25   5000            2
1      Lê B    30   6500            5
2    Trần C    22   4500            1
3    Phạm D    22   4000            6


---

In [65]:
# Xóa cột khỏi DataFrame
df = df.drop(columns=['Kinh nghiệm'])  # Xóa cột 'Kinh nghiệm'
print("\nDataFrame sau khi xóa cột:\n", df)


DataFrame sau khi xóa cột:
         Tên  Tuổi  Lương
0  Nguyễn A    25   5000
1      Lê B    30   6500
2    Trần C    22   4500
3    Phạm D    22   4000


---

In [66]:
# Xóa hàng khỏi DataFrame
df = df.drop(index=0)  # Xóa hàng có chỉ số 0
print("\nDataFrame sau khi xóa hàng:\n", df)


DataFrame sau khi xóa hàng:
       Tên  Tuổi  Lương
1    Lê B    30   6500
2  Trần C    22   4500
3  Phạm D    22   4000


---

In [68]:
# Nhóm dữ liệu theo một cột
grouped = df.groupby('Tuổi')  # Nhóm theo cột 'Tuổi' và tính giá trị trung bình
grouped = grouped.mean(numeric_only=True)
print("\nNhóm theo tuổi và tính trung bình:\n", grouped)


Nhóm theo tuổi và tính trung bình:
        Lương
Tuổi        
22    4250.0
30    6500.0


---

In [69]:
# Pivot bảng (chuyển cột thành dòng)
pivot_table = df.pivot_table(values='Lương', index='Tên', columns='Tuổi', aggfunc='mean')
print("\nPivot bảng:\n", pivot_table)


Pivot bảng:
 Tuổi        22      30
Tên                   
Lê B       NaN  6500.0
Phạm D  4000.0     NaN
Trần C  4500.0     NaN


---

In [70]:
# Kết hợp (merge) hai DataFrame
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Tên': ['A', 'B', 'C']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Lương': [5000, 6000, 7000]})
merged_df = pd.merge(df1, df2, on='ID', how='inner')  # Kết hợp theo cột 'ID'
print("\nKết hợp DataFrame:\n", merged_df)


Kết hợp DataFrame:
    ID Tên  Lương
0   1   A   5000
1   2   B   6000


---

In [71]:
# Nối DataFrame theo chiều dọc (stacking)
df3 = pd.DataFrame({'Tên': ['D', 'E'], 'Tuổi': [28, 35], 'Lương': [5500, 5000]})
concat_df = pd.concat([df, df3], axis=0)  # Nối dọc
print("\nNối DataFrame:\n", concat_df)


Nối DataFrame:
       Tên  Tuổi  Lương
1    Lê B    30   6500
2  Trần C    22   4500
3  Phạm D    22   4000
0       D    28   5500
1       E    35   5000


---

In [72]:
# Lấy giá trị duy nhất trong một cột
unique_ages = df['Tuổi'].unique()  # Lấy giá trị duy nhất trong cột 'Tuổi'
print("\nGiá trị duy nhất trong cột 'Tuổi':\n", unique_ages)


Giá trị duy nhất trong cột 'Tuổi':
 [30 22]


---

In [73]:
# Kiểm tra dữ liệu bị thiếu
print("\nKiểm tra dữ liệu bị thiếu:\n", df.isnull().sum())  # Kiểm tra xem có bao nhiêu giá trị thiếu trong mỗi cột


Kiểm tra dữ liệu bị thiếu:
 Tên      0
Tuổi     0
Lương    0
dtype: int64


---

In [74]:
# Điền giá trị thiếu
df['Lương'] = df['Lương'].fillna(0)  # Điền giá trị thiếu bằng 0
print("\nĐiền giá trị thiếu vào DataFrame:\n", df)


Điền giá trị thiếu vào DataFrame:
       Tên  Tuổi  Lương
1    Lê B    30   6500
2  Trần C    22   4500
3  Phạm D    22   4000


---

In [75]:
# Xử lý dữ liệu chuỗi
df['Tên'] = df['Tên'].str.upper()  # Chuyển tên thành chữ in hoa
print("\nTên sau khi chuyển thành chữ in hoa:\n", df['Tên'])


Tên sau khi chuyển thành chữ in hoa:
 1      LÊ B
2    TRẦN C
3    PHẠM D
Name: Tên, dtype: object


---

In [76]:
# Xử lý dữ liệu thời gian (chuyển chuỗi thành datetime)
df['Ngày sinh'] = pd.to_datetime(['1995-01-01', '1990-06-15', '1997-03-25'])  # Chuyển đổi thành datetime
print("\nDữ liệu sau khi chuyển thành datetime:\n", df)


Dữ liệu sau khi chuyển thành datetime:
       Tên  Tuổi  Lương  Ngày sinh
1    LÊ B    30   6500 1995-01-01
2  TRẦN C    22   4500 1990-06-15
3  PHẠM D    22   4000 1997-03-25


---

In [77]:
# Thống kê về các giá trị trong cột
print("\nĐếm số lượng mỗi giá trị trong cột 'Tuổi':\n", df['Tuổi'].value_counts())


Đếm số lượng mỗi giá trị trong cột 'Tuổi':
 Tuổi
22    2
30    1
Name: count, dtype: int64
