# Lý thuyết Pandas

## 1. Giới thiệu Pandas

- **pandas** là thư viện Python mạnh mẽ cho **xử lý và phân tích dữ liệu dạng bảng**, thường dùng với dữ liệu CSV, Excel, SQL, JSON…

- Hai cấu trúc dữ liệu chính

| Cấu trúc        | Mô tả                                                      |
| --------------- | ---------------------------------------------------------- |
| **`Series`**    | Mảng 1 chiều, có nhãn (index)                              |
| **`DataFrame`** | Bảng 2 chiều (giống Excel), gồm nhiều `Series` cùng index  |

In [None]:
from IPython.display import display
import pandas as pd

## 2. Khởi tạo dữ liệu

- **`pd.Series(data, index=None, dtype=None, name=None)`**

    - **data**: list, array, dict, hoặc scalar
    - **index**: danh sách nhãn cho từng giá trị
    - **dtype**: kiểu dữ liệu (int, float, str…)
    - **name**: tên của series

In [None]:
sr = pd.Series([1, 2, 3, 4, 5])
print(sr, '\n')

sr_indexes = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], name='MySeries')
print(sr_indexes)

- **`pd.DataFrame(data, index=None, columns=None, dtype=None)`**

    - **data**: dict, list of lists/tuples, ndarray
    - **index**: nhãn dòng
    - **columns**: nhãn cột (list)
    - **dtype**: kiểu dữ liệu cho toàn bộ DataFrame

In [None]:
df = pd.DataFrame({'Yesterday': [1, 2, 3], 'Today': [4, 5, 6]})
df_indexes = pd.DataFrame({'Yesterday': [1, 2, 3], 'Today': [4, 5, 6]}, index=['a', 'b', 'c'])

display(df)
display(df_indexes)

- Tạo DataFrame từ cột để huấn luyện

In [None]:
import pandas as pd

data = ['red', 'blue', 'green', 'yellow']
X = df[data]

## 3. Đọc/ghi dữ liệu

- **`pd.read_csv(filepath, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None)`**

    - **filepath**: đường dẫn file CSV
    - **sep**: ký tự phân tách (mặc định `,`)
    - **header**: dòng chứa tên cột (`None` nếu không có)
    - **names**: danh sách tên cột nếu header=None
    - **index_col**: cột dùng làm index
    - **usecols**: cột cần đọc
    - **dtype**: kiểu dữ liệu các cột

In [None]:
df = pd.read_csv('melb_data.csv', usecols=['Rooms', 'Distance', 'Landsize', 'BuildingArea', 'Price'])
df.head()

- **`df.to_csv(path, sep=',', index=True, header=True)`**

    - **path**: đường dẫn lưu file CSV
    - **sep**: ký tự phân tách (mặc định `,`)
    - **index**: có ghi index hay không
    - **header**: có ghi tên cột hay không

In [None]:
df.to_csv('melb_data_sample.csv', index=False)
melb_sample = pd.read_csv('melb_data_sample.csv')
melb_sample.head()

## 4. Xem dữ liệu

| Hàm             | Chức năng                                              |
| --------------- | ------------------------------------------------------ |
| `df.head(n)`    | Xem n dòng đầu                                         |
| `df.tail(n)`    | Xem n dòng cuối                                        |
| `df.info()`     | Thông tin tổng quan (số dòng, cột, kiểu dữ liệu, null) |
| `df.describe()` | Thống kê mô tả (mean, std, min, max...) cho cột số     |
| `df.shape`      | Số dòng và cột (Là 1 thuộc tính)                       |
| `df.columns`    | Danh sách tên cột                                      |
| `df.index`      | Danh sách nhãn dòng                                    |

In [None]:
print("Head")
display(df.head(5))

print("Tail")
display(df.tail(5))

print("Shape", df.shape)

print("\nInfo")
df.info()

print("\nDescribe")
display(df.describe())

print("\nColumns", df.columns)

print("\nIndex", df.index)

## 5. Truy xuất dữ liệu

In [1]:
import pandas as pd

df = pd.DataFrame({
    "Name": ["An", "Bình", "Chi", "Dũng", "Hà"],
    "Age":  [20, 35, 28, 40, 30],
    "Score": [8.5, 7.0, 9.0, 6.5, 8.0]
}, index=["row1", "row2", "row3", "row4", "row5"])

### Lọc theo cột

In [5]:
# Series
display(df["Name"].head(10))
display(df.Age.head(10))

# DataFrame
df[['Name', 'Score']].head(10)

row1      An
row2    Bình
row3     Chi
row4    Dũng
row5      Hà
Name: Name, dtype: object

row1    20
row2    35
row3    28
row4    40
row5    30
Name: Age, dtype: int64

Unnamed: 0,Name,Score
row1,An,8.5
row2,Bình,7.0
row3,Chi,9.0
row4,Dũng,6.5
row5,Hà,8.0


### Lọc theo dòng - trả về Series hoặc DataFrame

- Cú pháp:

    **`df.loc[row_selector, col_selector]`**

    - `row_selector`:
        - Nhãn ('row1')
        - Danh sách nhãn (['row1', 'row2'])
        - Slice nhãn ('row1':'row5') (bao gồm cả 'row5')
        - Điều kiện (df['Age'] > 30)
        - `:` để chọn tất cả
    - `col_selector`: tương tự

    **`df.iloc[row_indexer, col_indexer]`**

    - `row_indexer`:
        - Chỉ số nguyên (0, 1, 2)
        - Danh sách chỉ số ([0, 2, 4])
        - Slice chỉ số (0:5) (không bao gồm 5)
        - `:` để chọn tất cả
    - `col_indexer`: chỉ số cột tương tự

In [9]:
# Loc
display(df.loc["row2"])
display(df.loc[["row1", "row3", "row5"]])
display(df.loc["row2":"row4"])
display(df.loc[df["Age"] > 30])
display(df.loc[:, ["Name", "Score"]])
display(df.loc[df["Score"] >= 8, ["Name", "Score"]])

# Iloc
display(df.iloc[1])
display(df.iloc[[0, 2, 4]])
display(df.iloc[1:4])
display(df.iloc[:, [0, 2]])
display(df.iloc[2, 1])

Name     Bình
Age        35
Score     7.0
Name: row2, dtype: object

Unnamed: 0,Name,Age,Score
row1,An,20,8.5
row3,Chi,28,9.0
row5,Hà,30,8.0


Unnamed: 0,Name,Age,Score
row2,Bình,35,7.0
row3,Chi,28,9.0
row4,Dũng,40,6.5


Unnamed: 0,Name,Age,Score
row2,Bình,35,7.0
row4,Dũng,40,6.5


Unnamed: 0,Name,Score
row1,An,8.5
row2,Bình,7.0
row3,Chi,9.0
row4,Dũng,6.5
row5,Hà,8.0


Unnamed: 0,Name,Score
row1,An,8.5
row3,Chi,9.0
row5,Hà,8.0


Name     Bình
Age        35
Score     7.0
Name: row2, dtype: object

Unnamed: 0,Name,Age,Score
row1,An,20,8.5
row3,Chi,28,9.0
row5,Hà,30,8.0


Unnamed: 0,Name,Age,Score
row2,Bình,35,7.0
row3,Chi,28,9.0
row4,Dũng,40,6.5


Unnamed: 0,Name,Score
row1,An,8.5
row2,Bình,7.0
row3,Chi,9.0
row4,Dũng,6.5
row5,Hà,8.0


np.int64(28)

### Lọc theo điều kiện

In [None]:
print("Score")
display(df.loc[df["Score"] >= 8.0].head(2))

    
print("Age")
display(df.loc[df["Age"] >= 30].head(2))

age_score = df.loc[
    (df["Age"].isin([20, 28])) & (df["Score"] >= 8.0)
]

print("Age and Score")
display(age_score.head(2))

## 6. Thao tác với dữ liệu

### Thêm cột
- Cú pháp

    - Thêm trực tiếp - có thể dùng để thay đổi giá trị của cột

        ```python
        df['NewCol'] = values
        df['ExistingCol'] = df['ExistingCol'] * 2
        ```
    - Dùng `assign()`

        ```python
        df = df.assign(NewCol=values)
        ```
    
    - Dùng `insert()`

        ```python
        df.insert(loc=position, column='NewCol', value=values)
        ```
    - Dùng `loc` hoặc `iloc`

        ```python
        df.loc[:, 'NewCol'] = values
        ```
        ```python
        df.iloc[:, col_index] = values
        ```

In [None]:
print("Thêm cột Passed")
df["Passed"] = df["Score"] >= 8.0

df = df.assign(
    AgeGroup=df["Age"].apply(lambda x: "Adult" if x >= 30 else "Young")
)
display(df)

df.insert(
    loc=0,
    column="ID",
    value=range(1, len(df) + 1)
)
display(df)

df.loc[:, "Bonus"] = df["Score"] * 10
display(df)

df.iloc[:, -1] = df["Age"] * 2

### Xóa cột/dòng
- Cú pháp

    - Xóa cột

        ```python
        df.drop(columns=['Col1', 'Col2'], inplace=True)

        df.pop('ColName')
        ```

    - Xóa dòng

        ```python
        df.drop(index=[0, 5], inplace=True)
        ```

In [None]:
df.drop(columns=['Salary'], inplace=True)
display(df)

col = df.pop('City')
display(col)

df.drop(index=[0, 5], inplace=True)
display(df)

### Xóa dữ liệu trùng lặp
- Cú pháp

```python
df.drop_duplicates(
    subset=None,
    keep='first',
    inplace=False,
    ignore_index=False
)
```

- Trong đó:
    - **subset**: None, tên cột (str), danh sách cột (list[str])
    - **keep**: 'first', 'last', False
    - **inplace**: True để thay đổi DataFrame gốc
    - **ignore_index**: True, False (để cập nhật index sau khi xóa - mặc định False)

In [None]:
display(df.drop_duplicates(subset=['Score'], keep='last'))

### Thay đổi tên cột
- Cú pháp

    ```python
    df.rename(columns={'OldName':'NewName'}, inplace=True)
    ```

In [None]:
df.rename(columns={'Price':'Cost'}, inplace=True)
display(df.head())

df.rename(index={'row1':'R1', 'row2':'R2'}, inplace=True)
display(df.head())

### Thay đổi tên hàng
- Cú pháp

    ```python
    df.rename(index={old_name: new_name}, inplace=True)
    ```

In [None]:
df.rename(index={23: 'First', 2114: 'Second'}, inplace=True)
display(df)

df.rename(index={23: 'First', 2114: 'Second'}, inplace=True)
display(df)

### Thay đổi tên trục (tương ứng với 2 trục x, y)
- Cú pháp

    ```python
    df.rename_axis('NewAxisName', axis=0, inplace=True)
    df.rename_axis('NewAxisName', axis=1, inplace=True)
    ```

In [None]:
df.rename_axis('Distance in km', axis=1, inplace=True)
df.rename_axis('Property ID', axis=0, inplace=True)
display(df.head())

### Lấy dữ liệu không trùng lặp
- Cú pháp

    ```python
    series = df['Column'].unique()
    ```

In [None]:
continent = df['Continent'].unique()
display(continent)

### Đếm tần suất xuất hiện của các giá trị
- Cú pháp

    ```python
    counts = df['Column'].value_counts()
    ```

In [None]:
counts = df['Continent'].value_counts()
display(counts)


### Sắp xếp
- Cú pháp

    ```python
    df.sort_values(by='Column', ascending=False, inplace=True)
    df.sort_index(ascending=True)
    ```

In [None]:
df.sort_values(by='Landsize', ascending=True, inplace=True)
df.sort_index(ascending=True)
display(df)

### Thay giá trị thiếu
- Cú pháp

    ```python
    df.fillna(0)
    df['Column'].fillna(df['Column'].mean())
    ```

    - Thay giá trị cho nhiều cột
    ```python
    df[["Age", "Score"]] = df[["Age", "Score"]].fillna(0)
    ```

    - Thay giá trị cho nhiều cột với các giá trị khác nhau
    ```python
    df = df.fillna({
        "Age": df["Age"].mean(),
        "Score": 0,
        "City": "Unknown"
    })
    ```

In [None]:
df.fillna(0)
display(df)

df['Cost'].fillna(df['Cost'].mean())
display(df)

### Xóa dữ liệu thiếu
- Cú pháp

    ```python
    df.dropna(
        axis=0,
        how='any',
        thresh=None,
        subset=None,
        inplace=False,
        ignore_index=False
    )
    ```

In [None]:
display(df.dropna(subset=['Cost', "Room"]))

## 7. Thống kê cơ bản

| Hàm                 | Chức năng                               |
| ------------------- | --------------------------------------- |
| `df.mean()`         | Trung bình                              |
| `df.median()`       | Trung vị                                |
| `df.min()/df.max()` | Giá trị min/max                         |
| `df.std()/df.var()` | Độ lệch chuẩn / phương sai              |
| `df.value_counts()` | Đếm số lượng xuất hiện của từng giá trị |

- Có thể dùng **`describe`**() để xem nhanh các thống kê cơ bản

In [None]:
print(f'Mean cost: {df["Cost"].mean()}')
print(f'Median cost: {df["Cost"].median()}')
print(f'Min cost: {df["Cost"].min()}')
print(f'Max cost: {df["Cost"].max()}')
print(f'Std cost: {df["Cost"].std()}')
print(f'Var cost: {df["Cost"].var()}')

## 8. Ánh xạ dữ liệu

### Dùng map()

- Dùng **`map()`**: map chỉ áp dụng cho Series (cột)

    ```python
    # Ánh xạ bằng dict
    df['Column'] = df['Column'].map(mapping_dict)

    # Ánh xạ bằng hàm
    mean = df['Column'].mean()
    df['Column'] = df['Column'].map(lambda x: x - mean)

    # Ánh xạ bằng Series khác
    df['col'].map(other_series)
    ```

In [None]:
df['Vehicle'] = df['Vehicle'].map({'Car': 'Automobile', 'Bike': 'Motorcycle'})
display(df)

mean = df['Cost'].mean()
df['Cost'] = df['Cost'].map(lambda x: x - mean)
display(df)

continent_map = pd.Series({
    'Australia': 'Oceania',
})
df['Continent'] = df['Continent'].map(continent_map)
display(df)

cean =df['Continent'].map(lambda x : 'cean' in x).sum()
print(f'Number of continents containing "cean": {cean}')

### Dùng apply()
- Dùng **`apply()`**: apply có thể áp dụng cho cả DataFrame và Series

    ```python
    # Dùng lambda cho Series
    df['Column'] = df['Column'].apply(lambda x: x * 2)

    df['Total'] = df.apply(lambda row: row['Col1'] + row['Col2'], axis=1)

    # Dùng hàm cho DataFrame
    df['Column'] = df['Column'].apply(custom_function)
    
    df = df.apply(np.sqrt)
    ```

In [None]:
def star(rows):
    if rows['Rooms'] == 2:
        return 1
    elif rows['Rooms'] == 3:
        return 2
    else:
        return 3

star_ratings = df.apply(star, axis=1)
display(star_ratings.head())

## 9. Nhóm và tổng hợp dữ liệu

```python
df.groupby('Department')['Salary'].mean()
df.groupby(['Dept','Gender']).agg({'Salary':'mean','Age':'max'})
```

* `groupby(col)` → nhóm dữ liệu theo cột và thực hiện tính các hàm thống kê
    - mean() – trung bình
    - sum() – tổng
    - count() – đếm
    - min() – giá trị nhỏ nhất
    - max() – giá trị lớn nhất
    - agg() – dùng để áp dụng nhiều phép thống kê cho nhiều cột → trả về DataFrame (nhiều cột)


In [None]:
rooms_price = df.groupby('Rooms').agg({'Cost':'mean', 'Landsize':'max'})
display(rooms_price)

rooms = df.groupby('Rooms').size()
rooms = df['Rooms'].value_counts()
rooms = df.groupby('Rooms')['Rooms'].count() # Đếm giá trị không NaN
display(rooms)

rooms_price = df.groupby('Rooms')['Landsize'].mean()
display(rooms_price)

rooms_size = df.groupby('Rooms')['Landsize'].min().sort_index(ascending=False)
display(rooms_size)

room_cost = df.groupby(['Rooms', 'Cost'])['Landsize'].max()
display(room_cost)

## 10. Kiểu dữ liệu và missing values
- Kiểu dữ liệu chính trong Pandas:
    - int64, float64: số nguyên và số thực
    - object: chuỗi (string)
    - bool: giá trị True/False
    - datetime64: ngày tháng
    - category: dữ liệu phân loại (categorical data)

- Kiểm tra kiểu dữ liệu:
    - `df.dtypes`: kiểu dữ liệu của từng cột
    - `df.astype(new_dtype)`: chuyển đổi kiểu dữ liệu của một hoặc nhiều cột

In [None]:
df.dtypes

df['Rooms'] = df['Rooms'].astype('float64')
display(df['Rooms'].head())

df.astype({'Distance': 'int32', 'Landsize': 'int32'})
display(df.dtypes)

- Xử lý missing values:
    - `df.isnull()`: kiểm tra giá trị thiếu
    - `df.dropna()`: xóa dòng/cột có giá trị thiếu
    - `df.fillna(value)`: thay giá trị thiếu bằng giá trị khác (mean, median, mode, 0, ...)

In [None]:
df.isnull().sum()
df.fillna(df.mean())

- Thay thế giá trị:
    - `df.replace(to_replace, value)`: thay thế giá trị cũ bằng giá trị mới

In [None]:
df['Continent'] = df['Continent'].replace('Oceania', 'OC')
display(df['Continent'].head())

## 11. Kết hợp dữ liệu

- `pd.concat([df1, df2], axis=0)` → nối theo dòng
- `pd.concat([df1, df2], axis=1)` → nối theo cột
- `pd.merge(df1, df2, on='key', how='inner')` → merge giống join SQL

  - **how**: 'inner', 'left', 'right', 'outer'

In [None]:
pd.concat([df, df], axis=0)

### Thay đổi index
- Cú pháp

    ```python
    df.set_index('ColumnName', inplace=True)
    df.reset_index(inplace=True)
    ```

## 11. Các hàm phổ biến khác

| Hàm                    | Chức năng                          |
| ---------------------- | ---------------------------------- |
| `df.apply(func)`       | Áp dụng hàm cho cột hoặc dòng      |
| `df.applymap(func)`    | Áp dụng hàm cho từng phần tử       |
| `df.drop_duplicates()` | Xóa dòng trùng lặp                 |
| `df.sample(n)`         | Lấy mẫu ngẫu nhiên n dòng          |
| `df.astype(type)`      | Chuyển kiểu dữ liệu cột            |
| `df.corr()`            | Ma trận tương quan giữa các cột số |
