# **Lab: Khám phá dữ liệu với NumPy, Pandas và Matplotlib**


### **Mục tiêu**
- Làm quen với NumPy: Tạo mảng, thao tác cơ bản và nâng cao với mảng.
- Thực hành xử lý dữ liệu với Pandas: Đọc, phân tích và làm sạch dữ liệu.
- Trực quan hóa dữ liệu bằng Matplotlib: Biểu đồ cơ bản và nâng cao.


## **Phần 1: NumPy cơ bản**

### **Bài tập 1: Tạo mảng và thao tác cơ bản**

In [None]:

import numpy as np

# 1. Tạo một mảng NumPy với các giá trị từ 1 đến 20
array_1 = np.arange(1, 21)
print("Mảng từ 1 đến 20:", array_1)

# 2. Tìm tổng, giá trị lớn nhất, nhỏ nhất và trung bình của mảng
print("Tổng:", array_1.sum())
print("Giá trị lớn nhất:", array_1.max())
print("Giá trị nhỏ nhất:", array_1.min())
print("Trung bình:", array_1.mean())

# 3. Tạo một mảng 2D (3x5) chứa các số ngẫu nhiên từ 0 đến 100
array_2d = np.random.randint(0, 101, size=(3, 5))
print("Mảng 2D:
", array_2d)

# 4. Lấy hàng thứ 2 và cột thứ 3 của mảng 2D
print("Hàng thứ 2:", array_2d[1, :])
print("Cột thứ 3:", array_2d[:, 2])


### **Bài tập 2: Các thao tác nâng cao**

In [None]:

# 1. Tạo một mảng NumPy chứa 20 giá trị ngẫu nhiên từ 0 đến 1
random_array = np.random.rand(20)
print("Mảng ngẫu nhiên từ 0 đến 1:", random_array)

# 2. Chuẩn hóa mảng này (đưa các giá trị về khoảng [0, 1])
normalized_array = (random_array - random_array.min()) / (random_array.max() - random_array.min())
print("Mảng sau khi chuẩn hóa:", normalized_array)

# 3. Tính tích vô hướng (dot product) của hai mảng 1D
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
dot_product = np.dot(a, b)
print("Tích vô hướng của a và b:", dot_product)

# 4. Tạo một ma trận 5x5 và tính định thức, nghịch đảo
matrix = np.random.randint(1, 10, size=(5, 5))
print("Ma trận:
", matrix)
determinant = np.linalg.det(matrix)
print("Định thức của ma trận:", determinant)
if determinant != 0:
    inverse_matrix = np.linalg.inv(matrix)
    print("Ma trận nghịch đảo:
", inverse_matrix)
else:
    print("Ma trận không khả nghịch (định thức = 0).")


## **Phần 2: Pandas cơ bản**

### **Bài tập 3: Làm quen với DataFrame**

In [None]:

import pandas as pd

# 1. Tạo DataFrame
data = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva"],
    "Age": [23, 25, 22, 24, 21],
    "Score": [85, 90, 78, 92, 88]
}
df = pd.DataFrame(data)
print("DataFrame:
", df)

# 2. Tính giá trị trung bình của cột "Score"
print("Điểm trung bình:", df["Score"].mean())

# 3. Lọc các hàng có "Score" lớn hơn 85
filtered_df = df[df["Score"] > 85]
print("Các hàng có Score > 85:
", filtered_df)


### **Bài tập 4: Đọc và phân tích dữ liệu từ file**

In [None]:

# Đọc file CSV
iris_df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv")
print("Thông tin tổng quan về dữ liệu:
", iris_df.info())
print("Mô tả dữ liệu:
", iris_df.describe())

# Tính toán cơ bản
print("Trung bình sepal_length:", iris_df["sepal_length"].mean())
print("Giá trị lớn nhất sepal_length:", iris_df["sepal_length"].max())
print("Giá trị nhỏ nhất sepal_length:", iris_df["sepal_length"].min())


## **Phần 3: Làm sạch dữ liệu**

### **Bài tập 5: Xử lý dữ liệu thiếu**

In [None]:

# Tạo DataFrame chứa dữ liệu thiếu
data_with_missing = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva"],
    "Age": [23, None, 25, 24, 22],
    "City": ["New York", "Boston", None, "Chicago", "Boston"],
    "Salary": [60000, 52000, None, 58000, None]
}
df_missing = pd.DataFrame(data_with_missing)
print("Dữ liệu ban đầu:
", df_missing)

# 1. Điền giá trị thiếu trong cột Age bằng giá trị trung bình
df_missing["Age"].fillna(df_missing["Age"].mean(), inplace=True)
print("Sau khi điền thiếu ở Age:
", df_missing)

# 2. Xóa các hàng có nhiều hơn 1 giá trị thiếu
df_cleaned = df_missing.dropna(thresh=3)
print("Sau khi xóa hàng thiếu nhiều hơn 1 cột:
", df_cleaned)

# 3. Điền giá trị thiếu trong cột Salary bằng 50000
df_cleaned["Salary"].fillna(50000, inplace=True)
print("Sau khi điền thiếu ở Salary:
", df_cleaned)


## **Phần 4: Trực quan hóa dữ liệu với Matplotlib**

### **Bài tập 6: Biểu đồ cơ bản**

In [None]:

import matplotlib.pyplot as plt

# 1. Biểu đồ đường hàm số y = x^2
x = np.linspace(-10, 10, 100)
y = x**2
plt.plot(x, y, label="y = x^2")
plt.title("Biểu đồ hàm số y = x^2")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.show()

# 2. Biểu đồ cột điểm số
plt.bar(df["Name"], df["Score"], color="skyblue")
plt.title("Điểm số của sinh viên")
plt.xlabel("Tên")
plt.ylabel("Điểm số")
plt.show()


### **Bài tập 7: Biểu đồ nâng cao**

In [None]:

# 1. Biểu đồ phân tán với màu sắc theo loại hoa
plt.figure(figsize=(8, 6))
species_colors = {"setosa": "red", "versicolor": "blue", "virginica": "green"}
colors = iris_df["species"].map(species_colors)
plt.scatter(iris_df["sepal_length"], iris_df["sepal_width"], c=colors, alpha=0.7)
plt.title("Phân tán Sepal Length và Sepal Width")
plt.xlabel("Sepal Length")
plt.ylabel("Sepal Width")
plt.legend(species_colors.keys())
plt.show()
