# Package Manager

**pip**

In [None]:
# Cài đặt phiên bản mới nhất của thư viện 'requests'
pip install requests

# Cài đặt một phiên bản cụ thể của thư viện 'numpy'
pip install numpy==1.23.0

# Cài đặt một phiên bản tối thiểu của thư viện 'pandas'
pip install "pandas>=1.5.0"

# Cài đặt một gói và tất cả các phụ thuộc của nó
pip install beautifulsoup4

# Liệt kê tất cả các gói đã cài đặt trong môi trường hiện tại
pip list

# Liệt kê các gói đã cài đặt ở định dạng 'requirements.txt'
pip freeze

# Lưu danh sách các gói đã cài đặt vào file requirements.txt
pip freeze > requirements.txt

# Cài đặt tất cả các gói được liệt kê trong requirements.txt
pip install -r requirements.txt

**conda**

In [None]:
# Tạo một môi trường mới có tên 'myenv' với Python 3.9
conda create -n myenv python=3.9

# Tạo một môi trường mới với các gói cụ thể
conda create -n data_science numpy pandas matplotlib scikit-learn

# Cài đặt phiên bản mới nhất của 'requests' trong môi trường hiện tại
conda install requests

# Cài đặt một phiên bản cụ thể của 'numpy'
conda install numpy=1.23.0

# Cài đặt một gói từ một kênh cụ thể (ví dụ: conda-forge)
conda install -c conda-forge tensorflow

# Xuất môi trường hiện tại vào tệp environment.yml
conda env export > environment.yml

# Tạo một môi trường mới từ tệp environment.yml
conda env create -f environment.yml

**poetry**

In [None]:
# Tạo một dự án Poetry mới có tên 'my_project'
poetry new my_project
cd my_project

# Thêm thư viện 'requests' làm thư viện chính
poetry add requests

# Thêm thư viện 'pytest' làm cho phát triển
poetry add --dev pytest

# Thêm một phiên bản cụ thể
poetry add numpy@^1.22.0

# Cài đặt tất cả các  thư viện được chỉ định trong pyproject.toml
poetry install

# Định nghĩa scripts trong phần [tool.poetry.scripts] của pyproject.toml (ví dụ)
# my-script = "my_package.module:main"

# Chạy script đã định nghĩa
poetry run my-script

# Xây dựng gói (tạo tệp wheel và sdist)
poetry build

# Hiển thị danh sách các phụ thuộc đã giải quyết
poetry show

# Hiển thị thông tin chi tiết về một phụ thuộc cụ thể
poetry show requests

**uv**

In [None]:
# Tạo project
uv init my_project

# Tạo một môi trường ảo trong thư mục .venv, hoặc uv sẽ tự động tạo khi thêm thư viện hoặc chạy chương trình
uv venv .venv

# Cài đặt phiên bản mới nhất của 'requests'
uv add requests

# Cài đặt một phiên bản cụ thể của 'numpy'
uv add numpy==1.23.0

# Cài đặt từ tệp pyproject.toml
uv sync

# Chuyển phiên bản python
uv python install 3.12.3

# Data Science Toolkit

## 1. Numpy

In [5]:
import numpy as np
import time

Cộng 2 chuỗi

In [6]:
# Sử dụng list Python
list1 = range(1000000)
list2 = range(1000000)
start_time = time.time()
result_list = [x + y for x, y in zip(list1, list2)]
end_time = time.time()
normal_time = end_time - start_time
print(f"Thời gian dùng list Python: {end_time - start_time:.4f} giây")

# Sử dụng mảng NumPy
array1 = np.arange(1000000)
array2 = np.arange(1000000)
start_time = time.time()
result_array = array1 + array2
end_time = time.time()
numpy_time = end_time - start_time
print(f"Thời gian dùng mảng NumPy: {end_time - start_time:.4f} giây")
print(f"Thời gian NumPy nhanh hơn list Python {normal_time / numpy_time:.2f} lần")

Thời gian dùng list Python: 0.1742 giây
Thời gian dùng mảng NumPy: 0.0051 giây
Thời gian NumPy nhanh hơn list Python 34.12 lần


Nhân vô hướng 2 ma trận

In [7]:
# Tạo hai ma trận 100x100 ngẫu nhiên
A = np.random.rand(100, 100)
B = np.random.rand(100, 100)

# Nhân ma trận bằng for-loop
start_time = time.time()
result_loop = np.zeros((100, 100))
for i in range(100):
    for j in range(100):
        for k in range(100):
            result_loop[i, j] += A[i, k] * B[k, j]
end_time = time.time()
loop_time = end_time - start_time
print(f"Thời gian nhân ma trận bằng for-loop: {loop_time:.4f} giây")

# Nhân ma trận bằng numpy
start_time = time.time()
result_numpy = np.dot(A, B)
end_time = time.time()
numpy_time = end_time - start_time
print(f"Thời gian nhân ma trận bằng numpy: {numpy_time:.4f} giây")

print(f"Numpy nhanh hơn for-loop {loop_time / numpy_time:.2f} lần")

Thời gian nhân ma trận bằng for-loop: 0.8093 giây
Thời gian nhân ma trận bằng numpy: 0.0005 giây
Numpy nhanh hơn for-loop 1689.67 lần


## 2. Pandas

In [8]:
import pandas as pd

# Tạo Series từ một list
data_list = [10, 20, 30, 40, 50]
series_from_list = pd.Series(data_list)
print("Series từ list:")
print(series_from_list)
print("\n---")

# Tạo Series từ một dictionary (khóa trở thành index)
data_dict = {'A': 1, 'B': 2, 'C': 3, 'D': 4}
series_from_dict = pd.Series(data_dict)
print("Series từ dictionary:")
print(series_from_dict)
print("\n---")

# Tạo Series với index tùy chỉnh
custom_index = ['ngày 1', 'ngày 2', 'ngày 3', 'ngày 4', 'ngày 5']
series_custom_index = pd.Series(data_list, index=custom_index)
print("Series với index tùy chỉnh:")
print(series_custom_index)

Series từ list:
0    10
1    20
2    30
3    40
4    50
dtype: int64

---
Series từ dictionary:
A    1
B    2
C    3
D    4
dtype: int64

---
Series với index tùy chỉnh:
ngày 1    10
ngày 2    20
ngày 3    30
ngày 4    40
ngày 5    50
dtype: int64


In [9]:
# Tạo DataFrame từ một dictionary của các list (mỗi list là một cột)
data_dict_df = {
    'Tên': ['Alice', 'Bob', 'Charlie', 'David'],
    'Tuổi': [25, 30, 22, 35],
    'Điểm': [85, 90, 78, 92]
}
df_from_dict = pd.DataFrame(data_dict_df)
print("DataFrame từ dictionary:")
print(df_from_dict)
print("\n---")

# Tạo DataFrame từ một list của các dictionary (mỗi dictionary là một hàng)
data_list_df = [
    {'Tên': 'Alice', 'Tuổi': 25, 'Điểm': 85},
    {'Tên': 'Bob', 'Tuổi': 30, 'Điểm': 90},
    {'Tên': 'Charlie', 'Tuổi': 22, 'Điểm': 78},
    {'Tên': 'David', 'Tuổi': 35, 'Điểm': 92}
]
df_from_list = pd.DataFrame(data_list_df)
print("DataFrame từ list của dictionary:")
print(df_from_list)

DataFrame từ dictionary:
       Tên  Tuổi  Điểm
0    Alice    25    85
1      Bob    30    90
2  Charlie    22    78
3    David    35    92

---
DataFrame từ list của dictionary:
       Tên  Tuổi  Điểm
0    Alice    25    85
1      Bob    30    90
2  Charlie    22    78
3    David    35    92


In [None]:
import pandas as pd

data = {'Tên': ['Alice', 'Bob', 'Charlie', 'David'],
        'Tuổi': [25, 30, 22, 35],
        'Điểm': [85, 90, 78, 92]}
df = pd.DataFrame(data)

print("Thông tin DataFrame:")
df.info()
print("\n---")

print("Thống kê mô tả:")
print(df.describe())
print("\n---")

print("5 hàng đầu:")
print(df.head())
print("\n---")

print("5 hàng cuối:")
print(df.tail())

Thông tin DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Tên     4 non-null      object
 1   Tuổi    4 non-null      int64 
 2   Điểm    4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes

---
Thống kê mô tả:
            Tuổi       Điểm
count   4.000000   4.000000
mean   28.000000  86.250000
std     5.715476   6.238322
min    22.000000  78.000000
25%    24.250000  83.250000
50%    27.500000  87.500000
75%    31.250000  90.500000
max    35.000000  92.000000

---
5 hàng đầu:
       Tên  Tuổi  Điểm
0    Alice    25    85
1      Bob    30    90
2  Charlie    22    78
3    David    35    92

---
5 hàng cuối:
       Tên  Tuổi  Điểm
0    Alice    25    85
1      Bob    30    90
2  Charlie    22    78
3    David    35    92


In [None]:
# Chọn một cột
print("Cột 'Tên':")
print(df['Tên'])
print("\n---")

# Chọn nhiều cột
print("Các cột 'Tên' và 'Tuổi':")
print(df[['Tên', 'Tuổi']])
print("\n---")

# Chọn hàng theo index (sử dụng .loc cho label-based indexing)
print("Hàng có index 0:")
print(df.loc[0])
print("\n---")

# Chọn hàng theo vị trí (sử dụng .iloc cho integer-based indexing)
print("Hàng ở vị trí 1:")
print(df.iloc[1])
print("\n---")

# Chọn một ô cụ thể
print("Điểm của 'Bob':")
print(df.loc[1, 'Điểm'])
print("\n---")

# Chọn một nhóm ô
print("Tên và Tuổi của 2 hàng đầu:")
print(df.loc[0:1, ['Tên', 'Tuổi']])

Cột 'Tên':
0      Alice
1        Bob
2    Charlie
3      David
Name: Tên, dtype: object

---
Các cột 'Tên' và 'Tuổi':
       Tên  Tuổi
0    Alice    25
1      Bob    30
2  Charlie    22
3    David    35

---
Hàng có index 0:
Tên     Alice
Tuổi       25
Điểm       85
Name: 0, dtype: object

---
Hàng ở vị trí 1:
Tên     Bob
Tuổi     30
Điểm     90
Name: 1, dtype: object

---
Điểm của 'Bob':
90

---
Tên và Tuổi của 2 hàng đầu:
     Tên  Tuổi
0  Alice    25
1    Bob    30


In [13]:
data = {'Tên': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'Tuổi': [25, 30, 22, 35, 28],
        'Điểm': [85, 90, 78, 92, 88],
        'Thành phố': ['HCM', 'HN', 'HCM', 'ĐN', 'HN']}
df = pd.DataFrame(data)

# Lọc các hàng có tuổi lớn hơn 25
filtered_df_age = df[df['Tuổi'] > 25]
print("Hàng có tuổi > 25:")
print(filtered_df_age)
print("\n---")

# Lọc các hàng có điểm lớn hơn 80 VÀ ở thành phố HCM
filtered_df_score_city = df[(df['Điểm'] > 80) & (df['Thành phố'] == 'HCM')]
print("Hàng có điểm > 80 và ở HCM:")
print(filtered_df_score_city)
print("\n---")

# Lọc các hàng có tên là 'Bob' HOẶC 'Eve'
filtered_df_name = df[df['Tên'].isin(['Bob', 'Eve'])]
print("Hàng có tên là Bob hoặc Eve:")
print(filtered_df_name)

Hàng có tuổi > 25:
     Tên  Tuổi  Điểm Thành phố
1    Bob    30    90        HN
3  David    35    92        ĐN
4    Eve    28    88        HN

---
Hàng có điểm > 80 và ở HCM:
     Tên  Tuổi  Điểm Thành phố
0  Alice    25    85       HCM

---
Hàng có tên là Bob hoặc Eve:
   Tên  Tuổi  Điểm Thành phố
1  Bob    30    90        HN
4  Eve    28    88        HN


In [14]:
# Tạo một DataFrame (ví dụ)
data = {'Tên': ['Alice', 'Bob'], 'Tuổi': [25, 30]}
df = pd.DataFrame(data)

# Ghi DataFrame vào tệp CSV
df.to_csv('data.csv', index=False) # index=False để không ghi index vào tệp

# Đọc DataFrame từ tệp CSV
df_loaded = pd.read_csv('data.csv')
print("DataFrame đã đọc từ CSV:")
print(df_loaded)

DataFrame đã đọc từ CSV:
     Tên  Tuổi
0  Alice    25
1    Bob    30


## 2. Pandas