# Pandas
Pandas là một thư viện mã nguồn mở mạnh mẽ và linh hoạt được xây dựng trên ngôn ngữ lập trình Python, chuyên dụng cho việc phân tích và thao tác dữ liệu. Nó cung cấp các cấu trúc dữ liệu hiệu quả và dễ sử dụng, cùng với các công cụ để đọc, làm sạch, chuyển đổi, tổng hợp và phân tích dữ liệu.

Gồm hai cấu trúc dữ liệu chính là Series (mảng 1 chiều) và Dataframe (Bảng)

## Series

In [1]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [5]:
import pandas as pd

# Từ một list
s1 = pd.Series([10, 20, 30, 40])

# Từ một dictionary (chỉ mục (index) là các key)
s2 = pd.Series({'A': 1, 'B': 2, 'C': 3})

# tạo Series với các phần tử giống nhau
s3 = pd.Series(5, index=['a', 'b', 'c', 'd'])

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [6]:
# Bạn có thể truy cập các phần tử trong Series bằng chỉ mục:
print(s1[2])  # Output: 30
print(s2['B'])  # Output: 2

30
2


In [7]:
s3

a    5
b    5
c    5
d    5
dtype: int64

In [8]:
# Series hỗ trợ nhiều phép toán số học và logic:
print(s1 * 2)  # Nhân từng phần tử với 2
print(s1 > 25)  # So sánh từng phần tử với 25


0    20
1    40
2    60
3    80
dtype: int64
0    False
1    False
2     True
3     True
dtype: bool


In [9]:
temperatures = pd.Series([25, 28, 31, 22, 26], index=['Thứ 2', 'Thứ 3', 'Thứ 4', 'Thứ 5', 'Thứ 6'])

print(temperatures.index)
print(temperatures.values)
print(temperatures['Thứ 4'])
print(temperatures.max())


Index(['Thứ 2', 'Thứ 3', 'Thứ 4', 'Thứ 5', 'Thứ 6'], dtype='object')
[25 28 31 22 26]
31
31


### Lọc Dữ Liệu trong Series

1. Lọc theo điều kiện Boolean:
Đây là cách phổ biến nhất để lọc Series. Bạn tạo một Series Boolean chứa True hoặc False cho mỗi phần tử, sau đó sử dụng Series Boolean này để chọn các phần tử tương ứng trong Series gốc.

In [10]:
import pandas as pd

numbers = pd.Series([1, 5, 8, 3, 9, 2])

# Lọc các số lớn hơn 5
filtered = numbers[numbers > 5]
print(filtered)

2    8
4    9
dtype: int64


2. Lọc theo chỉ mục (Index):
Bạn có thể lọc Series bằng cách chỉ định các chỉ mục mong muốn.

In [11]:

filtered = numbers[[1, 3]]
print(filtered) 


1    5
3    3
dtype: int64


## DataFrame

### Tạo DataFrame

Có nhiều cách tạo DataFrame

In [12]:
import pandas as pd

# Từ một dictionary các list
data = {'Tên': ['Alice', 'Bob', 'Charlie'],
        'Tuổi': [25, 30, 35],
        'Điểm': [85, 70, 92]}
df = pd.DataFrame(data)

df


Unnamed: 0,Tên,Tuổi,Điểm
0,Alice,25,85
1,Bob,30,70
2,Charlie,35,92


In [13]:
# Từ một list các dictionary
data = [{'Tên': 'Alice', 'Tuổi': 25}, {'Tên': 'Bob', 'Tuổi': 30}]
df = pd.DataFrame(data)
df

Unnamed: 0,Tên,Tuổi
0,Alice,25
1,Bob,30


In [14]:
# Từ file CSV
df = pd.read_csv('data.csv')
df

Unnamed: 0,ID,Ten,Tuoi,Phong_ban,Luong
0,1,Nguyễn Văn A,25,Kế toán,5000000
1,2,Trần Thị B,30,Nhân sự,6000000
2,3,Lê Văn C,35,Kỹ thuật,7000000
3,4,Phạm Thị D,28,Marketing,5500000


### Truy cập và thao tác dữ liệu
1. Truy cập cột

In [15]:
print(df['Tuoi'])  # In ra cột "Tuổi" (kiểu Series)


0    25
1    30
2    35
3    28
Name: Tuoi, dtype: int64


2. Truy cập hàng
   

In [16]:
print(df.iloc[0])  # In ra hàng đầu tiên (kiểu Series)



ID                      1
Ten          Nguyễn Văn A
Tuoi                   25
Phong_ban         Kế toán
Luong             5000000
Name: 0, dtype: object


In [17]:
print(df.loc[0])   # In ra hàng có index 0 (kiểu Series)

ID                      1
Ten          Nguyễn Văn A
Tuoi                   25
Phong_ban         Kế toán
Luong             5000000
Name: 0, dtype: object


3. Lọc dữ liệu

In [18]:
print(df[df['Tuoi'] > 30])  # Lọc những người có tuổi lớn hơn 30


   ID       Ten  Tuoi Phong_ban    Luong
2   3  Lê Văn C    35  Kỹ thuật  7000000


In [19]:
df['Tuoi'] > 30

0    False
1    False
2     True
3    False
Name: Tuoi, dtype: bool