In [7]:
import pandas as pd
import numpy as np

#1. Dtypes

In [2]:
"""
Kiểu dữ liệu cho một cột trong DataFrame hoặc Series được gọi là dtype.

Bạn có thể sử dụng thuộc tính dtype để lấy kiểu dữ liệu của một cột cụ thể.
"""

# Tạo một DataFrame đơn giản
data = {'name': ['John', 'Alice', 'Bob'],
        'age': [25, 30, 35],
        'price': [10.5, 15.2, 20.0]}
df = pd.DataFrame(data)

# Lấy kiểu dữ liệu của cột 'price'
price_dtype = df['price'].dtype

print(price_dtype)


float64


In [None]:
"""
Một cách khác, thuộc tính dtypes trả về kiểu dữ liệu của từng cột trong DataFrame:
"""

In [4]:
# Tạo một DataFrame đơn giản
data = {'name': ['John', 'Alice', 'Bob'],
        'age': [25, 30, 35],
        'price': [10.5, 15.2, 20.0]}
df = pd.DataFrame(data)

# Lấy kiểu dữ liệu của từng cột trong DataFrame
column_dtypes = df.dtypes

print(column_dtypes)


name      object
age        int64
price    float64
dtype: object


In [None]:
"""
Kiểu dữ liệu cho chúng ta biết một số thông tin về cách pandas lưu trữ dữ liệu nội bộ. float64 có nghĩa 
là nó sử dụng số dấu chấm động 64-bit; int64 có nghĩa là sử dụng một số nguyên cùng kích thước tương tự, và vân vân.

Một đặc điểm đáng chú ý (và rất rõ ràng ở đây) là các cột chỉ gồm chuỗi không có kiểu dữ liệu riêng của chúng; 
thay vào đó, chúng được gán kiểu dữ liệu là object.

Có thể chuyển đổi một cột từ một kiểu sang kiểu khác mỗi khi việc chuyển đổi đó hợp lý bằng cách 
sử dụng hàm astype(). Ví dụ, chúng ta có thể chuyển đổi cột points từ kiểu dữ liệu int64 hiện có sang kiểu dữ liệu float64:
"""

In [5]:
# Tạo một DataFrame đơn giản
data = {'name': ['John', 'Alice', 'Bob'],
        'age': [25, 30, 35],
        'points': [10, 15, 20]}
df = pd.DataFrame(data)

# Kiểu dữ liệu ban đầu của cột 'points'
points_dtype_before = df['points'].dtype
print("Kiểu dữ liệu trước khi chuyển đổi:", points_dtype_before)

# Chuyển đổi cột 'points' sang kiểu dữ liệu float64
df['points'] = df['points'].astype(float)

# Kiểu dữ liệu sau khi chuyển đổi của cột 'points'
points_dtype_after = df['points'].dtype
print("Kiểu dữ liệu sau khi chuyển đổi:", points_dtype_after)


Kiểu dữ liệu trước khi chuyển đổi: int64
Kiểu dữ liệu sau khi chuyển đổi: float64


#2. Missing data

In [8]:
"""
Các mục thiếu giá trị được gán giá trị NaN, 
viết tắt của "Not a Number". Vì lý do kỹ thuật, các giá trị NaN luôn có kiểu dữ liệu float64.

Pandas cung cấp một số phương pháp đặc biệt cho dữ liệu thiếu. 
Để chọn các mục NaN, bạn có thể sử dụng pd.isnull() (hoặc pd.notnull()). 
Điều này được sử dụng như sau:
"""

# Tạo một Series với một số giá trị NaN
data = pd.Series([1, 2, np.nan, 4, np.nan, 6])

# Chọn các mục có giá trị NaN
null_entries = data[pd.isnull(data)]

print(null_entries)


2   NaN
4   NaN
dtype: float64


In [None]:
"""
Trong ví dụ này, chúng ta tạo một Series với một số giá trị NaN (Not a Number). 
Chúng ta sử dụng hàm pd.isnull() để chọn các mục có giá trị NaN trong Series. 
Kết quả trả về là một Series chỉ chứa các mục có giá trị NaN.
"""

In [None]:
"""Thay thế các giá trị thiếu là một phép toán phổ biến. 
Pandas cung cấp một phương thức cực kỳ hữu ích cho vấn đề này: fillna(). fillna() 
cung cấp một số chiến lược khác nhau để giảm thiểu dữ liệu thiếu. 
"""

In [9]:
# Tạo một Series với một số giá trị NaN
data = pd.Series([1, 2, np.nan, 4, np.nan, 6])

# Thay thế giá trị NaN bằng "Unknown"
filled_data = data.fillna("Unknown")

print(filled_data)


0        1.0
1        2.0
2    Unknown
3        4.0
4    Unknown
5        6.0
dtype: object


In [None]:
"""
Hoặc chúng ta có thể điền mỗi giá trị thiếu bằng giá trị không null đầu tiên xuất hiện sau bản ghi đã cho trong cơ sở dữ liệu. 
Đây được gọi là chiến lược backfill.
"""

In [10]:
# Tạo một DataFrame đơn giản
data = {'reviewer': ['John', 'Alice', 'Kerin O\'Keefe', 'Bob'],
        'twitter_handle': ['@john', '@alice', '@kerinokeefe', '@bob']}
df = pd.DataFrame(data)

# Thay thế giá trị 'kerinokeefe' bằng 'kerino'
df['twitter_handle'] = df['twitter_handle'].replace('@kerinokeefe', '@kerino')

print(df)


        reviewer twitter_handle
0           John          @john
1          Alice         @alice
2  Kerin O'Keefe        @kerino
3            Bob           @bob


In [None]:
"""
Phương thức replace() đáng để đề cập ở đây vì nó hữu ích để thay thế dữ liệu thiếu được đặt 
thành một giá trị báo hiệu nào đó trong tập dữ liệu: 
như "Unknown" (Không rõ), "Undisclosed" (Không tiết lộ), "Invalid" (Không hợp lệ), và vân vân.
"""

#3. Renaming

In [None]:
"""
Hm rename() trong pandas được sử dụng để thay đổi tên chỉ mục (index) hoặc tên cột (column) trong DataFrame. 
Nó cho phép bạn thay đổi tên của một hoặc nhiều chỉ mục hoặc cột cùng một lúc.
"""

In [None]:
"""
Hàm rename() cho phép bạn đổi tên các giá trị chỉ mục hoặc cột bằng cách chỉ định các tham số keyword index hoặc column tương ứng. 
Nó hỗ trợ nhiều định dạng đầu vào khác nhau, nhưng thông thường, từ điển (dictionary) Python là cách thuận tiện nhất. 
Dưới đây là một ví dụ sử dụng hàm rename() để đổi tên một số phần tử của chỉ mục.
"""

In [11]:
# Tạo DataFrame mẫu
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['X', 'Y', 'Z'])
print("DataFrame ban đầu:")
print(df)

# Sử dụng hàm rename() để đổi tên một số phần tử chỉ mục
df.rename(index={'X': 'M', 'Y': 'N'}, inplace=True)
print("\nDataFrame sau khi đổi tên:")
print(df)


DataFrame ban đầu:
   A  B
X  1  4
Y  2  5
Z  3  6

DataFrame sau khi đổi tên:
   A  B
M  1  4
N  2  5
Z  3  6


In [None]:
"""
Thường thì bạn sẽ thay đổi tên các cột rất thường xuyên, nhưng thay đổi tên các giá trị chỉ mục rất ít khi. 
Để làm điều đó, hàm set_index() thường được sử dụng thuận tiện hơn.

Cả chỉ mục hàng và chỉ mục cột đều có thuộc tính tên riêng của chúng. 
Phương thức rename_axis() có thể được sử dụng để thay đổi các tên này.
"""

In [12]:
# Tạo DataFrame mẫu
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['X', 'Y', 'Z'])
print("DataFrame ban đầu:")
print(df)

# Thay đổi tên của chỉ mục hàng và chỉ mục cột
df_renamed = df.rename_axis(index='Row', columns='Column')
print("\nDataFrame sau khi thay đổi tên:")
print(df_renamed)


DataFrame ban đầu:
   A  B
X  1  4
Y  2  5
Z  3  6

DataFrame sau khi thay đổi tên:
Column  A  B
Row         
X       1  4
Y       2  5
Z       3  6


#4. Combining

In [None]:
"""
Khi thực hiện các thao tác trên một tập dữ liệu, đôi khi chúng ta cần kết hợp các DataFrame và/hoặc Series khác nhau theo cách không đơn giản.
Pandas có ba phương pháp cốt lõi để làm điều này. Theo thứ tự tăng dần độ phức tạp, chúng là concat(), join() và merge(). 
Hầu hết những gì merge() có thể làm cũng có thể được thực hiện một cách đơn giản hơn bằng cách sử dụng join(), 
vì vậy chúng ta sẽ bỏ qua merge() và tập trung vào hai hàm đầu tiên ở đây.
"""

"""
Phương pháp kết hợp đơn giản nhất là concat(). 
Cho một danh sách các phần tử, hàm này sẽ kết hợp các phần tử đó lại theo một trục.
"""

"""
Điều này hữu ích khi chúng ta có dữ liệu trong các đối tượng DataFrame hoặc Series khác nhau nhưng có cùng các trường (cột). 
Một ví dụ: bộ dữ liệu Video trên YouTube, mà chia dữ liệu thành từng phần dựa trên quốc gia xuất xứ 
(ví dụ: Canada và Vương quốc Anh trong ví dụ này). 
Nếu chúng ta muốn nghiên cứu nhiều quốc gia cùng một lúc, chúng ta có thể sử dụng concat() để kết hợp chúng lại:
"""

In [13]:
# Tạo hai DataFrame đại diện cho dữ liệu từ hai quốc gia
df_canada = pd.DataFrame({'Country': ['Canada', 'Canada'],
                          'Video_Title': ['Video 1', 'Video 2'],
                          'Views': [1000, 2000]})
df_uk = pd.DataFrame({'Country': ['UK', 'UK'],
                      'Video_Title': ['Video 3', 'Video 4'],
                      'Views': [1500, 1800]})

# Sử dụng concat() để kết hợp các DataFrame lại với nhau
combined_df = pd.concat([df_canada, df_uk])

print(combined_df)


  Country Video_Title  Views
0  Canada     Video 1   1000
1  Canada     Video 2   2000
0      UK     Video 3   1500
1      UK     Video 4   1800


In [None]:
"""
Phương thức join() trong Pandas cũng được sử dụng để kết hợp các DataFrame và/hoặc Series, tương tự như concat(). 
Tuy nhiên, join() tập trung vào kết hợp dựa trên các chỉ mục (index) thay vì các trục (axis) như concat().

Có hai cách chính để sử dụng join():

Kết hợp theo chỉ mục (index): Khi các DataFrame có cùng các chỉ mục, chúng ta có thể sử dụng join() để kết hợp chúng dựa trên chỉ mục đó.

Kết hợp dựa trên cột: Chúng ta có thể sử dụng join() để kết hợp các DataFrame dựa trên các cột có tên giống nhau.

Dưới đây là một ví dụ về cách sử dụng join() để kết hợp các DataFrame dựa trên chỉ mục:
"""

In [14]:
# Tạo hai DataFrame với các chỉ mục chung
df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]},
                   index=['a', 'b', 'c'])

df2 = pd.DataFrame({'C': [7, 8, 9],
                    'D': [10, 11, 12]},
                   index=['a', 'b', 'c'])

# Sử dụng join() để kết hợp DataFrame dựa trên chỉ mục
joined_df = df1.join(df2)

print(joined_df)


   A  B  C   D
a  1  4  7  10
b  2  5  8  11
c  3  6  9  12


In [None]:
"""
Các tham số lsuffix và rsuffix là cần thiết ở đây vì dữ liệu có cùng tên cột trong 
cả tập dữ liệu của Anh và Canada. Nếu điều này không đúng (ví dụ: chúng ta đã đổi tên chúng trước đó), 
thì chúng ta sẽ không cần sử dụng chúng.
"""