In [None]:
import pandas as pd

#1 Summary Functions

In [None]:
"""
Summary Functions (Các hàm tóm tắt) là các phương thức trong Pandas được sử dụng để xử lý dữ liệu một cách nhanh chóng và trả về 
kết quả một cách đơn giản và hữu ích. Các hàm này giúp đưa ra các thống kê cơ bản về dữ liệu như 
min, max, mean, median, mode, quantiles, và count. 
Một số hàm tóm tắt phổ biến trong Pandas bao gồm 
describe(), info(), value_counts(), sum(), mean(), median(), std(), var(), corr(), và cov().
"""

data = {'height': [170, 165, 180, 175, 160], 
        'weight': [70, 60, 85, 75, 55]}

df = pd.DataFrame(data)

print(df.describe())

           height     weight
count    5.000000   5.000000
mean   170.000000  69.000000
std      7.905694  11.937336
min    160.000000  55.000000
25%    165.000000  60.000000
50%    170.000000  70.000000
75%    175.000000  75.000000
max    180.000000  85.000000


In [None]:
"""
hương thức unique() trong Pandas được sử dụng để trích xuất các giá trị duy nhất từ một cột (Series) của DataFrame.
Nó trả về một mảng (array) các giá trị duy nhất theo thứ tự xuất hiện đầu tiên.
"""

data = {'gender': ['male', 'female', 'male', 'male', 'female', 'female']}

df = pd.DataFrame(data)

df['gender'].unique()

array(['male', 'female'], dtype=object)

In [None]:
"""
Phương thức value_counts() trong Pandas được sử dụng để đếm số lần xuất hiện của các giá trị trong một cột (Series) của DataFrame. 
Nó trả về một Series mới với các giá trị là số lần xuất hiện của các giá trị duy nhất trong cột, được sắp xếp theo thứ tự giảm dần.
"""

df["gender"].value_counts()

male      3
female    3
Name: gender, dtype: int64

#2. Maps

In [None]:
"""
Map là một thuật ngữ được mượn từ toán học, 
để chỉ một hàm (function) nhận một tập hợp giá trị và ánh xạ chúng để tạo ra một tập giá trị khác
"""

"""
Trong khoa học dữ liệu, chúng ta thường cần tạo ra các biểu diễn mới từ dữ liệu hiện có, 
hoặc chuyển đổi dữ liệu từ định dạng hiện tại sang định dạng mong muốn sau này. 
"Maps" là những thứ xử lý công việc này, làm cho chúng vô cùng quan trọng để hoàn thành công việc của bạn!
"""

"""
Có hai phương pháp ánh xạ mà bạn sẽ sử dụng thường xuyên:
"""

"""
map() là phương pháp đơn giản đầu tiên.
Ví dụ, giả sử chúng ta muốn đưa lại giá trị trung bình của các điểm số của các chai rượu về 0. 
Chúng ta có thể làm điều này như sau:
"""

"""
Giả sử chúng ta có một DataFrame df chứa thông tin về giá trị điểm của các sản phẩm, 
và chúng ta muốn ánh xạ các giá trị điểm này thành các nhận định về chất lượng của sản phẩm. 
Chúng ta có thể sử dụng phương thức map() để thực hiện điều này.
"""

data = {'product': ['A', 'B', 'C', 'D', 'E', 'F'],
    'score': [8, 6, 9, 7, 5, 8]}

df = pd.DataFrame(data)

# Define a dictionary to map scores to quality ratings
quality_map = {10: 'Excellent', 9: 'Great', 8: 'Very good', 7: 'Good', 6: 'Satisfactory', 5: 'Fair'}

# Use map() to map scores to quality ratings
df['quality'] = df['score'].map(quality_map)

# Print the resulting DataFrame
print(df)


  product  score       quality
0       A      8     Very good
1       B      6  Satisfactory
2       C      9         Great
3       D      7          Good
4       E      5          Fair
5       F      8     Very good


In [None]:
"""
apply() là phương thức tương đương nếu chúng ta muốn chuyển đổi toàn bộ DataFrame bằng cách gọi một phương thức tùy chỉnh trên mỗi hàng. 
Nó cho phép chúng ta thực hiện các phép biến đổi phức tạp hơn so với map(). 
Chẳng hạn, nếu chúng ta muốn tạo một cột mới bằng cách tính toán dựa trên các cột hiện có của DataFrame, 
chúng ta có thể sử dụng apply() để áp dụng một hàm tùy chỉnh trên mỗi hàng và trả về kết quả.
"""

# Tạo DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# Định nghĩa hàm tính tổng của 'A' và 'B'
def sum_columns(row):
    return row['A'] + row['B']

# Áp dụng hàm sum_columns() trên mỗi hàng và lưu kết quả vào cột mới 'C'
df['C'] = df.apply(sum_columns, axis=1)

# In kết quả
print(df)


   A  B  C
0  1  4  5
1  2  5  7
2  3  6  9


In [None]:
"""
Đối với các phép toán giữa các series, Pandas cung cấp các toán tử như >, <, ==,... 
để thực hiện các phép toán này nhanh hơn so với map() hoặc apply(). 
Tất cả các toán tử chuẩn của Python đều hoạt động theo cách này.

Tuy nhiên, chúng không linh hoạt như map() hoặc apply(), 
có thể thực hiện các tác vụ nâng cao hơn, chẳng hạn như áp dụng logic điều kiện, 
điều mà không thể thực hiện được chỉ với phép cộng và trừ đơn giản.
"""

#3 Groupwise analysis

In [None]:
"""
groupby() là một phương thức mạnh mẽ và linh hoạt để nhóm dữ liệu trong DataFrame dựa trên một hoặc nhiều cột, 
và thực hiện các hoạt động trên từng nhóm một cách độc lập.

Hàm value_counts() là một phím tắt của phép toán groupby() và đếm số lượng giá trị duy nhất trong một cột.

Các hàm tóm tắt có thể được sử dụng với dữ liệu được nhóm lại bằng groupby().
"""

# load the wine review dataset
#wine_reviews = pd.read_csv('winemag-data-130k-v2.csv')

# group the reviews by point values and count the number of times each point value appears
#point_counts = wine_reviews.groupby('points').size()

# print the result
#print(point_counts)

# OutPut
"""
points
80      898
81     1502
82     3015
83     4460
84     6489
85     9531
86    12600
87    16933
88    17457
89    12265
90    15410
91     9533
92     7890
93     4913
94     2369
95      735
96      262
97       97
98       34
99       11
100      19
dtype: int64
"""

In [None]:
#reviews.groupby('winery').apply(lambda df: df.title.iloc[0])
"""
Trong ví dụ này, chúng ta sử dụng phương thức apply() trên kết quả của phương thức groupby() để áp dụng một hàm được định 
nghĩa trước đó lên từng nhóm dữ liệu. Hàm này trả về tên của chai rượu vang đầu tiên được đánh giá cho mỗi 
nhà máy chế biến rượu vang trong nhóm được chọn. Kết quả là một Series chứa tên của chai rượu vang đầu 
tiên được đánh giá từ mỗi nhà máy chế biến rượu vang.
"""

In [None]:
"""
Phương thức agg() trong groupby() cho phép chạy nhiều hàm khác nhau trên DataFrame cùng lúc. 
Chúng ta có thể chỉ định các hàm muốn áp dụng và các cột tương ứng để tính toán trên các nhóm được tạo ra từ phương thức groupby(). 
Kết quả trả về là một DataFrame chứa các giá trị thống kê được tính cho từng nhóm.
"""

# Tạo DataFrame
data = {'fruits': ['apple', 'banana', 'apple', 'banana', 'orange', 'orange'],
        'price': [1.0, 1.5, 2.0, 1.8, 1.2, 1.5],
        'quantity': [10, 20, 15, 30, 5, 10]}
df = pd.DataFrame(data)

# Nhóm dữ liệu theo loại trái cây và tính giá trị trung bình và tổng số lượng
summary = df.groupby('fruits').agg({'price': 'mean', 'quantity': 'sum'})
print(summary)


        price  quantity
fruits                 
apple    1.50        25
banana   1.65        50
orange   1.35        15
