Pandas là một thư viện mã nguồn mở Python được sử dụng để phân tích và xử lý dữ liệu. Nó cung cấp các công cụ để đọc và ghi dữ liệu từ nhiều nguồn khác nhau, bao gồm tệp CSV, Excel và SQL, và cung cấp các cấu trúc dữ liệu linh hoạt như Series và DataFrame để làm việc với dữ liệu.

Series là một mảng một chiều có nhãn, trong đó các nhãn được sử dụng để định danh các phần tử. DataFrame là một cấu trúc dữ liệu hai chiều giống như bảng có thể chứa các loại dữ liệu khác nhau. Pandas cung cấp nhiều chức năng để thực hiện các phép toán, lọc, sắp xếp và truy vấn dữ liệu trong các cấu trúc dữ liệu này.

Pandas cũng có thể được sử dụng để xử lý và làm sạch dữ liệu bằng cách xử lý các giá trị thiếu hoặc trùng lặp và chuyển đổi kiểu dữ liệu. Nó cũng cung cấp tính năng để tổng hợp và trực quan hóa dữ liệu bằng cách sử dụng các thư viện đồ họa như Matplotlib và Seaborn.

Pandas là một trong những thư viện phổ biến nhất trong lĩnh vực khoa học dữ liệu và được sử dụng rộng rãi trong các ứng dụng phân tích dữ liệu và máy học.

# Getting and Knowing Data (Lấy và Khám Phá Dữ Liệu)

In [1]:
# Thư viện Pandas hỗ trợ cho việc xử lý dữ liệu dạng bảng (dataframe) trong Python.
import pandas as pd
#  Thư viện Numpy cung cấp các công cụ xử lý số học trong Python, đặc biệt là với các mảng nhiều chiều (arrays).
import numpy as np

## STEP 1 : Import  Dataset

In [2]:
# Đọc dữ liệu từ file TSV vào DataFrame
# sep="\t" cho biết phân tách dữ liệu trong tệp là dấu tab (\t).
df = pd.read_csv("chipotle.tsv", sep="\t")
# Hiển thị 5 dòng đầu tiên của DataFrame
df.head(5)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


# Step 2 : Dataset Overview

In [3]:
# Trả về một tuple gồm hai phần tử, thể hiện kích thước của DataFrame.
# Phần tử đầu tiên trong tuple là số lượng các hàng (rows) trong DataFrame, phần tử thứ hai là số lượng các cột (columns) trong DataFrame.
df.shape

(4622, 5)

In [4]:
# cung cấp thông tin về cấu trúc của DataFrame như số lượng các hàng, số lượng các cột, số lượng các giá trị không bị thiếu, kiểu dữ liệu của mỗi cột,
# kích thước bộ nhớ được sử dụng bởi DataFrame và các thông tin khác.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


In [5]:
# In ra tên của các cột
list(df.columns)

['order_id', 'quantity', 'item_name', 'choice_description', 'item_price']

In [6]:
# trả về một đối tượng Index, là một danh sách các nhãn được sử dụng để xác định các hàng (rows) của DataFrame.
df.index

RangeIndex(start=0, stop=4622, step=1)

In [7]:
# phương thức df.describe() là một DataFrame chứa các thông tin thống kê cho các cột số (numeric) trong DataFrame. Các thông tin thống kê này bao gồm:

# *Số lượng các mục (count)
# *Giá trị trung bình (mean)
# *Độ lệch chuẩn (standard deviation)
# *Giá trị tối thiểu (minimum)
# *Các phần vị (25%, 50%, 75%)
# *Giá trị tối đa (maximum)
# Phương thức df.describe() thường được sử dụng để kiểm tra sự phân bố của các giá trị trong các cột và tìm kiếm các giá trị ngoại lai (outliers) có thể ảnh hưởng đến các kết quả phân tích.

df.describe()
# Nếu muốn in cả type là chuỗi thì thêm df.describe(include = 'all')

Unnamed: 0,order_id,quantity
count,4622.0,4622.0
mean,927.254868,1.075725
std,528.890796,0.410186
min,1.0,1.0
25%,477.25,1.0
50%,926.0,1.0
75%,1393.0,1.0
max,1834.0,15.0


## loc(location) and iloc(index location) 

In [8]:
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [9]:
# df.loc[] là một phương thức trong pandas được sử dụng để truy xuất và thay đổi giá trị của một dòng hoặc nhiều dòng của DataFrame dựa trên các nhãn hoặc điều kiện được chỉ định.
# Cú Pháp : df.loc[row_label, column_label]
# row_label: là nhãn hoặc danh sách các nhãn của các dòng mà chúng ta muốn truy xuất. Các nhãn này có thể là một hoặc nhiều giá trị và được đặt trong cặp dấu ngoặc vuông [].
# column_label: là tên hoặc danh sách các tên cột mà chúng ta muốn truy xuất. Các tên cột này có thể là một hoặc nhiều giá trị và được đặt trong cặp dấu ngoặc vuông [].
df.loc[(df.item_name == 'Chips and Fresh Tomato Salsa')  & (df.quantity == 15),["order_id","quantity","item_name","item_price"]]

Unnamed: 0,order_id,quantity,item_name,item_price
3598,1443,15,Chips and Fresh Tomato Salsa,$44.25


In [10]:
# df.iloc[] là một phương thức trong pandas được sử dụng để truy xuất và thay đổi giá trị của một dòng hoặc nhiều dòng của DataFrame dựa trên chỉ số của chúng.
# Cú Pháp : df.iloc[row_index, column_index]
# row_index: là chỉ số hoặc danh sách các chỉ số của các dòng mà chúng ta muốn truy xuất. Các chỉ số này có thể là một hoặc nhiều giá trị và được đặt trong cặp dấu ngoặc vuông [].
# column_index: là chỉ số hoặc danh sách các chỉ số của các cột mà chúng ta muốn truy xuất. Các chỉ số này có thể là một hoặc nhiều giá trị và được đặt trong cặp dấu ngoặc vuông [].
# X = df.iloc[3:5, : -1]
# Y = df.iloc[3:5, -1]
df.iloc[3:11]
# print(Y)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25
10,5,1,Chips and Guacamole,,$4.45


In [11]:
df.iloc[[9],1:2] = 10
df.iloc[[9]]

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
9,5,10,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


## Data Manipulation (Thao tác dữ liệu)

In [12]:
df.item_price.dtype

dtype('O')

## Apply()

In [13]:
# apply() là một phương thức trong pandas được sử dụng để áp dụng một hàm (function) cho từng hàng hoặc cột trong DataFrame và trả về một Series hoặc DataFrame mới chứa các kết quả sau khi hàm được áp dụng.
# Cú pháp chung của phương thức này là: df.apply(func, axis=0)

df.item_price = df.item_price.apply(lambda x : float(x.replace('$','')))


In [14]:
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98


In [15]:
df.loc[(df.item_price == 2.39) & (df.item_name == 'Chips and Fresh Tomato Salsa')]

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39
25,13,1,Chips and Fresh Tomato Salsa,,2.39
55,25,1,Chips and Fresh Tomato Salsa,,2.39
265,115,1,Chips and Fresh Tomato Salsa,,2.39
302,131,1,Chips and Fresh Tomato Salsa,,2.39
326,142,1,Chips and Fresh Tomato Salsa,,2.39
848,349,1,Chips and Fresh Tomato Salsa,,2.39
962,395,1,Chips and Fresh Tomato Salsa,,2.39
1247,508,1,Chips and Fresh Tomato Salsa,,2.39
1465,595,1,Chips and Fresh Tomato Salsa,,2.39


In [16]:
# Tạo một colum mới "total_price" rồi cho nó bằng từng giá trị tương ứng ở cột "quantity" * "item_price" 
df["total_price"] = df["quantity"] * df["item_price"]
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,total_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39,2.39
1,1,1,Izze,[Clementine],3.39,3.39
2,1,1,Nantucket Nectar,[Apple],3.39,3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,33.96


## How much was the revenue for period in the dataset
(Doanh thu trong khoảng thời gian trong tập dữ liệu là bao nhiêu)

In [17]:
# df["total_price"].sum() là một đoạn mã trong pandas được sử dụng để tính tổng của tất cả các giá trị trong cột total_price của DataFrame df.
revenue = df["total_price"].sum()
revenue

39320.27

## Which was the most-ordered item ?
(Mặt hàng nào được đặt hàng nhiều nhất?)

In [18]:
#  sử dụng phương thức groupby() để nhóm các hàng theo giá trị của cột "item_name". Sau đó, chúng ta chỉ định cột "quantity" để tính tổng số lượng hàng hóa được bán theo tên hàng hóa.
c = df.groupby("item_name")["quantity"].sum()
# sử dụng phương thức sort_values() để sắp xếp các giá trị của Series "c" theo thứ tự giảm dần (parameter ascending=False). 
# Sau đó, phương thức head(1) được sử dụng để lấy ra giá trị đầu tiên của Series (tức là hàng hóa có số lượng bán nhiều nhất), 
# và trả về một Series mới chứa thông tin về tên hàng hóa và số lượng hàng hóa bán được.
c.sort_values(ascending= False).head(1)

item_name
Chicken Bowl    761
Name: quantity, dtype: int64

In [19]:
# hàm value_counts() của Pandas để đếm số lần xuất hiện của mỗi giá trị trong cột "item_name" của DataFrame df, và trả về một Series chứa số lần xuất hiện của mỗi giá trị.
df.item_name.value_counts().count() # số lượng món hàng 

50

In [20]:
# df.item_name.nunique() là một đoạn mã trong pandas được sử dụng để đếm số lượng giá trị duy nhất trong cột "item_name" của DataFrame df. (không tính giá trị trùng lặp)
df.item_name.nunique()

50