# Pandas Basic Tutorial - Chipotle Dataset

Học cách làm việc với dữ liệu sử dụng thư viện Pandas

In [56]:
import numpy as np
import pandas as pd

## 1. Import Dataset

**Hàm sử dụng:**
- `pd.read_csv()`: Đọc file CSV hoặc TSV vào DataFrame
  - `sep="\t"`: Chỉ định ký tự phân cách là tab (TSV file)

In [57]:
df = pd.read_csv("chipotle.tsv", sep="\t")

In [58]:
df.head(5)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


## 2. Dataset Overview - Khám phá dữ liệu

**Các hàm quan trọng:**
- `.head(n)`: Hiển thị n dòng đầu tiên (mặc định 5)
- `.shape`: Trả về tuple (số dòng, số cột)
- `.info()`: Hiển thị thông tin tổng quan về DataFrame (kiểu dữ liệu, số lượng giá trị null)
- `.columns`: Trả về danh sách tên các cột
- `.index`: Trả về index của DataFrame
- `.describe()`: Thống kê mô tả (count, mean, std, min, max, v.v.)
  - `include="all"`: Bao gồm cả cột số và cột text

In [59]:
df.shape

(4622, 5)

In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


In [61]:
df.columns

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')

In [62]:
df.index

RangeIndex(start=0, stop=4622, step=1)

In [63]:
df.describe(include="all")

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
count,4622.0,4622.0,4622,3376,4622
unique,,,50,1043,78
top,,,Chicken Bowl,[Diet Coke],$8.75
freq,,,726,134,730
mean,927.254868,1.075725,,,
std,528.890796,0.410186,,,
min,1.0,1.0,,,
25%,477.25,1.0,,,
50%,926.0,1.0,,,
75%,1393.0,1.0,,,


## 3. Data Selection - Chọn dữ liệu

### 3.1. loc và iloc

**Phân biệt:**
- `.loc[]`: Truy cập theo **label/tên** (tên cột, điều kiện logic)
- `.iloc[]`: Truy cập theo **vị trí/index số** (như array)

In [64]:
df.loc[(df.quantity == 2) & (df.item_name == "Chicken Bowl"), ["order_id", "quantity"]]

Unnamed: 0,order_id,quantity
4,2,2
154,70,2
282,124,2
415,181,2
654,271,2
976,401,2
1017,418,2
1106,457,2
1429,578,2
1588,643,2


**Ví dụ loc:** Lọc các hàng thỏa điều kiện (quantity = 2 VÀ item_name = "Chicken Bowl"), chỉ lấy 2 cột order_id và quantity

In [65]:
df.iloc[[0]]

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39


**Ví dụ iloc:** Lấy dòng đầu tiên (index 0)

In [66]:
df.iloc[3:11]

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25
10,5,1,Chips and Guacamole,,$4.45


**Ví dụ iloc:** Lấy các dòng từ index 3 đến 10 (slice [3:11])

In [67]:
X = df.iloc[3:5, :-1]
y = df.iloc[3:5, -1]

**Ví dụ iloc:** Tách features (X) và target (y) - pattern phổ biến trong Machine Learning
- X: dòng 3-4, tất cả cột trừ cột cuối
- y: dòng 3-4, chỉ lấy cột cuối

## 4. Data Manipulation - Xử lý và Biến đổi dữ liệu

### 4.1. Kiểm tra kiểu dữ liệu
**Hàm:** `.dtype` - Trả về kiểu dữ liệu của một Series/cột

In [68]:
df.item_name.dtype

dtype('O')

### 4.2. Apply() - Áp dụng hàm cho từng phần tử

**Hàm:** `.apply(function)` - Áp dụng một hàm lên từng phần tử của Series
- Thường dùng với **lambda function** cho các phép biến đổi đơn giản
- Ví dụ: Chuyển đổi cột item_price từ string "$X.XX" thành float

In [69]:
df.item_price = df.item_price.apply(lambda x: float(x.replace("$", "")))

In [70]:
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98


In [71]:
df["total_price"] = df["quantity"] * df["item_price"]

### 4.3. Tạo cột mới

Tính toán cột total_price = quantity × item_price

## 5. Data Analysis - Phân tích dữ liệu

### 5.1. Tính tổng doanh thu

**Hàm:** `.sum()` - Tính tổng của một Series hoặc các cột trong DataFrame

In [72]:
revenue = df["total_price"].sum()
print(revenue)

39237.02


### 5.2. Tìm món ăn được đặt nhiều nhất

#### Cách 1: Group By

**Các hàm:**
- `.groupby()`: Nhóm dữ liệu theo một hoặc nhiều cột
- `.sort_values()`: Sắp xếp theo giá trị
  - `ascending=False`: Sắp xếp giảm dần (lớn đến nhỏ)

In [73]:
c = df.groupby(df["item_name"])["quantity"].sum()
c.sort_values(ascending=False)

item_name
Chicken Bowl                             761
Chicken Burrito                          591
Chips and Guacamole                      506
Steak Burrito                            386
Canned Soft Drink                        351
Chips                                    230
Steak Bowl                               221
Bottled Water                            211
Chips and Fresh Tomato Salsa             130
Canned Soda                              126
Chicken Salad Bowl                       123
Chicken Soft Tacos                       120
Side of Chips                            110
Veggie Burrito                            97
Barbacoa Burrito                          91
Veggie Bowl                               87
Carnitas Bowl                             71
Barbacoa Bowl                             66
Carnitas Burrito                          60
Steak Soft Tacos                          56
6 Pack Soft Drink                         55
Chicken Crispy Tacos                      50


#### Cách 2: Đếm số lượng giá trị unique

**Các hàm:**
- `.value_counts()`: Đếm số lần xuất hiện của mỗi giá trị unique, tự động sắp xếp giảm dần
- `.count()`: Đếm số lượng phần tử (không bao gồm NaN)
- `.nunique()`: Đếm số lượng giá trị unique trong Series

In [74]:
df.item_name.value_counts().count()

np.int64(50)

In [75]:
df["item_name"].nunique()

50