
# CPE312 – กิจกรรมกลุ่ม: Data Manipulation with Pandas (Beer Reviews)

**วัตถุประสงค์ของกิจกรรม**
- ฝึกใช้งาน `pandas` กับข้อมูลจริง: อ่านไฟล์, ตรวจสอบข้อมูล, คัดกรอง, เรียงลำดับ, จัดกลุ่ม (groupby), สรุปผล
- ฝึกตั้งคำถามเชิงวิเคราะห์จากข้อมูล และเปรียบเทียบแนวทางตนเองกับโค้ดที่ได้จาก ChatGPT อย่างมีวิจารณญาณ


> **รูปแบบการทำงาน:** ทำงานเป็นกลุ่ม (3–5 คน) ในโน้ตบุ๊กนี้ ส่งไฟล์ `.ipynb` พร้อมผลลัพธ์ และคำอธิบายสั้น ๆ ใต้แต่ละคำตอบ


## 0) Setup & ตรวจสอบไฟล์ข้อมูล

In [8]:

import os
import pandas as pd

# ✅ ปรับชื่อไฟล์ได้ตามที่ผู้สอนแจก
INPUT_FILE = "beer_reviews.csv"

assert os.path.exists(INPUT_FILE), f"ไม่พบไฟล์ {INPUT_FILE} ในไดเรกทอรีปัจจุบัน"
df = pd.read_csv(INPUT_FILE)
print("Shape:", df.shape)
df.head(3)


Shape: (1586614, 13)


Unnamed: 0,brewery_id,brewery_name,review_time,review_overall,review_aroma,review_appearance,review_profilename,beer_style,review_palate,review_taste,beer_name,beer_abv,beer_beerid
0,10325,Vecchio Birraio,1234817823,1.5,2.0,2.5,stcules,Hefeweizen,1.5,1.5,Sausa Weizen,5.0,47986
1,10325,Vecchio Birraio,1235915097,3.0,2.5,3.0,stcules,English Strong Ale,3.0,3.0,Red Moon,6.2,48213
2,10325,Vecchio Birraio,1235916604,3.0,2.5,3.0,stcules,Foreign / Export Stout,3.0,3.0,Black Horse Black Beer,6.5,48215



## 1) ภาพรวมของข้อมูล (Data Overview)

**TODO:** 
1. แสดงจำนวนแถวและคอลัมน์ของ DataFrame  
2. แสดงรายชื่อคอลัมน์ทั้งหมด  
3. ตรวจสอบชนิดข้อมูล (`dtypes`)  
4. ตรวจสอบค่าสูญหาย (missing values) ในแต่ละคอลัมน์


In [9]:

# 1. จำนวนแถวและคอลัมน์
# TODO: เขียนโค้ดที่นี่
df_shape = df.shape  # แทนด้วยโค้ดของคุณ
df_shape


(1586614, 13)

In [10]:

# 2. รายชื่อคอลัมน์ทั้งหมด
# TODO: เขียนโค้ดที่นี่
columns = df.columns.tolist()
columns


['brewery_id',
 'brewery_name',
 'review_time',
 'review_overall',
 'review_aroma',
 'review_appearance',
 'review_profilename',
 'beer_style',
 'review_palate',
 'review_taste',
 'beer_name',
 'beer_abv',
 'beer_beerid']

In [11]:

# 3. ชนิดข้อมูลของแต่ละคอลัมน์
# TODO: เขียนโค้ดที่นี่
dtypes = df.dtypes
dtypes


brewery_id              int64
brewery_name           object
review_time             int64
review_overall        float64
review_aroma          float64
review_appearance     float64
review_profilename     object
beer_style             object
review_palate         float64
review_taste          float64
beer_name              object
beer_abv              float64
beer_beerid             int64
dtype: object

In [12]:

# 4. ค่าสูญหาย (missing values)
# TODO: เขียนโค้ดที่นี่
missing = df.isnull().sum()
missing


brewery_id                0
brewery_name             15
review_time               0
review_overall            0
review_aroma              0
review_appearance         0
review_profilename      348
beer_style                0
review_palate             0
review_taste              0
beer_name                 0
beer_abv              67785
beer_beerid               0
dtype: int64


## 2) การคัดกรองข้อมูล (Filtering)

**TODO:** 
1. เลือกเฉพาะรีวิวของ **beer style** ใดสไตล์หนึ่ง (เช่น *American IPA*)  
2. เลือกรีวิวที่มี `overall` > 4.5  
3. สร้างตัวแปรใหม่ `strong_beer` เป็น True ถ้า `ABV` > ค่าที่กำหนด (เช่น 7.5)

> หมายเหตุ: ชื่อคอลัมน์อาจเป็น `beer_style`, `review_overall`, `beer_abv` หรืออื่น ๆ ตามชุดข้อมูลของคุณ ตรวจสอบจาก `df.columns` ก่อน


In [13]:

# 1) เลือกเฉพาะ beer style ตามที่กำหนด
TARGET_STYLE = "American IPA"  # เปลี่ยนได้
# TODO: เขียนโค้ดเลือกแถวตามสไตล์
df_style = df[df["beer_style"] == TARGET_STYLE]
df_style.head(5)


Unnamed: 0,brewery_id,brewery_name,review_time,review_overall,review_aroma,review_appearance,review_profilename,beer_style,review_palate,review_taste,beer_name,beer_abv,beer_beerid
257,1075,Caldera Brewing Company,1272945129,4.0,4.0,4.0,Akfan,American IPA,4.0,4.5,Caldera IPA,6.1,10784
265,1075,Caldera Brewing Company,1324238653,4.0,4.0,4.0,coldriver,American IPA,4.0,4.5,Caldera IPA,6.1,10784
330,1075,Caldera Brewing Company,1296875377,4.0,4.0,4.0,Mora2000,American IPA,4.0,4.0,Caldera IPA,6.1,10784
337,1075,Caldera Brewing Company,1297129212,4.0,4.0,4.0,Rutager,American IPA,4.0,3.5,Caldera IPA,6.1,10784
338,1075,Caldera Brewing Company,1297105083,4.5,4.0,4.0,CHILLINDYLAN,American IPA,4.0,4.0,Caldera IPA,6.1,10784


In [14]:

# 2) เลือกรีวิวที่มี overall > 4.5
# TODO: เขียนโค้ด
df_over45 = df[df["review_overall"] > 4.5]
df_over45[['beer_name']].head(5)


Unnamed: 0,beer_name
11,Caldera Ginger Beer
25,Rauch Ür Bock
31,Rauch Ür Bock
42,Rauch Ür Bock
73,Caldera Pale Ale


In [15]:

# 3) เพิ่มคอลัมน์ strong_beer = (ABV > 7.5)
# TODO: เขียนโค้ด
# ตัวอย่างชื่อคอลัมน์ ABV อาจเป็น 'beer_abv' หรือ 'abv' ให้ตรวจสอบก่อนใช้งาน
ABV_COL = 'beer_abv'  # ปรับตามจริง
THRESH = 7.5
df['strong_beer'] = df[ABV_COL] > THRESH
df[['beer_name', ABV_COL, 'strong_beer']].head(5)


Unnamed: 0,beer_name,beer_abv,strong_beer
0,Sausa Weizen,5.0,False
1,Red Moon,6.2,False
2,Black Horse Black Beer,6.5,False
3,Sausa Pils,5.0,False
4,Cauldron DIPA,7.7,True



## 3) การเรียงลำดับและการเลือก (Sorting & Selection)

**TODO:**
1. หาชื่อเบียร์ **Top 5** ที่มีค่าเฉลี่ยคะแนนสูงสุด (สมมติคอลัมน์คะแนนรวมคือ `review_overall`)  
2. เรียง **breweries** ตามจำนวนรีวิวจากมากไปน้อย


In [16]:

# 1) Top 5 เบียร์ที่คะแนนเฉลี่ยสูงสุด
# TODO: เขียนโค้ด groupby ตาม beer_name -> ค่าเฉลี่ย review_overall -> เรียงลำดับ
top5_beers = df.groupby('beer_name')['review_overall'].mean().sort_values(ascending=False)
top5_beers.head(5)


beer_name
Taeberry Boch                                              5.0
Wasatch Irish Stout                                        5.0
Pale Ale S.C.A.G. (Simcoe, Columbus, Amarillo & Galaxy)    5.0
Distorter Porter                                           5.0
Louwaege's Stout                                           5.0
Name: review_overall, dtype: float64

In [17]:

# 2) เรียงโรงเบียร์ (breweries) ตามจำนวนรีวิว
# TODO: เขียนโค้ด groupby โรงเบียร์ แล้วนับจำนวน -> เรียงลำดับ
brewery_counts = df.groupby('brewery_name')['review_overall'].count().sort_values(ascending=False)
brewery_counts.head(10)


brewery_name
Boston Beer Company (Samuel Adams)    39444
Dogfish Head Brewery                  33839
Stone Brewing Co.                     33066
Sierra Nevada Brewing Co.             28751
Bell's Brewery, Inc.                  25191
Rogue Ales                            24083
Founders Brewing Company              20004
Victory Brewing Company               19479
Lagunitas Brewing Company             16837
Avery Brewing Company                 16107
Name: review_overall, dtype: int64


## 4) สรุปผลแบบจัดกลุ่ม (Aggregation / GroupBy)

**TODO:**
1. หา **คะแนนเฉลี่ยรวม** ต่อ **beer style**  
2. คำนวณ **รัฐ (state) หรือพื้นที่ใด** มีคะแนนเฉลี่ยสูงสุด (หากมีคอลัมน์ state)  
3. วิเคราะห์สัดส่วน `strong_beer` ต่อสไตล์เบียร์


In [18]:

# 1) คะแนนเฉลี่ยรวมต่อ beer style
# TODO: เขียนโค้ด groupby
avg_by_style = df.groupby('beer_style')['review_overall'].mean().sort_values(ascending=False)
avg_by_style.head(10)


beer_style
American Wild Ale                   4.093262
Gueuze                              4.086287
Quadrupel (Quad)                    4.071630
Lambic - Unblended                  4.048923
American Double / Imperial Stout    4.029820
Russian Imperial Stout              4.023084
Weizenbock                          4.007969
American Double / Imperial IPA      3.998017
Flanders Red Ale                    3.992722
Rye Beer                            3.981737
Name: review_overall, dtype: float64

In [19]:

# 2) รัฐ/พื้นที่ที่มีคะแนนเฉลี่ยสูงสุด (หากมีคอลัมน์ state)
STATE_COL = 'state'  # ปรับตามจริง หากไม่มีสามารถข้ามได้
# TODO: เขียนโค้ด
avg_by_state = #  # แทนด้วยโค้ดของคุณ
avg_by_state.sort_values(ascending=False).head(10)


SyntaxError: invalid syntax (3053981573.py, line 4)

In [20]:

# 3) สัดส่วน strong_beer ต่อสไตล์
# TODO: นับจำนวน/คำนวณสัดส่วน strong_beer ภายใต้แต่ละ beer style
strong_ratio_by_style = df.groupby('beer_style')['strong_beer'].mean().sort_values(ascending=False)
strong_ratio_by_style.head(10)


beer_style
Eisbock                            0.992865
American Barleywine                0.982528
Quadrupel (Quad)                   0.964835
Wheatwine                          0.963651
Bière de Champagne / Bière Brut    0.961759
American Double / Imperial IPA     0.957779
Russian Imperial Stout             0.947976
Belgian Strong Dark Ale            0.936809
English Barleywine                 0.935402
Tripel                             0.932735
Name: strong_beer, dtype: float64


## 5) คำถามวิเคราะห์เชิงลึก (Open-Ended)

ตอบด้วย **โค้ด + คำอธิบายสั้น ๆ** ใต้แต่ละข้อต่อไปนี้

1. **โรงเบียร์ใดที่ผลิตเบียร์ที่มีปริมาณแอลกอฮอล์ต่อปริมาตร (alc/vol หรือ ABV%) สูงที่สุด?**  
2. **ถ้าคุณต้องเลือกเบียร์ 3 ชนิดเพื่อแนะนำ โดยอ้างอิงจากข้อมูลนี้เพียงอย่างเดียว คุณจะเลือกเบียร์ใดบ้าง?** (อธิบายเกณฑ์การเลือก)  
3. **ระหว่างกลิ่น (aroma), รสชาติ (taste), ลักษณะภายนอก (appearance), และความรู้สึกบนเพดานปาก (palette) ปัจจัยใดสำคัญที่สุดในการกำหนดคุณภาพโดยรวมของเบียร์?**  
   - แนวทาง: ทำการวิเคราะห์ความสัมพันธ์/การถดถอยอย่างง่ายระหว่างคอลัมน์เช่น `review_aroma`, `review_taste`, `review_appearance`, `review_palate` กับ `review_overall`


In [21]:

# 5.1 โรงเบียร์ที่มี ABV สูงที่สุด
# TODO: เขียนโค้ด โดยตรวจสอบชื่อคอลัมน์ ABV และ brewery ชัดเจน
ABV_COL = 'beer_abv'       # ปรับตามจริง
BREWERY_COL = 'brewery_name'  # ปรับตามจริง
# ตัวอย่างวิธี: หา max ABV ต่อโรงเบียร์ แล้วเรียงลำดับ
result_abv = df.groupby(BREWERY_COL)[ABV_COL].agg('mean').sort_values(ascending=False) # แทนด้วยโค้ดของคุณ
result_abv.head(10)


brewery_name
Schorschbräu                                           19.228824
Shoes Brewery                                          15.200000
Rome Brewing Company                                   13.840000
Hurlimann Brewery                                      13.750000
Alt-Oberurseler Brauhaus                               13.200000
Rascal Creek Brewing Co.                               13.000000
Monks Porter House                                     12.466667
Brasserie Grain d' Orge (Brasserie Jeanne d'Arc SA)    12.445860
Tugboat Brewing Company                                12.187500
United Brands Company                                  12.000000
Name: beer_abv, dtype: float64

In [22]:

# 5.2 เลือก 3 เบียร์ที่จะแนะนำ (ระบุเกณฑ์/เหตุผลใน Markdown ด้านล่าง)
# TODO: เขียนโค้ดเลือก/จัดอันดับ แล้วแสดง 3 รายการ
top3_reco = result_abv.head(3)
top3_reco


brewery_name
Schorschbräu            19.228824
Shoes Brewery           15.200000
Rome Brewing Company    13.840000
Name: beer_abv, dtype: float64


**คำอธิบายเกณฑ์การเลือก (เขียนเองโดยสรุป 3–5 บรรทัด):**  
- เหตุผล 1: ...
- เหตุผล 2: ...
- เหตุผล 3: ...


In [23]:

# 5.3 ปัจจัยใดสำคัญที่สุดต่อคุณภาพโดยรวม? (ตัวอย่าง: สหสัมพันธ์/ถดถอยเชิงเส้นง่าย ๆ)
# TODO: ปรับตามชื่อคอลัมน์ในชุดข้อมูลจริง
features = ['review_aroma', 'review_taste', 'review_appearance', 'review_palate']  # ปรับตามจริง
target = 'review_overall'  # ปรับตามจริง

# 1) คำนวณค่าสหสัมพันธ์อย่างง่าย
corr = df[features + [target]].corr()[target].sort_values(ascending=False)
corr


review_overall       1.000000
review_taste         0.789816
review_palate        0.701914
review_aroma         0.616013
review_appearance    0.501732
Name: review_overall, dtype: float64


## 6) ใช้ ChatGPT เป็นผู้ช่วย (อย่างมีวิจารณญาณ)

**ขั้นตอน:**  
1. แต่ละกลุ่มตั้งคำถามใหม่เกี่ยวกับข้อมูล **1 คำถาม** (เช่น ความแตกต่างคะแนนระหว่าง 2 สไตล์, เทรนด์ ABV ต่อปี ฯลฯ)  
2. พยายามเขียนโค้ดเองก่อน (ทำในเซลล์ถัดไป)  
3. จากนั้นขอให้ ChatGPT เสนอวิธี/โค้ด **โดยแนบตัวอย่างข้อมูล/ชื่อคอลัมน์**  
4. รันโค้ดของ ChatGPT และ **แก้ไขให้ถูกต้อง** หากจำเป็น  
5. บันทึกสิ่งที่แก้ไขและสิ่งที่เรียนรู้

> **บันทึกสะท้อน (Reflection):** อะไรที่ GPT ทำได้ดี/ทำไม่ได้? เราตรวจสอบความถูกต้องอย่างไร?


In [24]:
# 6.1 โค้ดที่กลุ่มเขียนเอง
# TODO: เขียนโค้ดของกลุ่มที่นี่

# 6.1 โค้ดที่กลุ่มเขียนเอง
# คำถาม: เบียร์จากโรงเบียร์ไหนรสชาติเเละสัมผัสดีที่สุด?(review_taste,review_palate)
avg_taste_by_style = df.groupby('beer_style')[['review_taste', 'review_palate']].mean().sort_values(by='review_taste', ascending=False)
avg_taste_by_style.head(5) 

Unnamed: 0_level_0,review_taste,review_palate
beer_style,Unnamed: 1_level_1,Unnamed: 2_level_1
Eisbock,4.211603,4.113594
Quadrupel (Quad),4.210909,4.124986
American Double / Imperial Stout,4.18723,4.098669
American Wild Ale,4.149938,4.040632
Russian Imperial Stout,4.149569,4.086922


In [25]:
# 6.2 โค้ดที่ได้จาก ChatGPT (ปรับแก้ถ้าจำเป็น)
# TODO: วางโค้ดที่ได้จาก ChatGPT และแก้ไขให้รันได้จริง


# 6.2 โค้ดที่ได้จาก ChatGPT (ปรับแก้ถ้าจำเป็น)
# ตัวอย่างโค้ดจาก ChatGPT: เบียร์จากโรงเบียร์ไหนรสชาติเเละสัมผัสดีที่สุด?(review_taste,review_palate)
import pandas as pd

# โหลด dataset (เปลี่ยนชื่อไฟล์ตามที่คุณใช้งานจริง)
df = pd.read_csv("beer_reviews.csv")  # ถ้า dataset อยู่ใน csv

# ตรวจสอบว่ามีคอลัมน์ที่เกี่ยวข้องหรือไม่
print(df.columns)

# เลือกเฉพาะคอลัมน์ที่ใช้วิเคราะห์
df_selected = df[['brewery_name', 'review_taste', 'review_palate']]

# คำนวณคะแนนเฉลี่ยของ taste และ palate ตามโรงเบียร์
brewery_scores = df_selected.groupby('brewery_name').mean()

# รวมคะแนน taste + palate เป็นตัววัดคุณภาพรวม
brewery_scores['total_score'] = brewery_scores['review_taste'] + brewery_scores['review_palate']

# เรียงลำดับหาโรงเบียร์ที่คะแนนรวมสูงสุด
best_breweries = brewery_scores.sort_values('total_score', ascending=False).head(10)

print(best_breweries)


Index(['brewery_id', 'brewery_name', 'review_time', 'review_overall',
       'review_aroma', 'review_appearance', 'review_profilename', 'beer_style',
       'review_palate', 'review_taste', 'beer_name', 'beer_abv',
       'beer_beerid'],
      dtype='object')
                               review_taste  review_palate  total_score
brewery_name                                                           
Rascal Creek Brewing Co.               5.00            5.0        10.00
Edsten Brewing Company                 4.75            5.0         9.75
Sherlock's Home                        4.90            4.6         9.50
Ludwig Roth Bierbrauerei GmbH          5.00            4.5         9.50
Thai Me Up                             5.00            4.5         9.50
Brauerei Gundel                        4.50            5.0         9.50
Elizabeth Street Brewery               5.00            4.5         9.50
H.Nettelbeck KG                        4.50            5.0         9.50
Weissbräu Kösslarn  


**Reflection (3–5 บรรทัด):**  
- เราขอให้ GPT ทำอะไร?  
- โค้ดที่ได้มีข้อผิดพลาดหรือสมมติฐานใดบ้าง?  
- เราตรวจสอบ/ปรับแก้อย่างไร? เราเชื่อมั่นผลลัพธ์เพียงใด?


---


- ใช้ Re-check algorithm ในหัวที่ติดไว้กับผลลัพธ์ที่ต้องเป็นจริง เเละขอให้ GPT เขียนโค้ดเพื่อวิเคราะห์ว่าเบียร์จากโรงเบียร์ใดมีรสชาติ (taste) และสัมผัส (palate) ดีที่สุดจากข้อมูลใน dataset.
- โค้ดที่ได้ใช้การ groupby และ mean ในการหาค่าเฉลี่ย ซึ่งสมมติว่าข้อมูลไม่มี NaN และไม่มีโรงเบียร์ชื่อซ้ำที่ไม่เกี่ยวข้อง
- เราได้ตรวจสอบชื่อคอลัมน์และดูตัวอย่างข้อมูลเพื่อยืนยันความถูกต้อง และลองรันโค้ดดูผลลัพธ์ เเละเรามีความเชื่อมั่นในผลลัพธ์ระดับหนึ่ง เนื่องจากใช้สถิติพื้นฐานและไม่มี error ระหว่างการรัน.


---

**หมายเหตุผู้เรียน**  
- อ้างอิงชื่อคอลัมน์จาก `df.columns` ของชุดข้อมูลที่แจกจริง อาจแตกต่างจากตัวอย่างในโน้ตบุ๊กนี้  
- ให้ความสำคัญกับ **ความถูกต้องและการอธิบายเหตุผล** มากกว่าการคัดลอกโค้ด


