# Session 2: Data & Document Processing

## RE - Regular Expression (RegEx)
- test RegEx : https://regexr.com/

In [5]:
import re

text = 'หมายเลขโทรศัพท์: 081-234-5678, 090-876-5432, +66-89-123-4567'
regex = r'\d{3}-\d{3}-\d{4}'

phone_numbers = re.findall(regex, text)
print(phone_numbers)

['081-234-5678', '090-876-5432']


In [6]:
text = '''
    first_name: Akekapong
    last_name: Kongsavat
    email: akekapong@email.com
'''

email = re.findall(r'\w+@\w+\.\w+', text)
first_name = re.findall(r'(?<=first_name: )\w+', text)
last_name = re.findall(r'(?<=last_name: )\w+', text)

email_match = re.match(r'email: (\w+@\w+\.\w+)', text)

print(email[0])
print(email_match)
print(f"{first_name[0]} {last_name[0]}")

akekapong@email.com
None
Akekapong Kongsavat


In [None]:
import re

# example like extract data from PDF
text = """
Introduction to Data Science and Text Analysis

Welcome to the official documentation for our data analysis platform. For support,
contact our team at support@dataplatform.com or reach out to our lead developer, 
Somchai Jareon, at somchai.jareon@techinnovate.co.th. Our office number is +66-2-555-1234.
You can find more information on our website at https://www.dataplatform-solutions.io/get-started/.

Project Milestones:
1. Data Ingestion: Completed on 2024-05-15.
2. Model Training: Completed on 2024-06-20.
3. API Deployment: Target completion date is 2024-07-30.

User Feedback Summary:
- "The platform is incredibly fast." - User ID: 1001
- "I found a bug with the export feature." - User ID: 1002
- "I'm looking forward to new features." - User ID: 1003

Technical Specifications:
- Version: 3.1.2
- API Endpoint: /api/v1/data
- IP Address: 192.168.1.10
- Phone: (081) 234-5678, 092-876-5432, +66-89-123-4567

Future Development:
- We will be releasing a new version (4.0.0) next year.
- Keep an eye on our blog at blog.dataplatform-solutions.io for updates.
- Feedback can also be submitted to feedback@dataplatform.com.

Thank you for your cooperation. For any urgent matters, please call us directly at 02-333-7777.
"""

# Example of using a regex with this long text:
# Find all email addresses
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)
print("Found Emails:")
for email in emails:
    print(email)

print("\n")

# Find all phone numbers in various formats
phone_numbers = re.findall(r'\b(?:\+?\d{1,3}[-.\s]?)?\(?\d{2,3}\)?[-.\s]?\d{3}[-.\s]?\d{4}\b', text)
print("Found Phone Numbers:")
for number in phone_numbers:
    print(number)

## Request - get any date from online

#### GET - files

In [None]:
# uv add requests
import requests
from PyPDF2 import PdfReader, PdfWriter
import io

pdf_url = "https://www.pea.co.th/sites/default/files/documents/tariff/Electricity_Tariff_MAY_2023.pdf"

try:
    response = requests.get(pdf_url)
    response.raise_for_status()  # This will raise an HTTPError if the request was unsuccessful
    
    # The PDF content is in response.content (raw bytes)
    pdf_bytes = response.content

    # Wrap the bytes object in a BytesIO object to create an in-memory file
    # PyPDF2 can then read from this in-memory file just like a regular file
    pdf_bytes_stream = io.BytesIO(response.content)

    # Create a PdfReader object from the in-memory file
    reader = PdfReader(pdf_bytes_stream)

    # Loop through each page of the PDF and print its text
    print(f"Successfully downloaded and loaded PDF with {len(reader.pages)} pages.")
    print("--- Extracting text from all pages ---")
    for page in reader.pages:
        print(page.extract_text())
    
except requests.exceptions.RequestException as e:
    print(f"Error downloading the PDF: {e}")
except Exception as e:
    print(f"An error occurred during PDF processing: {e}")

In [None]:
len(reader.pages)
print(reader.pages[3].extract_text())

In [None]:
content_text = '' 

for page in reader.pages:
  content_text += page.extract_text()

print(content_text)

In [None]:
import re

regex = r'(?<=อัตราขั้นต่ำ : ).+'
result = re.findall(regex, content_text)

result

#### GET - APIs

API (Application Programming Interface) คือช่องทางที่โปรแกรมสองโปรแกรมใช้สื่อสารกัน ในที่นี้เราจะเรียนรู้วิธีการใช้ไลบรารี requests เพื่อส่งคำขอ (request) ไปยัง API 
บนเว็บและรับข้อมูลกลับมา

1. การเรียกใช้งาน GET Request
- GET เป็นคำขอที่ใช้สำหรับ เรียกดูข้อมูล จากเซิร์ฟเวอร์ เช่น ข้อมูลสภาพอากาศ, ข้อมูลราคาทองคำ, หรือข้อมูลผู้ใช้

2. การเรียกใช้งาน GET Request พร้อมพารามิเตอร์ (Query Parameters)
- GET with Query Parameters เราต้องการกรองข้อมูลเฉพาะเจาะจงด้วย พารามิเตอร์ โดยจะส่งข้อมูลนี้ไปกับ URL
เราจะใช้ API เพื่อดึงโพสต์ทั้งหมดจากผู้ใช้ที่มี userId เป็น 1

3. การเรียกใช้งาน POST Request
- POST เป็นคำขอที่ใช้สำหรับ สร้างข้อมูลใหม่ บนเซิร์ฟเวอร์ โดยเราจะส่งข้อมูลที่จะสร้างไปในรูปแบบ JSON เราจะใช้ API เพื่อเพิ่มโพสต์ใหม่


In [None]:
import requests

# กำหนด URL ของ API ที่ต้องการเรียกดูข้อมูล
api_url = "https://jsonplaceholder.typicode.com/posts/1"

# ส่งคำขอ GET ไปยัง URL
response = requests.get(api_url)

# ตรวจสอบสถานะการตอบกลับ
print(f"สถานะการตอบกลับ (Status Code): {response.status_code}")

# ถ้าสถานะเป็น 200 (OK) แสดงว่าสำเร็จ
if response.status_code == 200:
    # แปลงข้อมูล JSON ที่ได้รับกลับมาให้เป็น Python Dictionary
    data = response.json()
    
    print("\nข้อมูลที่ได้รับ:")
    print(data)
    
    # เข้าถึงข้อมูลในรูปแบบ Dictionary
    print("\nหัวข้อ (Title):", data['title'])
    print("เนื้อหา (Body):", data['body'])
else:
    print("\nการเรียก API ไม่สำเร็จ")

#### Status Code 
- เป็นรหัส 3 หลักที่เซิร์ฟเวอร์ส่งกลับมาเพื่อบอกสถานะการตอบรับคำขอ HTTP ที่คุณส่งไป แต่ละรหัสจะมีความหมายที่แตกต่างกันออกไป ต่อไปนี้คือ Status Code ที่พบบ่อยและมีความสำคัญครับ

---

2xx (Success) - คำขอสำเร็จ 🟢

* **200 OK**: เป็นรหัสที่พบบ่อยที่สุด หมายถึงคำขอสำเร็จและเซิร์ฟเวอร์ส่งข้อมูลที่คุณร้องขอมาให้แล้ว
    * **ตัวอย่าง**: คุณเปิดเว็บไซต์หนึ่งแล้วเว็บไซต์นั้นแสดงผลได้อย่างปกติ
* **201 Created**: หมายถึงคำขอสำเร็จและมีการ **สร้างทรัพยากรใหม่** บนเซิร์ฟเวอร์เรียบร้อยแล้ว
    * **ตัวอย่าง**: คุณกรอกฟอร์มสมัครสมาชิกแล้วเซิร์ฟเวอร์สร้างบัญชีผู้ใช้ใหม่ให้คุณ

---

3xx (Redirection) - การเปลี่ยนเส้นทาง ➡️

* **301 Moved Permanently**: หมายถึงทรัพยากรที่คุณร้องขอถูก **ย้ายไปที่อยู่ใหม่แบบถาวร** แล้ว เซิร์ฟเวอร์จะบอกที่อยู่ใหม่มาให้คุณด้วย
    * **ตัวอย่าง**: เว็บไซต์เก่า `http://example.com` ย้ายไปเป็น `http://www.example.com` อย่างถาวร
* **302 Found (หรือ Moved Temporarily)**: หมายถึงทรัพยากรถูก **ย้ายไปที่อยู่ใหม่ชั่วคราว** เท่านั้น และในอนาคตอาจจะย้ายกลับมาที่อยู่เดิมได้

---

4xx (Client Error) - ข้อผิดพลาดจากฝั่งผู้ใช้ 🔴

* **400 Bad Request**: เซิร์ฟเวอร์ไม่สามารถเข้าใจคำขอของคุณได้ อาจเกิดจากคำขอมีรูปแบบที่ไม่ถูกต้อง หรือข้อมูลที่ส่งมาไม่ครบถ้วน
* **401 Unauthorized**: คุณไม่ได้รับอนุญาตให้เข้าถึงทรัพยากรนี้ มักเกิดจากการ **ไม่ได้ล็อกอิน** หรือไม่ได้ใส่รหัสผ่านที่ถูกต้อง
* **403 Forbidden**: คุณมีสิทธิ์เข้าถึง แต่ถูก **ปฏิเสธการเข้าถึง** ทรัพยากรนี้ มักเกิดจากสิทธิ์การใช้งานที่ไม่เพียงพอ
* **404 Not Found**: เป็นรหัสที่คุ้นเคยกันดี หมายถึงเซิร์ฟเวอร์ **หาทรัพยากรที่คุณร้องขอไม่พบ** อาจเกิดจาก URL ที่พิมพ์ผิด
* **405 Method Not Allowed**: วิธีการร้องขอ (เช่น GET, POST) ที่คุณใช้ไม่ได้รับอนุญาตสำหรับ URL นี้

---

5xx (Server Error) - ข้อผิดพลาดจากฝั่งเซิร์ฟเวอร์ 🟠

* **500 Internal Server Error**: เป็นข้อผิดพลาดทั่วไปที่บอกว่าเกิดปัญหาขึ้นกับเซิร์ฟเวอร์เอง **แต่ไม่สามารถระบุสาเหตุที่ชัดเจนได้** มักเป็นปัญหาที่ต้องแก้ไขโดยผู้ดูแลเซิร์ฟเวอร์
* **503 Service Unavailable**: เซิร์ฟเวอร์ **ไม่พร้อมให้บริการ** ในขณะนี้ มักเกิดจากการโอเวอร์โหลดหรือมีการบำรุงรักษา

In [None]:
import requests

api_url = "https://jsonplaceholder.typicode.com/posts"

# กำหนดพารามิเตอร์ในรูปแบบ Dictionary
params = {
    "userId": 1
}

# ส่งคำขอ GET พร้อมแนบพารามิเตอร์
response = requests.get(api_url, params=params)

if response.status_code == 200:
    posts = response.json()
    
    print(f"พบ {len(posts)} โพสต์จากผู้ใช้ userId=1\n")
    
    # วนลูปแสดงข้อมูลจากแต่ละโพสต์
    for post in posts:
        print(f"Post ID: {post['id']}")
        print(f"Title: {post['title']}")
        print("-" * 20)
else:
    print("การเรียก API ไม่สำเร็จ")

In [None]:
import requests
import json

api_url = "https://jsonplaceholder.typicode.com/posts"

# ข้อมูลใหม่ที่เราต้องการส่งไปในรูปแบบ Dictionary
new_post_data = {
    "title": "My First API Post",
    "body": "This is the content of my first post using the requests library.",
    "userId": 1
}

# กำหนด headers เพื่อระบุว่าข้อมูลที่ส่งไปเป็น JSON
headers = {
    "Content-Type": "application/json"
}

# ส่งคำขอ POST พร้อมข้อมูล (data) และ headers
response = requests.post(api_url, data=json.dumps(new_post_data), headers=headers)

# สถานะการตอบกลับ 201 (Created) หมายถึงการสร้างสำเร็จ
if response.status_code == 201:
    created_post = response.json()
    
    print("โพสต์ใหม่ถูกสร้างสำเร็จแล้ว:")
    print(f"ID ของโพสต์ใหม่: {created_post['id']}")
    print(f"ชื่อหัวข้อ: {created_post['title']}")
    print(created_post)
else:
    print(f"การสร้างโพสต์ไม่สำเร็จ. สถานะ: {response.status_code}")

## Pandas -การจัดการและวิเคราะห์ข้อมูล
- pandas คือไลบรารีที่ทรงพลังสำหรับจัดการและวิเคราะห์ข้อมูลใน Python เป็นเครื่องมือสำคัญสำหรับนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูล Pandas สร้างขึ้นบน NumPy และสามารถทำงานกับข้อมูลที่หลากหลายได้อย่างมีประสิทธิภาพ

1\. โครงสร้างข้อมูลหลัก: Series และ DataFrame

Pandas มีโครงสร้างข้อมูลหลักอยู่ 2 ชนิด:

  * **Series**: อะเรย์หนึ่งมิติ (1-dimensional array) ที่มีป้ายกำกับ (labeled index) คล้ายกับคอลัมน์ในตาราง Excel
  * **DataFrame**: โครงสร้างข้อมูลแบบสองมิติ (2-dimensional) คล้ายกับตารางฐานข้อมูลหรือสเปรดชีต ประกอบด้วยหลายคอลัมน์ แต่ละคอลัมน์คือวัตถุ Series

(1.1) การสร้าง Series

In [None]:
# uv add pandas
import pandas as pd
import numpy as np

# สร้าง Series จาก List
data_list = [10, 20, 30, 40]
s1 = pd.Series(data_list)
print("Series จาก List:")
print(s1)

# สร้าง Series จาก Dictionary
data_dict = {'Math': 95, 'Science': 88, 'History': 75}
s2 = pd.Series(data_dict)
print("\nSeries จาก Dictionary:")
print(s2)

(1.2) การสร้าง DataFrame

In [None]:
# สร้าง DataFrame จาก Dictionary of Lists
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Paris', 'London', 'Tokyo']
}
df = pd.DataFrame(data)
print("DataFrame ที่สร้างขึ้น:")
print(df)

2\. การนำเข้าและส่งออกข้อมูล (I/O)

หนึ่งในประโยชน์หลักของ Pandas คือความสามารถในการอ่านและเขียนข้อมูลจากไฟล์หลากหลายประเภท เช่น CSV, Excel, และ SQL


In [None]:
# สร้างไฟล์ CSV จำลองเพื่อทดสอบ
data_to_csv = {'Product': ['A', 'B', 'C'], 'Price': [100, 150, 200]}
df_temp = pd.DataFrame(data_to_csv)
df_temp.to_csv('products.csv', index=False)
print("ไฟล์ products.csv ถูกสร้างขึ้นแล้ว")

In [None]:
# อ่านข้อมูลจากไฟล์ CSV
df_products = pd.read_csv('products.csv')
print("\nDataFrame ที่อ่านจาก products.csv:")
print(df_products)

In [None]:
# ลบไฟล์
import os
os.remove('products.csv')

3\. การตรวจสอบข้อมูลเบื้องต้น

เมื่อโหลดข้อมูลเข้ามาแล้ว ควรตรวจสอบโครงสร้างและคุณสมบัติของข้อมูลก่อนเสมอ

In [None]:
# ข้อมูลตัวอย่างสำหรับตรวจสอบ
data_students = {
    'Student_ID': [101, 102, 103, 104, 105],
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Score': [85, 90, 78, np.nan, 95], # np.nan แทนข้อมูลที่ขาดหาย
    'Grade': ['A', 'A', 'B', 'C', 'A']
}
df_students = pd.DataFrame(data_students)

# แสดง 5 แถวแรกของ DataFrame
print("ข้อมูล 5 แถวแรก:")
print(df_students.head())

# แสดงข้อมูลสรุป
print("\nข้อมูลสรุป (info):")
df_students.info()

# แสดงสถิติเชิงพรรณนา
print("\nสถิติเชิงพรรณนา (describe):")
print(df_students.describe())

# ตรวจสอบค่าที่ขาดหาย (missing values)
print("\nค่าที่ขาดหาย:")
print(df_students.isnull().sum())

4\. การเลือกข้อมูล (Selection)

การเลือกข้อมูลใน Pandas สามารถทำได้หลายวิธี:

  * **เลือกคอลัมน์**:  ใช้ชื่อคอลัมน์เหมือนการเรียก Dictionary
  * **เลือกแถว**:  ใช้ `.loc[]` หรือ `.iloc[]`
      * `.loc[row_label, column_label]` (ใช้ชื่อ)
      * `.iloc[row_index, column_index]` (ใช้ลำดับ)
      * สามารถกำหนด index แทนตัวเลข defualt ด้วย .set_index
  * **การกรองข้อมูล (Conditional Selection)**: ใช้เงื่อนไขทางตรรกะ

In [None]:
# เลือกคอลัมน์เดียว
scores = df_students['Score']
print("เลือกคอลัมน์ 'Score':")
print(scores)

# เลิือกแถว
print("\nIndex เริ่มต้น:", df_students.index)
print("\nเลือกแถวที่มีชื่อ 'Bob':")
print(df_students.loc[1])

# เลือกหลายคอลัมน์
subset_df = df_students[['Name', 'Score']]
print("\nเลือกคอลัมน์ 'Name' และ 'Score':")
print(subset_df)

# เลือกแถวที่มีค่า 'Score' มากกว่า 80
high_scores = df_students[df_students['Score'] > 80]
print("\nนักเรียนที่ได้คะแนนมากกว่า 80:")
print(high_scores)

# เลือกแถวที่มี 'Name' เป็น 'Alice'
alice_info = df_students[df_students['Name'] == 'Alice']
print("\nข้อมูลของ Alice:")
print(alice_info)

5\. การจัดการข้อมูลที่ขาดหาย (Missing Data/ Cleansing Data)

ข้อมูลที่ขาดหาย (`NaN` หรือ `None`) เป็นเรื่องปกติในชุดข้อมูลจริง Pandas มีเครื่องมือในการจัดการข้อมูลเหล่านี้

In [None]:
# สร้าง DataFrame ที่มีค่าขาดหาย
data_with_na = {'A': [1, 2, np.nan], 'B': [4, np.nan, 6]}
df_na = pd.DataFrame(data_with_na)
print("DataFrame ที่มีค่าขาดหาย:")
print(df_na)

# 1. การลบแถวที่มีค่าขาดหาย
df_dropna = df_na.dropna()
print("\nลบแถวที่มีค่าขาดหาย:")
print(df_dropna)

# 2. การเติมค่าที่ขาดหาย
# เติมค่าเฉลี่ย
df_fill = df_na.fillna(df_na.mean())
print("\nเติมค่าเฉลี่ย:")
print(df_fill)

# เติมค่าคงที่
df_fill_zero = df_na.fillna(0)
print("\nเติมด้วยค่า 0:")
print(df_fill_zero)

6\. การจัดกลุ่มและสรุปข้อมูล (Grouping and Aggregation)

In [None]:
# ข้อมูลยอดขาย
sales_data = {
    'Region': ['East', 'West', 'East', 'West', 'East'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Sales': [100, 150, 120, 180, 200]
}
df_sales = pd.DataFrame(sales_data)

# จัดกลุ่มตาม 'Region' แล้วหาผลรวมยอดขาย
sales_by_region = df_sales.groupby('Region')['Sales'].sum()
print("ยอดขายรวมตามภูมิภาค:")
print(sales_by_region)

# จัดกลุ่มตาม 'Region' แล้วหาค่าเฉลี่ย
avg_sales_by_region = df_sales.groupby('Region')['Sales'].mean()
print("\nยอดขายเฉลี่ยตามภูมิภาค:")
print(avg_sales_by_region)

---

# Exercise - ดึงผลการตอบแบบสอบถาม Google Form 
## มาสรุปรายงานในรูปแบบ Excel, Word และ PDF

1. การดึงและแปลงข้อมูล 📊

In [None]:
import io
import requests
import pandas as pd

rpa_sheet = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQg4bwLx_MubH_ny0Bk8dWXQYzCnpo11HUz9eTfJW0WFHhhK3ZBtTHEHwFsg3UEsWJtP4gZdVINPnER/pub?gid=277178403&single=true&output=csv"
response = requests.get(rpa_sheet)

# 1. stream โหลดไฟล์เก็บใน ram
csv_bytes_stream = io.BytesIO(response.content)

# 2. สร้างไฟล์จริง ๆ
with open('report.csv', 'wb') as f:
    f.write(csv_bytes_stream.getvalue())

df = pd.read_csv(csv_bytes_stream)
# df2 = pd.read_csv("rpa_sheet.csv") 

In [None]:
df.head()  # read top 5

In [None]:
df.count()

In [None]:
# ทำความสะอาดและเปลี่ยนชื่อคอลัมน์
df.columns = ['timestamp', 'prefix', 'first_name', 'last_name', 'email', 'region', 'rpa_experience', 'comment']

In [None]:
# ลบแถวที่ซ้ำกัน เพื่อให้รายงานถูกต้อง
df.drop_duplicates(subset=['timestamp', 'first_name', 'last_name', 'email', 'region'], inplace=True)
df.reset_index(drop=True, inplace=True)

# ลบข้อมูลค่าว่าง NaN, TaN
df.dropna()

In [None]:
df.region.unique()

In [None]:
df.region.value_counts()

In [None]:
df.groupby('comment').count()

In [None]:
df['email']

2. สรุปรายงานในรูปแบบ Excel 📈

In [None]:
# สรุปข้อมูลตามภูมิภาค
summary_by_region = df.groupby('region').size().reset_index(name='count')

# สรุปข้อมูลตามประสบการณ์ RPA
summary_by_experience = df.groupby('rpa_experience').size().reset_index(name='count')

with pd.ExcelWriter('report.xlsx') as writer:
    df.to_excel(writer, sheet_name='Raw Data', index=False)
    summary_by_region.to_excel(writer, sheet_name='Summary by Region', index=False)
    summary_by_experience.to_excel(writer, sheet_name='Summary by Experience', index=False)

print("\nสร้างไฟล์ report.xlsx เรียบร้อยแล้ว.")

3. สรุปรายงานในรูปแบบ Word 📄

In [None]:
from docx import Document

# สร้างเอกสารใหม่
doc = Document()
doc.add_heading('รายงานสรุปผลการตอบแบบสอบถาม', 0)
doc.add_paragraph(f'จำนวนผู้ตอบแบบสอบถามทั้งหมด: {len(df)} คน')

# เพิ่มหัวข้อสรุปตามภูมิภาค
doc.add_heading('สรุปตามภูมิภาค', level=1)
for index, row in summary_by_region.iterrows():
    doc.add_paragraph(f'- ภาค{row["region"]}: {row["count"]} คน')

# เพิ่มหัวข้อสรุปตามประสบการณ์
doc.add_heading('สรุปตามประสบการณ์ RPA', level=1)
for index, row in summary_by_experience.iterrows():
    doc.add_paragraph(f'- {row["rpa_experience"]}: {row["count"]} คน')

# บันทึกไฟล์ Word
doc.save('report.docx')
print("\nสร้างไฟล์ report.docx เรียบร้อยแล้ว.")

4. แปลงไฟล์จาก Word และ PDF 📄

In [None]:
from docx2pdf import convert

try:
    convert('report.docx', 'report.pdf')
    print("แปลงไฟล์ report.docx เป็น report.pdf เรียบร้อยแล้ว.")
except Exception as e:
    print(f"เกิดข้อผิดพลาดในการแปลงไฟล์เป็น PDF: {e}")
    print("อาจต้องติดตั้ง Microsoft Word หรือ LibreOffice เพื่อใช้งาน docx2pdf")

0. remove all files

In [None]:
import os

try:
    os.remove('report.docx')
    os.remove('report.pdf')
    os.remove('report.xlsx')
    os.remove('report.csv')
except Exception as e:
    print(f"ลบไฟล์ ไม่สำเร็จ: {e}")