In [1]:
import pandas as pd
from pathlib import Path
from IPython.display import display

## Inspect Dataframe

def inspect_dataframe(df)

In [2]:
def inspect_dataframe(df):
    # ทำสำเนาเพื่อความปลอดภัย (กันการแก้ไขของเดิมโดยไม่ตั้งใจ)
    df_safe = df.copy()

    print(f"Loaded {len(df_safe):,} rows × {len(df_safe.columns):,} columns")
    display(df_safe.head())

    print("\nDataFrame info:")
    df_safe.info()

    print("\nMissing values per column:")
    print(df_safe.isna().sum())
    print("----------------------------------------")

## Remove row that province not in bangkok

filter_bangkok(df)

In [3]:
def filter_bangkok(df):
    """ลบแถวที่ province ไม่ใช่กรุงเทพฯ / Bangkok และแสดง before–after แบบ 1 บรรทัด"""
    print(f"before: {len(df)}", end="  ->  ")
    df = df[df['province'].astype(str).str.contains(r'กรุงเทพ|Bangkok', case=False, na=False)]
    print(f"after: {len(df)}")
    print("----------------------------------------")
    return df

## drop_rows_with_nan

drop_rows_with_nan(df, cols, inplace=False)

In [4]:
def drop_rows_with_nan(df, cols, inplace=False):
    """
    Drop rows that have NaN in any column listed in `cols`.
    - df: pandas DataFrame
    - cols: list-like of column names to check for NaN
    - inplace: if True, modify df in-place and return it; otherwise return a new DataFrame
    """
    cols = list(cols)
    missing_cols = [c for c in cols if c not in df.columns]
    if missing_cols:
        raise ValueError(f"Columns not found in DataFrame: {missing_cols}")

    before = len(df)
    result = df.dropna(subset=cols)
    after = len(result)
    print(f"Dropped {before - after} rows with NaN in {cols} (before: {before}, after: {after})")
    print("----------------------------------------")

    if inplace:
        # replace contents of original DataFrame
        df.drop(df.index, inplace=True)
        for col in result.columns:
            df[col] = result[col]
        return df
    return result

## Drop Columns

drop_columns(df, cols, inplace=False, ignore_missing=False)

In [None]:
def drop_columns(df, cols, inplace=False, ignore_missing=False):
    """
    Drop columns by name.
    - df: pandas DataFrame
    - cols: list-like of column names to drop
    - inplace: if True, modify df in-place and return it; otherwise return a new DataFrame
    - ignore_missing: if True, silently ignore names not present in df; otherwise raise KeyError
    """
    cols = list(cols)
    missing = [c for c in cols if c not in df.columns]
    if missing:
        if ignore_missing:
            cols = [c for c in cols if c in df.columns]
        else:
            raise KeyError(f"Columns not found: {missing}")

    if inplace:
        df.drop(columns=cols, inplace=True)
        print(f"Dropped columns (in-place): {cols}")
        return df
    result = df.drop(columns=cols)
    print(f"Dropped columns (returned new df): {cols}")
    return result

## call Function

In [5]:
# download data
path = Path("./bangkok_traffy.csv")
if not path.exists():
    raise FileNotFoundError(f"{path} not found in {Path.cwd()}")

df = pd.read_csv(path)

In [None]:
inspect_dataframe(df)
df = filter_bangkok(df)
df = drop_rows_with_nan(df, ["district", "subdistrict"])
# df = drop_columns(df, ["star"])

Loaded 787,026 rows × 16 columns


Unnamed: 0,ticket_id,type,organization,comment,photo,photo_after,coords,address,subdistrict,district,province,timestamp,state,star,count_reopen,last_activity
0,2021-FYJTFP,{ความสะอาด},เขตบางซื่อ,ขยะเยอะ,https://storage.googleapis.com/traffy_public_b...,,"100.53084,13.81865",12/14 ถนน กรุงเทพ- นนทบุรี แขวง บางซื่อ เขตบาง...,,,กรุงเทพมหานคร,2021-09-03 12:51:09.453003+00,เสร็จสิ้น,,0,2022-06-04 15:34:14.609206+00
1,2021-CGPMUN,"{น้ำท่วม,ร้องเรียน}","เขตประเวศ,ฝ่ายโยธา เขตประเวศ",น้ำท่วมเวลาฝนตกและทะลุเข้าบ้านเดือดร้อนมากทุกๆ...,https://storage.googleapis.com/traffy_public_b...,https://storage.googleapis.com/traffy_public_b...,"100.66709,13.67891",189 เฉลิมพระเกียรติ ร.9 แขวง หนองบอน เขต ประเว...,หนองบอน,ประเวศ,กรุงเทพมหานคร,2021-09-19 14:56:08.924992+00,เสร็จสิ้น,4.0,0,2022-06-21 08:21:09.532782+00
2,2021-7XATFA,{สะพาน},เขตสาทร,สะพานลอยปรับปรุงไม่เสร็จตามกำหนด\nปากซอย สาทร12,https://storage.googleapis.com/traffy_public_b...,,"100.52649,13.72060",191/1 ถนน สาทรเหนือ แขวง สีลม เขตบางรัก กรุงเท...,ยานนาวา,สาทร,กรุงเทพมหานคร,2021-09-26 05:03:52.594898+00,เสร็จสิ้น,,0,2022-06-06 01:17:12.272904+00
3,2021-9U2NJT,{น้ำท่วม},"เขตบางซื่อ,ฝ่ายโยธา เขตบางซื่อ",น้ำท่วม,https://storage.googleapis.com/traffy_public_b...,https://storage.googleapis.com/traffy_public_b...,"100.53099,13.81853",12/14 ถนน กรุงเทพ- นนทบุรี แขวง บางซื่อ เขตบาง...,,,กรุงเทพมหานคร,2021-10-14 10:45:27.713884+00,เสร็จสิ้น,,0,2022-09-08 08:35:43.784519+00
4,2021-DVEWYM,"{น้ำท่วม,ถนน}","เขตลาดพร้าว,ฝ่ายโยธา เขตลาดพร้าว",ซอยลาดพร้าววังหิน 75 ถนนลาดพร้าววังหิน แขวงลาด...,https://storage.googleapis.com/traffy_public_b...,,"100.59165,13.82280",702 ถ. ลาดพร้าววังหิน แขวงลาดพร้าว เขตลาดพร้าว...,ลาดพร้าว,ลาดพร้าว,กรุงเทพมหานคร,2021-12-09 12:29:08.408763+00,เสร็จสิ้น,5.0,0,2022-08-12 07:18:44.884945+00



DataFrame info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 787026 entries, 0 to 787025
Data columns (total 16 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   ticket_id      778254 non-null  object 
 1   type           786929 non-null  object 
 2   organization   786455 non-null  object 
 3   comment        778254 non-null  object 
 4   photo          786911 non-null  object 
 5   photo_after    641309 non-null  object 
 6   coords         787026 non-null  object 
 7   address        778254 non-null  object 
 8   subdistrict    786460 non-null  object 
 9   district       786465 non-null  object 
 10  province       786831 non-null  object 
 11  timestamp      787026 non-null  object 
 12  state          787026 non-null  object 
 13  star           274097 non-null  float64
 14  count_reopen   787026 non-null  int64  
 15  last_activity  787026 non-null  object 
dtypes: float64(1), int64(1), object(14)
memory usage: 96.1+ M

In [7]:
df = drop_rows_with_nan(df, ["district", "subdistrict"])

Dropped 50 rows with NaN in ['district', 'subdistrict'] (before: 785662, after: 785612)
----------------------------------------
