In [None]:
import pandas as pd

df = pd.read_csv('8_hidoc_articles.csv', encoding='utf-8-sig')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133 entries, 0 to 132
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    133 non-null    object
 1   content  133 non-null    object
 2   url      133 non-null    object
 3   image    133 non-null    object
dtypes: object(4)
memory usage: 4.3+ KB


In [39]:
import pandas as pd
import re

# 예시 데이터프레임 불러오기
df = pd.read_csv("8_hidoc_articles.csv", encoding="utf-8-sig")


def remove_q_dot(text):
    return re.sub(r'q. ', '', text)


def clean_content(text):
    if pd.isna(text):
        return ""

    # 1. 소문자로 변환
    text = text.lower()

    # 2. 특정 특수문자 제거
    text = re.sub(r"[△ㅣ…“”‘’!\"\"\'\-]", "", text)

    # 3. 괄호 () 안 내용 포함 제거
    text = re.sub(r"\([^)]*\)", "", text)

    # 4. [인터뷰], [건강톡톡] 제거 (대괄호 안 전체 제거해도 무방)
    text = re.sub(r"\[[^\]]+\]", "", text)

    # 5. '글 ='이 포함된 줄 제거
    lines = text.splitlines()
    lines = [line for line in lines if "글 =" not in line]
    text = "\n".join(lines)

    # 공백 정리
    text = re.sub(r"\s+", " ", text).strip()

    return text


def clean_title(text):
    if pd.isna(text):
        return ""

    # 1. 소문자로 변환
    text = text.lower()

    # 2. 특정 특수문자 제거
    text = re.sub(r"[△ㅣ…“”‘’.?!\"\"\'\-]", "", text)

    # 3. 괄호 () 안 내용 포함 제거
    text = re.sub(r"\([^)]*\)", "", text)

    # 4. [인터뷰], [건강톡톡] 제거 (대괄호 안 전체 제거해도 무방)
    text = re.sub(r"\[[^\]]+\]", "", text)


    # 공백 정리
    text = re.sub(r"\s+", " ", text).strip()

    return text


# 전처리 적용
df["content"] = df["content"].apply(remove_q_dot)
df["content"] = df["content"].apply(clean_content)
df["title"] = df["title"].apply(clean_title)

# 결과 저장
df.to_csv("8_hidoc_articles_preprocessing.csv", index=False, encoding="utf-8-sig")
print("✅ 전처리 완료 → 8_hidoc_articles_preprocessing.csv")


✅ 전처리 완료 → 8_hidoc_articles_preprocessing.csv


In [41]:
# 실제로 어떤 형태인지 확인해보기
df[df["content"].str.contains("q. ", na=False)].head(10)["content"]


0      추간판 탈출증은 방치될 시 신경 손상이 진행되어 다양한 합병증이 발생할 수 있다. ...
1      신경 써서 관리해도 강아지는 눈물자국이 쉽게 생긴다. 반려견의 눈 주위가 젖어있고,...
2      소형견을 키우는 보호자의 가장 큰 걱정거리인 슬개골 탈구. 반려견이 두 발로 서면 ...
38     반려견을 키우는 가정이 늘어나면서 개 물림 사고도 늘고 있다. 소방청에 따르면 최근...
50     심장은 24시간 쉬지 않고 움직이며 산소와 영양분을 싣고 있는 혈액을 온몸에 흐르게...
111    최근 코로나19의 동물감염 사례가 연이어 알려지며, 동물사람의 이종 간 전염이 현실...
Name: content, dtype: object

In [42]:
import pandas as pd

# 파일 불러오기 (예시 파일명)
df = pd.read_csv("8_hidoc_articles_preprocessing.csv", encoding="utf-8-sig")

# 제외할 키워드 목록
exclude_keywords = ["반려견", "강아지", "개"]

# 정규표현식으로 필터링 (대소문자 구분 없음)
mask = ~df["title"].str.contains("|".join(exclude_keywords), case=False, na=False)

# 조건에 맞는 행만 추출
df_filtered = df[mask]

# 결과 미리보기
print(df_filtered.head())


                                title  \
4     숨 못 쉬고 캑캑 기침하는 반려동물올바른 응급처치 방법은   
6         중년 여성에 특히 좋은 무화과 효능잘 고르는 법은   
12  진드기가 옮기는 이 질환, 생명까지 위협해피하는 방법 없을까   
14          필요가 아닌 필수반려동물의 생애주기별 건강검진   
15          반려가족 50%가 겪는 펫로스 증후군극복하려면   

                                              content  \
4   반려동물과 함께 생활하다 보면, 예기치 못한 응급상황이 찾아오는 경우가 간혹 있다....   
6   무화과의 철이 찾아왔다. 무화과는 달콤한 맛을 내면서도 낮은 칼로리 덕분에 체중 관...   
12  날이 풀리면서 야외에서 보내는 시간이 늘어남에 따라, 야생 진드기에 노출될 위험도 ...   
14  이현아 수의사 말 못하는 반려동물, 몸짓과 눈빛으로 건강 상태 표현해 나이대별 예방...   
15  최근 반려견과의 일상을 올리던 한 유튜버가 반려견 사후 1년 만에 반려견을 복제한 ...   

                                                  URL  \
4   https://news.hidoc.co.kr/news/articleView.html...   
6   https://news.hidoc.co.kr/news/articleView.html...   
12  https://news.hidoc.co.kr/news/articleView.html...   
14  https://news.hidoc.co.kr/news/articleView.html...   
15  https://news.hidoc.co.kr/news/articleView.html...   

                                                image  
4   https:/

In [45]:
import pandas as pd

# CSV 또는 DataFrame 불러오기
df = pd.read_csv("8_hidoc_articles_preprocessing.csv", encoding="utf-8-sig")

# 제거할 인덱스 번호 리스트
indexes_to_remove = [4, 12, 15]

# 행 제거
df = df.drop(indexes_to_remove)

# 인덱스 리셋 (선택적)
df = df.reset_index(drop=True)

# 저장 (선택)
df.to_csv("8_hidoc_articles_preprocessing.csv", index=False, encoding="utf-8-sig")

print("✅ 인덱스 4, 12, 15 제거 완료")


✅ 인덱스 4, 12, 15 제거 완료


In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 130 entries, 0 to 129
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    130 non-null    object
 1   content  130 non-null    object
 2   URL      130 non-null    object
 3   image    130 non-null    object
dtypes: object(4)
memory usage: 4.2+ KB
