In [7]:
import pandas as pd

# 데이터 불러오기 (구분자가 콤마일 경우)
df = pd.read_csv('../../data/external/google_gangnam_crawling_data.csv')

# 결측치 확인할 컬럼 리스트
cols_to_check = ['음식점_이름', '카테고리', '위도', '경도']

# 각 컬럼별 결측치 개수 출력
print(df[cols_to_check].isnull().sum())

# 결측치가 있는 행만 따로 보고 싶을 때
missing_rows = df[df[cols_to_check].isnull().any(axis=1)]
print(missing_rows[cols_to_check])


음식점_이름      0
카테고리      454
위도          1
경도          1
dtype: int64
       음식점_이름 카테고리         위도          경도
3         취화선  NaN  37.500799  127.060125
7        송원빌딩  NaN  37.491073  127.038494
15    삼해정 강남구  NaN        NaN         NaN
16         벨르  NaN  37.501092  127.034639
23        진선미  NaN  37.497458  127.065326
...       ...  ...        ...         ...
4311      강남구  NaN  37.496665  127.062980
4323  카페 드 파리  NaN  37.525851  127.045925
4337   민피플강남점  NaN  37.504065  127.046450
4338      바램2  NaN  37.522460  127.027062
4344     긴자청담  NaN  37.524387  127.051828

[454 rows x 4 columns]


In [8]:
df_no_missing_category = df.dropna(subset=['카테고리','위도','경도']).reset_index(drop=True)

In [9]:
dup_mask = df_no_missing_category.duplicated(subset=['음식점_이름', '주소', '전화번호'], keep=False)
df_dups = df_no_missing_category[dup_mask]

print(f"음식점_이름, 주소, 전화번호가 모두 같은 중복 행 개수: {len(df_dups)}")
print(df_dups[['음식점_이름', '주소', '전화번호']].head(20))

음식점_이름, 주소, 전화번호가 모두 같은 중복 행 개수: 1044
               음식점_이름                          주소            전화번호
5           미스터피자 대치점           서울특별시 강남구 삼성로 349  0507-1374-0454
6           베이징코야 강남점   서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
7                 삼바리  서울특별시 강남구 압구정로2길 46 1층 삼바리  0507-1351-7567
8                 고향집     서울특별시 강남구 언주로134길 17 1층     02-543-6363
9                삼원가든           서울특별시 강남구 언주로 835     02-548-3030
15            짱이네산곰장어        서울특별시 강남구 언주로 605 1층     02-514-3554
21            늘푸른정육식당   서울특별시 강남구 학동로 219 국제빌딩 지층     02-516-3330
22               페리카나         서울특별시 강남구 봉은사로43길 8     02-544-6086
23               목련식당        서울특별시 강남구 도산대로30길 15     02-541-5858
27               남호식당         서울특별시 강남구 논현로85길 23     02-552-9292
28                해품달  서울특별시 강남구 밤고개로31길 9 완도전복마을  0507-1381-2290
31  60년 전통 신촌황소곱창 논현점    서울특별시 강남구 봉은사로1길 37 지상1층     02-511-4632
33             전주행복밥상      서울특별시 강남구 선릉로 514 성원빌딩     02-566-7394
35                미소야         서울특별시 강남

In [10]:
# 첫 번째 값만 남기고 중복 제거
df_unique = df_no_missing_category.drop_duplicates(subset=['음식점_이름', '주소', '전화번호'], keep='first')

print(f"중복 제거 후 전체 행 개수: {len(df_unique)}")

중복 제거 후 전체 행 개수: 3284


In [11]:
# 주소와 전화번호가 같은 중복 행 모두 제거
df_no_duplicates = df_unique.drop_duplicates(subset=['주소', '전화번호'], keep='first')


In [12]:
# 카테고리별 개수 확인
category_counts = df_no_duplicates['카테고리'].value_counts()

# 개수가 1~2개인 카테고리 필터링
mask = category_counts == 1
categories_with_mask = category_counts[mask]

# 카테고리 이름만 추출
category_names = categories_with_mask.index.tolist()
print(category_names)

['출장요리업체', '유기농 제품 판매점', '캐딜락 대리점', '쌀 전문식당', '건축 설계사', '시민회관', '와인 클럽', '불고기 전문점', '관광 명소', '라운지', '해장국 전문점', '농장', '비건 채식 레스토랑', '빈대떡 전문점', '민물장어전문점', '꼬치구이 전문식당', '쇠고기덮밥 전문점', '고급 음식점', '노래방', '케이크 전문점', '웨딩홀', '보석상', '전문 클리닉', '회전초밥집', '튀김 전문식당', '게이 사우나', '박물관', '사무실 임대업체', '막창 전문점', '정육식당', '치즈 전문점', '파시 사원', '디저트 전문점', '엔터테인먼트 대행업체', '피자 배달', '식품 공급업체', '고급 일정식 전문점', '대만 레스토랑', '단란주점', '정신과 전문의', '가전제품 매장', '스파게티 전문점', '액세서리 판매점', '베이글 전문점', '문구점', '우체국', '페라리 매장', '복싱장', '백화점', '오리구이 전문점', '가이세키 레스토랑', '프렌치 (현대식) 레스토랑', '주류 판매점', '남미 레스토랑', '떡집', '생선 레스토랑', '프랑스 음식점', '요가학원', '국립공원', '재즈바', '아파트 단지', '소프트웨어 회사', '생태/동태요리 전문점', '차 전문점', '동남아시아 레스토랑', '패밀리 레스토랑', '요식업', '협회 또는 조직', '모자 전문점', '전자제품 판매점', '음식점/카페', '정신건강 서비스', '커피 로스터', '창고', '건강식품 음식점', '돼지국밥 전문점', '핫팟 레스토랑', '카페테리아', '양조장 주점', '음반 판매점', '채식 전문식당', '실내 숙박시설', '술집 음식점 가구점', '모던 이자카야 레스토랑', '할인 슈퍼마켓', '사천 요리 전문식당', '바다장어 전문점', '추로스 전문점', '막국수 전문점', '제본업체', '짬뽕 전문점', '교육센터', '타코 레스토랑', '디저트 전문 레스토랑']


In [13]:
# 삭제할 카테고리 목록
categories_to_remove = ['캐딜락 대리점','건축 설계사', '시민회관','관광 명소','라운지','농장','노래방','웨딩홀','보석상',
                        '전문 클리닉','게이 사우나', '박물관', '사무실 임대업체', '파시 사원','엔터테인먼트 대행업체',
                        '식품 공급업체', '정신과 전문의', '가전제품 매장','액세서리 판매점','문구점', '우체국', '페라리 매장', 
                        '복싱장', '백화점', '주류 판매점', '요가학원', '국립공원', '아파트 단지', '소프트웨어 회사', 
                        '협회 또는 조직', '모자 전문점', '전자제품 판매점', '정신건강 서비스', '창고', '음반 판매점', 
                        '실내 숙박시설', '할인 슈퍼마켓', '제본업체', '교육센터','회사', '회사 사무실',
                        '상점', '의류점', '영화관',]

# 새 변수에 결과 저장
df_filtered = df_no_duplicates[~df_no_duplicates['카테고리'].isin(categories_to_remove)]


In [None]:
import json
import ast

# # 데이터 불러오기
# df = pd.read_csv('../../data/preprocessed/gangnam_crawling_data_cleaned.csv')

# 원본 문자열 형식을 유지하면서 빈 메뉴 항목 제거
def clean_menu_preserve_quotes(menu_str):
    try:
        # 문자열을 파이썬 객체로 변환
        if isinstance(menu_str, str) and menu_str.startswith('[') and menu_str.endswith(']'):
            # 원본 따옴표 형식 확인
            quote_type = "'" if "'" in menu_str[:20] else '"'
            
            # 파이썬 객체로 변환
            menu_list = ast.literal_eval(menu_str)
            
            # 빈 메뉴 항목 제거
            cleaned_menu = [item for item in menu_list if item.get('menu_name')]
            
            # 원본 따옴표 형식으로 다시 문자열화
            if quote_type == "'":
                result = str(cleaned_menu).replace('"', "'")
            else:
                result = str(cleaned_menu)
                
            return result
        else:
            return menu_str
    except Exception as e:
        print(f"Error: {e}")
        return menu_str

# 메뉴 정보 컬럼에 함수 적용
df_filtered['메뉴_정보'] = df_filtered['메뉴_정보'].apply(clean_menu_preserve_quotes)

# 결과 저장
df_filtered.to_csv('../../data/preprocessed/google_gangnam_crawling_data_cleaned_cleaned.csv', index=False)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtered['메뉴_정보'] = df_filtered['메뉴_정보'].apply(clean_menu_preserve_quotes)


In [None]:
# 빈 리스트 확인 함수
def is_empty_list(list_str):
    try:
        if list_str == '[]':
            return True
        
        # 문자열을 파이썬 객체로 변환
        if isinstance(list_str, str):
            if list_str.startswith('[') and list_str.endswith(']'):
                try:
                    list_obj = json.loads(list_str)
                except:
                    list_obj = ast.literal_eval(list_str)
                
                # 빈 리스트인지 확인
                return len(list_obj) == 0
        return False
    except:
        return False

# 메뉴_정보와 음식점_태그 모두 빈 리스트인 행 제거
df_cleaned = df_filtered[~(df_filtered['메뉴_정보'].apply(is_empty_list) & df_filtered['음식점_태그'].apply(is_empty_list))]

# 결과 저장
df_cleaned.to_csv('../../data/preprocessed/google_gangnam_crawling_data_cleaned_cleaned.csv', index=False)
