In [22]:
import pandas as pd

# 데이터 불러오기 (구분자가 콤마일 경우)
df = pd.read_csv('../../data/external/google_gangnam_crawling_data.csv')

# 결측치 확인할 컬럼 리스트
cols_to_check = ['음식점_이름', '카테고리', '위도', '경도']

# 각 컬럼별 결측치 개수 출력
print(df[cols_to_check].isnull().sum())

# 결측치가 있는 행만 따로 보고 싶을 때
missing_rows = df[df[cols_to_check].isnull().any(axis=1)]
print(missing_rows[cols_to_check])


음식점_이름      0
카테고리      427
위도          0
경도          0
dtype: int64
         음식점_이름 카테고리         위도          경도
7          송원빌딩  NaN  37.491073  127.038494
15           벨르  NaN  37.501092  127.034639
22          진선미  NaN  37.497458  127.065326
40        트리아호텔  NaN  37.502875  127.039434
63      한우리외식산업  NaN  37.521100  127.034728
...         ...  ...        ...         ...
4136     팬텀1574  NaN  37.507818  127.056958
4142  뉴욕프라이즈강남점  NaN  37.498516  127.028272
4143   소노야 신사역점  NaN  37.516406  127.020262
4144         사또  NaN  37.512392  127.050286
4146         발리  NaN  37.518926  127.034593

[427 rows x 4 columns]


In [23]:
df_no_missing_category = df.dropna(subset=['카테고리']).reset_index(drop=True)

In [27]:
dup_mask = df_no_missing_category.duplicated(subset=['음식점_이름', '주소', '전화번호'], keep=False)
df_dups = df_no_missing_category[dup_mask]

print(f"음식점_이름, 주소, 전화번호가 모두 같은 중복 행 개수: {len(df_dups)}")
print(df_dups[['음식점_이름', '주소', '전화번호']].head(20))

음식점_이름, 주소, 전화번호가 모두 같은 중복 행 개수: 997
               음식점_이름                          주소            전화번호
6           미스터피자 대치점           서울특별시 강남구 삼성로 349  0507-1374-0454
7           베이징코야 강남점   서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
8                 삼바리  서울특별시 강남구 압구정로2길 46 1층 삼바리  0507-1351-7567
9                 고향집     서울특별시 강남구 언주로134길 17 1층     02-543-6363
10               삼원가든           서울특별시 강남구 언주로 835     02-548-3030
16            짱이네산곰장어        서울특별시 강남구 언주로 605 1층     02-514-3554
22            늘푸른정육식당   서울특별시 강남구 학동로 219 국제빌딩 지층     02-516-3330
23               페리카나         서울특별시 강남구 봉은사로43길 8     02-544-6086
24               목련식당        서울특별시 강남구 도산대로30길 15     02-541-5858
28               남호식당         서울특별시 강남구 논현로85길 23     02-552-9292
29                해품달  서울특별시 강남구 밤고개로31길 9 완도전복마을  0507-1381-2290
32  60년 전통 신촌황소곱창 논현점    서울특별시 강남구 봉은사로1길 37 지상1층     02-511-4632
34             전주행복밥상      서울특별시 강남구 선릉로 514 성원빌딩     02-566-7394
36                미소야         서울특별시 강남구

In [28]:
# 첫 번째 값만 남기고 중복 제거
df_unique = df.drop_duplicates(subset=['음식점_이름', '주소', '전화번호'], keep='first')

print(f"중복 제거 후 전체 행 개수: {len(df_unique)}")

중복 제거 후 전체 행 개수: 3536


In [29]:
# 중복 그룹(전화번호+주소 모두 같은) 전체 마스크
dupe_mask = df_unique.duplicated(subset=['주소', '전화번호'], keep=False)


In [34]:
# 중복 그룹 데이터만 확인
df_dupes = df_unique[dupe_mask]

# 주소가 NaN이 아닌 데이터만 남기기
df_dupes_no_nan = df_dupes[df_dupes['주소'].notna()]

# 결과 확인
print(df_dupes_no_nan[['음식점_이름', '주소', '전화번호']])



           음식점_이름                             주소            전화번호
2            원해분식    서울특별시 강남구 도산대로49길 10-6 젤로빌딩  0507-1479-5061
3             취화선      서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
4            삼성식당        서울특별시 강남구 봉은사로86길 30 1층  0507-1374-3082
7            송원빌딩      서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
8       베이징코야 강남점      서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
...           ...                            ...             ...
4132       현대정육식당            서울특별시 강남구 선릉로146길 5     02-540-7205
4136       팬텀1574      서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
4138           화류      서울특별시 강남구 영동대로86길 17 육인빌딩     02-558-7905
4140  비에이치씨강남구청역점            서울특별시 강남구 학동로 305-3     02-515-3469
4143     소노야 신사역점  서울특별시 강남구 도산대로15길 12 가로수빌딩 1층     02-545-0718

[1416 rows x 3 columns]
