In [None]:
import pandas as pd  # 데이터를 다루기 위한 pandas 라이브러리 불러오기
import numpy as np  # 수치 연산을 위한 numpy 라이브러리 불러오기
import matplotlib.pyplot as plt  # 시각화를 위한 matplotlib 불러오기
import seaborn as sns  # 고급 시각화를 위한 seaborn 불러오기
import warnings  # 경고 메시지 처리를 위한 warnings 라이브러리 불러오기

# 경고 메시지를 무시하도록 설정
warnings.filterwarnings('ignore')
# 그래프를 노트북 안에 표시하기 위한 설정
%matplotlib inline

# 그래프에 사용할 폰트를 'Malgun Gothic'으로 설정
plt.rc("font", family="Malgun Gothic")
sns.set(font="Malgun Gothic", rc={"axes.unicode_minus": False}, style='white')

In [None]:
# CSV 파일을 읽어서 DataFrame으로 저장
day_care_center_df = pd.read_csv('/content/sample_data/Apartment_Price/day_care_center.csv')

In [None]:
# 'day_care_name' 열의 모든 공백을 제거합니다
day_care_center_df['day_care_name'] = day_care_center_df['day_care_name'].str.replace(' ', '', regex=True)

# 'reference_date' 열을 삭제합니다
day_care_center_df = day_care_center_df.drop(columns=['reference_date'])

* city = 도시 이름
* gu = 구(강동구, 송파구 등)
* dong = 동(잠실동, 역삼동 등)
* park_name = 공원 이름
* park_type = 공원 유형(근린공원, 어린이공원 등)
* park_area = 공원 면적(단위: 제곱미터)
* park_exercise_facility = 공원 내 운동시설(풋살장, 체력단련장, 배드민턴장 등)
* park_entertainment_facility = 공원 내 여가시설
* park_cultural_facility = 공원 내 문화시설
* park_facility_other = 공원 내 기타 시설
* park_open_year = 공원 개장 연도
* reference_data = 관련 일자(수정일자?)

In [None]:
# 수정된 DataFrame을 새로운 CSV 파일로 저장합니다 (선택 사항)
day_care_center_df.to_csv('/content/sample_data/Apartment_Price/day_care_center_cleaned.csv', index=False)

In [None]:
# 데이터의 처음 5개 행을 출력하여 확인합니다
print(day_care_center_df.head())
# DataFrame의 정보(열 수, 결측치 등)를 출력하여 확인합니다
print(day_care_center_df.info())

    city    gu day_care_name day_care_type  day_care_baby_num  teacher_num  \
0  서울특별시  서대문구        가람어린이집           국공립                 70         11.0   
1  서울특별시  서대문구      가좌제일어린이집           국공립                 88         22.0   
2  서울특별시  서대문구       경찰청어린이집            직장                 90         23.0   
3  서울특별시  서대문구      고운햇살어린이집            가정                 18          5.0   
4  서울특별시  서대문구        고은어린이집           국공립                 93         20.0   

   nursing_room_num  playground_num  CCTV_num is_commuting_vehicle  
0               5.0             1.0       7.0                    N  
1               5.0             2.0      10.0                    N  
2               6.0             1.0      32.0                    N  
3               3.0             0.0       4.0                    N  
4               7.0             2.0      10.0                    N  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7551 entries, 0 to 7550
Data columns (total 10 columns):
 #   Colum

In [None]:
# 서울특별시와 부산광역시 데이터를 분리합니다
seoul_data = day_care_center_df[day_care_center_df['city'] == '서울특별시']
busan_data = day_care_center_df[day_care_center_df['city'] == '부산광역시']

In [None]:
# 서울 데이터의 각 열에 대한 결측치 총 개수 및 비율을 계산합니다
missing_values_seoul = seoul_data.isnull().sum()
total_data_seoul = len(seoul_data)
missing_percent_seoul = (missing_values_seoul / total_data_seoul) * 100

# 부산 데이터의 각 열에 대한 결측치 총 개수 및 비율을 계산합니다
missing_values_busan = busan_data.isnull().sum()
total_data_busan = len(busan_data)
missing_percent_busan = (missing_values_busan / total_data_busan) * 100

In [None]:
# 서울 데이터의 결측치 개수와 비율을 출력합니다
print(missing_values_seoul, '\n' * 3, missing_percent_seoul)

# 부산 데이터의 결측치 개수와 비율을 출력합니다
print(missing_values_busan, '\n' * 3, missing_percent_busan)

city                       0
gu                         0
day_care_name              0
day_care_type              0
day_care_baby_num          0
teacher_num              225
nursing_room_num        2699
playground_num          3163
CCTV_num                1811
is_commuting_vehicle     495
dtype: int64 


 city                     0.000000
gu                       0.000000
day_care_name            0.000000
day_care_type            0.000000
day_care_baby_num        0.000000
teacher_num              3.978076
nursing_room_num        47.719236
playground_num          55.922914
CCTV_num                32.019095
is_commuting_vehicle     8.751768
dtype: float64
city                      0
gu                        0
day_care_name             0
day_care_type             0
day_care_baby_num         0
teacher_num               0
nursing_room_num        500
playground_num          762
CCTV_num                460
is_commuting_vehicle      1
dtype: int64 


 city                     0.000000
gu     

In [None]:
# 서울 데이터에서 불필요한 열이 제대로 삭제되었는지 확인합니다
print(seoul_data.head(50))

# 부산 데이터에서 불필요한 열이 제대로 삭제되었는지 확인합니다
print(busan_data.head(50))

     city    gu day_care_name day_care_type  day_care_baby_num  teacher_num  \
0   서울특별시  서대문구        가람어린이집           국공립                 70         11.0   
1   서울특별시  서대문구      가좌제일어린이집           국공립                 88         22.0   
2   서울특별시  서대문구       경찰청어린이집            직장                 90         23.0   
3   서울특별시  서대문구      고운햇살어린이집            가정                 18          5.0   
4   서울특별시  서대문구        고은어린이집           국공립                 93         20.0   
5   서울특별시  서대문구      그루터기어린이집            가정                 19          3.0   
6   서울특별시  서대문구        금화어린이집           국공립                 86         18.0   
7   서울특별시  서대문구       꼬꼬마어린이집            가정                 20          7.0   
8   서울특별시  서대문구      꼬마박사어린이집            가정                 19          6.0   
9   서울특별시  서대문구       꼬마숲어린이집            가정                 20          7.0   
10  서울특별시  서대문구       꾸러기어린이집            가정                 20          7.0   
11  서울특별시  서대문구      꿈빛나무어린이집           국공립         

In [None]:
# seoul_data와 busan_data를 합쳐서 최종 'day_care_center.csv' 파일을 생성합니다
file_path = "/content/sample_data/Apartment_Price/day_care_center_final.csv"
day_care_center_df.to_csv(file_path, index=False)  # df_day_care가 파일을 불러올 때 사용한 변수라고 가정