In [None]:
import pandas as pd

# CSV 파일 경로 (Colab 환경에 맞게 수정)
file_path = '/content/drive/MyDrive/팀 프로젝트/부동산/2024-25/서울시 부동산 전월세가 정보.csv'

# 'cp949' encoding으로 파일 읽어오기
df = pd.read_csv(file_path, encoding='cp949')

# 특정 열 추출 (4, 5, 11, 12, 14, 15열)
extracted_df = df[[df.columns[3], df.columns[4], df.columns[10], df.columns[11], df.columns[13], df.columns[14]]]

# 11열 (인덱스 10)의 날짜 데이터에서 앞 4자리가 2024인 데이터만 추출
extracted_df = extracted_df[extracted_df[extracted_df.columns[2]].astype(str).str[:4] == '2024']

# 추출된 데이터를 새로운 CSV 파일로 저장, encoding을 'utf-8'로 지정
extracted_df.to_csv('extracted_data_2024.csv', index=False, encoding='utf-8')

print("2024년 데이터가 'extracted_data_2024.csv' 파일로 저장되었습니다.")

In [None]:
import pandas as pd

# 파일 경로 리스트
file_paths = [
    '/content/drive/MyDrive/팀 프로젝트/부동산/추출 데이터/2022년 전월세가.csv',
    '/content/drive/MyDrive/팀 프로젝트/부동산/추출 데이터/2023년 전월세가.csv',
    '/content/drive/MyDrive/팀 프로젝트/부동산/추출 데이터/2024년 전월세가.csv'
]

# 모든 파일을 하나의 DataFrame으로 합치기
all_data = pd.DataFrame()  # 빈 DataFrame 생성
for file_path in file_paths:
    try:
        # 'utf-8' 인코딩으로 읽어보기
        df = pd.read_csv(file_path, encoding='utf-8')
    except UnicodeDecodeError:
        # 'utf-8'에서 오류 발생 시 'cp949' 인코딩으로 읽어보기
        df = pd.read_csv(file_path, encoding='cp949')

    # 모든 파일의 열 이름을 첫 번째 파일의 열 이름으로 통일
    if all_data.empty:
        all_data = df
    else:
        df = df.rename(columns=dict(zip(df.columns, all_data.columns)))  # 열 이름 변경
        all_data = pd.concat([all_data, df])  # DataFrame에 추가

# 3열 (인덱스 2)을 기준으로 정렬
all_data_sorted = all_data.sort_values(by=all_data.columns[2])

# 정렬된 데이터를 새로운 CSV 파일로 저장, encoding='utf-8'
all_data_sorted.to_csv('merged_and_sorted_data.csv', index=False, encoding='utf-8')

print("모든 파일이 병합되고 정렬된 데이터가 'merged_and_sorted_data.csv' 파일로 저장되었습니다.")

In [None]:
import pandas as pd

# CSV 파일 경로
file_path = '/content/drive/MyDrive/팀 프로젝트/부동산/추출 데이터/통합 데이터/서울시 전월세가.csv'

df = pd.read_csv(file_path, encoding='utf-8')

# 3열 (인덱스 2)의 값에서 앞 6자리 추출
df[df.columns[2]] = df[df.columns[2]].astype(str).str[:6]

# 5, 6번째 자릿수 변환 함수
def transform_digits(value):
    value = str(value)
    if len(value) == 6:
        two_digits = int(value[4:6])
        if 1 <= two_digits <= 3:
            return value[:4] + '01'
        elif 4 <= two_digits <= 6:
            return value[:4] + '02'
        elif 7 <= two_digits <= 9:
            return value[:4] + '03'
        elif 10 <= two_digits <= 12:
            return value[:4] + '04'
    return value  # 변환 조건에 맞지 않으면 원래 값 반환

# 변환 함수 적용
df[df.columns[2]] = df[df.columns[2]].apply(transform_digits)

# 수정된 데이터를 새로운 CSV 파일로 저장, encoding='utf-8'
df.to_csv('modified_data.csv', index=False, encoding='utf-8')

print("수정된 데이터가 'modified_data.csv' 파일로 저장되었습니다.")

In [5]:
import pandas as pd

# 파일 경로 지정
geo_data_path = r"C:\Users\m\Downloads\위도경도1.csv"
rental_data_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\분기별 서울시 전월세가 평균.csv"
output_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\merged_output.csv"

# 데이터 불러오기
geo_data = pd.read_csv(geo_data_path, encoding='utf-8')  # 위도 경도 데이터
rental_data = pd.read_csv(rental_data_path, encoding='utf-8')  # 법정동별 월세 데이터

# 병합 조건: '행정동_코드_명' & '기준_년분기_코드' in geo_data vs '법정동명' & '계약일' in rental_data
merged_data = pd.merge(
    geo_data,
    rental_data,
    left_on=['행정동_코드_명', '기준_년분기_코드'],  # geo_data의 조인 기준
    right_on=['법정동명', '계약일'],               # rental_data의 조인 기준
    how='left'                                   # geo_data를 기준으로 병합 (left join)
)

# 필요한 컬럼만 선택 (geo_data 원본 + rental_data의 전월세구분, 보증금(만원), 임대료(만원))
columns_to_keep = list(geo_data.columns) + ['전월세구분', '보증금(만원)', '임대료(만원)']
merged_data = merged_data[columns_to_keep]

# 병합 결과를 새로운 파일로 저장
merged_data.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"병합 완료. 병합된 데이터는 '{output_path}'에 저장되었습니다.")

병합 완료. 병합된 데이터는 'C:\Users\m\Desktop\팀 프로젝트\부동산\merged_output.csv'에 저장되었습니다.


In [6]:
import pandas as pd

# 파일 경로
file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\merged_output.csv"

# 데이터 불러오기
data = pd.read_csv(file_path, encoding='utf-8-sig')

# 빈 값 확인 (전월세구분, 보증금(만원), 임대료(만원) 모두 빈 값인 행 필터링)
empty_rows = data[
    data[['전월세구분', '보증금(만원)', '임대료(만원)']].isnull().all(axis=1)
]

# 빈 값이 있는 행의 '행정동_코드_명' 추출 (유니크 값)
unique_empty_admin_dong = empty_rows['행정동_코드_명'].dropna().unique()

# 고유 행정동 출력
print("빈 값이 발생한 행정동 유형별 리스트:")
for i, admin_dong in enumerate(unique_empty_admin_dong, 1):
    print(f"{i}: {admin_dong}")

# 고유 행정동 데이터프레임으로 저장
unique_empty_df = pd.DataFrame(unique_empty_admin_dong, columns=['빈 값 발생 행정동_코드_명'])
unique_empty_df.to_csv(r"C:\Users\m\Desktop\팀 프로젝트\부동산\unique_empty_admin_dong.csv", index=False, encoding='utf-8-sig')

print("빈 값 발생 행정동 유형 리스트가 'unique_empty_admin_dong.csv'로 저장되었습니다.")

빈 값이 발생한 행정동 유형별 리스트:
1: 장안1동
2: 송천동
3: 대림2동
4: 군자동
5: 구로3동
6: 한강로동
7: 삼성동
8: 소공동
9: 대학동
10: 논현1동
11: 가양1동
12: 자양2동
13: 공덕동
14: 상계5동
15: 신원동
16: 정릉4동
17: 성수1가1동
18: 반포1동
19: 영등포동
20: 천호2동
21: 성내1동
22: 역삼1동
23: 망원1동
24: 서강동
25: 구의3동
26: 방학1동
27: 화곡4동
28: 성내2동
29: 성내3동
30: 석촌동
31: 사직동
32: 자양3동
33: 화양동
34: 수유3동
35: 미성동
36: 낙성대동
37: 고척1동
38: 사당2동
39: 도화동
40: 신촌동
41: 서교동
42: 신정4동
43: 용강동
44: 서초3동
45: 창1동
46: 연희동
47: 등촌3동
48: 이태원1동
49: 능동
50: 면목본동
51: 묵2동
52: 독산3동
53: 구로5동
54: 논현2동
55: 후암동
56: 면목7동
57: 영등포본동
58: 불광1동
59: 문정2동
60: 신사동
61: 황학동
62: 방배4동
63: 삼선동
64: 고척2동
65: 홍제1동
66: 을지로동
67: 이태원2동
68: 상계2동
69: 신월2동
70: 방배본동
71: 종로1·2·3·4가동
72: 답십리1동
73: 신길1동
74: 화곡1동
75: 성산1동
76: 신정2동
77: 광희동
78: 연남동
79: 구의1동
80: 신정1동
81: 반포4동
82: 양재2동
83: 청담동
84: 명일1동
85: 신월5동
86: 삼전동
87: 수유1동
88: 인수동
89: 청운효자동
90: 개봉3동
91: 당산1동
92: 문래동
93: 명동
94: 남현동
95: 광장동
96: 자양4동
97: 우이동
98: 독산1동
99: 발산1동
100: 갈현2동
101: 한남동
102: 서림동
103: 왕십리도선동
104: 노량진2동
105: 불광2동
106: 면목2동
107: 신당5동
108: 종로5·6가동
109: 보광동
110: 장충동
111: 이

In [2]:
import pandas as pd

# 데이터 불러오기
file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\merged_output.csv"
df = pd.read_csv(file_path)

# 빈칸이 있는 행 필터링
filtered_df = df[df[['전월세구분', '보증금(만원)', '임대료(만원)']].isnull().any(axis=1)]
non_filtered_df = df.dropna(subset=['전월세구분', '보증금(만원)', '임대료(만원)'])

# 필터링된 데이터 저장 (현재 작업 디렉토리에 저장)
filtered_df.to_csv('filtered_data.csv', index=False, encoding='utf-8-sig')
non_filtered_df.to_csv('non_filtered_data.csv', index=False, encoding='utf-8-sig')

print("필터링 작업 완료. 결과 파일 저장됨.")

필터링 작업 완료. 결과 파일 저장됨.


In [15]:
import pandas as pd

# 파일 경로 설정
filtered_data_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\filtered_data.csv"
unique_empty_admin_dong_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\unique_empty_admin_dong.csv"
output_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\processed_data.csv"

# filtered_data.csv 파일 로드 및 특정 열 제거
filtered_df = pd.read_csv(filtered_data_path, encoding='utf-8')
filtered_df.drop(columns=['전월세구분', '보증금(만원)', '임대료(만원)'], inplace=True)

# unique_empty_admin_dong.csv 파일 로드 (다양한 인코딩 시도)
try:
    unique_empty_admin_dong_df = pd.read_csv(unique_empty_admin_dong_path, encoding='utf-8')
except UnicodeDecodeError:
    try:
        unique_empty_admin_dong_df = pd.read_csv(unique_empty_admin_dong_path, encoding='cp949')
    except UnicodeDecodeError:
        raise ValueError("파일 인코딩이 UTF-8 또는 CP949가 아닙니다. 파일의 인코딩을 확인하세요.")

# 병합 수행
merged_df = filtered_df.merge(
    unique_empty_admin_dong_df[['빈 값 발생 행정동_코드_명', '행정동_코드_명']],
    left_on='행정동_코드_명',
    right_on='빈 값 발생 행정동_코드_명',
    how='left'
)

# 법정동 코드명 열 생성 및 값 복사
merged_df['법정동 코드명'] = merged_df['행정동_코드_명_y']

# 필요 없는 열 제거
merged_df.drop(columns=['빈 값 발생 행정동_코드_명', '행정동_코드_명_y'], inplace=True)

# 누락된 값 확인
missing_values = merged_df['법정동 코드명'].isna().sum()
if missing_values == 0:
    print("모든 행이 정상적으로 채워졌습니다.")
else:
    print(f"일부 행이 채워지지 않았습니다. 누락된 행 개수: {missing_values}")

# 결과 저장
merged_df.to_csv(output_path, index=False, encoding='utf-8-sig')
print("완료된 데이터가 다음 경로에 저장되었습니다:", output_path)

일부 행이 채워지지 않았습니다. 누락된 행 개수: 27296
완료된 데이터가 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\processed_data.csv


In [18]:
import pandas as pd

# 파일 경로 설정
processed_data_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\processed_data.csv"
average_price_data_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\분기별 서울시 전월세가 평균.csv"
output_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_result.csv"

# 데이터 로드
processed_data_df = pd.read_csv(processed_data_path, encoding='utf-8-sig')
average_price_data_df = pd.read_csv(average_price_data_path, encoding='utf-8-sig')

# 병합 수행 (필요한 칼럼만 선택하여 병합)
merged_df = processed_data_df.merge(
    average_price_data_df[['계약일', '법정동명', '전월세구분', '보증금(만원)', '임대료(만원)']],
    left_on=['기준_년분기_코드', '법정동 코드명'],
    right_on=['계약일', '법정동명'],
    how='left'
)

# 병합 후 계약일, 법정동명 열 삭제
merged_df.drop(columns=['계약일', '법정동명', '법정동 코드명'], inplace=True)

# 결과 저장
merged_df.to_csv(output_path, index=False, encoding='utf-8-sig')
print("병합 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_path)

병합 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\final_result.csv


In [19]:
import pandas as pd

# 파일 경로 설정
final_result_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_result.csv"
non_filtered_data_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\non_filtered_data.csv"
output_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\union_result.csv"

# 데이터 로드
final_result_df = pd.read_csv(final_result_path, encoding='utf-8-sig')
non_filtered_data_df = pd.read_csv(non_filtered_data_path, encoding='utf-8-sig')

# 유니온 수행 (두 데이터프레임을 세로로 이어붙임)
union_df = pd.concat([final_result_df, non_filtered_data_df], ignore_index=True)

# 결과 저장
union_df.to_csv(output_path, index=False, encoding='utf-8-sig')

print("유니온 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_path)

유니온 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\union_result.csv


In [20]:
import pandas as pd

# 파일 경로 설정
input_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\union_result.csv"
output_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\filtered_result.csv"

# 데이터 로드
df = pd.read_csv(input_file_path, encoding='utf-8-sig')

# 기준_년분기_코드 칼럼에서 20212, 20213, 20214 값을 제외한 데이터 필터링
filtered_df = df[~df['기준_년분기_코드'].isin([20212, 20213, 20214])]

# 결과 저장
filtered_df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print("필터링 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_file_path)

  df = pd.read_csv(input_file_path, encoding='utf-8-sig')


필터링 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\filtered_result.csv


In [2]:
import pandas as pd

# 파일 경로 설정
input_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\filtered_result.csv"
output_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_transformed_result.csv"

# 데이터 로드
df = pd.read_csv(input_file_path, encoding='utf-8-sig')

# 기준_년분기_코드를 'YYYYMMDD' 형식으로 변환
def convert_quarter_to_date(quarter_code):
    year = str(quarter_code)[:4]  # 연도 (앞 4자리)
    quarter = int(str(quarter_code)[4])  # 분기 (뒤 1자리)
    
    # 각 분기별 첫날 날짜
    if quarter == 1:
        return f"{year}0101"  # 1분기: 1월 1일
    elif quarter == 2:
        return f"{year}0401"  # 2분기: 4월 1일
    elif quarter == 3:
        return f"{year}0701"  # 3분기: 7월 1일
    elif quarter == 4:
        return f"{year}1001"  # 4분기: 10월 1일

# 기준_년분기_코드 칼럼 변환
df['기준_년분기_코드'] = df['기준_년분기_코드'].apply(convert_quarter_to_date)

# 결과 저장
df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print("변환 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_file_path)

  df = pd.read_csv(input_file_path, encoding='utf-8-sig')


변환 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\final_transformed_result.csv


In [4]:
import pandas as pd

# 파일 경로 설정
input_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_transformed_result.csv"
output_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_result_with_updated_column.csv"

# 데이터 로드
df = pd.read_csv(input_file_path, encoding='utf-8-sig')

# 행정동_코드_명 칼럼의 유효한 값을 행정동_코드_명_x 칼럼에 복사
df['행정동_코드_명_x'] = df['행정동_코드_명'].fillna(df['행정동_코드_명_x'])

# 행정동_코드_명 칼럼 삭제
df.drop(columns=['행정동_코드_명'], inplace=True)

# 결과 저장
df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print("변경 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_file_path)

  df = pd.read_csv(input_file_path, encoding='utf-8-sig')


변경 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\final_result_with_updated_column.csv


In [5]:
import pandas as pd

# 파일 경로 설정
input_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_result_with_updated_column.csv"
output_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_result_without_date.csv"

# 데이터 로드
df = pd.read_csv(input_file_path, encoding='utf-8-sig')

# 기준_년분기_코드 컬럼을 문자열로 변환
df['기준_년분기_코드'] = df['기준_년분기_코드'].astype(str)

# 날짜 컬럼 삭제 (여기서는 '날짜'라는 이름을 예시로 사용했으니 실제 컬럼명으로 변경 필요)
df.drop(columns=['날짜'], inplace=True)  # '날짜' 칼럼을 실제 컬럼명으로 수정

# 결과 저장
df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print("변경 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_file_path)


변경 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\final_result_without_date.csv


In [11]:
import pandas as pd

# 파일 경로 설정
input_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\final_result_without_date.csv"

# 데이터 로드
df = pd.read_csv(input_file_path, encoding='utf-8-sig')

# '기준_년분기_코드' 컬럼의 공백 제거 및 문자열로 변환
df['기준_년분기_코드'] = df['기준_년분기_코드'].astype(str).str.strip()

filtered_df = df[df['기준_년분기_코드'] == '20240101']

# 결과가 비어있지 않다면 저장
if not filtered_df.empty:
    output_file_path = r"C:\Users\m\Desktop\팀 프로젝트\부동산\filtered_20240101.csv"
    filtered_df.to_csv(output_file_path, index=False, encoding='utf-8-sig')
    print("필터링 완료. 결과 파일이 다음 경로에 저장되었습니다:", output_file_path)
else:
    print("필터링된 데이터가 없습니다. '기준_년분기_코드' 값이 '20240101'인 데이터가 존재하지 않습니다.")


필터링 완료. 결과 파일이 다음 경로에 저장되었습니다: C:\Users\m\Desktop\팀 프로젝트\부동산\filtered_20240101.csv
