In [5]:
import pandas as pd

# CSV 파일 로드 (파일 경로를 적절히 수정하세요)
df = pd.read_csv("서울지하철위경도.csv")

# 결측치 확인
print("결측치 개수:")
print(df.isnull().sum())

# 결측치 제거 방법

## 1. 모든 결측치가 있는 행 제거
df_clean = df.dropna()

## 2. 특정 열의 결측치가 있는 행만 제거
df_clean_specific = df.dropna(subset=['역이름', '경도', '위도'])

## 3. 결측치를 특정 값으로 대체
df_filled = df.fillna({'역이름': '미상', '경도': df['경도'].mean(), '위도': df['위도'].mean()})

# 결과 확인
print("\n결측치 제거 후 데이터 형태:")
print(df_clean.shape)
print("\n특정 열 결측치 제거 후 데이터 형태:")
print(df_clean_specific.shape)
print("\n결측치 대체 후 데이터 형태:")
print(df_filled.shape)


결측치 개수:
역이름    0
경도     0
위도     0
dtype: int64

결측치 제거 후 데이터 형태:
(407, 3)

특정 열 결측치 제거 후 데이터 형태:
(407, 3)

결측치 대체 후 데이터 형태:
(407, 3)


In [9]:
import pandas as pd
import folium
from pyproj import Transformer

# CSV 파일 읽기
data = pd.read_csv('정제된_지하철_역세권.csv')

# 좌표계 변환 (예: EPSG:5181에서 WGS84로 변환)
transformer = Transformer.from_crs("EPSG:5181", "EPSG:4326", always_xy=True)

# 좌표 변환 함ㄴㄴ
def transform_coords(row):
    lon, lat = transformer.transform(row['경도'], row['위도'])
    return pd.Series({'위도': lat, '경도': lon})

# 좌표 변환 적용
data[['위도', '경도']] = data.apply(transform_coords, axis=1)

# 지도 생성
m = folium.Map(location=[37.5665, 126.9780], zoom_start=11)

# 마커 추가
for _, row in data.iterrows():
    folium.Marker(
        location=[row['위도'], row['경도']],
        popup=row['역이름'],
        tooltip=row['역이름']
    ).add_to(m)

# 지도 저장
m.save('seoul_subway_map3.html')

In [7]:
data

Unnamed: 0,역이름,경도,위도
0,강일,127.175930,37.557490
1,수서,127.101610,37.486370
2,삼성,127.063240,37.508870
3,서울,126.972960,37.555690
4,연신내,126.921300,37.618780
...,...,...,...
402,종로5가,127.001849,37.570926
403,종로3가,126.991847,37.570406
404,종각,126.982923,37.570161
405,시청,126.977088,37.565715


In [8]:
import pandas as pd

# CSV 파일 로드 (파일 경로를 적절히 수정하세요)
df = pd.read_csv("서울지하철위경도.csv", encoding='utf-8')

# 데이터 확인
print("원본 데이터 형태:")
print(df.shape)
print("\n결측치 개수:")
print(df.isnull().sum())

# 역 이름 불일치 해결
df['역이름'] = df['역이름'].replace({'총신대입구(이수)': '이수', '총신대입구': '이수'})

# 결측치 처리
## 1. 모든 결측치가 있는 행 제거
df_clean = df.dropna()

## 2. 특정 열의 결측치가 있는 행만 제거
df_clean_specific = df.dropna(subset=['역이름', '경도', '위도'])

## 3. 결측치를 특정 값으로 대체
df_filled = df.fillna({'역이름': '미상', '경도': df['경도'].mean(), '위도': df['위도'].mean()})

# 결과 확인
print("\n역 이름 불일치 해결 및 결측치 제거 후 데이터 형태:")
print(df_clean.shape)
print("\n특정 열 결측치 제거 후 데이터 형태:")
print(df_clean_specific.shape)
print("\n결측치 대체 후 데이터 형태:")
print(df_filled.shape)

# 역 이름 확인
print("\n역 이름 빈도:")
print(df_clean['역이름'].value_counts().head())

# 최종 데이터 저장
df_clean.to_csv("정제된_지하철_역세권.csv", index=False, encoding='utf-8')


원본 데이터 형태:
(407, 3)

결측치 개수:
역이름    0
경도     0
위도     0
dtype: int64

역 이름 불일치 해결 및 결측치 제거 후 데이터 형태:
(407, 3)

특정 열 결측치 제거 후 데이터 형태:
(407, 3)

결측치 대체 후 데이터 형태:
(407, 3)

역 이름 빈도:
역이름
서울역         6
김포공항        5
공덕          5
디지털미디어시티    4
홍대입구        4
Name: count, dtype: int64


In [12]:
import pandas as pd

# CSV 파일 로드 (파일 경로를 적절히 수정하세요)
df = pd.read_csv("서울지하철위경도.csv", encoding='utf-8')

# 데이터 확인
print("원본 데이터 형태:")
print(df.shape)

# 역 이름 기준으로 중복 제거
df_unique = df.drop_duplicates(subset=['역이름'], keep='first')

# 결과 확인
print("\n중복 제거 후 데이터 형태:")
print(df_unique.shape)

# 제거된 역 수 확인
removed_stations = df.shape[0] - df_unique.shape[0]
print(f"\n제거된 역의 수: {removed_stations}")

# 남은 역 이름 확인
print("\n남은 역 이름 (상위 10개):")
print(df_unique['역이름'].head(10))

# 정제된 데이터 저장
df_unique.to_csv("정제된_지하철위도경도.csv", index=False, encoding='utf-8')

원본 데이터 형태:
(407, 3)

중복 제거 후 데이터 형태:
(310, 3)

제거된 역의 수: 97

남은 역 이름 (상위 10개):
0            강일
1            수서
2            삼성
3            서울
4           연신내
5          김포공항
6           신설동
7            보문
8    성신여대입구(돈암)
9            정릉
Name: 역이름, dtype: object


In [14]:
import pandas as pd
import numpy as np

# CSV 파일 로드
df = pd.read_csv('정제된_지하철위도경도.csv', encoding='utf-8')

# 반경 500m를 계산하기 위한 함수 정의
def calculate_radius_500m(lat, lon):
    # 500m 반경의 위도와 경도 계산 (단순화된 계산 방식)
    lat_diff = 0.0045  # 약 500m에 해당하는 위도 차이
    lon_diff = 0.005   # 약 500m에 해당하는 경도 차이
    return f"({lat-lat_diff:.6f}, {lat+lat_diff:.6f}), ({lon-lon_diff:.6f}, {lon+lon_diff:.6f})"

# 각 역에 대해 반경 500m 좌표 범위 계산 및 새 칼럼 추가
df['반경_500m'] = df.apply(lambda row: calculate_radius_500m(row['위도'], row['경도']), axis=1)

# 결과 확인
print(df.head())
df.to_csv("정제된_지하철위도경도(칼럼추가).csv", index=False, encoding='utf-8')

   역이름             경도             위도  \
0   강일  215544.759936  450899.346798   
1   수서  208986.543520  442996.221338   
2   삼성  205591.363844  445490.458091   
3   서울  197610.752845  450685.364421   
4  연신내  193051.955358  457690.209379   

                                             반경_500m  
0  (450899.342298, 450899.351298), (215544.754936...  
1  (442996.216838, 442996.225838), (208986.538520...  
2  (445490.453591, 445490.462591), (205591.358844...  
3  (450685.359921, 450685.368921), (197610.747845...  
4  (457690.204879, 457690.213879), (193051.950358...  


In [16]:
import pandas as pd

# CSV 파일 로드
df = pd.read_csv('정제된_지하철위도경도.csv', encoding='utf-8')

lat_diff = 0.005 
lon_diff = 0.005   

df['500미터위도'] = df['위도'] + lat_diff
df['500미터경도'] = df['경도'] + lon_diff

print(df[['역이름', '500미터위도', '500미터경도']].head())

df.to_csv('정제된_지하철_역세권_반경500m.csv', index=False, encoding='utf-8')

   역이름        500미터위도        500미터경도
0   강일  450899.351798  215544.764936
1   수서  442996.226338  208986.548520
2   삼성  445490.463091  205591.368844
3   서울  450685.369421  197610.757845
4  연신내  457690.214379  193051.960358


---
실거래가 데이터
---

In [3]:
import pandas as pd 

data = pd.read_csv("서울시 부동산 실거래가 정보(2022~2025).csv", encoding = 'cp949', low_memory=False)
data.head()

Unnamed: 0,접수연도,자치구코드,자치구명,법정동코드,법정동명,지번구분,지번구분명,본번,부번,건물명,...,물건금액(만원),건물면적(㎡),토지면적(㎡),층,권리구분,취소일,건축년도,건물용도,신고구분,신고한 개업공인중개사 시군구명
0,2025,11320,도봉구,10600,방학동,1.0,대지,638.0,10.0,한신빌라(638-10),...,14800,37.66,16.0,4.0,,,1994.0,연립다세대,중개거래,서울 도봉구
1,2025,11380,은평구,10800,역촌동,,,,,,...,39620,74.08,182.0,,,,1972.0,단독다가구,직거래,
2,2025,11500,강서구,10200,등촌동,1.0,대지,628.0,13.0,현대프린스텔,...,10300,26.16,35.71,6.0,,,1999.0,오피스텔,중개거래,서울 강서구
3,2025,11620,관악구,10200,신림동,1.0,대지,1639.0,51.0,푸리마타운,...,12700,18.7,26.16,8.0,,,2014.0,오피스텔,중개거래,서울 관악구
4,2025,11530,구로구,10600,고척동,1.0,대지,339.0,0.0,고척파크푸르지오,...,84000,59.89,0.0,9.0,,,2009.0,아파트,중개거래,"서울 구로구, 서울 양천구"


In [4]:
data.columns

Index(['접수연도', '자치구코드', '자치구명', '법정동코드', '법정동명', '지번구분', '지번구분명', '본번', '부번',
       '건물명', '계약일', '물건금액(만원)', '건물면적(㎡)', '토지면적(㎡)', '층', '권리구분', '취소일',
       '건축년도', '건물용도', '신고구분', '신고한 개업공인중개사 시군구명'],
      dtype='object')

In [None]:
import pandas as pd
import numpy as np
from geopy.geocoders import Nominatim
from geopy.distance import geodesic

# 부동산 데이터 로드
real_estate_data = pd.read_csv("서울시 부동산 실거래가 정보(2022~2025).csv", encoding='cp949', low_memory = False)

# 전체 주소 생성
real_estate_data['전체주소'] = real_estate_data['자치구명'] + ' ' + real_estate_data['법정동명'] + ' ' + \
                            real_estate_data['본번'].astype(str) + '-' + real_estate_data['부번'].astype(str)

# 지오코딩 함수
geolocator = Nominatim(user_agent="myapp")
def get_lat_lon(address):
    try:
        location = geolocator.geocode(address)
        return location.latitude, location.longitude
    except:
        return None, None

# 위경도 추가 (주의: 시간이 오래 걸릴 수 있습니다)
real_estate_data[['위도', '경도']] = real_estate_data['전체주소'].apply(lambda x: pd.Series(get_lat_lon(x)))

# 지하철역 데이터 로드
subway_data = pd.read_csv('정제된_지하철_역세권_반경500m.csv', encoding='utf-8')

# 반경 내 데이터 추출 함수
def within_radius(row, station_lat, station_lon, radius=500):
    if pd.isna(row['위도']) or pd.isna(row['경도']):
        return False
    distance = geodesic((row['위도'], row['경도']), (station_lat, station_lon)).meters
    return distance <= radius

# 각 지하철역 반경 500m 내 데이터 필터링
filtered_data = []
for _, station in subway_data.iterrows():
    mask = real_estate_data.apply(lambda row: within_radius(row, station['위도'], station['경도']), axis=1)
    station_data = real_estate_data[mask].copy()
    station_data['지하철역'] = station['역이름']
    filtered_data.append(station_data)

# 결과 병합 및 저장
final_data = pd.concat(filtered_data).drop_duplicates()
final_data.to_csv('filtered_real_estate_data.csv', index=False, encoding='utf-8')