<a href="https://colab.research.google.com/github/park-hoyeon/park-hoyeon.github.io/blob/master/skt_6_24_house_value.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

tips = pd.read_csv('./tips.csv')
sns.countplot(data=tips, x='day')
plt.show()

In [None]:
x = tips['day'].value_counts()
print(x)

In [None]:
 sns.countplot(data=tips, x='day', hue='smoker')
 plt.show()

In [None]:
tips.head()

In [None]:
sns.histplot(x='total_bill', data=tips)
plt.show()

In [None]:
sns.histplot(data=tips, x='total_bill', bins=10)
plt.show()

In [None]:
sns.histplot(data=tips, x='total_bill', bins=10, kde=True)
plt.show()

In [None]:
sns.boxplot(x='smoker', y='total_bill', data=tips)
plt.show()

In [None]:
df = tips.select_dtypes(['number'])
df.head()

In [None]:
x = df.corr()
sns.heatmap(x, annot=True, cmap='viridis')
plt.show()

In [None]:
g = sns.FacetGrid(tips, col="time",  row="sex")
g.map(sns.scatterplot, "total_bill", "tip")
plt.show()

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

file_path = './housing.csv'

df = pd.read_csv(file_path)

print("데이터 샘플 (상위 5개):")
print(df.head())

print("\n데이터 기본 정보:")
df.info()

In [None]:
# total_bedrooms의 중앙값 계산
median_bedrooms = df['total_bedrooms'].median()

# 결측치를 중앙값으로 채우기 (inplace=True는 원본 DataFrame을 바로 수정)
df['total_bedrooms'].fillna(median_bedrooms, inplace=True)

# 결측치가 처리되었는지 다시 확인
print("\n결측치 처리 후 데이터 정보:")
df.info()

In [None]:
# 수치형 데이터의 기술 통계량 확인
print(df.describe())

In [None]:
# 전체 수치형 변수에 대한 히스토그램 그리기
df.hist(bins=50, figsize=(20, 15))
plt.suptitle("Distribution of Numerical Features", size=20)
plt.tight_layout(rect=[0, 0.03, 1, 0.95]) # suptitle과 겹치지 않도록 조정
plt.show()

In [None]:
# ocean_proximity 변수의 카테고리별 개수 확인
print(df['ocean_proximity'].value_counts())

# countplot으로 시각화
plt.figure(figsize=(8, 6))
sns.countplot(y='ocean_proximity', data=df, order=df['ocean_proximity'].value_counts().index)
plt.title('Count of Properties by Ocean Proximity')
plt.show()

In [None]:
# 새로운 비율 기반 변수 생성
df['rooms_per_household'] = df['total_rooms'] / df['households']
df['bedrooms_per_room'] = df['total_bedrooms'] / df['total_rooms']
df['population_per_household'] = df['population'] / df['households']

# 새로 생성된 변수를 포함하여 다시 통계량 확인
print(df[['rooms_per_household', 'bedrooms_per_room', 'population_per_household']].describe())

In [None]:
# 상관관계 행렬 계산 (수치형 데이터만 대상)
corr_matrix = df.corr(numeric_only=True)

# median_house_value와의 상관관계가 높은 순으로 정렬하여 확인
print(corr_matrix['median_house_value'].sort_values(ascending=False))

# 히트맵으로 전체 상관관계 시각화
plt.figure(figsize=(14, 10))
sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Correlation Matrix of Housing Features')
plt.show()

In [None]:
# 소득과 주택 가격의 관계 시각화
plt.figure(figsize=(10, 6))
sns.scatterplot(x='median_income', y='median_house_value', data=df, alpha=0.1)
plt.title('Median House Value vs. Median Income')
plt.show()

In [None]:
import folium
import branca.colormap as cm

# 1. ColorMap 만들기
min_price = df["median_house_value"].min()
max_price = df["median_house_value"].max()

colormap = cm.LinearColormap(colors=['blue', 'green', 'yellow', 'red'],
                             vmin=min_price, vmax=max_price)

# 지도 생성
m = folium.Map(location=[37, -119], zoom_start=6)

# 마커 추가
for _, row in df.iterrows():
    price = row["median_house_value"]
    color = colormap(price)  # 가격에 따라 색상 결정

    folium.CircleMarker(
        location=[row["latitude"], row["longitude"]],
        radius=min(row["population"]/1000, 10),
        color=color,
        fill=True,
        fill_color=color,
        fill_opacity=0.6,
        popup=f"${price:,.0f}"
    ).add_to(m)

# ColorMap(범례) 추가
colormap.caption = "Median House Value"
colormap.add_to(m)

# 지도 출력
m
