# 1. 데이터 불러오기

In [None]:
import pandas as pd 

df = pd.read_csv(
    "./data/서울특별시 공공자전거 이용정보(월별)_25.7-12.csv",
    encoding="CP949"
)
df.head()

# 2. 데이터 전처리

## 1) 데이터 정보 확인하기

In [None]:
df.head(1)

In [None]:
df.info()

In [None]:
# 데이터는 몇 개이고, 몇 개의 컬럼을 가졌나요?
nrow, ncol = df.shape
print(f"따릉이 데이터는 {nrow:,}개 이고, {ncol}개의 열이 있습니다.")

## 2) 데이터 형 변환

In [None]:
# 202507
pd.to_datetime(df["대여일자"], format="%Y%m")

In [None]:
# 대여일자를 int가 아닌 str으로 바꾸기
df["대여일자"] = df["대여일자"].astype(str)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
# 대여소번호를 str로 바꾸기
df["대여소번호"] = df["대여소번호"].astype(str)

In [None]:
df.info()

In [None]:
# (Tip) 많은 변수의 유형 변경을 한 번에 처리하고 싶을 때
# ex. 대여일자, 대여소번호를 str로 바꾸고 싶다. 
# df.astype({"대여일자": str, "대여소번호": str})

## 3) 결측치 파악 및 처리

In [None]:
# df.isnull().sum()
df.isna().sum()

In [None]:
# 결측치가 왜 발생했을까?
## 성별 - 결측치를 대체 ("Other")
## 운동량/탄소량 - 내 분석 목표에 큰 의미를 차지하지 않기 때문에 그냥 둔다. 

### (1) 성별 결측치 처리

In [None]:
# 성별 데이터 몇 개인지 파악하기 
df["성별"].value_counts()

In [None]:
# 다 대문자로 바꾸기
# 결측치를 "O"라고 대체하자. 
df["성별"] = df["성별"].str.upper()
df["성별"] = df["성별"].fillna("O")

In [None]:
df["성별"].value_counts()

## 4) 이상치 파악 및 처리

In [None]:
df.describe()

In [None]:
# pair plot 
import koreanize_matplotlib # 한글 적용
import matplotlib.pyplot as plt 
import seaborn as sns

sns.pairplot(
    df[["이용건수", "이동거리(M)", "이용시간(분)"]],
    diag_kind="hist"
)
plt.show()

In [None]:
# 정렬: sort_values(by=[], ascending=)
# 정렬 (이용건수 기준 내림차순 Top10)
df.sort_values(by=["이용건수"], ascending=False).head(3)

In [None]:
df.sort_values(by=["이용건수"], ascending=False).tail(3)

In [None]:
# 정렬 (이동거리(M) 기준 내림차순 Top10)
df.sort_values(by=["이동거리(M)"], ascending=False).head(3)

In [None]:
# 정렬 (이용시간(분) 기준 내림차순 Top10)
df.sort_values(by=["이용시간(분)"], ascending=False).head(3)

In [None]:
# 이상치가 정말로 이상한가? 
## 이용건수가 남들보다 많은 사람이 더 큰 값을 가졌다. 
## 건당 이동거리, 건당 이용시간 필요할 것 같다.

## 5) 파생변수 생성

In [None]:
df["건당 이동거리(M)"] = df["이동거리(M)"] / df["이용건수"]
df["건당 이용시간(분)"] = df["이용시간(분)"] / df["이용건수"]

In [None]:
df.head(2)

In [None]:
# 건당 이동거리, 건당 이용시간의 히스토그램 그려보기
# pair plot 
import koreanize_matplotlib # 한글 적용
import matplotlib.pyplot as plt 
import seaborn as sns

sns.pairplot(
    df[["건당 이동거리(M)", "건당 이용시간(분)"]],
    diag_kind="hist"
)
plt.show()

In [None]:
# 정렬 (이동거리(M) 기준 내림차순 Top10)
df.sort_values(by=["건당 이동거리(M)"], ascending=False).head(3)

In [None]:
# 정렬 (이용시간(분) 기준 내림차순 Top10)
df.sort_values(by=["이용시간(분)"], ascending=False).head(3)

## 전처리 데이터 저장 

In [None]:
df.head(1)

In [None]:
df.to_csv(
    "./data/따릉이_월별정보_전처리_데이터(25_7_12).csv",
    index=False
)

# 3. 데이터 탐색하기

In [None]:
import pandas as pd 

df2 = pd.read_csv("./data/따릉이_월별정보_전처리_데이터(25_7_12).csv")
df2.head(2)

## 1) 변수별로 특징 파악하기

In [None]:
import koreanize_matplotlib # 한글 적용
import matplotlib.pyplot as plt 
import seaborn as sns

In [None]:
# 대여일자, 몇 월에 가장 많이 따릉이가 이용되었을까?
month_summary = df2["대여일자"].value_counts()
month_summary

In [None]:
plt.figure(figsize=(8,3))
month_summary.plot(kind="bar")
plt.title("대여일자별 데이터 수")
plt.ylabel("대여일자(월)")
plt.xticks(rotation=0) # x축 라벨 회전
plt.show()


In [None]:
# 9-11월에 가장 많이 이용되었고, 12월엔 이용량이 줄었다.

In [None]:
# 대여소, 사람들이 가장 많이 이용하는 대여소는 어디일까?
location_summary = df2["대여소명"].value_counts().head(5)
location_summary

In [None]:
# 대여구분코드, 사람들은 어떤 유형의 대여를 하는가?
plt.figure(figsize=(15,3))
location_summary.plot(kind="bar")
plt.title("대여소별 데이터 수")
plt.ylabel("대여소")
plt.xticks(rotation=0) # x축 라벨 회전
plt.show()


In [None]:
# 한강 근처에서 대여가 많이 일어나는 것 같다. 

In [None]:
# 성별, 성별은 어떻게 이루어져 있는가?

In [None]:
# 연령대, 연령대는 어떻게 이루어져 있는가?

In [None]:
# 건당 이동거리, 건당 이동거리 분포는 어떤가?

In [None]:
# 건당 이용시간, 건당 이용시간 분포는 어떤가?

## 2) 그룹별로 특징 파악하기

In [None]:
df2.head(1)

In [None]:
# 월별로 이동거리에 차이가 있는가?
month_dist_summary = df2.groupby("대여일자")["건당 이동거리(M)"].mean()
month_dist_summary


In [None]:
plt.figure(figsize=(5, 3))
month_dist_summary.plot(kind="bar")
plt.title("월별 건당 이동거리(M)")
plt.ylabel("대여일자(월)")
plt.xticks(rotation=0) # x축 라벨 회전
plt.show()


In [None]:
# 대여소별로 이동거리에 차이가 있는가?
location_dist_summary = df2.groupby("대여소명")["건당 이동거리(M)"].mean().sort_values(ascending=False)
location_dist_summary


In [None]:
plt.figure(figsize=(15, 3))
location_dist_summary.head(5).plot(kind="bar")
plt.title("대여소별 건당 이동거리(M)")
plt.ylabel("대여소명")
plt.xticks(rotation=0) # x축 라벨 회전
plt.show()


In [None]:
# 한강 또는 천 근처 이용이 많은 듯 하다.

In [None]:
plt.figure(figsize=(15, 3))
location_dist_summary.tail(5).plot(kind="bar")
plt.title("대여소별 건당 이동거리(M)")
plt.ylabel("대여소명")
plt.xticks(rotation=0) # x축 라벨 회전
plt.show()


In [None]:
# 연령대별로 이용거리에 차이가 있는가?
age_dist_summary = df2.groupby("연령대코드")["건당 이동거리(M)"].mean()
age_dist_summary


In [None]:
plt.figure(figsize=(15, 3))
age_dist_summary.plot(kind="bar")
plt.title("연령대별 건당 이동거리(M)")
plt.ylabel("연령대")
plt.xticks(rotation=0) # x축 라벨 회전
plt.show()


In [None]:
# 10대와 4,50대가 많이 따릉이를 이용하는 것 같다. 
# 그렇다면 4-50대의 대여소와 ~10대의 대여소는 다를까?

In [None]:
# ... 계속

## 3) 변수 별 관계 파악하기

In [None]:
df2.head(1)

In [None]:
# 성별 X 연령대 분포에 따른 건당 이용시간
pivot_table = df2.pivot_table(
    values="건당 이용시간(분)",
    index="성별",
    columns="연령대코드",
    aggfunc="mean"
)

pivot_table


In [None]:
sns.heatmap(
    pivot_table,
    annot=True,
    fmt=".0f",
    cmap="YlOrRd"
)
plt.title("성별 × 연령대 건당 이용시간")
plt.show()


In [None]:
# 여성이 더 이용시간이 많은 것 같다.

In [None]:
# 대여일자 X 연령대에 따른 건당 이용시간
pivot_table = df2.pivot_table(
    values="건당 이용시간(분)",
    index="대여일자",
    columns="연령대코드",
    aggfunc="mean"
)

pivot_table

In [None]:
sns.heatmap(
    pivot_table,
    annot=True,
    fmt=".0f",
    cmap="YlOrRd"
)
plt.title("대여일자(월) × 연령대 건당 이용시간")
plt.show()


In [None]:
# 대여소명 X 연령대에 따른 건당 이용시간
pivot_table = df2.pivot_table(
    values="건당 이용시간(분)",
    index="대여소명",
    columns="연령대코드",
    aggfunc="mean"
)

pivot_table

In [None]:
location_summary

In [None]:
location_summary.index

In [None]:
pivot_table_loc_top5 = pivot_table.loc[location_summary.index, :]
pivot_table_loc_top5

In [None]:
sns.heatmap(
    pivot_table_loc_top5,
    annot=True,
    fmt=".0f",
    cmap="YlOrRd"
)
plt.title("대여일자(월) × 연령대 건당 이용시간")
plt.show()


In [None]:
# ... 계속

# 4. 지도 시각화 실습

## 1) 데이터 준비

In [None]:
df2.head(3)

In [None]:
# 공공자전거 대여소 정보.csv 불러오기
import pandas as pd 

loc_df = pd.read_csv(
    "./data/공공자전거 대여소 정보.csv"
)
loc_df.head(3)

### (1) 통합하는 방법 1

In [None]:
# 어떤 데이터를 지도에 그릴 것인가?
# 대여소별로 건당 이동거리(M) - 2) 그룹별 요약 
loc_dist_summary_top5 = df2.groupby('대여소명')["건당 이동거리(M)"].mean().sort_values(ascending=False).head(5)
loc_dist_summary_top5

In [None]:
# 필요한 열만 추출해보자. RENT_ID_NM, STA_LAT, STA_LONG
loc_df[ ["RENT_ID_NM", "STA_LAT", "STA_LONG" ] ]

In [None]:
# 반복문을 통해서 대여소명, 평균 건당 이동거리(M), 위도, 경도 출력하기 
## 반복 변수: loc
for loc in loc_dist_summary_top5.index:
    print(loc)
    temp = loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  ["STA_LAT", "STA_LONG"] ]
    lat = loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  "STA_LAT" ].values[0]
    long = loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  "STA_LONG" ].values[0]
    print(lat, long)
    print("="*100)

In [None]:
# loc_df에서 RENT_ID_NM이 loc인 STA_LOC, STA_LONG을 출력하고 싶어요.
# loc_df.loc[  조건  ,  ["STA_LAT", "STA_LONG"] ]
# 조건: loc_df["RENT_ID_NM"] == loc
# loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  ["STA_LAT", "STA_LONG"] ]

### (2) 통합하는 방법 2

In [None]:
# 대여소별로 건당 이동거리(M) - 2) 그룹별 요약 
loc_dist_summary_top5 = df2.groupby('대여소명')["건당 이동거리(M)"].mean().sort_values(ascending=False).head(5)
loc_dist_summary_top5

In [None]:
loc_dist_summary_top5_reset = loc_dist_summary_top5.reset_index()
loc_dist_summary_top5_reset

In [None]:
loc_df_new = loc_df[ ["RENT_ID_NM", "STA_LAT", "STA_LONG" ] ]
loc_df_new.columns = ["대여소명", "LAT", "LONG"]
loc_df_new

In [None]:
merge_data = pd.merge(
    left=loc_dist_summary_top5_reset,          # 데이터1
    right=loc_df_new,                   # 데이터2
    how="left",                         # 취합방법(left, right, inner, outer)
    on="대여소명"                       # 기준
)
merge_data

## 2) 지도 그려보기

### (1) 지도 출력하기

In [None]:
# uv add folium
import folium

center = [37.565516, 126.978025] # 서울 중심 위치
map = folium.Map(location=center, zoom_start=11)
map


### (2) 지도에 마커 추가하기

In [None]:
folium.Marker(
    location=center, 
    icon=folium.Icon(color="red", icon="heart"),
    popup="서울"
).add_to(map)
map
# 지도에 Marker로 표시하고 싶을 때에는 location, popup 에 넣을 데이터가 필요하다. 

### (3) 지도에 데이터 정보 표현하기

#### 통합하는 방법 1

In [None]:
for loc in loc_dist_summary_top5.index:
    # 값 추출
    print(loc)
    temp = loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  ["STA_LAT", "STA_LONG"] ]
    lat = loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  "STA_LAT" ].values[0]
    long = loc_df.loc[  loc_df["RENT_ID_NM"] == loc  ,  "STA_LONG" ].values[0]
    print(lat, long)

    # 지도 그리기 
    folium.Marker(
        location=[lat, long], 
        icon=folium.Icon(color="red", icon="heart"),
        popup=loc
    ).add_to(map)

    print("="*100)

In [None]:
map

#### 통합하는 방법 2

In [None]:
# uv add folium
import folium

center = [37.565516, 126.978025] # 서울 중심 위치
map = folium.Map(location=center, zoom_start=11)
map

In [None]:
merge_data

In [None]:
# 한 행씩 출력하고 싶어요.
for idx in range(len(merge_data)):
    # merge_data에서 idx 위치에 있는 모든 열의 값을 출력해주세요.
    row_data = merge_data.iloc[idx, :].values
    print(row_data)
    # 각각의 데이터를 변수로 만들어주세요.
    loc = row_data[0]
    lat = row_data[-2]
    long = row_data[-1]
    print(loc, lat, long)
    print("="*30)

    # 지도 그리기
    folium.Marker(
        location=[lat, long], 
        icon=folium.Icon(color="blue", icon="heart"),
        popup=loc
    ).add_to(map)
    

In [None]:
map