## AIVLE School [AI 미니프로젝트] '서울시 생활정보 기반 대중교통 수요 분석'

# 5. 데이터 분석
* 미션: 버스 노선 추가가 필요한 서울시 내 자치구 선정
* 방법: 1부터 4까지의 ipynb 파일 순서대로 진행하며 데이터 불러오기 및 분석(EDA)을 수행하여 서울시 내 자치구별 정보를 도출하고<br> 이를 바탕으로 5. 데이터 분석에서 버스 노선 추가가 필요한 서울시 내 자치구를 선정해봅니다.<br><br>

# 5.0. [데이터 분석을 위한 준비과정] 데이터 합치기

#### [5.0.1] 데이터 합치기
* 지금까지 1~4에서 준비한 데이터 파일
    * 버스 정류장 데이터 - df_seoul_bus_station.csv
    * 유동인구 데이터 - df_seoul_moving.csv
    * 구별 등록 인구 데이터 - df_seoul_people.csv
    * 구별 상권 데이터 - df_seoul_business.csv
* 아래 제시되는 'standard' 데이터 프레임을 기준으로 활용하여, 지금까지 1~4에서 준비한 데이터를 각각 불러와서 합쳐 주세요.
* 이후에는 이 합쳐진 데이터 프레임을 기반으로 미션을 수행하기 위한 분석을 진행합니다.

In [16]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 한글 폰트 해결

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
fonts-nanum is already the newest version (20200506-1).
0 upgraded, 0 newly installed, 0 to remove and 16 not upgraded.
/usr/share/fonts: caching, new cache contents: 0 fonts, 1 dirs
/usr/share/fonts/truetype: caching, new cache contents: 0 fonts, 3 dirs
/usr/share/fonts/truetype/humor-sans: caching, new cache contents: 1 fonts, 0 dirs
/usr/share/fonts/truetype/liberation: caching, new cache contents: 16 fonts, 0 dirs
/usr/share/fonts/truetype/nanum: caching, new cache contents: 12 fonts, 0 dirs
/usr/local/share/fonts: caching, new cache contents: 0 fonts, 0 dirs
/root/.local/share/fonts: skipping, no such directory
/root/.fonts: skipping, no such directory
/usr/share/fonts/truetype: skipping, looped directory detected
/usr/share/fonts/truetype/humor-sans: skipping, looped directory detected
/usr/share/fonts/truetype/liberation: skipping, looped directory detected
/usr/share/fonts/truetype/

In [17]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

sns.set(rc={"axes.unicode_minus":False}, style='darkgrid')
plt.rc('font', family='NanumBarunGothic')

In [4]:
# 데이터 합치기 진행 시, 아래 제시되는 정보를 활용하세요.
standard = pd.DataFrame({'도착 시군구 코드': [11010, 11020, 11030, 11040, 11050, 11060, 11070, 11080, 11090, 11100, 11110, 11120, 11130, 11140, 11150, 11160, 11170, 11180, 11190, 11200, 11210, 11220, 11230, 11240, 11250],
                         '자치구' :['종로구','중구','용산구','성동구','광진구','동대문구','중랑구','성북구','강북구','도봉구','노원구','은평구','서대문구','마포구','양천구','강서구','구로구','금천구','영등포구','동작구','관악구','서초구','강남구','송파구','강동구']})

In [5]:
standard

Unnamed: 0,도착 시군구 코드,자치구
0,11010,종로구
1,11020,중구
2,11030,용산구
3,11040,성동구
4,11050,광진구
5,11060,동대문구
6,11070,중랑구
7,11080,성북구
8,11090,강북구
9,11100,도봉구


In [6]:
import os

os.getcwd()

'/content'

In [7]:
# 아래에 코드를 작성하고 결과를 확인합니다.
# '5. 데이터 분석'은 자세한 가이드가 제공되지 않으니, 각자의 방법으로 진행해주세요.
df_seoul_bus_station = pd.read_csv('/content/drive/MyDrive/dd/2023.08.21_미니프로젝트1차_실습파일/df_seoul_bus_station.csv', index_col=0)
df_seoul_business = pd.read_csv('/content/drive/MyDrive/dd/2023.08.21_미니프로젝트1차_실습파일/df_seoul_business.csv', index_col=0)
df_seoul_moving = pd.read_csv('/content/drive/MyDrive/dd/2023.08.21_미니프로젝트1차_실습파일/df_seoul_moving.csv', index_col=0)
df_seoul_people = pd.read_csv('/content/drive/MyDrive/dd/2023.08.21_미니프로젝트1차_실습파일/df_seoul_people.csv', index_col=0)

In [8]:
df_seoul_moving['자치구'] = df_seoul_moving['도착 시군구 코드'].map(lambda x : standard['자치구'][standard['도착 시군구 코드'] == x].values[0])
df_seoul_moving.set_index(['자치구'])

Unnamed: 0_level_0,도착 시군구 코드,평균 이동 시간(분)의 평균,이동인구(합)의 평균,평균 이동 시간(분)의 합,이동인구(합)의 합
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
종로구,11010,21.349599,44.235978,9356120,19385709.6
중구,11020,21.012462,44.516072,9306020,19715322.61
용산구,11030,21.364786,36.903883,8514380,14707082.87
성동구,11040,21.740324,42.685596,8887140,17449273.95
광진구,11050,22.474283,46.762548,8625540,17947278.99
동대문구,11060,21.673451,39.942708,8838130,16288077.28
중랑구,11070,23.412789,41.012753,7939300,13907465.59
성북구,11080,22.160283,45.816273,9072420,18757182.35
강북구,11090,23.811274,39.12847,7649610,12570412.3
도봉구,11100,24.489976,37.882283,6995880,10821566.75


In [9]:
a = df_seoul_bus_station.set_index(['자치구 코드'])
b = df_seoul_business.loc[df_seoul_business['동동'] == '소계'].set_index(['자치구자치구'])
c = df_seoul_moving.set_index(['자치구'])
d = df_seoul_people.iloc[1:].set_index(['자치구'])

df_all = pd.concat([a,b,c,d], axis=1).reset_index().rename(columns = {'index' : '자치구'})

# df_all.to_csv('C:/Users/user/Desktop/dd/2023.08.21_미니프로젝트1차_실습파일/df_all.csv', encoding = 'cp949')

In [10]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 46 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   자치구                  25 non-null     object 
 1   버스 정류장 수             25 non-null     int64  
 2   버스 노선 수              25 non-null     int64  
 3   승차총승객수               25 non-null     int64  
 4   하차총승객수               25 non-null     int64  
 5   승차총승객수 평균            25 non-null     float64
 6   하차총승객수 평균            25 non-null     float64
 7   동동                   25 non-null     object 
 8   택시운송업사업체수            25 non-null     object 
 9   택시운송업종사자수            25 non-null     object 
 10  한식 일반 음식점업사업체수       25 non-null     object 
 11  한식 일반 음식점업종사자수       25 non-null     object 
 12  용달 화물자동차 운송업사업체수     25 non-null     object 
 13  용달 화물자동차 운송업종사자수     25 non-null     object 
 14  부동산 중개 및 대리업사업체수     25 non-null     object 
 15  부동산 중개 및 대리업종사자수     25 non-null     objec

In [11]:
df_all.isetitem(range(8,28), df_all.iloc[:, 8:28].apply(lambda x : x.str.replace(',', '')).astype('float'))

In [12]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 46 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   자치구                  25 non-null     object 
 1   버스 정류장 수             25 non-null     int64  
 2   버스 노선 수              25 non-null     int64  
 3   승차총승객수               25 non-null     int64  
 4   하차총승객수               25 non-null     int64  
 5   승차총승객수 평균            25 non-null     float64
 6   하차총승객수 평균            25 non-null     float64
 7   동동                   25 non-null     object 
 8   택시운송업사업체수            25 non-null     float64
 9   택시운송업종사자수            25 non-null     float64
 10  한식 일반 음식점업사업체수       25 non-null     float64
 11  한식 일반 음식점업종사자수       25 non-null     float64
 12  용달 화물자동차 운송업사업체수     25 non-null     float64
 13  용달 화물자동차 운송업종사자수     25 non-null     float64
 14  부동산 중개 및 대리업사업체수     25 non-null     float64
 15  부동산 중개 및 대리업종사자수     25 non-null     float

In [18]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

def draw_distribution(dataframe, index_column=None, num_cols=2, figsize=(12, 8), gap=0.5, save_path=None):
    if index_column:
        dataframe = dataframe.set_index(index_column)

    numeric_columns = dataframe.select_dtypes(include=['number']).columns
    num_plots = len(numeric_columns)
    num_rows = int(np.ceil(num_plots / num_cols))

    # Create subplots using constrained_layout
    fig, axes = plt.subplots(num_rows, num_cols, figsize=figsize, constrained_layout=True)
    axes = axes.flatten()

    # Loop through numeric columns and create distribution plots
    for i, col in enumerate(numeric_columns):
        ax = axes[i]
        sns.kdeplot(data=dataframe[col], ax=ax)
        ax.set_title(col)
        ax.set_xlabel("Value")
        ax.set_ylabel("Density")

    # Hide any unused subplots
    for i in range(num_plots, num_rows * num_cols):
        axes[i].axis('off')

    # Save the figure if save_path is provided
    if save_path:
        plt.savefig(save_path)

    plt.show()

def draw_bar_graphs(dataframe, index_column=None, num_cols=2, figsize=(20, 15), gap=0.5, save_path=None):
    if index_column:
        dataframe = dataframe.set_index(index_column)

    numeric_columns = dataframe.select_dtypes(include=['number']).columns
    num_plots = len(numeric_columns)
    num_rows = int(np.ceil(num_plots / num_cols))

    # Create subplots using constrained_layout
    fig, axes = plt.subplots(num_rows, num_cols, figsize=figsize, constrained_layout=True)
    axes = axes.flatten()

    # Loop through numeric columns and create bar graphs
    for i, col in enumerate(numeric_columns):
        ax = axes[i]
        sns.barplot(x=dataframe.index if index_column else dataframe.index, y=col, data=dataframe, ax=ax)
        ax.set_title(col)
        ax.set_xlabel(index_column if index_column else "Index")
        ax.set_ylabel("Value")
        plt.setp(ax.get_xticklabels(), rotation=45, ha="right")  # Rotate x-axis labels for better readability

    # Hide any unused subplots
    for i in range(num_plots, num_rows * num_cols):
        axes[i].axis('off')

    # Save the figure if save_path is provided
    if save_path:
        plt.savefig(save_path)

    plt.show()

def plot_heatmap(dataframe, size=20, save_path=None):
    numeric_columns = dataframe.select_dtypes(include=['number'])

    plt.figure(figsize=(10, 8))
    sns.heatmap(numeric_columns.corr(), annot=True, cmap='coolwarm', center=0,
                 annot_kws={"size": size})
    plt.title("Correlation Heatmap of Numeric Variables")

    # Save the figure if save_path is provided
    if save_path:
        plt.savefig(save_path)

    plt.show()

def draw_regplots(dataframe, y_col, num_cols=2, figsize=(12, 8), gap=0.5, save_path=None):
    numeric_columns = dataframe.select_dtypes(include=['number']).columns
    num_plots = len(numeric_columns)
    num_rows = int(np.ceil(num_plots / num_cols))

    # Create subplots using constrained_layout
    fig, axes = plt.subplots(num_rows, num_cols, figsize=figsize, constrained_layout=True)
    axes = axes.flatten()

    # Loop through numeric columns and create regression plots
    for i, col in enumerate(numeric_columns):
        ax = axes[i]
        sns.regplot(x=col, y=y_col, data=dataframe, ax=ax, scatter_kws={'s': 50, 'color': 'blue'}, line_kws={'color': 'orange'})

        ax.set_title(f'Regression Plot: {y_col} vs. {col}')
        ax.set_xlabel(col)
        ax.set_ylabel(y_col)

        # Calculate regression and correlation coefficients
        coeffs = np.polyfit(dataframe[col], dataframe[y_col], 1)
        correlation = dataframe[col].corr(dataframe[y_col])

        # Calculate R-squared
        X = dataframe[col].values.reshape(-1, 1)
        y = dataframe[y_col].values
        model = LinearRegression().fit(X, y)
        r_squared = r2_score(y, model.predict(X))

        # Add regression, correlation, and R-squared coefficients as text on the graph
        ax.text(0.05, 0.95, f'Regression Coeff: {coeffs[0]:.2f}', transform=ax.transAxes, fontsize=10, verticalalignment='top')
        ax.text(0.05, 0.9, f'Correlation Coeff: {correlation:.2f}', transform=ax.transAxes, fontsize=10, verticalalignment='top')
        ax.text(0.05, 0.85, f'R-squared: {r_squared:.2f}', transform=ax.transAxes, fontsize=10, verticalalignment='top')

        # Add custom text annotations on the plot
        for idx, row in dataframe.iterrows():
            ax.annotate(dataframe['자치구'][idx], (row[col], row[y_col]), textcoords="offset points", xytext=(0,10), ha='center')

    # Hide any unused subplots
    for i in range(num_plots, num_rows * num_cols):
        axes[i].axis('off')

    # Save the figure if save_path is provided
    if save_path:
        plt.savefig(save_path)

    plt.show()


In [14]:
path = '/content/drive/MyDrive/dd'

In [19]:
draw_bar_graphs(df_all, figsize=(10, 300), num_cols=1, index_column='자치구', save_path = path + '/bargraph.png')

Output hidden; open in https://colab.research.google.com to view.

In [23]:
draw_distribution(df_all, figsize=(10, 300), num_cols=1, save_path = path + '/density.png')

Output hidden; open in https://colab.research.google.com to view.

In [22]:
draw_regplots(df_all, y_col = '버스 정류장 수', num_cols=1, figsize=(10, 300), save_path = path + '/reg 버스 정류장.png')

Output hidden; open in https://colab.research.google.com to view.