# 데이터 분석 실무
## 파이썬 라이브러리를 활용해서 통계 기법을 적용한 데이터 분석을 배우는 과정입니다.

#### 이번 시간은 공공자전거 수요 데이터를 활용해서 분석을 해보는 시간입니다.
* 먼저, 데이터를 불러오고 살펴보겠습니다.(서울특별시 공공자전거 대여이력 정보_2209.csv, encoding 'cp949')
* 서울시 공공자전거 대여이력 정보

__[실습 데이터 안내]__
* 실습 파일의 용량(822MB)이 크기 때문에 다운로드 링크를 공유 드립니다.
* 아래 링크에서, `파일내려받기` 섹션을 찾아, `__전체 파일 보기__`를 눌러
* `서울특별시 공공자전거 대여이력 정보_2209.csv` 파일을 찾아 다운받아 주세요.
* https://data.seoul.go.kr/dataList/OA-15182/F/1/datasetView.do#

__[주의사항]__
* 다운 받은 실습파일은 반드시 해당 노트북과 동일한 경로에 저장 해 주세요.
* 해당 실습파일이 암호화 안되도록 관리 해 주세요. 암호화 될 경우 불러올 수 없습니다.

In [None]:
# 필요 라이브러리 import
import pandas as pd

In [None]:
# 데이터 불러오기 (데이터를 로딩하는데 시간이 걸릴 수 있습니다.)
df_bike = pd.read_csv('서울특별시 공공자전거 대여이력 정보_2209.csv', encoding='cp949')
df_bike

In [None]:
# 데이터 전처리

## 결측치 제거
df_bike = df_bike.dropna()

## 성별 변환
df_bike['성별'] = df_bike['성별'].replace({'m': 'M', 'f': 'F'})

## \N 제거
df_bike = df_bike[df_bike['성별'] != "\\N"]

## 이용거리 0 제거
df_bike = df_bike[df_bike['이용거리(M)'] != 0.00]

## 생년 \N 제거
df_bike = df_bike[df_bike['생년'] != "\\N"]

## 생년 2022년 초과 제거
df_bike['생년'] = df_bike['생년'].astype('int')
df_bike = df_bike[df_bike['생년'] <= 2022]

## 생년 0 제거
df_bike = df_bike[df_bike['생년'] != 0]

df_bike

#### 두 집단 간 차이 분석 : t-test

##### 가설설정
* 가설 1: 성별이 대여이용시간에 영향을 미치는지 검증합니다.
* 가설 2: 이용자종류가 대여이용시간에 영향을 미치는지 검증합니다.
* 가설 3: 성별이 이용거리에 영향을 미치는지 검증합니다.

In [None]:
# 필요 라이브러리 import
import pandas as pd
from scipy import stats

* 가설 1 검정

In [None]:
# 가설 1: 성별에 따른 대여이용시간 차이 검정
## 데이터 생성
subset1 = df_bike[['성별', '이용시간(분)']].dropna()

group1 = subset1[subset1['성별'] == 'M']['이용시간(분)']
group2 = subset1[subset1['성별'] == 'F']['이용시간(분)']

In [None]:
## 검정통계량 계산
t_statistic1, p_value1 = stats.ttest_ind(group1, group2)

print("Hypothesis 1: 성별에 따른 대여이용시간 차이")
print("t-statistic =", t_statistic1)
print("p-value =", p_value1)

In [None]:
## 결과 도출
if p_value1 < 0.05:
    print("남성과 여성의 이용시간은 통계적으로 유의미한 차이가 있습니다.")
else:
    print("남성과 여성의 이용시간은 통계적으로 유의미한 차이가 없습니다.")

* 가설 2 검정

In [None]:
# 가설 2: 이용자종류에 따른 대여이용시간 차이 검정
## 데이터 생성
subset2 = df_bike[['이용자종류', '이용시간(분)']].dropna()

group3 = subset2[subset2['이용자종류'] == '내국인']['이용시간(분)']
group4 = subset2[subset2['이용자종류'] == '비회원']['이용시간(분)']

In [None]:
subset2['이용자종류'].unique()

In [None]:
## 검정통계량 계산
t_statistic2, p_value2 = stats.ttest_ind(group3, group4)

print("\nHypothesis 2: 이용자종류에 따른 대여이용시간 차이")
print("t-statistic =", t_statistic2)
print("p-value =", p_value2)

In [None]:
## 결과 도출
if p_value2 < 0.05:
    print("이용자종류에 따른 대여이용시간은 통계적으로 유의미한 차이가 있습니다.")
else:
    print("이용자종류에 따른 대여이용시간은 통계적으로 유의미한 차이가 없습니다.")

* 가설 3 검정

In [None]:
# 가설 3: 성별에 따른 이동 거리 차이 검정
## 데이터 생성
subset3 = df_bike[['성별', '이용거리(M)']].dropna()

group5 = subset3[subset3['성별'] == 'M']['이용거리(M)']
group6 = subset3[subset3['성별'] == 'F']['이용거리(M)']

In [None]:
## 검정통계량 계산
t_statistic3, p_value3 = stats.ttest_ind(group5, group6)

print("\nHypothesis 3: 성별에 따른 이동 거리 차이 검정")
print("t-statistic =", t_statistic3)
print("p-value =", p_value3)

In [None]:
## 결과 도출
if p_value3 < 0.05:
    print("성별에 따른 이동 거리는 통계적으로 유의미한 차이가 있습니다.")
else:
    print("성별에 따른 이동 거리는 통계적으로 유의미한 차이가 없습니다.")

#### 세 집단 이상 차이 분석 : ANOVA

##### 가설설정
* '생년'의 그룹에 따라 '이용시간'이 유의미하게 다를까요?

* 가설 검정

In [None]:
# 필요 라이브러리 import
import pandas as pd
import numpy as np
from scipy.stats import f_oneway

In [None]:
## 데이터 생성
# 생년 그룹화
distances = df_bike['이용거리(M)']
birth_years = df_bike['생년']

group1 = [distance for distance, year in zip(distances, birth_years) if year <= 1990]
group2 = [distance for distance, year in zip(distances, birth_years) if 1990 < year <= 2000]
group3 = [distance for distance, year in zip(distances, birth_years) if year > 2000]

In [None]:
## 검정통계량 계산
# 분산분석
f_value, p_value = f_oneway(group1, group2, group3)

In [None]:
## 결과 도출
print("=== 가설 1: marketType에 따른 userCount 분산분석 결과 ===")
print("F-value:", f_value)
print("p-value:", p_value)

#### 상관분석

In [None]:
# 필요 라이브러리 import
import pandas as pd
from scipy.stats import pearsonr
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 데이터 프레임 분리
df = df_bike[['이용거리(M)','이용시간(분)']]

In [None]:
# 상관 분석 수행
correlation, p_value = pearsonr(df['이용거리(M)'], df['이용시간(분)'])

In [None]:
# 결과 출력
print("Correlation coefficient:", correlation)
print("p-value:", p_value)

In [None]:
# 상관계수 계산
correlation_matrix = df.corr()

# 한글 폰트 설정 적용
plt.rcParams['font.family'] = 'malgun Gothic'

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap - Duration vs Distance')

# 그래프 표시
plt.show()

#### 회귀분석
* 종속변수는 이용시간(분)
* 독립변수는 생년,	성별,	이용자종류

In [None]:
import pandas as pd
import statsmodels.api as sm

# 범주형 변수 변환
categorical_cols = ['성별',	'이용자종류']
data_encoded = pd.get_dummies(df_bike[['성별', '이용자종류', '이용시간(분)']], columns=categorical_cols, drop_first=True)

# 독립변수/종속변수 설정
y = data_encoded['이용시간(분)']
X = data_encoded.drop('이용시간(분)', axis=1)

# 상수항 추가
X = sm.add_constant(X)

# 자료형 변경
X = X.astype(float)
# 회귀식 도출
model = sm.OLS(y, X).fit()

# 결과 출력
print(model.summary())