필요한 모듈 불러오기
- `pandas`, `numpy`, `matplotlib.pyplot`, (`sklearn`)
- warning 제거

In [None]:
import warnings
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import linear_model
from scipy import stats
from matplotlib import cm

plt.rc('font', family='Malgun Gothic')
plt.style.use('ggplot')
warnings.filterwarnings('ignore')

## 프로젝트 개요 (Project 1, 2, 3)
- 데이터의 주제, 데이터가 설명하고 있는 항목, 특징
- 기존 Super AI 프로젝트에는 없는 부분: *문제 정의하기* 부분을 둘로 나누기
    - 데이터에 대한 전반적인 설명 (Project 1, 2, 3)
    - 데이터를 분석, 활용하여 풀어갈 문제 제시 (문제 정의)
- 이미지, 사진 첨부

## 문제 정의
- 문제를 제기하게 된 배경
- 데이터 분석을 통해 해결할 수 있을 만한 3~4가지 정도의 문제 정의

## 데이터 수집 1, 2
- 객관식 : *데이터를 수집하는 방법으로 가장 알맞지 않은 것은?*
- Drag & Drop : 
    - 데이터를 보고 각 문제마다 어떤 특성들을 사용해야 하는지 고르기
    - 문제 해결에 사용할 만한 데이터 고르기

## 데이터 전처리 1, 2
- 결측값 확인, 처리 : 대체? 삭제? 대체한다면 0 / 평균값?
- 이상값 확인, 처리 :
    - Incomplete, Wrong : 올바르게 고치기 (D&D)
    - Redundant : 반복된 데이터 찾아서 삭제 (D&D)
- 이외의 정의된 문제와 관계없는 데이터 처리

## EDA 1, 2, 3, 4
문제 정의 부분의 문제 순차적으로 하나씩 풀어가기 
- 막대 or 누적 막대 그래프, 원, 꺾은선, 산점도, 박스 그래프 최대한 활용 : 데이터별로 활용할만한 그래프 종류가 다르니 여러가지 실험해보고 결정
---

## 따릉이

### 개요
최근 서울시 자전거 무료 대여 시스템인 따릉이를 찾는 사람들이 많아졌습니다.
그동안 수집한 따릉이 데이터는 시간별 대여 횟수뿐만 아니라 기온, 비가 왔는지 여부 등의 특성도 나타내고 있습니다.

이에 따라 언제 사람들이 따릉이를 많이 대여하는지 분석해보려고 합니다.
또한 데이터 분석 결과에 따라 특정 상황에 따릉이가 얼만큼 대여될지 예측해 봅시다.

### 문제 정의
- 따릉이 대여횟수가 가장 높은 시간대는 어느 시간대일까? (막대 / 꺾은선)
    - 시간대별 따릉이 대여횟수 시각화 (박스)
    - 시간대별 평균값 구하기
- 기온은 따릉이 대여횟수에 높은 영향을 끼칠까? (꺾은선 / 산점도)
- 정말 비가 오면 사람들이 따릉이를 적게 대여할까? (막대 / 원)
- 비가 오는 아침 8시의 따릉이 대여횟수 예측하기 (산점도: label로 구분하여 비가 올 때와 안 올 떄 구분, 시간대별 평균값 사용 X - 원본 데이터 사용)

### 데이터 수집 1 - 공공데이터 포털 (csv 파일)
- 필요할 것 같은 항목과 필요없어도 될 것 같은 항목 구분하기 (O/X)

### 데이터 수집 2 - 직접 자료 조사 (표)
- 데이터 수집 1에서 구분한 항목 표에 알맞게 옮기기 (D&D)

In [None]:
df = pd.read_csv("./bike/train.csv")

### 데이터 전처리 1 - 필요없는 항목 제거
- 수집한 전체 데이터셋 보여주고 필요없는 항목 체크하기, 열 이름 바꾸기

In [None]:
bike = df.drop(["hour_bef_windspeed", "hour_bef_humidity", "hour_bef_visibility", "hour_bef_ozone", "hour_bef_pm10", "hour_bef_pm2.5"], axis=1)
bike.columns = ["id", "hour", "temperature", "precipitation", "count"]
bike.tail()

### 데이터 전처리 2 - 결측값 확인, 처리
- 데이터 첫 10행 제공 : 알맞는 내용으로 추가하여 표 완성하기 (D&D)

In [None]:
# temperature, precipitation 각 2개
bike.dropna(inplace=True) # 행 삭제

print(bike.shape)
bike.isna().sum()

### 데이터 전처리 3 - 이상값 확인, 처리
- 데이터 끝 10행 제공 : 미완성, 잘못된 데이터 올바르게 수정 (중복 선다형)

In [None]:
# too complex

### EDA 1
- 시간대별 따릉이 평균 대여횟수 나타내기 : 표로 평균값 제공 → 알맞지 않은 그래프 선택해보기 (선다형)

In [None]:
avgs = bike.groupby(["hour"])['count'].mean()

# 꺾은선
plt.title("시간대별 따릉이 평균 대여횟수")
avgs.plot(xlabel="시간", ylabel="평균 대여횟수", color='#51a26a')

In [None]:
plt.title("시간대별 따릉이 평균 대여횟수")

# avgs.plot(kind="bar", xlabel="시간", ylabel="평균 대여횟수", color="#51a26a")
scatter = sns.scatterplot(data = avgs, color="#51a26a", s = 125)
scatter.set(xlabel = "시간", ylabel = "평균 대여횟수")

In [None]:
plt.title("시간대별 따릉이 평균 대여횟수")

avgs.plot(kind="bar", xlabel="시간", ylabel="평균 대여횟수", fontsize=13, color="#51a26a", rot=0)

In [None]:
plt.title("시간대별 따릉이 평균 대여횟수")
avgs.plot(kind="pie", ylabel="시간", fontsize=8, colormap="jet", wedgeprops={"edgecolor":"k", "linewidth":1, 'antialiased': True})

### EDA 2
- 시간대별 따릉이 대여횟수 그대로 시각화 : 빈칸 채워서 문자 완성하기

In [None]:
mean = pd.DataFrame(avgs)
sns.lineplot(x = 'hour', y = 'count', data = mean, color="#51a26a")

### EDA 3
- temperature vs. count 시각화 

In [None]:
plt.title("기온별 대여횟수")
line = sns.lineplot(x = "temperature", y = "count", data = bike, color="#51a26a", ci=None) # type: ignore
line.set(xlabel="기온", ylabel="대여횟수")

### EDA 4
- precipitation vs. count 시각화

In [None]:
# print(avgs.info())
sns.set_palette("colorblind", 1)
line = sns.lineplot(data = bike, x = 'hour', y = 'count', hue="precipitation", style="precipitation", ci=None, linewidth=3) # type: ignore
line.set(xlabel="시간", ylabel="평균 대여횟수", title="시간별 따릉이 평균 대여횟수")
line.legend(labels=["안 왔음","왔음"])

### 문제 해결 2
- 오휴 3시, 비 올 때 대여횟수 예측 : 그래프 사용

In [None]:
rain = bike[bike["precipitation"] == 1]
rain.head()
eda5 = sns.scatterplot(data = rain, x = "hour", y = "count", c = 'dodgerblue', s=70)
eda5.set(xlabel="시간", ylabel="평균 대여횟수", title="비 오는 날 시간별 따릉이 평균 대여횟수")
plt.axvline(15, linewidth=2, color="firebrick")
plt.axvline(8, linewidth=2, color="darkorange")
plt.annotate(
    '오전 8시',
    xy=(8, 125),
    xytext=(3, 150),
    arrowprops=dict(arrowstyle='->', color='darkorange', connectionstyle='arc3, rad=.2'),
    fontsize=15
)
plt.annotate(
    '오후 3시',
    xy=(15, 125),
    xytext=(10, 150),
    arrowprops=dict(arrowstyle='->', color='firebrick', connectionstyle='arc3, rad=.2'),
    fontsize=15
)

In [None]:
bike[["count", "temperature"]].corr()

---

## 서울대공원

### 데이터 수집 1 - 공공데이터 포털 (csv 파일)

### 데이터 수집 2 - 직접 자료 조사 (표)


In [None]:
park = pd.read_csv("./seoul/Seoul_Park.csv")
# print(park.head())

park.info()
# park.isna().sum()
# print(park.tail())

In [None]:
park.tail(8)
# park["날씨"].unique()

Brainstorming
- 요일별 입장객 수 비교
- 공휴일과 아닌 날 입장객 수 비교
- 날씨와 총 입장객 수 관계 확인
- 성인과 미성년자 입장객 수 비교

Scenario
<!-- - 친구들과 서울대공원으로 놀러가려고 하는데 무슨 요일에, 날씨가 어떨 때, 공휴일/주일에 가야하는지?
- 설문조사를 하러 서울대공원으로 가게 되었는데 성인과 미성년자로 대상을 나누어 진행한다
    - 무슨 요일에 가야 성인/미성년자 입장객 수가 많을까?
        - 각각 조사 + 시각화
    - 공휴일에 가야할까 아닌 날에 가야할까?
    - 날씨는 입장객 수에 영향이 있을까? -->
- 서울대공원으로 자주 놀러가는 XXX는 입장객이 너무 많아 관람을 제대로 하지 못하였습니다. 그래서 몇가지 가설을 세운 뒤 확인하기 위해 서울대공원 입장객 데이터를 분석해보기로 하였습니다.
    - 무슨 요일에 입장객 수가 많을까?
    - 날씨가 좋으면 입장객 수가 많을까?
    - 청소년들은 공휴일에 많이 올까 비공휴일에 많이 올까?

Prediction
- 데이터 의미 해석: 청소년들이 가장 많이 방문하는 요일은 무슨 요일일까? --> 청소년들이 많이 방문하는 날에 가면 친구들을 만날 수도 있어서 재미있을 확률이 높음
- 예측: 날씨가 맑은 금요일 오후 2시에 가면 관람이 어려울까? --> 청소년 데이터만 봤을 때는 금요일에 가장 많지만 총계로 봤을 때는 그다지 높지 않기 때문에 충분히 원활한 관람 가능할 것


### 데이터 전처리 1 - 필요없는 항목 제거
- 수집한 전체 데이터셋 보여주고 필요없는 항목 체크하기, 열 이름 바꾸기

In [None]:
# 유료합계, 무료합계 제거
temp = park.drop(["유료합계", "무료합계"], axis=1)
temp.info()

### 데이터 전처리 2 - 데이터 형태 변환
- 어른, 청소년, 어린이, 외국인, 단체, 총계: object -> int

In [None]:
cols = ["어른", "청소년", "어린이", "외국인", "단체", "총계"]
for i in cols:
    temp[i] = temp[i].replace({',':''}, regex=True)
    temp[i] = pd.to_numeric(temp[i], errors='coerce').fillna(0)
temp.head()

## Optional Data Preprocessing: 
- sort days of week in the order of Mon, Tue, Wed, ...

In [None]:
x = temp[:3]
# x.info()

df = temp.drop([0, 1, 2])
# print(x.head())
# print(y.head())

df = df.append(x, ignore_index=True)
# print(df.info())
# print(df.tail())
df.tail()

## EDA 1 & 2

In [None]:
# 요일 가져오기
days = df["요일"].unique()
# print(days)
# days = np.roll(days, -3)[::-1] # 순서 알맞게 배치

# 요일별 합계 저장할 리스트
total_sum = []

# 요일별 합계 저장
for i in days:
    day = df[df["요일"] == i]
    sum = day["총계"].sum()
    total_sum.append(sum)

# 요일별 합계 numpy 배열로 변환: 시각화하려면 필요함
total_sum = np.array(total_sum)

# 색깔 팔레트 설정
colors = sns.color_palette('pastel')[0:7]

plt.title("요일별 총 입장객 수")

# 파이 차트: 색깔 팔레트 사용, 수치 소수점 1자리까지 표시, 시작점 90도
plt.pie(x = total_sum, labels = days, colors=colors, autopct="%.1f%%", startangle=90, counterclock=False)
plt.show()

In [None]:
line_days = sns.lineplot(data=df, x="요일", y="총계", ci=None) # good
line_days.set(ylabel="평균 입장객 수", title="요일별 평균 입장객 수")

In [None]:
days_rel = sns.relplot(data=df, x="요일", y="총계") # bad
days_rel.set(ylabel="총 입장객 수", title="요일별 총 입장객 수")
# sns.set(rc={'figure.figsize':(6, 6)})

In [None]:
days_bar = sns.barplot(data=df, x="요일", y="총계", ci=None) # bad
days_bar.set(ylabel="평균 입장객 수", title="요일별 평균 입장객 수")

# temp = ['금', '목', '수', '월', '일', '토', '화']
# print(mean_of_sum)

# plt.title("요일별 평균 입장객 수")
# plt.bar(temp, mean_of_sum, color=colors)
# plt.xlabel("요일")
# plt.ylabel("평균 입장객 수")
# plt.show()

## EDA 3

In [None]:
eda3_bar = sns.barplot(data=df, x="날씨", y="총계", ci=None)
eda3_bar.set(ylabel="평균 입장객 수", title="날씨별 평균 입장객 수")

## EDA 4

In [None]:
eda4 = sns.barplot(data=df, x="요일", y="청소년", hue="공휴일", ci=None)
eda4.set(ylabel="평균 청소년 입장객 수", title="요일별 평균 청소년 입장객 수")
plt.legend(["비공휴일", "공휴일"])

In [None]:
# Convert '날짜' to datetime dtype
df['날짜'] = pd.to_datetime(df["날짜"])
df['월'] = df['날짜'].dt.month

# 계절 구분 numpy
conditions = [
    (df['월'] >= 3) & (df['월'] <= 5),
    (df['월'] >= 6) & (df['월'] <= 8),
    (df['월'] >= 9) & (df['월'] <= 11),
    (df['월'] == 1) | (df['월'] == 2) | (df['월'] == 12)
]

vals = ['봄', '여름', '가을', '겨울']

df['계절'] = np.select(conditions, vals)

# df.iloc[330:340]

In [None]:
# 계절별 입장객 수 (df['계절'] vs. df['총계'])
# sns.barplot(data=df, x='계절', y='총계')

# 월별 입장객 수
eda4 = sns.lineplot(data=df, x='월', y='총계', ci=None, marker='o', c='darkorange')
eda4.set(ylabel="평균 입장객 수", title="월별 평균 입장객 수", xticks=(range(1, 13)))

---

## 데이터 목록
- ~~[패스트푸드 영양 데이터](https://www.openintro.org/data/index.php?data=fastfood) : 영문임~~
- ~~[경기도 동물원 등록 현황](https://data.gg.go.kr/portal/data/service/selectServicePage.do?infId=RRG5RANNJ7CJKKR3SH0B32072415&infSeq=1) : 똑같은 데이터가 너무 많음~~
- [앱스토어 어플 별점](https://www.kaggle.com/datasets/ramamet4/app-store-apple-data-set-10k-apps?select=AppleStore.csv)

### ~~동물원 데이터 검토~~

In [None]:
temp = pd.read_csv("./newdata/zoo.csv", encoding='cp949')
zoo = temp.drop(['정제WGS84위도', '정제WGS84경도', '정제도로명주소', '정제지번주소'], axis=1)
zoo = zoo.drop_duplicates()
zoo.head()

### 앱스토어 어플 별점
- 서울대공원 관람을 마치고 집에 오는 길에 심심할 것 같아서 새로운 게임을 하나 다운받으려고함.
    - 데이터 의미 해석
        - 어떤 종류의 앱이 가장 많을까?
        - 가격이 높을수록 별점이 낮아질까?
        - 리뷰가 많으면 별점이 낮아질까?
        - 
    - 예측
        - 리뷰도 많고 별점도 높은 무료 게임 Top 5?
    - 기획 방향성
        - 알고싶은, 특정한 몇 가지의 앱 이름만 사용


In [None]:
temp = pd.read_csv("./newdata/AppleStore.csv")
print(temp.loc[9:19][["track_name", "prime_genre"]])
app = temp.drop(['Unnamed: 0', 'id', 'size_bytes', 'ver', 'rating_count_ver', 'vpp_lic', 'lang.num', 'ipadSc_urls.num', 'sup_devices.num', 'user_rating_ver', 'cont_rating'], axis=1)
app = app.drop(['currency'], axis=1) # it's all in USD
app = app.drop_duplicates()

# Change column names
app.columns = ['이름', '가격', '리뷰', '별점', '장르']
# app.head()

In [None]:
app.loc[1200:1210]
# app.info()

In [None]:
# 앱 종류 값 한글로 변경
genres = app['장르'].unique() # 23개 종류
to_kor = ['게임', '생산성', '날씨', '쇼핑', '참조', '금융', '음악', '유틸리티', '여행',
'소셜 네트워킹', '스포츠', '비즈니스', '건강 및 피트니스', '엔터테인먼트', '사진 및 비디오',
'내비게이션', '교육', '라이프스타일', '음식 및 음료', '뉴스', '도서', '의료', '카탈로그']
# print(len(to_kor))

for i in range(len(genres)):
    app.loc[app["장르"] == genres[i], "장르"] = to_kor[i]

app.loc[9:19]
# app.info()

## EDA 1
- 적합한 데이터 시각화 방법 고르기 : 어떤 종류의 앱이 가장 많이 등록되어 있나

In [None]:
vals = app["장르"].value_counts().values
real_vals = np.append(vals[0:7], np.sum(vals[7:])) # type: ignore

labels = app["장르"].value_counts().index.tolist()
real_labels = np.append(labels[0:7], "기타")

fig = plt.figure(figsize=(6, 6))
fig.set_facecolor('white')
ax = fig.add_subplot()

colors2 = sns.color_palette('pastel')[0:8]

ax.pie(real_vals, labels=real_labels, labeldistance=1.1, startangle=90, counterclock=False, 
    colors=colors2,
    autopct="%.1f%%",
    pctdistance=0.8,
    wedgeprops={
    'edgecolor': 'black',
    'linewidth': 1.5,
    'antialiased': True
})
plt.title("장르별 등록된 앱 개수")
plt.legend()
plt.show()

In [None]:
lb = np.array(labels).reshape(-1, 1)
# lb
# vals
fig = plt.figure(figsize=(6, 6))
fig.set_facecolor('white')
ax = fig.add_subplot()

y_pos = np.arange(0, 46, 2)
plt.title("장르별 등록된 앱 개수")
plt.xlabel("앱 개수")
plt.ylabel("장르")
# plt.xticks(x_pos)
# plt.yticks(y_pos)
ax.barh(real_labels, real_vals, 
        color=colors2,
        align='center',
        height=0.6
)
plt.gca().invert_yaxis()

In [None]:
plt.title("장르별 등록된 앱 개수")
plt.xlabel("앱 개수")
plt.ylabel("장르")
plt.plot(real_vals, real_labels)

In [None]:
fig = plt.figure(figsize=(6, 6))
fig.set_facecolor('white')
ax1 = fig.add_subplot()

eda1 = pd.DataFrame(
    {
        '장르': real_labels,
        '개수': real_vals
    }
)

# ax1 = sns.scatterplot(data=app, x="리뷰", y="장르", hue="장르")
plt.title("장르별 등록된 앱 개수")
plt.xlabel("앱 개수")
plt.ylabel("장르")
ax1 = sns.scatterplot(data=eda1, x="개수", y="장르", hue="장르", s=150)
plt.legend([], [], frameon=False)

# ax1 - sns.relplot(data=eda1, x="장르", y="개수")

In [None]:
fig = plt.figure(figsize=(6, 6))
fig.set_facecolor('white')
ax2 = fig.add_subplot()

plt.title("별점별 평균 앱 가격")
ax2 = sns.barplot(data=app, x="별점", y="가격", ci=None)
ax2.set(ylabel="평균 가격 (단위: $)")
plt.legend([], [], frameon=False)


In [None]:
len(app[app["가격"] == 0])

In [None]:
app.corr(method="spearman")

In [None]:
fig = plt.figure(figsize=(6, 6))
fig.set_facecolor('white')
ax3 = fig.add_subplot()

plt.title("별점별 평균 리뷰 개수")
plt.ticklabel_format(style='plain', axis='y')
ax3 = sns.barplot(data=app, x="별점", y="리뷰", ci=None)
ax3.set(ylabel="평균 리뷰 개수")

plt.legend([], [], frameon=False)