In [1]:
import pandas as pd
import numpy as np

# 1. 컬럼에 대한 설명

    datetime : hourly date + timestamp  
    season : 1 = spring, 2 = summer, 3 = fall, 4 = winter  
    holiday : whether the day is considered a holiday  
    workingday : whether the day is neither a weekend nor holiday  
    weather   
        - 1: Clear, Few clouds, Partly cloudy, Partly cloudy   
        - 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist   
        - 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds   
        - 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog   
    temp : temperature in Celsius  
    atemp : "feels like" temperature in Celsius  
    humidity : relative humidity  
    windspeed : wind speed  
    casual : number of non-registered user rentals initiated  
    registered : number of registered user rentals initiated  
    count : number of total rentals   

# 2. bike.csv 파일을 읽고 데이터프레임(변수명:df)으로 저장

In [2]:
df = pd.read_csv("bike.csv", parse_dates=['datetime'])

In [3]:
print(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
datetime      10886 non-null datetime64[ns]
season        10886 non-null int64
holiday       10886 non-null int64
workingday    10886 non-null int64
weather       10886 non-null int64
temp          10886 non-null float64
atemp         10886 non-null float64
humidity      10886 non-null int64
windspeed     10886 non-null float64
casual        10886 non-null int64
registered    10886 non-null int64
count         10886 non-null int64
dtypes: datetime64[ns](1), float64(3), int64(8)
memory usage: 1020.6 KB
None


Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1


# 3. season 컬럼
- season 종류 별 데이터 건수 출력

In [4]:
df.groupby('season').size()

season
1    2686
2    2733
3    2733
4    2734
dtype: int64

# 4. temp 컬럼

- 최대, 최소, 평균, 중앙값, 표준편차 출력

In [5]:
print("최대:", df['temp'].max())
print("최소:", df['temp'].min())
print("평균:", df['temp'].mean())
print("중앙값:", df['temp'].median())
print("표준편차:", df['temp'].std())

최대: 41.0
최소: 0.82
평균: 20.230859819952173
중앙값: 20.5
표준편차: 7.791589843987506


- 월별 temp 평균 온도 출력

In [6]:
df['temp'].groupby(df['datetime'].dt.month).mean()

datetime
1      9.840000
2     11.798535
3     15.902175
4     18.718372
5     22.674079
6     27.064496
7     30.841711
8     29.736689
9     25.779032
10    20.933853
11    15.185752
12    13.831206
Name: temp, dtype: float64

- temp 컬럼 값을 0-10, 10-20, 20-30 구간으로 나눈다음, 구간별 데이터 건수를 출력

In [7]:
pd.cut(df['temp'], bins=[0,10,20,30]).value_counts()

(20, 30]    4334
(10, 20]    4049
(0, 10]     1259
Name: temp, dtype: int64

# 5. windspeed 컬럼

- 0으로 되어 있는 값의 개수를 세어 출력

In [8]:
(df['windspeed']!=0).sum()

9573

- 월별 windspeed 평균 풍속 출력(0 제외)

In [9]:
df_wind = df[df['windspeed']!=0]
df_wind['windspeed'].groupby(df_wind['datetime'].dt.month).mean()

datetime
1     15.934902
2     16.068072
3     16.657385
4     16.921398
5     13.980160
6     13.634654
7     12.594203
8     13.584564
9     13.421314
10    13.672864
11    14.781608
12    13.077087
Name: windspeed, dtype: float64

# 6. weather 컬럼

- weather 종류 별 데이터 건수 출력

In [10]:
df.groupby('weather').size()

weather
1    7192
2    2834
3     859
4       1
dtype: int64

# 7. humidity 컬럼

- 2011년 평균 습도 출력

In [11]:
df[df['datetime'].dt.year==2011]['humidity'].mean()

63.40501659904094

- 2012년 평균 습도 출력

In [12]:
df[df['datetime'].dt.year==2012]['humidity'].mean()

60.37957540263543

- 연도와 관계없이 월별 평균 습도 출력

In [13]:
df['humidity'].groupby(df['datetime'].dt.month).mean()

datetime
1     55.911765
2     56.296337
3     56.678135
4     55.697470
5     68.084430
6     58.759868
7     58.402412
8     63.010965
9     70.980198
10    69.412733
11    60.722283
12    68.383772
Name: humidity, dtype: float64

- 표준편차(연도별) 출력

In [14]:
df['humidity'].groupby(df['datetime'].dt.year).std()

datetime
2011    19.780518
2012    18.578008
Name: humidity, dtype: float64

# 8. datetime 컬럼

- 월별(01~12) 평균 count 출력

In [15]:
df['count'].groupby(df['datetime'].dt.month).mean()

datetime
1      90.366516
2     110.003330
3     148.169811
4     184.160616
5     219.459430
6     242.031798
7     235.325658
8     234.118421
9     233.805281
10    227.699232
11    193.677278
12    175.614035
Name: count, dtype: float64

- 일별(01~19) 평균 count 출력

In [16]:
df['count'].groupby(df['datetime'].dt.day).mean()

datetime
1     180.333913
2     183.910995
3     194.696335
4     195.705575
5     189.765217
6     189.860140
7     183.773519
8     179.041812
9     187.897391
10    195.183566
11    195.679577
12    190.675393
13    194.160279
14    195.829268
15    201.527875
16    191.353659
17    205.660870
18    192.605684
19    192.311847
Name: count, dtype: float64

- 시각별(0~23) 평균 count 출력

In [17]:
df['count'].groupby(df['datetime'].dt.hour).mean()

datetime
0      55.138462
1      33.859031
2      22.899554
3      11.757506
4       6.407240
5      19.767699
6      76.259341
7     213.116484
8     362.769231
9     221.780220
10    175.092308
11    210.674725
12    256.508772
13    257.787281
14    243.442982
15    254.298246
16    316.372807
17    468.765351
18    430.859649
19    315.278509
20    228.517544
21    173.370614
22    133.576754
23     89.508772
Name: count, dtype: float64

- 평균 count값이 가장 큰 월 출력

In [18]:
print(df['count'].groupby(df['datetime'].dt.month).mean().idxmax(), "월")

6 월


- 평균 count값이 가장 큰 시각 출력

In [19]:
maxtime = df['count'].groupby(df['datetime'].dt.hour).mean().idxmax()
print(maxtime,"시 ~", maxtime+1,"시")

17 시 ~ 18 시


# 9. 상관분석 

- temp와 count 간 상관 계수 출력

In [20]:
tc_corr=df['count'].corr(df['temp'])
tc_corr

0.3944536449672493

- humidity와 count 간 상관 계수 출력

In [21]:
hc_corr=df['count'].corr(df['humidity'])
hc_corr

-0.31737147887659445

- weather와 count 간 상관 계수 출력

In [22]:
wc_corr=df['count'].corr(df['weather'])
wc_corr

-0.12865520103850642

- windspeed와 count 간 상관 계수 출력

In [23]:
windc_corr=df['count'].corr(df['windspeed'])
windc_corr

0.10136947021033275

- 위 4개의 features 중에서 상관 계수가 가장 큰 feature 출력

In [24]:
corr_li = [(tc_corr, 'temp'),(hc_corr, 'humidity'),(wc_corr, 'weather'),(windc_corr, 'windspeed')]
print("상관계수가 가장 큰 feature:", max(corr_li)[1])

상관계수가 가장 큰 feature: temp
