In [1]:
import pandas as pd

df = pd.read_csv('./weather_tmp.csv', encoding = 'utf-8')
df.head()

Unnamed: 0,지점,일시,평균기온,최저기온,최저기온시각,최고기온,최고기온시각,1시간최다강수량,일강수량,평균풍속,평균기압,합계일조시간,평균지면온도
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,2.0,1014.9,6.5,-3.4
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,2.6,1018.5,9.0,-3.9
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,2.0,1023.0,5.5,-4.9
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,,0.0,1.7,1020.3,4.6,-3.3
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,,0.0,2.9,1019.2,8.6,-3.2


## 기초 통계량 관련 함수들
* 본격적인 분석에 앞서 전체적인 데이터의 모습을 살펴보는 것이 탐색적 분석(exploratory data analysis)
* 탐색적 분석에 의해 얻어지는 값을 '기초 통계량'이라고 하는 데
* 이는 향후 본 분석의 방향을 정하는 것이기도 하지만, 그것 자체로도 의미가 크다
* 대표적인 기초 통계량으로서 합계(sum), 평균(mean), 분산(variance), 표준편차(standard deviation) 등...

In [2]:
# 이제까지 아껴 두었던 전체 데이터의 구성을 한 눈에 알아볼 수 있는 함수가 있다
# .describe() 가 그것이다.

df.describe()

Unnamed: 0,지점,평균기온,최저기온,최저기온시각,최고기온,최고기온시각,1시간최다강수량,일강수량,평균풍속,평균기압,합계일조시간,평균지면온도
count,365.0,365.0,365.0,365.0,365.0,365.0,105.0,160.0,365.0,365.0,364.0,365.0
mean,108.0,13.752055,9.622466,877.306849,18.491781,1383.747945,4.454286,7.415625,2.310411,1006.05589,6.016758,14.850959
std,0.0,10.50036,10.875918,714.330593,10.468188,369.952346,8.450797,15.155399,0.646335,7.751331,3.938958,11.00808
min,108.0,-14.9,-18.6,1.0,-10.7,1.0,0.0,0.0,1.2,989.8,0.0,-9.3
25%,108.0,6.5,2.1,519.0,11.1,1349.0,0.1,0.0,1.8,999.9,2.15,5.4
50%,108.0,14.1,9.7,615.0,19.2,1502.0,2.0,1.3,2.2,1006.2,6.55,15.0
75%,108.0,22.9,19.2,743.0,27.3,1543.0,5.3,7.025,2.6,1012.2,9.125,24.6
max,108.0,31.7,27.8,2400.0,36.5,2029.0,65.7,77.4,5.0,1023.5,13.2,35.3


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   지점        365 non-null    int64  
 1   일시        365 non-null    object 
 2   평균기온      365 non-null    float64
 3   최저기온      365 non-null    float64
 4   최저기온시각    365 non-null    int64  
 5   최고기온      365 non-null    float64
 6   최고기온시각    365 non-null    int64  
 7   1시간최다강수량  105 non-null    float64
 8   일강수량      160 non-null    float64
 9   평균풍속      365 non-null    float64
 10  평균기압      365 non-null    float64
 11  합계일조시간    364 non-null    float64
 12  평균지면온도    365 non-null    float64
dtypes: float64(9), int64(3), object(1)
memory usage: 37.2+ KB


In [None]:
# NaN의 의미: Not a Number

# 구체적인 데이터에 있어 NaN은 다양한 의미를 갖는다.
# 때로는 단순히 0의 의미를 갖기도 하고,
# 때로는 측정을 하지 못했다는 결측값의 의미를 갖기도 한다.

# 따라서 때로는 결측값을 가진 개별 행을 삭제하거나, 열 자체를 삭제해야할 상황도 있고
# 때로는 다른 적절한 값으로 대체(imputation)해야할 경우도 있다.
# 결국 다양한 상황과 데이터의 형태를 고려하여 적합한 판단을 내리는 것은 분석가의 몫이다.

In [4]:
# 합계를 구하는 함수는 sum()

df['평균기온'].sum()

5019.5

In [5]:
# 만약 일일 평균기온들의 평균, 즉 1년 전체의 평균기온을 구하려고 한다면..
# 평균기온들을 모두 더해서 365로 나누어 주면 될 것이다.

df['평균기온'].sum() / 365

13.752054794520548

In [7]:
#일강수량의 누적치를 구하려면?
# cumulative summation -->  cumsum
# 시계열 자료를 다룰 때 특히 유용하다 : 주가 변동 그래프를 상상해 보라

df['일강수량'].cumsum()

0         NaN
1         NaN
2         NaN
3         0.0
4         0.0
        ...  
360    1186.3
361       NaN
362    1186.5
363    1186.5
364       NaN
Name: 일강수량, Length: 365, dtype: float64

In [8]:
# 현재의 데이터에서 의미는 없지만, 행(row) 방향이 아닌, 열(column) 방향으로 횡적으로 계산할 수도 있다.
#이때는 axis = 1

df.sum(axis = 1)

  df.sum(axis = 1)


0      3073.6
1      3270.4
2      2890.9
3      3310.7
4      3475.0
        ...  
360    2861.4
361    3424.0
362    2795.4
363    3364.9
364    3372.2
Length: 365, dtype: float64

In [9]:
# 그런데 그 보다 더 간단하게 평균을 구하는 함수도 있다.

df['평균기온'].mean()

13.752054794520548

In [10]:
#소수점 14자리 이하가 살짝 다르다

In [11]:
# 평균기온의 '중위값은'? 중위값과 평균이 다르다는 것은 무엇을 의미할까?

df['평균기온'].median()

14.1

In [12]:
df['평균기온'].mean()

13.752054794520548

In [13]:
# 최고기온의 표준편차가 클까? 최저기온의 표준 편차가 클까? 
# 즉 어느 것이 더 변동성이 클까?

print(df['최고기온'].std())
print(df['최저기온'].std())

10.468187724603686
10.875918021227259


In [14]:
# 날짜를 인덱스로 바꾸어 보자

df = df.set_index('일시')
df.head()

Unnamed: 0_level_0,지점,평균기온,최저기온,최저기온시각,최고기온,최고기온시각,1시간최다강수량,일강수량,평균풍속,평균기압,합계일조시간,평균지면온도
일시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2021-01-01,108,-4.2,-9.8,511,1.6,1447,,,2.0,1014.9,6.5,-3.4
2021-01-02,108,-5.0,-8.4,805,-1.4,1346,,,2.6,1018.5,9.0,-3.9
2021-01-03,108,-5.6,-9.1,536,-2.0,1238,,,2.0,1023.0,5.5,-4.9
2021-01-04,108,-3.5,-8.4,656,0.3,1535,,0.0,1.7,1020.3,4.6,-3.3
2021-01-05,108,-5.5,-9.9,2356,-2.1,1,,0.0,2.9,1019.2,8.6,-3.2


In [15]:
#일 강수량은 어떤 값들일까?
# max() 함수

df['일강수량'].max()

77.4

In [16]:
# min() 함수

df['일강수량'].min()

0.0

In [17]:
# 만약 일일 평균기온이 가장 높은 날과 낮은 날을 구해야 한다면 어떻게 할까
# 지난 회차에서처럼 .sort_value() 함수를 통해 구하는 방법도 있지만...
# 최소값의 인덱스를 반환하는 idxmin, 최대값의 인덱스를 반환하는 idxmax를 이용할 수도 있다


#가장 추웠던 날은?

df['평균기온'].idxmin()

'2021-01-08'

In [18]:
#하루 중 평균기온이 가장 높았던 날은?

df['평균기온'].idxmax()

'2021-07-24'

In [19]:
#평균기온의 표준 편차는?

df['평균기온'].std()

10.500359878566398

In [20]:
df['일강수량'].count()

160

In [21]:
len(df['일강수량'])

365

In [22]:
df['일강수량'].value_counts()

0.0     43
0.1      7
0.2      6
0.3      6
1.7      5
        ..
1.9      1
6.3      1
7.5      1
38.2     1
2.8      1
Name: 일강수량, Length: 78, dtype: int64