# <핵심만 요약한 데이터 조작과 시각화 파이썬 코드북>
**각 코드를 설명하는 주석과 연습문제 풀이는 도서에서 확인**할 수 있습니다. 성공적인 학습을 응원합니다.
- ⓒ2024 AlgoBoni all rights reserved.
- 본 컨텐츠의 저작권은 알고보니에 있습니다. 저작권법에 의해 보호를 받는 저작물이므로 무단 전재와 무단 복제를 금합니다.
- 본 컨텐츠의 종이책은 [교보문고](https://product.kyobobook.co.kr/detail/S000213616715), [예스24](https://www.yes24.com/Product/Goods/128117125), [알라딘](https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=341725290)에서 구매할 수 있습니다.

## 4장. 데이터프레임

### 4-1. 데이터프레임 만들기: DataFrame

In [1]:
import pandas as pd
data = {'alphabets': ['a', 'b', 'c', 'd'],   
        'numbers': [1, 2, 3, 4],          
        'floats': [0.1, 0.2, 0.3, 0.4]}    
df = pd.DataFrame(data)
print(df)

  alphabets  numbers  floats
0         a        1     0.1
1         b        2     0.2
2         c        3     0.3
3         d        4     0.4


In [2]:
data2 = [['a', 1, 0.1],   
         ['b', 2, 0.2],          
         ['c', 3, 0.3],
         ['d', 4, 0.4]]
df2 = pd.DataFrame(data2, columns=['alphabets', 'numbers', 'floats']) 
print(df2)

  alphabets  numbers  floats
0         a        1     0.1
1         b        2     0.2
2         c        3     0.3
3         d        4     0.4


### 4-2. 데이터프레임 저장하기 및 불러오기

### - 저장하기: to_csv, to_excel, to_json

In [4]:
import pandas as pd
df = pd.DataFrame({'alphabets': ['a', 'b', 'c', 'd'],    
        'numbers': [1, 2, 3, 4], 'floats': [0.1, 0.2, 0.3, 0.4]})

df.to_csv('./df.csv', index=False)
df.to_excel('./df.xlsx', index=False) 
df.to_json('./df.json')

### - 불러오기: read_csv, read_excel, read_json

In [5]:
from pandas import read_csv, read_excel, read_json
csv = read_csv('./df.csv', header=0, sep=',')
excel = read_excel('./df.xlsx', engine='openpyxl', sheet_name=0, header=0)
json = read_json('./df.json')
print(csv)
print(excel)
print(json)

  alphabets  numbers  floats
0         a        1     0.1
1         b        2     0.2
2         c        3     0.3
3         d        4     0.4
  alphabets  numbers  floats
0         a        1     0.1
1         b        2     0.2
2         c        3     0.3
3         d        4     0.4
  alphabets  numbers  floats
0         a        1     0.1
1         b        2     0.2
2         c        3     0.3
3         d        4     0.4


### 4-3. 데이터 추출하기

In [1]:
from pandas import read_csv
# [데이터 출처] 기상청, 기상자료개방포털, 종관기상관측(ASOS), https://data.kma.go.kr
df = read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook_visual1/main/data/1-4_ASOS.csv')
print(df)

        지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0       90  속초  2023-01-01       3.2       0.3         2315.0       7.3   
1       90  속초  2023-01-02      -0.5      -5.1          348.0       4.2   
2       90  속초  2023-01-03       0.0      -5.1          754.0       5.6   
3       90  속초  2023-01-04       0.7      -2.7          715.0       5.0   
4       90  속초  2023-01-05       2.5      -1.6            2.0       7.0   
...    ...  ..         ...       ...       ...            ...       ...   
34880  295  남해  2023-12-27       5.4       2.4          406.0      10.8   
34881  295  남해  2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해  2023-12-29       3.8       0.3          642.0       8.7   
34883  295  남해  2023-12-30       4.9      -1.1          735.0       9.8   
34884  295  남해  2023-12-31       6.9       2.0         2157.0       9.8   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0             1346.0       NaN         3.0

### - 데이터의 기본 및 요약 정보: info, columns, index, shape, dtypes, describe

In [2]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34885 entries, 0 to 34884
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   지점             34885 non-null  int64  
 1   지점명            34885 non-null  object 
 2   일시             34885 non-null  object 
 3   평균기온(°C)       34848 non-null  float64
 4   최저기온(°C)       34878 non-null  float64
 5   최저기온 시각(hhmi)  34879 non-null  float64
 6   최고기온(°C)       34881 non-null  float64
 7   최고기온 시각(hhmi)  34881 non-null  float64
 8   일강수량(mm)       13494 non-null  float64
 9   평균 풍속(m/s)     34824 non-null  float64
 10  평균 상대습도(%)     34820 non-null  float64
dtypes: float64(8), int64(1), object(2)
memory usage: 2.9+ MB
None


In [3]:
print(df.columns) 
print(df.index)

Index(['지점', '지점명', '일시', '평균기온(°C)', '최저기온(°C)', '최저기온 시각(hhmi)', '최고기온(°C)',
       '최고기온 시각(hhmi)', '일강수량(mm)', '평균 풍속(m/s)', '평균 상대습도(%)'],
      dtype='object')
RangeIndex(start=0, stop=34885, step=1)


In [4]:
print(df.shape) 
print(df.dtypes) 

(34885, 11)
지점                 int64
지점명               object
일시                object
평균기온(°C)         float64
최저기온(°C)         float64
최저기온 시각(hhmi)    float64
최고기온(°C)         float64
최고기온 시각(hhmi)    float64
일강수량(mm)         float64
평균 풍속(m/s)       float64
평균 상대습도(%)       float64
dtype: object


In [5]:
print(df.describe().round(1))

            지점  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  최고기온 시각(hhmi)  \
count  34885.0   34848.0   34878.0        34879.0   34881.0        34881.0   
mean     197.2      14.0       9.2          921.1      19.4         1335.4   
std       64.1       9.7      10.5          782.8       9.5          352.6   
min       90.0     -17.8     -25.2            1.0     -11.9            1.0   
25%      136.0       6.1       0.5          450.0      11.7         1307.0   
50%      202.0      14.9       9.5          612.0      21.1         1421.0   
75%      258.0      22.5      18.9          829.0      27.0         1514.0   
max      295.0      33.4      30.6         2400.0      38.4         2400.0   

       일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
count   13494.0     34824.0     34820.0  
mean       12.2         1.8        70.7  
std        24.4         1.3        16.1  
min         0.0         0.0        13.5  
25%         0.2         1.0        59.9  
50%         2.2         1.5        72.9  
75%

In [6]:
print(df.describe(include=['object', 'int64']))

                  지점    지점명          일시
count   34885.000000  34885       34885
unique           NaN     96         365
top              NaN    고창군  2023-08-10
freq             NaN    365          96
mean      197.219579    NaN         NaN
std        64.149442    NaN         NaN
min        90.000000    NaN         NaN
25%       136.000000    NaN         NaN
50%       202.000000    NaN         NaN
75%       258.000000    NaN         NaN
max       295.000000    NaN         NaN


In [7]:
print(df.describe(include='all').round(1))

             지점    지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  \
count   34885.0  34885       34885   34848.0   34878.0        34879.0   
unique      NaN     96         365       NaN       NaN            NaN   
top         NaN    고창군  2023-08-10       NaN       NaN            NaN   
freq        NaN    365          96       NaN       NaN            NaN   
mean      197.2    NaN         NaN      14.0       9.2          921.1   
std        64.1    NaN         NaN       9.7      10.5          782.8   
min        90.0    NaN         NaN     -17.8     -25.2            1.0   
25%       136.0    NaN         NaN       6.1       0.5          450.0   
50%       202.0    NaN         NaN      14.9       9.5          612.0   
75%       258.0    NaN         NaN      22.5      18.9          829.0   
max       295.0    NaN         NaN      33.4      30.6         2400.0   

        최고기온(°C)  최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
count    34881.0        34881.0   13494.0     34824.0  

### - 컬럼명과 인덱스로 데이터 추출: df['column'], df[['column']], filter, loc, iloc 

In [23]:
print(df['지점명'], '\n') 
print(df[['일시', '지점명']], '\n')
print(df.filter(['일시', '지점명']))

0        속초
1        속초
2        속초
3        속초
4        속초
         ..
34880    남해
34881    남해
34882    남해
34883    남해
34884    남해
Name: 지점명, Length: 34885, dtype: object 

               일시 지점명
0      2023-01-01  속초
1      2023-01-02  속초
2      2023-01-03  속초
3      2023-01-04  속초
4      2023-01-05  속초
...           ...  ..
34880  2023-12-27  남해
34881  2023-12-28  남해
34882  2023-12-29  남해
34883  2023-12-30  남해
34884  2023-12-31  남해

[34885 rows x 2 columns] 

               일시 지점명
0      2023-01-01  속초
1      2023-01-02  속초
2      2023-01-03  속초
3      2023-01-04  속초
4      2023-01-05  속초
...           ...  ..
34880  2023-12-27  남해
34881  2023-12-28  남해
34882  2023-12-29  남해
34883  2023-12-30  남해
34884  2023-12-31  남해

[34885 rows x 2 columns]


In [7]:
print(df.loc[0, :], '\n') 
print(df.loc[0:6, '일시'], '\n') 
print(df.loc[0:6, ['일시', '지점명', '평균기온(°C)']])

지점                       90
지점명                      속초
일시               2023-01-01
평균기온(°C)                3.2
최저기온(°C)                0.3
최저기온 시각(hhmi)        2315.0
최고기온(°C)                7.3
최고기온 시각(hhmi)        1346.0
일강수량(mm)                NaN
평균 풍속(m/s)              3.0
평균 상대습도(%)             21.8
Name: 0, dtype: object 

0    2023-01-01
1    2023-01-02
2    2023-01-03
3    2023-01-04
4    2023-01-05
5    2023-01-06
6    2023-01-07
Name: 일시, dtype: object 

           일시 지점명  평균기온(°C)
0  2023-01-01  속초       3.2
1  2023-01-02  속초      -0.5
2  2023-01-03  속초       0.0
3  2023-01-04  속초       0.7
4  2023-01-05  속초       2.5
5  2023-01-06  속초       3.5
6  2023-01-07  속초       2.5


In [5]:
print(df.iloc[0, 2], '\n') 
print(df.iloc[0:6, 2], '\n')
print(df.iloc[0:6, [2, 1, 3]]) 

2023-01-01 

0    2023-01-01
1    2023-01-02
2    2023-01-03
3    2023-01-04
4    2023-01-05
5    2023-01-06
Name: 일시, dtype: object 

           일시 지점명  평균기온(°C)
0  2023-01-01  속초       3.2
1  2023-01-02  속초      -0.5
2  2023-01-03  속초       0.0
3  2023-01-04  속초       0.7
4  2023-01-05  속초       2.5
5  2023-01-06  속초       3.5


### - 조건을 만족하는 데이터 추출: df[조건], query('조건')

In [8]:
print(df[df['최고기온(°C)'] >= 35])

        지점  지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
210     90   속초  2023-07-30      29.1      24.1          413.0      35.1   
214     90   속초  2023-08-03      31.5      25.1          438.0      36.3   
215     90   속초  2023-08-04      31.2      26.7          319.0      36.6   
216     90   속초  2023-08-05      31.0      26.2          430.0      35.8   
581     93  북춘천  2023-08-05      29.0      23.5          506.0      35.2   
...    ...  ...         ...       ...       ...            ...       ...   
34006  289   산청  2023-08-05      29.5      23.1          528.0      36.4   
34007  289   산청  2023-08-06      29.3      25.1          609.0      35.0   
34008  289   산청  2023-08-07      29.7      24.7          530.0      35.4   
34009  289   산청  2023-08-08      28.7      24.1          546.0      35.1   
34738  295   남해  2023-08-07      29.3      25.7          527.0      35.1   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
210           1555.0       NaN

In [25]:
avg_temp = df['최고기온(°C)'].mean() 
print(df[df['최고기온(°C)'] < avg_temp])

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0       90  속초 2023-01-01       3.2       0.3         2315.0       7.3   
1       90  속초 2023-01-02      -0.5      -5.1          348.0       4.2   
2       90  속초 2023-01-03       0.0      -5.1          754.0       5.6   
3       90  속초 2023-01-04       0.7      -2.7          715.0       5.0   
4       90  속초 2023-01-05       2.5      -1.6            2.0       7.0   
...    ...  ..        ...       ...       ...            ...       ...   
34880  295  남해 2023-12-27       5.4       2.4          406.0      10.8   
34881  295  남해 2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해 2023-12-29       3.8       0.3          642.0       8.7   
34883  295  남해 2023-12-30       4.9      -1.1          735.0       9.8   
34884  295  남해 2023-12-31       6.9       2.0         2157.0       9.8   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0             1346.0       NaN         3.0        21.8

In [26]:
print(df[(df['최고기온(°C)'] >= 36) | (df['일강수량(mm)'] < 0)])

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
214     90  속초 2023-08-03      31.5      25.1          438.0      36.3   
215     90  속초 2023-08-04      31.2      26.7          319.0      36.6   
3491   105  강릉 2023-07-26      30.4      26.4         2120.0      36.0   
3493   105  강릉 2023-07-28      31.7      27.1          524.0      37.3   
3495   105  강릉 2023-07-30      31.6      27.0          327.0      36.1   
...    ...  ..        ...       ...       ...            ...       ...   
33640  288  밀양 2023-08-03      29.8      24.8          535.0      36.9   
33642  288  밀양 2023-08-05      30.8      25.1          503.0      37.8   
33643  288  밀양 2023-08-06      30.5      25.5          527.0      36.1   
33644  288  밀양 2023-08-07      30.3      26.0          335.0      36.0   
34006  289  산청 2023-08-05      29.5      23.1          528.0      36.4   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
214           1201.0       NaN         1.8        54.4

In [27]:
print(df[(df['최고기온(°C)'] >= 36) & (df['일강수량(mm)'] > 5)])

        지점  지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
23429  247   남원 2023-08-02      28.9      23.2          554.0      36.1   
26719  259  강진군 2023-08-07      28.3      25.7          539.0      36.0   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
23429         1618.0      16.2         1.7        74.3  
26719         1144.0      31.1         1.1        87.5  


In [14]:
print(df[df['지점명'].isin(['속초', '서울'])])

       지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0      90  속초  2023-01-01       3.2       0.3         2315.0       7.3   
1      90  속초  2023-01-02      -0.5      -5.1          348.0       4.2   
2      90  속초  2023-01-03       0.0      -5.1          754.0       5.6   
3      90  속초  2023-01-04       0.7      -2.7          715.0       5.0   
4      90  속초  2023-01-05       2.5      -1.6            2.0       7.0   
...   ...  ..         ...       ...       ...            ...       ...   
4375  108  서울  2023-12-27       1.5      -2.8          813.0       6.8   
4376  108  서울  2023-12-28       1.2      -1.7          620.0       4.4   
4377  108  서울  2023-12-29       1.3      -1.5          725.0       4.6   
4378  108  서울  2023-12-30       0.6      -0.9          237.0       2.1   
4379  108  서울  2023-12-31       2.1       0.6         2343.0       4.3   

      최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0            1346.0       NaN         3.0        21.8  

In [15]:
print(df[df['일강수량(mm)'].isna() == True])

        지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0       90  속초  2023-01-01       3.2       0.3         2315.0       7.3   
1       90  속초  2023-01-02      -0.5      -5.1          348.0       4.2   
2       90  속초  2023-01-03       0.0      -5.1          754.0       5.6   
3       90  속초  2023-01-04       0.7      -2.7          715.0       5.0   
4       90  속초  2023-01-05       2.5      -1.6            2.0       7.0   
...    ...  ..         ...       ...       ...            ...       ...   
34878  295  남해  2023-12-25       2.4      -2.3          145.0       6.2   
34879  295  남해  2023-12-26       4.7      -1.3          742.0       9.9   
34880  295  남해  2023-12-27       5.4       2.4          406.0      10.8   
34881  295  남해  2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해  2023-12-29       3.8       0.3          642.0       8.7   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0             1346.0       NaN         3.0

In [16]:
print(df[df['지점명'].str.contains('남')])

        지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
23216  247  남원  2023-01-01      -1.8      -6.9          721.0       5.7   
23217  247  남원  2023-01-02      -3.1      -7.2         2359.0       1.8   
23218  247  남원  2023-01-03      -4.3      -9.9          714.0       2.8   
23219  247  남원  2023-01-04      -2.8      -8.6          401.0       5.1   
23220  247  남원  2023-01-05      -0.4      -5.8          321.0       6.7   
...    ...  ..         ...       ...       ...            ...       ...   
34880  295  남해  2023-12-27       5.4       2.4          406.0      10.8   
34881  295  남해  2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해  2023-12-29       3.8       0.3          642.0       8.7   
34883  295  남해  2023-12-30       4.9      -1.1          735.0       9.8   
34884  295  남해  2023-12-31       6.9       2.0         2157.0       9.8   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
23216         1409.0       NaN         1.0

In [17]:
df['일시'] = df['일시'].astype('datetime64') 
print(df[df['일시'] == "2023-03-01"]) 

        지점  지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
59      90   속초 2023-03-01       7.2       4.1         2342.0      10.6   
424     93  북춘천 2023-03-01       4.1       0.4          613.0       9.4   
789     95   철원 2023-03-01       3.5      -0.1          546.0       8.8   
1154    98  동두천 2023-03-01       4.9       1.2         2355.0      10.8   
1519    99   파주 2023-03-01       4.4       0.2          500.0       9.6   
...    ...  ...        ...       ...       ...            ...       ...   
33120  285   합천 2023-03-01       8.0       3.1          148.0      15.2   
33485  288   밀양 2023-03-01       8.0       2.7          112.0      15.4   
33849  289   산청 2023-03-01       7.1       2.8           10.0      13.7   
34214  294   거제 2023-03-01       9.7       6.4         2352.0      13.2   
34579  295   남해 2023-03-01      10.1       5.3         2357.0      15.2   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
59            1122.0       NaN         2.5

In [18]:
print(df[df['일시'] >= "2023-06-01"])

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
151     90  속초 2023-06-01      20.8      16.0           38.0      28.2   
152     90  속초 2023-06-02      19.4      16.6         2319.0      24.1   
153     90  속초 2023-06-03      23.5      13.3          531.0      30.1   
154     90  속초 2023-06-04      25.0      19.4         2400.0      29.7   
155     90  속초 2023-06-05      25.5      17.7          230.0      30.9   
...    ...  ..        ...       ...       ...            ...       ...   
34880  295  남해 2023-12-27       5.4       2.4          406.0      10.8   
34881  295  남해 2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해 2023-12-29       3.8       0.3          642.0       8.7   
34883  295  남해 2023-12-30       4.9      -1.1          735.0       9.8   
34884  295  남해 2023-12-31       6.9       2.0         2157.0       9.8   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
151           1235.0       0.0         1.2        71.0

In [19]:
print(df[(df['일시'] >= "2023-06-01") & (df['일시'] <= "2023-06-10")])

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
151     90  속초 2023-06-01      20.8      16.0           38.0      28.2   
152     90  속초 2023-06-02      19.4      16.6         2319.0      24.1   
153     90  속초 2023-06-03      23.5      13.3          531.0      30.1   
154     90  속초 2023-06-04      25.0      19.4         2400.0      29.7   
155     90  속초 2023-06-05      25.5      17.7          230.0      30.9   
...    ...  ..        ...       ...       ...            ...       ...   
34676  295  남해 2023-06-06      20.5      17.4         2302.0      25.1   
34677  295  남해 2023-06-07      21.7      16.5          425.0      28.3   
34678  295  남해 2023-06-08      21.0      17.7          456.0      26.4   
34679  295  남해 2023-06-09      21.5      17.0          339.0      27.0   
34680  295  남해 2023-06-10      22.1      18.4           16.0      26.0   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
151           1235.0       0.0         1.2        71.0

In [20]:
print(df[df['일시'].dt.month==3])

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
59      90  속초 2023-03-01       7.2       4.1         2342.0      10.6   
60      90  속초 2023-03-02       2.5      -0.3          706.0       4.4   
61      90  속초 2023-03-03       8.7       2.0          504.0      14.2   
62      90  속초 2023-03-04       6.1       3.3          700.0      10.7   
63      90  속초 2023-03-05       7.3       0.7          557.0      12.5   
...    ...  ..        ...       ...       ...            ...       ...   
34605  295  남해 2023-03-27      10.3       6.0          643.0      16.1   
34606  295  남해 2023-03-28      11.3       5.9          530.0      18.1   
34607  295  남해 2023-03-29      12.0       6.1          613.0      19.5   
34608  295  남해 2023-03-30      13.7       6.9          608.0      21.4   
34609  295  남해 2023-03-31      15.1       8.8          644.0      24.1   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
59            1122.0       NaN         2.5        40.1

In [21]:
print(df[df['일시'].dt.day == 1])

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0       90  속초 2023-01-01       3.2       0.3         2315.0       7.3   
31      90  속초 2023-02-01       3.2      -2.0         2317.0       7.1   
59      90  속초 2023-03-01       7.2       4.1         2342.0      10.6   
90      90  속초 2023-04-01      12.5       7.0          639.0      17.0   
120     90  속초 2023-05-01      14.2       9.5         2140.0      17.9   
...    ...  ..        ...       ...       ...            ...       ...   
34732  295  남해 2023-08-01      27.7      24.2          512.0      33.3   
34763  295  남해 2023-09-01      25.0      23.4          500.0      27.4   
34793  295  남해 2023-10-01      19.2      15.5         2332.0      25.4   
34824  295  남해 2023-11-01      17.9      10.7          509.0      23.0   
34854  295  남해 2023-12-01       2.7      -0.7         2218.0       7.3   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0             1346.0       NaN         3.0        21.8

In [22]:
print(df[df['일시'].dt.weekday == 0]) 

        지점 지점명         일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
1       90  속초 2023-01-02      -0.5      -5.1          348.0       4.2   
8       90  속초 2023-01-09       5.2       1.7         1903.0      10.2   
15      90  속초 2023-01-16      -2.6      -6.8         2158.0       1.1   
22      90  속초 2023-01-23       0.8      -2.4         2400.0       4.7   
29      90  속초 2023-01-30      -0.2      -3.7          650.0       3.6   
...    ...  ..        ...       ...       ...            ...       ...   
34850  295  남해 2023-11-27       9.7       4.6          310.0      14.9   
34857  295  남해 2023-12-04       5.5      -0.1          658.0      11.3   
34864  295  남해 2023-12-11      12.2      11.2         1040.0      12.9   
34871  295  남해 2023-12-18      -1.2      -5.6          736.0       1.6   
34878  295  남해 2023-12-25       2.4      -2.3          145.0       6.2   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
1             1537.0       NaN         1.4        24.3

In [2]:
new_cols = [ col.split('(')[0] for col in df.columns ]
print(new_cols)

['지점', '지점명', '일시', '평균기온', '최저기온', '최저기온 시각', '최고기온', '최고기온 시각', '일강수량', '평균 풍속', '평균 상대습도']


In [3]:
df2 = df.copy()
df2 = df2.rename(columns = dict(zip(df.columns, new_cols)))
print(df2)

        지점 지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
0       90  속초  2023-01-01   3.2   0.3   2315.0   7.3   1346.0   NaN    3.0   
1       90  속초  2023-01-02  -0.5  -5.1    348.0   4.2   1537.0   NaN    1.4   
2       90  속초  2023-01-03   0.0  -5.1    754.0   5.6   1221.0   NaN    1.9   
3       90  속초  2023-01-04   0.7  -2.7    715.0   5.0   1300.0   NaN    2.1   
4       90  속초  2023-01-05   2.5  -1.6      2.0   7.0   1424.0   NaN    2.2   
...    ...  ..         ...   ...   ...      ...   ...      ...   ...    ...   
34880  295  남해  2023-12-27   5.4   2.4    406.0  10.8   1539.0   NaN    0.9   
34881  295  남해  2023-12-28   5.2   0.2    613.0  13.7   1415.0   NaN    1.5   
34882  295  남해  2023-12-29   3.8   0.3    642.0   8.7   1518.0   NaN    1.2   
34883  295  남해  2023-12-30   4.9  -1.1    735.0   9.8   1501.0   0.9    0.9   
34884  295  남해  2023-12-31   6.9   2.0   2157.0   9.8   1104.0   2.1    2.6   

       평균 상대습도  
0         21.8  
1         24.3  


In [4]:
print(df2.query("최고기온 >= 35"))

        지점  지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
210     90   속초  2023-07-30  29.1  24.1    413.0  35.1   1555.0   NaN    1.5   
214     90   속초  2023-08-03  31.5  25.1    438.0  36.3   1201.0   NaN    1.8   
215     90   속초  2023-08-04  31.2  26.7    319.0  36.6   1625.0   NaN    1.6   
216     90   속초  2023-08-05  31.0  26.2    430.0  35.8    954.0   NaN    1.7   
581     93  북춘천  2023-08-05  29.0  23.5    506.0  35.2   1515.0   NaN    1.0   
...    ...  ...         ...   ...   ...      ...   ...      ...   ...    ...   
34006  289   산청  2023-08-05  29.5  23.1    528.0  36.4   1443.0   NaN    0.9   
34007  289   산청  2023-08-06  29.3  25.1    609.0  35.0   1425.0   NaN    0.8   
34008  289   산청  2023-08-07  29.7  24.7    530.0  35.4   1424.0   NaN    1.0   
34009  289   산청  2023-08-08  28.7  24.1    546.0  35.1   1500.0   2.3    1.0   
34738  295   남해  2023-08-07  29.3  25.7    527.0  35.1   1523.0   NaN    1.2   

       평균 상대습도  
210       66.9  
214  

In [5]:
avg_temp = df2['최고기온'].mean() 
print(df2.query("최고기온 < @avg_temp"))

        지점 지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
0       90  속초  2023-01-01   3.2   0.3   2315.0   7.3   1346.0   NaN    3.0   
1       90  속초  2023-01-02  -0.5  -5.1    348.0   4.2   1537.0   NaN    1.4   
2       90  속초  2023-01-03   0.0  -5.1    754.0   5.6   1221.0   NaN    1.9   
3       90  속초  2023-01-04   0.7  -2.7    715.0   5.0   1300.0   NaN    2.1   
4       90  속초  2023-01-05   2.5  -1.6      2.0   7.0   1424.0   NaN    2.2   
...    ...  ..         ...   ...   ...      ...   ...      ...   ...    ...   
34880  295  남해  2023-12-27   5.4   2.4    406.0  10.8   1539.0   NaN    0.9   
34881  295  남해  2023-12-28   5.2   0.2    613.0  13.7   1415.0   NaN    1.5   
34882  295  남해  2023-12-29   3.8   0.3    642.0   8.7   1518.0   NaN    1.2   
34883  295  남해  2023-12-30   4.9  -1.1    735.0   9.8   1501.0   0.9    0.9   
34884  295  남해  2023-12-31   6.9   2.0   2157.0   9.8   1104.0   2.1    2.6   

       평균 상대습도  
0         21.8  
1         24.3  


In [6]:
print(df2.query("최고기온 >= 36 or 일강수량 < 0"))

        지점 지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
214     90  속초  2023-08-03  31.5  25.1    438.0  36.3   1201.0   NaN    1.8   
215     90  속초  2023-08-04  31.2  26.7    319.0  36.6   1625.0   NaN    1.6   
3491   105  강릉  2023-07-26  30.4  26.4   2120.0  36.0   1420.0   0.4    2.0   
3493   105  강릉  2023-07-28  31.7  27.1    524.0  37.3   1419.0   NaN    1.3   
3495   105  강릉  2023-07-30  31.6  27.0    327.0  36.1   1312.0   NaN    1.4   
...    ...  ..         ...   ...   ...      ...   ...      ...   ...    ...   
33640  288  밀양  2023-08-03  29.8  24.8    535.0  36.9   1349.0   NaN    0.8   
33642  288  밀양  2023-08-05  30.8  25.1    503.0  37.8   1443.0   NaN    0.9   
33643  288  밀양  2023-08-06  30.5  25.5    527.0  36.1   1624.0   NaN    0.8   
33644  288  밀양  2023-08-07  30.3  26.0    335.0  36.0   1527.0   NaN    1.3   
34006  289  산청  2023-08-05  29.5  23.1    528.0  36.4   1443.0   NaN    0.9   

       평균 상대습도  
214       54.4  
215       60.6  


In [7]:
print(df2.query('최고기온 >= 36 and 일강수량 > 5'))

        지점  지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
23429  247   남원  2023-08-02  28.9  23.2    554.0  36.1   1618.0  16.2    1.7   
26719  259  강진군  2023-08-07  28.3  25.7    539.0  36.0   1144.0  31.1    1.1   

       평균 상대습도  
23429     74.3  
26719     87.5  


In [8]:
print(df2.query("지점명 in ['속초', '서울']"))

       지점 지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
0      90  속초  2023-01-01   3.2   0.3   2315.0   7.3   1346.0   NaN    3.0   
1      90  속초  2023-01-02  -0.5  -5.1    348.0   4.2   1537.0   NaN    1.4   
2      90  속초  2023-01-03   0.0  -5.1    754.0   5.6   1221.0   NaN    1.9   
3      90  속초  2023-01-04   0.7  -2.7    715.0   5.0   1300.0   NaN    2.1   
4      90  속초  2023-01-05   2.5  -1.6      2.0   7.0   1424.0   NaN    2.2   
...   ...  ..         ...   ...   ...      ...   ...      ...   ...    ...   
4375  108  서울  2023-12-27   1.5  -2.8    813.0   6.8   1549.0   NaN    1.4   
4376  108  서울  2023-12-28   1.2  -1.7    620.0   4.4   1453.0   NaN    1.6   
4377  108  서울  2023-12-29   1.3  -1.5    725.0   4.6   1438.0   NaN    1.7   
4378  108  서울  2023-12-30   0.6  -0.9    237.0   2.1   2354.0  13.1    2.6   
4379  108  서울  2023-12-31   2.1   0.6   2343.0   4.3   1550.0   4.7    2.0   

      평균 상대습도  
0        21.8  
1        24.3  
2        18.3  

In [9]:
print(df2.query("일강수량.isna() == True"))

        지점 지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
0       90  속초  2023-01-01   3.2   0.3   2315.0   7.3   1346.0   NaN    3.0   
1       90  속초  2023-01-02  -0.5  -5.1    348.0   4.2   1537.0   NaN    1.4   
2       90  속초  2023-01-03   0.0  -5.1    754.0   5.6   1221.0   NaN    1.9   
3       90  속초  2023-01-04   0.7  -2.7    715.0   5.0   1300.0   NaN    2.1   
4       90  속초  2023-01-05   2.5  -1.6      2.0   7.0   1424.0   NaN    2.2   
...    ...  ..         ...   ...   ...      ...   ...      ...   ...    ...   
34878  295  남해  2023-12-25   2.4  -2.3    145.0   6.2   1239.0   NaN    1.9   
34879  295  남해  2023-12-26   4.7  -1.3    742.0   9.9   1526.0   NaN    1.6   
34880  295  남해  2023-12-27   5.4   2.4    406.0  10.8   1539.0   NaN    0.9   
34881  295  남해  2023-12-28   5.2   0.2    613.0  13.7   1415.0   NaN    1.5   
34882  295  남해  2023-12-29   3.8   0.3    642.0   8.7   1518.0   NaN    1.2   

       평균 상대습도  
0         21.8  
1         24.3  


In [10]:
print(df2.query("지점명.str.contains('남')"))

        지점 지점명          일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
23216  247  남원  2023-01-01  -1.8  -6.9    721.0   5.7   1409.0   NaN    1.0   
23217  247  남원  2023-01-02  -3.1  -7.2   2359.0   1.8   1429.0   NaN    1.3   
23218  247  남원  2023-01-03  -4.3  -9.9    714.0   2.8   1431.0   NaN    1.6   
23219  247  남원  2023-01-04  -2.8  -8.6    401.0   5.1   1502.0   NaN    1.3   
23220  247  남원  2023-01-05  -0.4  -5.8    321.0   6.7   1526.0   NaN    1.2   
...    ...  ..         ...   ...   ...      ...   ...      ...   ...    ...   
34880  295  남해  2023-12-27   5.4   2.4    406.0  10.8   1539.0   NaN    0.9   
34881  295  남해  2023-12-28   5.2   0.2    613.0  13.7   1415.0   NaN    1.5   
34882  295  남해  2023-12-29   3.8   0.3    642.0   8.7   1518.0   NaN    1.2   
34883  295  남해  2023-12-30   4.9  -1.1    735.0   9.8   1501.0   0.9    0.9   
34884  295  남해  2023-12-31   6.9   2.0   2157.0   9.8   1104.0   2.1    2.6   

       평균 상대습도  
23216     77.8  
23217     55.6  


In [11]:
df2['일시'] = df2['일시'].astype('datetime64')
print(df2.query("일시 == '2023-03-01'")) 

        지점  지점명         일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
59      90   속초 2023-03-01   7.2   4.1   2342.0  10.6   1122.0   NaN    2.5   
424     93  북춘천 2023-03-01   4.1   0.4    613.0   9.4   1548.0   NaN    1.5   
789     95   철원 2023-03-01   3.5  -0.1    546.0   8.8   1441.0   NaN    1.7   
1154    98  동두천 2023-03-01   4.9   1.2   2355.0  10.8   1316.0   NaN    2.0   
1519    99   파주 2023-03-01   4.4   0.2    500.0   9.6   1330.0   NaN    2.1   
...    ...  ...        ...   ...   ...      ...   ...      ...   ...    ...   
33120  285   합천 2023-03-01   8.0   3.1    148.0  15.2   1354.0   NaN    1.1   
33485  288   밀양 2023-03-01   8.0   2.7    112.0  15.4   1601.0   0.0    1.4   
33849  289   산청 2023-03-01   7.1   2.8     10.0  13.7   1318.0   NaN    2.7   
34214  294   거제 2023-03-01   9.7   6.4   2352.0  13.2   1610.0   0.0    1.7   
34579  295   남해 2023-03-01  10.1   5.3   2357.0  15.2   1530.0   0.2    1.8   

       평균 상대습도  
59        40.1  
424       56.4  


In [12]:
print(df2.query("일시 >= '2023-06-01'"))

        지점 지점명         일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
151     90  속초 2023-06-01  20.8  16.0     38.0  28.2   1235.0   0.0    1.2   
152     90  속초 2023-06-02  19.4  16.6   2319.0  24.1    734.0   0.0    1.6   
153     90  속초 2023-06-03  23.5  13.3    531.0  30.1   1411.0   NaN    2.1   
154     90  속초 2023-06-04  25.0  19.4   2400.0  29.7   1052.0   NaN    2.6   
155     90  속초 2023-06-05  25.5  17.7    230.0  30.9   1431.0   NaN    2.2   
...    ...  ..        ...   ...   ...      ...   ...      ...   ...    ...   
34880  295  남해 2023-12-27   5.4   2.4    406.0  10.8   1539.0   NaN    0.9   
34881  295  남해 2023-12-28   5.2   0.2    613.0  13.7   1415.0   NaN    1.5   
34882  295  남해 2023-12-29   3.8   0.3    642.0   8.7   1518.0   NaN    1.2   
34883  295  남해 2023-12-30   4.9  -1.1    735.0   9.8   1501.0   0.9    0.9   
34884  295  남해 2023-12-31   6.9   2.0   2157.0   9.8   1104.0   2.1    2.6   

       평균 상대습도  
151       71.0  
152       75.5  
153       44

In [13]:
print(df2.query("일시 >= '2023-06-01' & 일시 <= '2023-06-10'"))

        지점 지점명         일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
151     90  속초 2023-06-01  20.8  16.0     38.0  28.2   1235.0   0.0    1.2   
152     90  속초 2023-06-02  19.4  16.6   2319.0  24.1    734.0   0.0    1.6   
153     90  속초 2023-06-03  23.5  13.3    531.0  30.1   1411.0   NaN    2.1   
154     90  속초 2023-06-04  25.0  19.4   2400.0  29.7   1052.0   NaN    2.6   
155     90  속초 2023-06-05  25.5  17.7    230.0  30.9   1431.0   NaN    2.2   
...    ...  ..        ...   ...   ...      ...   ...      ...   ...    ...   
34676  295  남해 2023-06-06  20.5  17.4   2302.0  25.1   1455.0   NaN    1.1   
34677  295  남해 2023-06-07  21.7  16.5    425.0  28.3   1518.0   NaN    1.1   
34678  295  남해 2023-06-08  21.0  17.7    456.0  26.4   1435.0   NaN    0.9   
34679  295  남해 2023-06-09  21.5  17.0    339.0  27.0   1347.0   NaN    1.2   
34680  295  남해 2023-06-10  22.1  18.4     16.0  26.0   1519.0   0.0    1.2   

       평균 상대습도  
151       71.0  
152       75.5  
153       44

In [14]:
print(df2.query("일시.dt.month == 3"))

        지점 지점명         일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
59      90  속초 2023-03-01   7.2   4.1   2342.0  10.6   1122.0   NaN    2.5   
60      90  속초 2023-03-02   2.5  -0.3    706.0   4.4   1435.0   0.0    2.3   
61      90  속초 2023-03-03   8.7   2.0    504.0  14.2   1431.0   NaN    2.0   
62      90  속초 2023-03-04   6.1   3.3    700.0  10.7   1009.0   NaN    1.7   
63      90  속초 2023-03-05   7.3   0.7    557.0  12.5   1455.0   NaN    1.6   
...    ...  ..        ...   ...   ...      ...   ...      ...   ...    ...   
34605  295  남해 2023-03-27  10.3   6.0    643.0  16.1   1520.0   NaN    1.5   
34606  295  남해 2023-03-28  11.3   5.9    530.0  18.1   1429.0   NaN    1.2   
34607  295  남해 2023-03-29  12.0   6.1    613.0  19.5   1606.0   NaN    1.1   
34608  295  남해 2023-03-30  13.7   6.9    608.0  21.4   1429.0   NaN    0.9   
34609  295  남해 2023-03-31  15.1   8.8    644.0  24.1   1517.0   NaN    1.0   

       평균 상대습도  
59        40.1  
60        35.6  
61        29

In [15]:
print(df2.query("일시.dt.day == 1"))

        지점 지점명         일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
0       90  속초 2023-01-01   3.2   0.3   2315.0   7.3   1346.0   NaN    3.0   
31      90  속초 2023-02-01   3.2  -2.0   2317.0   7.1     18.0   NaN    2.9   
59      90  속초 2023-03-01   7.2   4.1   2342.0  10.6   1122.0   NaN    2.5   
90      90  속초 2023-04-01  12.5   7.0    639.0  17.0   1451.0   NaN    1.4   
120     90  속초 2023-05-01  14.2   9.5   2140.0  17.9    952.0   0.0    2.2   
...    ...  ..        ...   ...   ...      ...   ...      ...   ...    ...   
34732  295  남해 2023-08-01  27.7  24.2    512.0  33.3   1455.0   NaN    1.3   
34763  295  남해 2023-09-01  25.0  23.4    500.0  27.4   1303.0   8.9    1.0   
34793  295  남해 2023-10-01  19.2  15.5   2332.0  25.4   1451.0   NaN    1.3   
34824  295  남해 2023-11-01  17.9  10.7    509.0  23.0   1333.0   NaN    1.3   
34854  295  남해 2023-12-01   2.7  -0.7   2218.0   7.3   1435.0   NaN    1.8   

       평균 상대습도  
0         21.8  
31        37.0  
59        40

In [16]:
print(df2.query("일시.dt.weekday == 0"))

        지점 지점명         일시  평균기온  최저기온  최저기온 시각  최고기온  최고기온 시각  일강수량  평균 풍속  \
1       90  속초 2023-01-02  -0.5  -5.1    348.0   4.2   1537.0   NaN    1.4   
8       90  속초 2023-01-09   5.2   1.7   1903.0  10.2   1043.0   NaN    2.7   
15      90  속초 2023-01-16  -2.6  -6.8   2158.0   1.1   1414.0   0.0    1.4   
22      90  속초 2023-01-23   0.8  -2.4   2400.0   4.7   1054.0   NaN    2.0   
29      90  속초 2023-01-30  -0.2  -3.7    650.0   3.6   1400.0   NaN    2.1   
...    ...  ..        ...   ...   ...      ...   ...      ...   ...    ...   
34850  295  남해 2023-11-27   9.7   4.6    310.0  14.9   1426.0   0.0    0.9   
34857  295  남해 2023-12-04   5.5  -0.1    658.0  11.3   1500.0   NaN    0.8   
34864  295  남해 2023-12-11  12.2  11.2   1040.0  12.9   2210.0  33.6    1.1   
34871  295  남해 2023-12-18  -1.2  -5.6    736.0   1.6   1701.0   NaN    1.1   
34878  295  남해 2023-12-25   2.4  -2.3    145.0   6.2   1239.0   NaN    1.9   

       평균 상대습도  
1         24.3  
8         46.4  
15        73

### - 앞/뒤 N행 추출 및 랜덤 샘플링: head, tail, sample

In [22]:
print(df.head(3)) 

   지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0  90  속초  2023-01-01       3.2       0.3         2315.0       7.3   
1  90  속초  2023-01-02      -0.5      -5.1          348.0       4.2   
2  90  속초  2023-01-03       0.0      -5.1          754.0       5.6   

   최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0         1346.0       NaN         3.0        21.8  
1         1537.0       NaN         1.4        24.3  
2         1221.0       NaN         1.9        18.3  


In [25]:
print(df.tail(4))

        지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
34881  295  남해  2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해  2023-12-29       3.8       0.3          642.0       8.7   
34883  295  남해  2023-12-30       4.9      -1.1          735.0       9.8   
34884  295  남해  2023-12-31       6.9       2.0         2157.0       9.8   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
34881         1415.0       NaN         1.5        68.6  
34882         1518.0       NaN         1.2        66.4  
34883         1501.0       0.9         0.9        81.5  
34884         1104.0       2.1         2.6        71.3  


In [24]:
print(df.sample(5))

        지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
23111  245  정읍  2023-09-18      24.5      21.0          640.0      29.9   
15964  188  성산  2023-02-12      10.7       6.9          719.0      13.8   
29771  271  봉화  2023-12-25      -3.3      -9.4          453.0       2.8   
23898  248  장수  2023-11-14       3.3      -3.4          237.0      10.1   
12344  162  통영  2023-10-29      15.7      12.0          643.0      22.3   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
23111         1440.0       NaN         0.8        79.6  
15964          935.0      39.1         3.1        85.0  
29771         1328.0       NaN         1.1        76.1  
23898         1359.0       NaN         1.2        76.6  
12344         1338.0       NaN         1.9        75.6  


### 4-4. 데이터프레임 편집하기

In [146]:
from pandas import read_csv
# [데이터 출처] 기상청, 기상자료개방포털, 종관기상관측(ASOS), https://data.kma.go.kr
df = read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook_visual1/main/data/1-4_ASOS.csv')
print(df)

        지점 지점명          일시  평균기온(°C)  최저기온(°C)  최저기온 시각(hhmi)  최고기온(°C)  \
0       90  속초  2023-01-01       3.2       0.3         2315.0       7.3   
1       90  속초  2023-01-02      -0.5      -5.1          348.0       4.2   
2       90  속초  2023-01-03       0.0      -5.1          754.0       5.6   
3       90  속초  2023-01-04       0.7      -2.7          715.0       5.0   
4       90  속초  2023-01-05       2.5      -1.6            2.0       7.0   
...    ...  ..         ...       ...       ...            ...       ...   
34880  295  남해  2023-12-27       5.4       2.4          406.0      10.8   
34881  295  남해  2023-12-28       5.2       0.2          613.0      13.7   
34882  295  남해  2023-12-29       3.8       0.3          642.0       8.7   
34883  295  남해  2023-12-30       4.9      -1.1          735.0       9.8   
34884  295  남해  2023-12-31       6.9       2.0         2157.0       9.8   

       최고기온 시각(hhmi)  일강수량(mm)  평균 풍속(m/s)  평균 상대습도(%)  
0             1346.0       NaN         3.0

### - 데이터 타입 변경: astype

In [147]:
df['일시'] = df['일시'].astype('datetime64')
df = df.astype({'지점':'category', '지점명':'category'}) 
df[['지점', '지점명']] = df[['지점', '지점명']].astype('category') 
print(df.dtypes)

지점                     category
지점명                    category
일시               datetime64[ns]
평균기온(°C)                float64
최저기온(°C)                float64
최저기온 시각(hhmi)           float64
최고기온(°C)                float64
최고기온 시각(hhmi)           float64
일강수량(mm)                float64
평균 풍속(m/s)              float64
평균 상대습도(%)              float64
dtype: object


### - 컬럼과 인덱스 편집: rename, set_index, reset_index

In [148]:
new_cols = [ col.split('(')[0].replace(' ', '') for col in df.columns]
new_cols_dict = dict(zip(df.columns, new_cols))
print(new_cols_dict, '\n')

df = df.rename(columns = new_cols_dict)
print(df.head().round(1)) 

{'지점': '지점', '지점명': '지점명', '일시': '일시', '평균기온(°C)': '평균기온', '최저기온(°C)': '최저기온', '최저기온 시각(hhmi)': '최저기온시각', '최고기온(°C)': '최고기온', '최고기온 시각(hhmi)': '최고기온시각', '일강수량(mm)': '일강수량', '평균 풍속(m/s)': '평균풍속', '평균 상대습도(%)': '평균상대습도'} 

   지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0  90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1  90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2  90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3
3  90  속초 2023-01-04   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1    15.6
4  90  속초 2023-01-05   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2    23.8


In [120]:
new_index = [f"{i}번" for i in range(len(df))]
new_index_dict = dict(zip(df.index, new_index))

df_idx = df.rename(index = new_index_dict)
print(df_idx.head().round(1))

    지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0번  90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1번  90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2번  90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3
3번  90  속초 2023-01-04   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1    15.6
4번  90  속초 2023-01-05   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2    23.8


In [121]:
df_idx1 = df_idx.reset_index(drop=False)
print(df_idx1.head(3).round(1), '\n')

df_idx2 = df_idx.reset_index(drop=True)
print(df_idx2.head(3).round(1))

  index  지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
0    0번  90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0   
1    1번  90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4   
2    2번  90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9   

   평균상대습도  
0    21.8  
1    24.3  
2    18.3   

   지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0  90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1  90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2  90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3


In [122]:
df = df.set_index('지점')
print(df.head(3).round(1), '\n')

df = df.reset_index(drop=False)
print(df.head(3).round(1))

   지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
지점                                                                     
90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3 

   지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0  90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1  90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2  90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3


### - 데이터 추가: df['column'], loc

In [123]:
add_df = df.copy()
new_data1 = add_df['일시'].dt.month 
add_df['월'] = new_data1
print(add_df.tail(3))

        지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
34882  295  남해 2023-12-29   3.8   0.3   642.0   8.7  1518.0   NaN   1.2   
34883  295  남해 2023-12-30   4.9  -1.1   735.0   9.8  1501.0   0.9   0.9   
34884  295  남해 2023-12-31   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6   

       평균상대습도   월  
34882    66.4  12  
34883    81.5  12  
34884    71.3  12  


In [124]:
import numpy as np
new_data2 = [90, '속초', np.nan, 3.2, 0.3, 2315.0, 7.3, 1346.0, np.nan, 3.0, 21.8, 1]

add_df.loc[34885, :] = new_data2 
print(add_df.tail(3))

        지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
34883  295  남해 2023-12-30   4.9  -1.1   735.0   9.8  1501.0   0.9   0.9   
34884  295  남해 2023-12-31   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6   
34885   90  속초        NaT   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0   

       평균상대습도     월  
34883    81.5  12.0  
34884    71.3  12.0  
34885    21.8   1.0  


In [125]:
add_df.loc[34886, '지점'] = 295
print(add_df.tail(3)) 

        지점  지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
34884  295   남해 2023-12-31   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6   
34885   90   속초        NaT   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0   
34886  295  NaN        NaT   NaN   NaN     NaN   NaN     NaN   NaN   NaN   

       평균상대습도     월  
34884    71.3  12.0  
34885    21.8   1.0  
34886     NaN   NaN  


### - 데이터 수정: df['column'], loc, map, replace, apply

In [128]:
correct_df1 = df.copy()
correct_df1['지점'] = '지점수정중'
correct_df1['지점명'] = correct_df1['평균기온']
print(correct_df1)

          지점  지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
0      지점수정중  3.2 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0   
1      지점수정중 -0.5 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4   
2      지점수정중  0.0 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9   
3      지점수정중  0.7 2023-01-04   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1   
4      지점수정중  2.5 2023-01-05   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2   
...      ...  ...        ...   ...   ...     ...   ...     ...   ...   ...   
34880  지점수정중  5.4 2023-12-27   5.4   2.4   406.0  10.8  1539.0   NaN   0.9   
34881  지점수정중  5.2 2023-12-28   5.2   0.2   613.0  13.7  1415.0   NaN   1.5   
34882  지점수정중  3.8 2023-12-29   3.8   0.3   642.0   8.7  1518.0   NaN   1.2   
34883  지점수정중  4.9 2023-12-30   4.9  -1.1   735.0   9.8  1501.0   0.9   0.9   
34884  지점수정중  6.9 2023-12-31   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6   

       평균상대습도  
0        21.8  
1        24.3  
2        18.3  

In [132]:
correct_df1 = df.copy()
correct_df1.loc[0, :] = [90, '속초', np.nan, 4, 5, 6, 7, 8, 9, 10, 11]
print(correct_df1.head(3))

   지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0  90  속초        NaT   4.0   5.0     6.0   7.0     8.0   9.0  10.0    11.0
1  90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2  90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3


In [133]:
correct_df2 = df.copy()
correct_df2['일시'] = correct_df2['일시'].map(lambda x: x.strftime("%y%m%d"))
print(correct_df2)

        지점 지점명      일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0       90  속초  230101   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1       90  속초  230102  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2       90  속초  230103   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3
3       90  속초  230104   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1    15.6
4       90  속초  230105   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2    23.8
...    ...  ..     ...   ...   ...     ...   ...     ...   ...   ...     ...
34880  295  남해  231227   5.4   2.4   406.0  10.8  1539.0   NaN   0.9    61.5
34881  295  남해  231228   5.2   0.2   613.0  13.7  1415.0   NaN   1.5    68.6
34882  295  남해  231229   3.8   0.3   642.0   8.7  1518.0   NaN   1.2    66.4
34883  295  남해  231230   4.9  -1.1   735.0   9.8  1501.0   0.9   0.9    81.5
34884  295  남해  231231   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6    71.3

[34885 rows x 11 columns]


In [134]:
nunique = correct_df2['지점'].nunique() 
point_dict = dict(zip(correct_df2['지점'].unique(), [i for i in range(nunique)]))
correct_df2['지점'] = correct_df2['지점'].map(point_dict)
print(correct_df2)

       지점 지점명      일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0       0  속초  230101   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1       0  속초  230102  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2       0  속초  230103   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3
3       0  속초  230104   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1    15.6
4       0  속초  230105   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2    23.8
...    ..  ..     ...   ...   ...     ...   ...     ...   ...   ...     ...
34880  95  남해  231227   5.4   2.4   406.0  10.8  1539.0   NaN   0.9    61.5
34881  95  남해  231228   5.2   0.2   613.0  13.7  1415.0   NaN   1.5    68.6
34882  95  남해  231229   3.8   0.3   642.0   8.7  1518.0   NaN   1.2    66.4
34883  95  남해  231230   4.9  -1.1   735.0   9.8  1501.0   0.9   0.9    81.5
34884  95  남해  231231   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6    71.3

[34885 rows x 11 columns]


In [138]:
correct_df3 = df.copy()
correct_df3 = correct_df3.replace({'속초':'SC', np.nan:'00'})
print(correct_df3)

        지점 지점명         일시 평균기온 최저기온  최저기온시각  최고기온  최고기온시각 일강수량 평균풍속 평균상대습도
0       90  SC 2023-01-01  3.2  0.3  2315.0   7.3  1346.0   00  3.0   21.8
1       90  SC 2023-01-02 -0.5 -5.1   348.0   4.2  1537.0   00  1.4   24.3
2       90  SC 2023-01-03  0.0 -5.1   754.0   5.6  1221.0   00  1.9   18.3
3       90  SC 2023-01-04  0.7 -2.7   715.0   5.0  1300.0   00  2.1   15.6
4       90  SC 2023-01-05  2.5 -1.6     2.0   7.0  1424.0   00  2.2   23.8
...    ...  ..        ...  ...  ...     ...   ...     ...  ...  ...    ...
34880  295  남해 2023-12-27  5.4  2.4   406.0  10.8  1539.0   00  0.9   61.5
34881  295  남해 2023-12-28  5.2  0.2   613.0  13.7  1415.0   00  1.5   68.6
34882  295  남해 2023-12-29  3.8  0.3   642.0   8.7  1518.0   00  1.2   66.4
34883  295  남해 2023-12-30  4.9 -1.1   735.0   9.8  1501.0  0.9  0.9   81.5
34884  295  남해 2023-12-31  6.9  2.0  2157.0   9.8  1104.0  2.1  2.6   71.3

[34885 rows x 11 columns]


In [143]:
correct_df4 = df.copy()

correct_df4['최저기온시각'] = correct_df4['최저기온시각'].apply(lambda x: str(x)[:-2])
correct_df4['최저기온시각'] = correct_df4['최저기온시각'].apply(lambda x: f"000{x}" if len(x) ==1 else x)
correct_df4['최저기온시각'] = correct_df4['최저기온시각'].apply(lambda x: f"00{x}" if len(x) ==2 else x)
correct_df4['최저기온시각'] = correct_df4['최저기온시각'].apply(lambda x: f"0{x}" if len(x) ==3 else x)
correct_df4['최저기온시각'] = correct_df4['최저기온시각'].apply(lambda x: f"{x[:2]}:{x[2:]}")

In [154]:
print(correct_df4.filter(['최저기온시각']).head(3))
print(df.filter(['최저기온시각']).head(3))

  최저기온시각
0  23:15
1  03:48
2  07:54
   최저기온시각
0  2315.0
1   348.0
2   754.0


### - 데이터 삭제: drop, dropna, drop_duplicates

In [161]:
drop_df1 = df.copy()
drop_df1.drop(columns='지점', axis=1, inplace=True)
print(drop_df1.head(), '\n')

drop_df1.drop(index=0, axis=0, inplace=True)
print(drop_df1.head())

  지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
0  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0    21.8
1  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3
3  속초 2023-01-04   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1    15.6
4  속초 2023-01-05   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2    23.8 

  지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  평균상대습도
1  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4    24.3
2  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9    18.3
3  속초 2023-01-04   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1    15.6
4  속초 2023-01-05   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2    23.8
5  속초 2023-01-06   3.5  -1.4   224.0   8.4  1333.0   NaN   1.6    36.4


In [158]:
drop_df2 = df.copy()
drop_df2.dropna(axis=1, inplace=True) 
print(drop_df2, '\n')

drop_df3 = df.copy()
drop_df3.dropna(axis=0, inplace=True) 
print(drop_df3, '\n')

        지점 지점명         일시
0       90  속초 2023-01-01
1       90  속초 2023-01-02
2       90  속초 2023-01-03
3       90  속초 2023-01-04
4       90  속초 2023-01-05
...    ...  ..        ...
34880  295  남해 2023-12-27
34881  295  남해 2023-12-28
34882  295  남해 2023-12-29
34883  295  남해 2023-12-30
34884  295  남해 2023-12-31

[34885 rows x 3 columns] 

        지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
6       90  속초 2023-01-07   2.5   0.0  2331.0   6.7  1235.0   3.0   1.7   
12      90  속초 2023-01-13   6.1   4.1   819.0   9.0   314.0  14.5   1.5   
13      90  속초 2023-01-14   3.8   0.0  1941.0   7.0    25.0  29.5   3.0   
14      90  속초 2023-01-15  -0.2  -2.0  2315.0   1.8     1.0  47.7   1.3   
15      90  속초 2023-01-16  -2.6  -6.8  2158.0   1.1  1414.0   0.0   1.4   
...    ...  ..        ...   ...   ...     ...   ...     ...   ...   ...   
34868  295  남해 2023-12-15  13.3   9.2  2400.0  18.8  1039.0   1.8   2.8   
34869  295  남해 2023-12-16   3.4  -1.1  2342.0   9.4    26.0 

In [162]:
drop_df4 = df.copy()
drop_df4.drop_duplicates(inplace=True)
print(drop_df4)

        지점 지점명         일시  평균기온  최저기온  최저기온시각  최고기온  최고기온시각  일강수량  평균풍속  \
0       90  속초 2023-01-01   3.2   0.3  2315.0   7.3  1346.0   NaN   3.0   
1       90  속초 2023-01-02  -0.5  -5.1   348.0   4.2  1537.0   NaN   1.4   
2       90  속초 2023-01-03   0.0  -5.1   754.0   5.6  1221.0   NaN   1.9   
3       90  속초 2023-01-04   0.7  -2.7   715.0   5.0  1300.0   NaN   2.1   
4       90  속초 2023-01-05   2.5  -1.6     2.0   7.0  1424.0   NaN   2.2   
...    ...  ..        ...   ...   ...     ...   ...     ...   ...   ...   
34880  295  남해 2023-12-27   5.4   2.4   406.0  10.8  1539.0   NaN   0.9   
34881  295  남해 2023-12-28   5.2   0.2   613.0  13.7  1415.0   NaN   1.5   
34882  295  남해 2023-12-29   3.8   0.3   642.0   8.7  1518.0   NaN   1.2   
34883  295  남해 2023-12-30   4.9  -1.1   735.0   9.8  1501.0   0.9   0.9   
34884  295  남해 2023-12-31   6.9   2.0  2157.0   9.8  1104.0   2.1   2.6   

       평균상대습도  
0        21.8  
1        24.3  
2        18.3  
3        15.6  
4        23.8  
...

### 4-5. 데이터프레임 재구조화

In [9]:
from pandas import read_csv
# [데이터 출처] 기상청, 기상자료개방포털, 종관기상관측(ASOS)
df = read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook_visual1/main/data/1-4_ASOS.csv')

new_cols = [ col.split('(')[0].replace(' ', '') for col in df.columns]
new_cols_dict = dict(zip(df.columns, new_cols))
df = df.rename(columns = new_cols_dict)
df['일시'] = df['일시'].astype('datetime64')
df['월'] = df['일시'].dt.month
df['요일'] = df['일시'].dt.weekday
df = df.filter(['지점명', '일시', '월', '요일', '평균기온', '일강수량', '평균풍속', '상대습도'])
print(df)

      지점명         일시   월  요일  평균기온  일강수량  평균풍속
0      속초 2023-01-01   1   6   3.2   NaN   3.0
1      속초 2023-01-02   1   0  -0.5   NaN   1.4
2      속초 2023-01-03   1   1   0.0   NaN   1.9
3      속초 2023-01-04   1   2   0.7   NaN   2.1
4      속초 2023-01-05   1   3   2.5   NaN   2.2
...    ..        ...  ..  ..   ...   ...   ...
34880  남해 2023-12-27  12   2   5.4   NaN   0.9
34881  남해 2023-12-28  12   3   5.2   NaN   1.5
34882  남해 2023-12-29  12   4   3.8   NaN   1.2
34883  남해 2023-12-30  12   5   4.9   0.9   0.9
34884  남해 2023-12-31  12   6   6.9   2.1   2.6

[34885 rows x 7 columns]


### - 행열 전환: T

In [10]:
print(df.head(3).T)

                        0                    1                    2
지점명                    속초                   속초                   속초
일시    2023-01-01 00:00:00  2023-01-02 00:00:00  2023-01-03 00:00:00
월                       1                    1                    1
요일                      6                    0                    1
평균기온                  3.2                 -0.5                  0.0
일강수량                  NaN                  NaN                  NaN
평균풍속                  3.0                  1.4                  1.9


### - 범주형 변수를 기준으로 집계: groupby

In [19]:
print(df.groupby(['월', '요일']).mean().round(2), "\n")
print(df.groupby('월').agg({'mean', 'min', 'max'}).round(1))

       평균기온   일강수량  평균풍속
월  요일                   
1  0   0.29   0.54  2.30
   1  -2.00   2.42  2.40
   2  -2.05   0.37  1.61
   3   0.51   0.99  1.28
   4   1.67  11.85  2.46
...     ...    ...   ...
12 2   3.45   1.80  1.86
   3   2.70  16.84  2.21
   4   2.61  18.41  2.22
   5   2.72   2.04  2.10
   6   2.46   2.65  2.03

[84 rows x 3 columns] 

     요일          평균기온              일강수량             평균풍속           
   mean min max  mean   min   max  mean  min    max mean  min   max
월                                                                  
1   2.9   0   6  -0.1 -17.8  17.3   4.5  0.0  108.9  2.0  0.0  19.3
2   3.0   0   6   2.8  -9.3  14.4   2.8  0.0   39.1  1.8  0.0  14.0
3   3.0   0   6   9.5  -2.9  20.6   5.3  0.0   63.4  1.9  0.2  12.2
4   3.2   0   6  13.2   3.6  23.6   5.9  0.0  130.4  2.2  0.1  13.2
5   2.8   0   6  17.9   5.1  30.1  16.3  0.0  287.8  1.9  0.2  13.1
6   3.0   0   6  22.3  13.4  29.2  14.6  0.0  162.1  1.8  0.3   9.2
7   3.1   0   6  25.5  17.4  31.7  24.

### - 날짜/시간 변수를 기준으로 집계: resample

In [4]:
resample_df = df.set_index('일시')
print(resample_df)

           지점명   월  요일  평균기온  일강수량  평균풍속
일시                                      
2023-01-01  속초   1   6   3.2   NaN   3.0
2023-01-02  속초   1   0  -0.5   NaN   1.4
2023-01-03  속초   1   1   0.0   NaN   1.9
2023-01-04  속초   1   2   0.7   NaN   2.1
2023-01-05  속초   1   3   2.5   NaN   2.2
...         ..  ..  ..   ...   ...   ...
2023-12-27  남해  12   2   5.4   NaN   0.9
2023-12-28  남해  12   3   5.2   NaN   1.5
2023-12-29  남해  12   4   3.8   NaN   1.2
2023-12-30  남해  12   5   4.9   0.9   0.9
2023-12-31  남해  12   6   6.9   2.1   2.6

[34885 rows x 6 columns]


In [19]:
print(resample_df.resample(rule='3M').max(), '\n')
print(resample_df.resample(rule='Q').count())

            지점명   월  요일  평균기온   일강수량  평균풍속
일시                                        
2023-01-31  흑산도   1   6  17.3  108.9  19.3
2023-04-30  흑산도   4   6  23.6  130.4  14.0
2023-07-31  흑산도   7   6  31.7  372.8  13.1
2023-10-31  흑산도  10   6  33.4  368.7  14.2
2024-01-31  흑산도  12   6  24.3   94.4  20.9 

             지점명     월    요일  평균기온  일강수량  평균풍속
일시                                            
2023-03-31  8542  8542  8542  8539  2138  8525
2023-06-30  8694  8694  8694  8682  3639  8692
2023-09-30  8817  8817  8817  8805  4658  8787
2023-12-31  8832  8832  8832  8822  3059  8820


### - 열과 행에 새로운 변수를 지정하여 집계 (1): pivot_table

In [6]:
print(df.pivot_table(index='지점명', columns='월', values='평균기온', aggfunc='mean').round(2))

월      1     2      3      4      5      6      7      8      9      10  \
지점명                                                                       
강릉   2.41  5.19  12.07  15.26  20.29  23.15  27.45  26.21  22.40  16.97   
강진군  1.77  4.00  10.03  13.54  18.32  22.87  26.08  27.64  24.14  16.38   
강화  -3.08  0.40   7.07  11.78  16.69  20.86  24.75  25.15  21.90  14.28   
거제   3.09  5.81  11.38  14.18  17.68  22.15  25.23  27.15  23.61  16.59   
거창  -0.92  2.23   9.11  12.51  17.29  22.10  24.91  25.74  21.42  12.79   
..    ...   ...    ...    ...    ...    ...    ...    ...    ...    ...   
합천  -0.10  3.44  10.54  14.00  18.44  23.17  25.78  27.02  23.10  15.15   
해남   1.67  3.24   9.19  13.22  18.01  22.34  26.01  26.94  23.68  15.88   
홍성  -1.12  1.51   8.48  13.08  18.51  22.82  26.02  26.55  22.74  15.18   
홍천  -4.40  0.21   8.03  12.35  17.72  22.31  25.46  25.70  21.53  12.30   
흑산도  4.22  4.40   8.28  11.76  15.56  19.85  23.06  25.48  22.73  17.69   

월       11    12  
지점명  

In [7]:
print(df.pivot_table(index=['지점명', '요일'], columns=['월'], values='평균기온', aggfunc='max').round(2))

월         1     2     3     4     5     6     7     8     9     10    11    12
지점명 요일                                                                        
강릉  0    6.9  12.2  15.6  19.3  22.2  26.3  30.5  27.6  25.1  18.1  17.8   8.8
    1    6.9  12.2  18.7  19.6  30.1  26.0  30.7  30.5  26.9  20.1  15.1   7.8
    2   10.8   6.0  17.9  16.0  28.7  28.3  30.4  32.9  23.7  20.4  21.5   9.7
    3   12.7   9.4  20.6  23.6  23.9  26.3  31.1  33.4  23.5  20.0  24.3   8.6
    4    9.3   7.6  17.5  22.1  23.0  26.1  31.7  33.2  24.7  17.7  21.4  13.4
...      ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...
흑산도 2    6.3   5.4  11.6  13.9  18.3  22.5  24.7  27.1  24.2  19.7  20.0  11.9
    3   10.2   4.8  11.2  14.9  17.3  23.2  24.9  26.9  24.2  18.9  19.7  13.0
    4   11.6   5.3  11.7  12.9  17.7  22.1  24.6  27.0  23.8  18.3  19.3  15.2
    5    6.2   7.6   9.8  13.0  19.2  20.3  25.2  26.5  23.8  18.4  19.0  15.0
    6    7.4   5.2   8.2  14.7  17.9  21.0  25.8  26

### - 열과 행에 새로운 변수를 지정하여 집계 (2): crosstab

In [8]:
from pandas import crosstab
print(crosstab(index=df['지점명'], columns=df['월'], values=df['평균기온'], aggfunc='mean').round(2))

월      1     2      3      4      5      6      7      8      9      10  \
지점명                                                                       
강릉   2.41  5.19  12.07  15.26  20.29  23.15  27.45  26.21  22.40  16.97   
강진군  1.77  4.00  10.03  13.54  18.32  22.87  26.08  27.64  24.14  16.38   
강화  -3.08  0.40   7.07  11.78  16.69  20.86  24.75  25.15  21.90  14.28   
거제   3.09  5.81  11.38  14.18  17.68  22.15  25.23  27.15  23.61  16.59   
거창  -0.92  2.23   9.11  12.51  17.29  22.10  24.91  25.74  21.42  12.79   
..    ...   ...    ...    ...    ...    ...    ...    ...    ...    ...   
합천  -0.10  3.44  10.54  14.00  18.44  23.17  25.78  27.02  23.10  15.15   
해남   1.67  3.24   9.19  13.22  18.01  22.34  26.01  26.94  23.68  15.88   
홍성  -1.12  1.51   8.48  13.08  18.51  22.82  26.02  26.55  22.74  15.18   
홍천  -4.40  0.21   8.03  12.35  17.72  22.31  25.46  25.70  21.53  12.30   
흑산도  4.22  4.40   8.28  11.76  15.56  19.85  23.06  25.48  22.73  17.69   

월       11    12  
지점명  

In [9]:
print(crosstab(index=[df['지점명'], df['요일']], columns=df['월'], values=df['평균기온'], aggfunc='max').round(2))

월         1     2     3     4     5     6     7     8     9     10    11    12
지점명 요일                                                                        
강릉  0    6.9  12.2  15.6  19.3  22.2  26.3  30.5  27.6  25.1  18.1  17.8   8.8
    1    6.9  12.2  18.7  19.6  30.1  26.0  30.7  30.5  26.9  20.1  15.1   7.8
    2   10.8   6.0  17.9  16.0  28.7  28.3  30.4  32.9  23.7  20.4  21.5   9.7
    3   12.7   9.4  20.6  23.6  23.9  26.3  31.1  33.4  23.5  20.0  24.3   8.6
    4    9.3   7.6  17.5  22.1  23.0  26.1  31.7  33.2  24.7  17.7  21.4  13.4
...      ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...
흑산도 2    6.3   5.4  11.6  13.9  18.3  22.5  24.7  27.1  24.2  19.7  20.0  11.9
    3   10.2   4.8  11.2  14.9  17.3  23.2  24.9  26.9  24.2  18.9  19.7  13.0
    4   11.6   5.3  11.7  12.9  17.7  22.1  24.6  27.0  23.8  18.3  19.3  15.2
    5    6.2   7.6   9.8  13.0  19.2  20.3  25.2  26.5  23.8  18.4  19.0  15.0
    6    7.4   5.2   8.2  14.7  17.9  21.0  25.8  26

### - 변수와 값을 기준으로 재구조화: melt

In [37]:
df_melt = df.melt()
print(df_melt, "\n")

print(list(df.columns)) 
print(df_melt['variable'].unique()) 

       variable value
0           지점명    속초
1           지점명    속초
2           지점명    속초
3           지점명    속초
4           지점명    속초
...         ...   ...
244190     평균풍속   0.9
244191     평균풍속   1.5
244192     평균풍속   1.2
244193     평균풍속   0.9
244194     평균풍속   2.6

[244195 rows x 2 columns] 

['지점명', '일시', '월', '요일', '평균기온', '일강수량', '평균풍속']
['지점명' '일시' '월' '요일' '평균기온' '일강수량' '평균풍속']


In [35]:
df_melt1 = df.melt(id_vars=['지점명'])
print(df_melt1, "\n")

print(list(df.columns)) 
print(df_melt1['variable'].unique()) 

       지점명 variable                value
0       속초       일시  2023-01-01 00:00:00
1       속초       일시  2023-01-02 00:00:00
2       속초       일시  2023-01-03 00:00:00
3       속초       일시  2023-01-04 00:00:00
4       속초       일시  2023-01-05 00:00:00
...     ..      ...                  ...
209305  남해     평균풍속                  0.9
209306  남해     평균풍속                  1.5
209307  남해     평균풍속                  1.2
209308  남해     평균풍속                  0.9
209309  남해     평균풍속                  2.6

[209310 rows x 3 columns] 

['지점명', '일시', '월', '요일', '평균기온', '일강수량', '평균풍속']
['일시' '월' '요일' '평균기온' '일강수량' '평균풍속']


In [36]:
df_melt2 = df.melt(id_vars=['지점명'], value_vars=['평균기온', '평균풍속'])
print(df_melt2, "\n")

print(list(df.columns)) 
print(df_melt2['variable'].unique()) 

      지점명 variable  value
0      속초     평균기온    3.2
1      속초     평균기온   -0.5
2      속초     평균기온    0.0
3      속초     평균기온    0.7
4      속초     평균기온    2.5
...    ..      ...    ...
69765  남해     평균풍속    0.9
69766  남해     평균풍속    1.5
69767  남해     평균풍속    1.2
69768  남해     평균풍속    0.9
69769  남해     평균풍속    2.6

[69770 rows x 3 columns] 

['지점명', '일시', '월', '요일', '평균기온', '일강수량', '평균풍속']
['평균기온' '평균풍속']


### 4-6. 데이터프레임 연결하기: merge, concat

In [1]:
from pandas import read_csv
# [데이터 출처] 기상청, 기상자료개방포털, 종관기상관측(ASOS), https://data.kma.go.kr
df = read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook_visual1/main/data/1-4_ASOS.csv')

new_cols = [ col.split('(')[0].replace(' ', '') for col in df.columns]
new_cols_dict = dict(zip(df.columns, new_cols))
df = df.rename(columns = new_cols_dict)

df['일시'] = df['일시'].astype('datetime64')
df['날짜'] = df['일시']

df1 = df.filter(['일시', '지점명', '평균기온']).query("일시 <= '2023-05-31'")
df2 = df.filter(['일시', '지점명', '평균풍속'])
df3 = df.filter(['날짜', '지점명', '최고기온'])
df11 = df1.query("일시 <= '2023-05-31'").groupby('일시').mean()
df33 = df3.query("날짜 > '2023-05-31'").groupby('날짜').mean()

In [2]:
print(df1, "\n") 
print(df2) 

              일시 지점명  평균기온
0     2023-01-01  속초   3.2
1     2023-01-02  속초  -0.5
2     2023-01-03  속초   0.0
3     2023-01-04  속초   0.7
4     2023-01-05  속초   2.5
...          ...  ..   ...
34666 2023-05-27  남해  21.8
34667 2023-05-28  남해  21.8
34668 2023-05-29  남해  22.3
34669 2023-05-30  남해  19.1
34670 2023-05-31  남해  20.0

[14366 rows x 3 columns] 

              일시 지점명  평균풍속
0     2023-01-01  속초   3.0
1     2023-01-02  속초   1.4
2     2023-01-03  속초   1.9
3     2023-01-04  속초   2.1
4     2023-01-05  속초   2.2
...          ...  ..   ...
34880 2023-12-27  남해   0.9
34881 2023-12-28  남해   1.5
34882 2023-12-29  남해   1.2
34883 2023-12-30  남해   0.9
34884 2023-12-31  남해   2.6

[34885 rows x 3 columns]


In [3]:
from pandas import merge
print(merge(df1, df2, on=['일시', '지점명'], how='inner'))

              일시 지점명  평균기온  평균풍속
0     2023-01-01  속초   3.2   3.0
1     2023-01-02  속초  -0.5   1.4
2     2023-01-03  속초   0.0   1.9
3     2023-01-04  속초   0.7   2.1
4     2023-01-05  속초   2.5   2.2
...          ...  ..   ...   ...
14361 2023-05-27  남해  21.8   1.6
14362 2023-05-28  남해  21.8   1.9
14363 2023-05-29  남해  22.3   1.5
14364 2023-05-30  남해  19.1   0.7
14365 2023-05-31  남해  20.0   1.7

[14366 rows x 4 columns]


In [4]:
print(merge(df1, df2, on=['일시', '지점명'], how='right'))

              일시 지점명  평균기온  평균풍속
0     2023-01-01  속초   3.2   3.0
1     2023-01-02  속초  -0.5   1.4
2     2023-01-03  속초   0.0   1.9
3     2023-01-04  속초   0.7   2.1
4     2023-01-05  속초   2.5   2.2
...          ...  ..   ...   ...
34880 2023-12-27  남해   NaN   0.9
34881 2023-12-28  남해   NaN   1.5
34882 2023-12-29  남해   NaN   1.2
34883 2023-12-30  남해   NaN   0.9
34884 2023-12-31  남해   NaN   2.6

[34885 rows x 4 columns]


In [5]:
print(df2, "\n") 
print(df3) 

              일시 지점명  평균풍속
0     2023-01-01  속초   3.0
1     2023-01-02  속초   1.4
2     2023-01-03  속초   1.9
3     2023-01-04  속초   2.1
4     2023-01-05  속초   2.2
...          ...  ..   ...
34880 2023-12-27  남해   0.9
34881 2023-12-28  남해   1.5
34882 2023-12-29  남해   1.2
34883 2023-12-30  남해   0.9
34884 2023-12-31  남해   2.6

[34885 rows x 3 columns] 

              날짜 지점명  최고기온
0     2023-01-01  속초   7.3
1     2023-01-02  속초   4.2
2     2023-01-03  속초   5.6
3     2023-01-04  속초   5.0
4     2023-01-05  속초   7.0
...          ...  ..   ...
34880 2023-12-27  남해  10.8
34881 2023-12-28  남해  13.7
34882 2023-12-29  남해   8.7
34883 2023-12-30  남해   9.8
34884 2023-12-31  남해   9.8

[34885 rows x 3 columns]


In [6]:
print(merge(df2, df3, left_on=['일시', '지점명'], right_on=['날짜', '지점명']))

              일시 지점명  평균풍속         날짜  최고기온
0     2023-01-01  속초   3.0 2023-01-01   7.3
1     2023-01-02  속초   1.4 2023-01-02   4.2
2     2023-01-03  속초   1.9 2023-01-03   5.6
3     2023-01-04  속초   2.1 2023-01-04   5.0
4     2023-01-05  속초   2.2 2023-01-05   7.0
...          ...  ..   ...        ...   ...
34880 2023-12-27  남해   0.9 2023-12-27  10.8
34881 2023-12-28  남해   1.5 2023-12-28  13.7
34882 2023-12-29  남해   1.2 2023-12-29   8.7
34883 2023-12-30  남해   0.9 2023-12-30   9.8
34884 2023-12-31  남해   2.6 2023-12-31   9.8

[34885 rows x 5 columns]


In [7]:
print(df11, "\n")
print(df33) 

                 평균기온
일시                   
2023-01-01   0.957895
2023-01-02  -1.653684
2023-01-03  -2.270526
2023-01-04  -1.078947
2023-01-05  -0.160000
...               ...
2023-05-27  20.611458
2023-05-28  20.275000
2023-05-29  20.586458
2023-05-30  20.201042
2023-05-31  20.351042

[151 rows x 1 columns] 

                 최고기온
날짜                   
2023-06-01  23.240625
2023-06-02  27.062500
2023-06-03  27.207292
2023-06-04  27.766667
2023-06-05  26.131250
...               ...
2023-12-27   9.054167
2023-12-28   8.490625
2023-12-29   7.981250
2023-12-30   7.127083
2023-12-31   7.506250

[214 rows x 1 columns]


In [8]:
print(merge(df11, df33, left_index=True, right_index=True, how='outer'))

                평균기온      최고기온
2023-01-01  0.957895       NaN
2023-01-02 -1.653684       NaN
2023-01-03 -2.270526       NaN
2023-01-04 -1.078947       NaN
2023-01-05 -0.160000       NaN
...              ...       ...
2023-12-27       NaN  9.054167
2023-12-28       NaN  8.490625
2023-12-29       NaN  7.981250
2023-12-30       NaN  7.127083
2023-12-31       NaN  7.506250

[365 rows x 2 columns]


In [10]:
df_a = df.query("일시<='2023-05-31' and 지점명=='남해'")[['일시', '최고기온']]
df_b = df.query("일시>'2023-05-31' and 지점명=='남해'")[['일시', '최고기온']]
df_c = df.query("지점명=='남해'")[['최저기온']]

print(df_a, "\n") 
print(df_b, "\n") 
print(df_c)

              일시  최고기온
34520 2023-01-01   8.9
34521 2023-01-02   6.8
34522 2023-01-03   6.1
34523 2023-01-04   8.1
34524 2023-01-05   7.9
...          ...   ...
34666 2023-05-27  24.7
34667 2023-05-28  23.0
34668 2023-05-29  25.1
34669 2023-05-30  20.4
34670 2023-05-31  25.3

[151 rows x 2 columns] 

              일시  최고기온
34671 2023-06-01  18.2
34672 2023-06-02  30.6
34673 2023-06-03  27.3
34674 2023-06-04  28.2
34675 2023-06-05  26.6
...          ...   ...
34880 2023-12-27  10.8
34881 2023-12-28  13.7
34882 2023-12-29   8.7
34883 2023-12-30   9.8
34884 2023-12-31   9.8

[214 rows x 2 columns] 

       최저기온
34520  -1.3
34521  -3.3
34522  -4.5
34523  -3.4
34524  -2.0
...     ...
34880   2.4
34881   0.2
34882   0.3
34883  -1.1
34884   2.0

[365 rows x 1 columns]


In [13]:
from pandas import concat 
concat_ab = concat([df_a, df_b], axis=0)
print(concat_ab) 

              일시  최고기온
34520 2023-01-01   8.9
34521 2023-01-02   6.8
34522 2023-01-03   6.1
34523 2023-01-04   8.1
34524 2023-01-05   7.9
...          ...   ...
34880 2023-12-27  10.8
34881 2023-12-28  13.7
34882 2023-12-29   8.7
34883 2023-12-30   9.8
34884 2023-12-31   9.8

[365 rows x 2 columns]


In [14]:
print(concat([concat_ab, df_c], axis=1))

              일시  최고기온  최저기온
34520 2023-01-01   8.9  -1.3
34521 2023-01-02   6.8  -3.3
34522 2023-01-03   6.1  -4.5
34523 2023-01-04   8.1  -3.4
34524 2023-01-05   7.9  -2.0
...          ...   ...   ...
34880 2023-12-27  10.8   2.4
34881 2023-12-28  13.7   0.2
34882 2023-12-29   8.7   0.3
34883 2023-12-30   9.8  -1.1
34884 2023-12-31   9.8   2.0

[365 rows x 3 columns]


### 4-7. 데이터프레임과 유용한 메서드들

In [18]:
from pandas import read_csv
# [데이터 출처] 기상청, 기상자료개방포털, 종관기상관측(ASOS), https://data.kma.go.kr
df = read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook_visual1/main/data/1-4_ASOS.csv')

new_cols = [ col.split('(')[0].replace(' ', '') for col in df.columns]
new_cols_dict = dict(zip(df.columns, new_cols))
df = df.rename(columns = new_cols_dict)

df['월'] = df['일시'].astype('datetime64[ns]').dt.month
df = df.query("지점명=='남해'")[['월', '최저기온', '평균상대습도', '평균풍속']]

print(df)

        월  최저기온  평균상대습도  평균풍속
34520   1  -1.3    56.3   2.1
34521   1  -3.3    37.5   1.1
34522   1  -4.5    49.4   1.3
34523   1  -3.4    55.1   1.4
34524   1  -2.0    70.3   0.9
...    ..   ...     ...   ...
34880  12   2.4    61.5   0.9
34881  12   0.2    68.6   1.5
34882  12   0.3    66.4   1.2
34883  12  -1.1    81.5   0.9
34884  12   2.0    71.3   2.6

[365 rows x 4 columns]


### - 범주형 변수의 정보 확인: unique, nunique, value_counts

In [19]:
print(df['월'].unique(), df['월'].nunique(), '\n') 
print(df['월'].value_counts(), '\n') 
print(df['월'].value_counts(normalize=True).round(3))

[ 1  2  3  4  5  6  7  8  9 10 11 12] 12 

1     31
3     31
5     31
7     31
8     31
10    31
12    31
4     30
6     30
9     30
11    30
2     28
Name: 월, dtype: int64 

1     0.085
3     0.085
5     0.085
7     0.085
8     0.085
10    0.085
12    0.085
4     0.082
6     0.082
9     0.082
11    0.082
2     0.077
Name: 월, dtype: float64


### - 데이터 정렬: sort_values

In [23]:
print(df.sort_values(by='최저기온', ascending=False)) 

        월  최저기온  평균상대습도  평균풍속
34754   8  26.3    81.3   NaN
34737   8  25.9    77.9   1.3
34738   8  25.7    76.5   1.2
34753   8  25.6    81.6   NaN
34739   8  25.5    74.9   1.7
...    ..   ...     ...   ...
34545   1  -6.9    55.8   1.0
34547   1  -7.7    47.4   2.4
34875  12  -7.8    53.0   2.0
34543   1  -8.4    37.0   4.8
34544   1 -11.7    36.0   1.4

[365 rows x 4 columns]


### - 통계: sum, mean, median, std, var, max, min, mode, cumsum, quantile, rank

In [27]:
df = df.set_index('월') 
print("mean\n", df.mean(), '\n')
print("std\n", df.std(), '\n')
print("max\n", df.max(), '\n')
print("quantile\n", df.quantile(0.75), '\n') 
print("rank\n", df.rank())

mean
 최저기온      11.289863
평균상대습도    70.581918
평균풍속       1.438983
dtype: float64 

std
 최저기온       9.312468
평균상대습도    16.071639
평균풍속       0.661619
dtype: float64 

max
 최저기온      26.3
평균상대습도    98.8
평균풍속       4.8
dtype: float64 

quantile
 최저기온      20.1
평균상대습도    83.4
평균풍속       1.7
Name: 0.75, dtype: float64 

rank
     최저기온  평균상대습도   평균풍속
월                      
1   41.5    81.0  302.5
1   19.0     9.0  124.0
1   10.0    43.0  196.5
1   18.0    70.0  222.0
1   32.5   164.0   54.5
..   ...     ...    ...
12  80.0   109.5   54.5
12  59.0   158.5  239.0
12  60.0   146.0  162.0
12  45.5   260.0   54.5
12  75.5   169.0  334.0

[365 rows x 3 columns]


### - 왜도와 첨도: skew, kurtosis

In [29]:
print('skew\n', df.skew(), "\n") 
print('kurtosis\n', df.kurtosis()) 

skew
 최저기온     -0.166602
평균상대습도   -0.311579
평균풍속      1.631168
dtype: float64 

kurtosis
 최저기온     -1.158576
평균상대습도   -0.691205
평균풍속      3.631410
dtype: float64


### - 공분산과 상관계수: cov, corr

In [31]:
print('cov\n', df.cov(), "\n") 
print('corr\n', df.corr(method='pearson')) 

cov
               최저기온      평균상대습도      평균풍속
최저기온     86.722067  101.586574 -1.128916
평균상대습도  101.586574  258.297584 -3.242020
평균풍속     -1.128916   -3.242020  0.437739 

corr
             최저기온    평균상대습도      평균풍속
최저기온    1.000000  0.678752 -0.186091
평균상대습도  0.678752  1.000000 -0.303989
평균풍속   -0.186091 -0.303989  1.000000


## 연습문제

### 1. 다음은 2021년 국내 학생건강검사 표본조사 원자료 중 일부의 데이터이다. 데이터의 행과 열의 크기, 변수명, 변수 별 결측치의 개수, 변수 별 데이터 타입 등 기본 정보를 출력하시오.

In [44]:
# [출처] 교육부, 학생건강정보센터, 학생건강검사 표본조사 원자료 (2021)
# https://www.data.go.kr/data/15100360/fileData.do?recommendDataYn=Y
from pandas import read_csv
df = read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook_visual1/main/data/1-4_studentHealth2021.csv')

### 2. 데이터프레임 df의 데이터 중 결측치가 있는 행을 삭제하고, 인덱스를 초기화 하시오. 적용 후, df의 행과 열의 크기를 출력하시오. (단, 기존의 인덱스는 데이터에서 제거한다.)

### 3. 데이터프레임 df의 변수 중, '혈당(식전)(mg_dl)', '총콜레스테롤(mg_dl)', '충치치아_유무'의 컬럼명을 '식전혈당', '총콜레스테롤', '충치유무'로 변경하여 데이터프레임 df2를 생성하고, 첫 5개 행을 출력하시오.

### 4. 데이터프레임 df2의 변수 중, 범주형 변수인 '도시규모'와 '학교급'의 범주들을 출력하고, 각각 도시 규모와 학교급 순의 수치형 변수로 값을 변환하여 해당 데이터프레임에 적용하시오. 적용 후 df2의 첫 5개 행을 출력하시오. (단, 도시 규모 및 학교급 크기에 따라 1, 2, 3으로 지정한다.)

### 5. 데이터프레임 df2의 변수 중, 범주형 변수인 '성별'과 '충치유무'의 범주들을 출력하고 수치형 변수로 값을 변환하여 해당 데이터프레임에 적용하시오. 적용 후 df2의 첫 5개 행을 출력하시오. (단, 남자 1, 여자 0으로 충치 유 1, 무 0, 검사안함은 -1로 지정한다.)

### 6. 데이터프레임 df2의 수치형 변수인 '키', '몸무게', '식전혈당', '총콜레스테롤', '허리둘레'를 소수점 첫째자리까지 반올림하고, '충치유무', '라면', '음료수', '패스트푸드', '육류', '과일', '아침식사'의 데이터 타입을 정수로 변경하여 적용하시오. 적용 후 df2의 첫 5개 행을 출력하시오. 

### 7. 데이터프레임 df2의 복사본인 df3를 생성하고, '생년월일'과 '건강검진일'로 응답 당시의 만 나이를 계산하여 '연령'이라는 파생변수를 생성하고 적용하시오. df3의 '생년월일'과 '건강검진일' 컬럼은 삭제한 후, df3의 첫 5개 행을 출력하시오.

### 8. 데이터프레임 df3에서 '연령'이 0인 데이터를 삭제하고 데이터의 인덱스를 초기화 하시오. 적용 후, df3의 행과 열의 크기를 출력하시오. (단, 기존의 인덱스는 데이터에서 제거한다.)

### 9. 데이터프레임 df3의 '키', '몸무게'로 체질량지수를 계산하여 'BMI'라는 파생변수를 생성하고 적용한 후, df3의 첫 5개 행을 출력하시오. (단, 체질량지수는 몸무게(kg)를 키(m)의 제곱으로 나눈 값으로 소수점 첫째자리까지 반올림 한다. 본 데이터의 몸무게와 키의 단위는 각각 kg, cm임을 유의한다.) 

### 10. 데이터프레임 df3으로 학교급과 성별에 따른 키, 몸무게, 허리둘레, BMI의 평균을 출력하시오.

### 11. 데이터프레임 df3의 'BMI'로 아래 기준에 따라 '체중구분'이라는 파생변수를 생성하여 적용하고, df3의 첫 5개 행을 출력하시오.  
[기준]
- 저체중: BMI 18.5 미만
- 정상 체중: BMI 18.5 이상 24.9 이하
- 과체중: BMI 25 이상 29.9 이하
- 비만: 30 이상

### 12. 데이터프레임 df3에서 체중구분에 따른 학생수와 그 비율을 데이터프레임으로 생성하여 출력하시오.

### 13. 데이터프레임 df3으로 학교급, 성별, 체중구분에 따른 학생수를 출력하시오.

### 14. 데이터프레임 df3으로 학교급, 성별, 체중구분에 따른 BMI의 평균, 최솟값, 최댓값을 출력하시오.