## 데이터프레임의 구조
* 2차원의 스프레드시트 형식의 자료구조
* 반드시 칼럼(column)이 존재하고,각 칼럼에는 서로 다른 종류의 값을 담을 수 있다
* row(종)와 column(횡)에 대해 각각의 색인을 갖고 있는데, row에 관한 색인이 index, column에 대한 색인은 칼럼명

In [1]:
import pandas as pd

In [2]:
# 1. 데이터프레임 생성 : 첫번째 방법 (씨리즈로부터 만들기)

# 다음과 같은 세 개의 Series가 있다고 하자.
# 각 Series는 이름, 과목, 성적이라는 특징을 갖는다.

record1 = pd.Series({'Name': 'Alice',
                     'Class': 'Physics',
                     'Score': 85})
record2 = pd.Series({'Name': 'Jack',
                     'Class': 'Chemistry',
                     'Score': 82})
record3 = pd.Series({'Name': 'Helen',
                     'Class': 'Biology',
                     'Score': 90})

In [3]:
record1

Name       Alice
Class    Physics
Score         85
dtype: object

In [4]:
record2

Name          Jack
Class    Chemistry
Score           82
dtype: object

In [5]:
record3

Name       Helen
Class    Biology
Score         90
dtype: object

In [6]:
#각 공통적인 특징(여기서는 딕셔너리의 key를 칼럼명)을 인식해 데이터프레임으로 변환한다.

df = pd.DataFrame([record1, record2, record3],
                  index=['school1', 'school2', 'school1'])
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [7]:
#만약 인덱스를 따로 지정하지 않으면?
# 0부터 1씩 증가하는 기본 인덱스로 생성된다.

df1 = pd.DataFrame([record1, record2, record3])



In [8]:
# 2. 데이터프레임 생성 : 두번째 방법 (리스트 안의 딕셔너리로부터 만들기)

#다음과 같이 리스트 안에 딕셔너리가 3개 들어가 있다.

students = [{'Name': 'Alice','Class': 'Physics','Score': 85},
            {'Name': 'Jack', 'Class': 'Chemistry','Score': 82},
            {'Name': 'Helen','Class': 'Biology','Score': 90}]

df2 = pd.DataFrame(students, index=['school1', 'school2', 'school1'])
df2

# 이미 딕셔너리들이 []의 리스트 형식으로 감싸져 있으므로, 다시 []로 감쌀 필요가 없다. 
# 1번째 경우의 형식과 비교하시기 바람

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [9]:
# 3. 데이터프레임 생성 : 세번째 방법 (딕셔너리 안의 리스트로부터 만들기)

students = {'Name' : ['Alice','Jack','Helen'],
            'Class': ['Phisics','Chemistry','Biology'],
            'Score': [85,82,90]}

df3 = pd.DataFrame(students, index=['school1', 'school2', 'school1'])
df3

Unnamed: 0,Name,Class,Score
school1,Alice,Phisics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [10]:
# 4. 데이터프레임의 생성 : 네번재 방법 (외부 데이터로부터 불러 오기)
# 직접 만드는 것이 아니므로, pd.DataFrame() 형식이 아니고,
# pd.read_csv(), pd.read_excel() 형식이 된다.

df4 = pd.read_csv('./seoul_2021.csv', encoding='utf-8')

# 행이 많으므로, 상위 5개 row만 출력해 본다

df4.head()

Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,,...,1.4,2.9,6.8,9.7,15.9,17.5,1.1,1.6,,
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,,...,1.2,2.6,6.6,9.6,15.8,17.5,1.4,2.0,,
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,,...,1.0,2.5,6.5,9.5,15.7,17.4,1.0,1.5,,
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,2.33,,,...,0.8,2.3,6.3,9.4,15.6,17.4,0.9,1.3,0.0,
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,5.42,,,...,0.8,2.2,6.2,9.3,15.5,17.3,1.2,1.7,,


In [11]:
#  앞으로 우리가 다뤄야 할 데이터이므로, 조금 정리해 보자
# 어떤 데이터 항목들이 있는지는 칼럼명을 보면 알 수 있으므로 칼럼명을 출력해 보자

df4.columns

Index(['지점', '일시', '평균기온(°C)', '최저기온(°C)', '최저기온 시각(hhmi)', '최고기온(°C)',
       '최고기온 시각(hhmi)', '강수 계속시간(hr)', '10분 최다 강수량(mm)', '10분 최다강수량 시각(hhmi)',
       '1시간 최다강수량(mm)', '1시간 최다 강수량 시각(hhmi)', '일강수량(mm)', '최대 순간 풍속(m/s)',
       '최대 순간 풍속 풍향(16방위)', '최대 순간풍속 시각(hhmi)', '최대 풍속(m/s)', '최대 풍속 풍향(16방위)',
       '최대 풍속 시각(hhmi)', '평균 풍속(m/s)', '풍정합(100m)', '평균 이슬점온도(°C)',
       '최소 상대습도(%)', '최소 상대습도 시각(hhmi)', '평균 상대습도(%)', '평균 증기압(hPa)',
       '평균 현지기압(hPa)', '최고 해면기압(hPa)', '최고 해면기압 시각(hhmi)', '최저 해면기압(hPa)',
       '최저 해면기압 시각(hhmi)', '평균 해면기압(hPa)', '가조시간(hr)', '합계 일조시간(hr)',
       '1시간 최다일사 시각(hhmi)', '1시간 최다일사량(MJ/m2)', '합계 일사량(MJ/m2)', '일 최심신적설(cm)',
       '일 최심신적설 시각(hhmi)', '일 최심적설(cm)', '일 최심적설 시각(hhmi)', '합계 3시간 신적설(cm)',
       '평균 전운량(1/10)', '평균 중하층운량(1/10)', '평균 지면온도(°C)', '최저 초상온도(°C)',
       '평균 5cm 지중온도(°C)', '평균 10cm 지중온도(°C)', '평균 20cm 지중온도(°C)',
       '평균 30cm 지중온도(°C)', '0.5m 지중온도(°C)', '1.0m 지중온도(°C)', '1.5m 지중온도(°C)',
       '3.0m 지중온도(°C)', '5.0m 지중온도(°C

In [12]:
# 너무 항목명이 많아서 다 분석하기 벅찰듯 보이므로, 
# 일부 칼럼은 없애고 새로운 데이터프레임을 만들어 보자.
# 위의 출력 결과를 복붙한 다음, 필요 없는 부분을 삭제하면 된다.

new_columns = ['지점', '일시', '평균기온(°C)', '최저기온(°C)', '최저기온 시각(hhmi)', '최고기온(°C)',
               '최고기온 시각(hhmi)', '1시간 최다강수량(mm)', '일강수량(mm)', '평균 풍속(m/s)', '평균 현지기압(hPa)', 
               '합계 일조시간(hr)','평균 지면온도(°C)']

df = df4[new_columns]

df.head()

Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),1시간 최다강수량(mm),일강수량(mm),평균 풍속(m/s),평균 현지기압(hPa),합계 일조시간(hr),평균 지면온도(°C)
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,2.0,1014.9,6.5,-3.4
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,2.6,1018.5,9.0,-3.9
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,2.0,1023.0,5.5,-4.9
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,,0.0,1.7,1020.3,4.6,-3.3
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,,0.0,2.9,1019.2,8.6,-3.2


In [13]:
df.columns

Index(['지점', '일시', '평균기온(°C)', '최저기온(°C)', '최저기온 시각(hhmi)', '최고기온(°C)',
       '최고기온 시각(hhmi)', '1시간 최다강수량(mm)', '일강수량(mm)', '평균 풍속(m/s)',
       '평균 현지기압(hPa)', '합계 일조시간(hr)', '평균 지면온도(°C)'],
      dtype='object')

In [14]:
# 칼럼명들이 너무 길어서 불편하므로, 바꾸어 보자.

# 몇 개 바꿀 경우에는

df3.rename({'Name':'성명','Class':'수업','Score':'점수'}, axis =1, inplace=True) 

#inplace = True를 넣으면 원본 df3가 변환된다. axis =1 은 칼럼축을 의미, axis = 0은 로우 축을 의미

In [15]:
df3

Unnamed: 0,성명,수업,점수
school1,Alice,Phisics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [16]:
# 인덱스도 rename으로 변환해 보자

df3.rename({'school1': 1000, 'school2':2000}, axis=0)

Unnamed: 0,성명,수업,점수
1000,Alice,Phisics,85
2000,Jack,Chemistry,82
1000,Helen,Biology,90


In [17]:
# 그러나, 칼럼이나 인덱스가 길면 상당히 불편하므로 그때는 직접 지정해서 연결해 준다
# df.columns = [.......] 또는 df.index = [..............]

#현재의 df의 칼럼들은...
df.columns

# 참고 : index 추출은 df.index

Index(['지점', '일시', '평균기온(°C)', '최저기온(°C)', '최저기온 시각(hhmi)', '최고기온(°C)',
       '최고기온 시각(hhmi)', '1시간 최다강수량(mm)', '일강수량(mm)', '평균 풍속(m/s)',
       '평균 현지기압(hPa)', '합계 일조시간(hr)', '평균 지면온도(°C)'],
      dtype='object')

In [18]:
#아래와 같이 정리했다고 치자

new_name=['지점', '일시', '평균기온', '최저기온', '최저기온시각', '최고기온','최고기온시각', 
          '1시간최다강수량', '일강수량', '평균풍속','평균기압', '합계일조시간', '평균지면온도']

In [19]:
df.columns = new_name

df.head()

Unnamed: 0,지점,일시,평균기온,최저기온,최저기온시각,최고기온,최고기온시각,1시간최다강수량,일강수량,평균풍속,평균기압,합계일조시간,평균지면온도
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,2.0,1014.9,6.5,-3.4
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,2.6,1018.5,9.0,-3.9
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,2.0,1023.0,5.5,-4.9
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,,0.0,1.7,1020.3,4.6,-3.3
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,,0.0,2.9,1019.2,8.6,-3.2


In [20]:
#위처럼, 깔끔하게 바뀐 것을 확인할 수 있다.
# 당분간 위의 정리된 것을 분석을 위해 사용할 것이므로, 외부 파일로 보내서 저장해 놓도록 하자

df.to_csv('./weather_tmp.csv', index = False, encoding='utf-8') 

#여기서 index = False를 생략하면 현재의 인덱스도 같이 외부 파일에 저장되는데, 
# 나중에 불러들일 때 인덱스가 두개가 되버리는 문제가 있다. 따라서 지금은 인덱스 없이 저장한다
# encoding의 경우, windows의 경우, euc-kr이나 cp949로 저장될 수도 있어 확인 차원에서 삽입한다



In [21]:
#Excel 파일로도 보내 놓으려면 마찬가지로...
# 다만 엑셀로 보낼 때, 환경에 따라 글자 깨짐이 생길 수 있어
# encoding을 utf-8-sig로 하는 것이 좋다

df.to_excel('./weather_tmp.xlsx', index = False, encoding='utf-8-sig') 

  return func(*args, **kwargs)
