In [1]:
import pandas as pd
import os

In [2]:
dict_data = {
    'c0' : [1,2,3,4,5],
    'c1' : [6,7,8,9,10]
}

### pandas DataFrame [Documentation](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

- When using a Python Dictionary of lists, the dictionary key will be used as column headers and the values in each list as columns of the DataFrame

- A DataFrame is 2 dimensional data structure that can store data of differenct type in columns. It is similar to a spreadsheetm SQL table, data.frame in R

In [3]:
df1 = pd.DataFrame(dict_data)

In [4]:
print(type(df1))

<class 'pandas.core.frame.DataFrame'>


In [5]:
print(df1)

   c0  c1
0   1   6
1   2   7
2   3   8
3   4   9
4   5  10


### 행 이름을 지정해 봅시다

In [6]:
df2 = pd.DataFrame(dict_data,index = ['r0','r1','r2','r3','r4'])

In [7]:
print(df2)

    c0  c1
r0   1   6
r1   2   7
r2   3   8
r3   4   9
r4   5  10


### Each columns in a DataFrame is a 'Series'

In [8]:
df2['c0']

r0    1
r1    2
r2    3
r3    4
r4    5
Name: c0, dtype: int64

In [9]:
type(df2['c0'])

pandas.core.series.Series

In [10]:
age = pd.Series([20,21,22,23,24], name = "Age")

In [11]:
age

0    20
1    21
2    22
3    23
4    24
Name: Age, dtype: int64

In [12]:
type(age)

pandas.core.series.Series

### List of List를 데이터프레임으로 변환

In [13]:
list_of_list = [
    [1,2,3,4,5],
    [6,7,8,9,10]
]

In [14]:
df3 = pd.DataFrame(list_of_list)

In [15]:
df3

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5
1,6,7,8,9,10


DataFrame.shap : 데이터프레임의 형태를 확인할 수 있다. (행, 열) 형태로 나온다

In [16]:
df1.shape

(5, 2)

In [17]:
df2.shape

(5, 2)

In [18]:
df3.shape

(2, 5)

### CSV 읽어오기

csv를 읽어오기 위해서는 pandas의 .read_csv()를 사용해주면 됩니다.

앞에서 생성/다운로드한 엑셀 파일/csv파일을 활용합니다

In [19]:
file_directory_csv = f"{os.getcwd()}/GDP디플레이터.csv"
file_directory_xls = f"{os.getcwd()}/report_Key100Stat.xls"

In [20]:
file_directory_csv

'/Users/hoplin/100_PythonProblem_for_working_level_staff/GDP디플레이터.csv'

In [21]:
csv_1 = pd.read_csv(file_directory_csv)

In [22]:
csv_1

Unnamed: 0,시점,지표,전년동기대비증감률
0,2014,96.913,0.9
1,2015,100.0,3.2
2,2016,101.986,2.0
3,2017,104.253,2.2
4,2018,104.756,0.5
5,2019,103.877,-0.8
6,2020,105.241,1.3
7,2018.3/4,106.922,0.2
8,2018.4/4,102.779,0.0
9,2019.1/4,104.186,-0.5


In [23]:
csv_1.shape

(20, 3)

#### read_csv()의 header 옵션

header = None : 판다스는 주로 첫번째 행을 header로 불러 온다. 하지만 불러올 header가 없는경우에는 header = None을 입력해주어야한다.

In [24]:
'''
에러 : 'utf-8' codec can't decode byte 0xdd in position 10: invalid continuation byte
이 에러는 csv파일의 인코딩 방식과 파이썬 인코딩 방식이 일치하지 않을 경우에 발생하는 오류이다.
'''
csv_2 = pd.read_csv(file_directory_csv,header=None)

In [25]:
csv_2

Unnamed: 0,0,1,2
0,시점,지표,전년동기대비증감률
1,2014,96.913,0.9
2,2015,100.000,3.2
3,2016,101.986,2.0
4,2017,104.253,2.2
5,2018,104.756,0.5
6,2019,103.877,-0.8
7,2020,105.241,1.3
8,2018.3/4,106.922,0.2
9,2018.4/4,102.779,0.0


#### read_csv()의 index_col 옵션

index_col옵션은 default값은 None이다. index_col옵션은 주어진 값을 인덱스(행값의 기준 의미)로 지정하여 읽어온다.

index_col에는 '열 이름' 혹은 '열 index번호'가 들어갈 수 있다.

In [26]:
csv_3 = pd.read_csv(file_directory_csv,index_col=0)

In [27]:
csv_3

Unnamed: 0_level_0,지표,전년동기대비증감률
시점,Unnamed: 1_level_1,Unnamed: 2_level_1
2014,96.913,0.9
2015,100.0,3.2
2016,101.986,2.0
2017,104.253,2.2
2018,104.756,0.5
2019,103.877,-0.8
2020,105.241,1.3
2018.3/4,106.922,0.2
2018.4/4,102.779,0.0
2019.1/4,104.186,-0.5


In [28]:
csv_4 = pd.read_csv(file_directory_csv,index_col=1)

In [29]:
csv_4

Unnamed: 0_level_0,시점,전년동기대비증감률
지표,Unnamed: 1_level_1,Unnamed: 2_level_1
96.913,2014,0.9
100.0,2015,3.2
101.986,2016,2.0
104.253,2017,2.2
104.756,2018,0.5
103.877,2019,-0.8
105.241,2020,1.3
106.922,2018.3/4,0.2
102.779,2018.4/4,0.0
104.186,2019.1/4,-0.5


In [30]:
csv_5 = pd.read_csv(file_directory_csv,index_col=2)

In [31]:
csv_5

Unnamed: 0_level_0,시점,지표
전년동기대비증감률,Unnamed: 1_level_1,Unnamed: 2_level_1
0.9,2014,96.913
3.2,2015,100.0
2.0,2016,101.986
2.2,2017,104.253
0.5,2018,104.756
-0.8,2019,103.877
1.3,2020,105.241
0.2,2018.3/4,106.922
0.0,2018.4/4,102.779
-0.5,2019.1/4,104.186


### Excel 읽어오기

Excel을 읽어오기 위해서는 read_excel()을 사용해 주어야한다.

In [32]:
xl_1 = pd.read_excel(file_directory_xls)

In [33]:
xl_1

Unnamed: 0,통계구분,통계지표,시점,원자료,단위
0,국민소득 ? 경기 ? 기업경영,"경제성장률(실질, 계절조정 전기대비)",20213,0.3,%
1,국민소득 ? 경기 ? 기업경영,"민간소비증감률(실질, 계절조정 전기대비)",20213,-0.2,%
2,국민소득 ? 경기 ? 기업경영,"설비투자증감률(실질, 계절조정 전기대비)",20213,-2.4,%
3,국민소득 ? 경기 ? 기업경영,"건설투자증감률(실질, 계절조정 전기대비)",20213,-3.5,%
4,국민소득 ? 경기 ? 기업경영,"GDP(명목, 계절조정)",20213,518021.3,십억원
...,...,...,...,...,...
95,경제관련 사회통계,고령인구비율(65세 이상),2022,17.5,%
96,경제관련 사회통계,합계출산율,2020,0.837,명
97,경제관련 사회통계,자동차등록대수,202105,24587343,대
98,경제관련 사회통계,주택보급률,2019,104.8,%
