### DataFrame 생성

- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 하나의 DataFrame은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본
      숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음
    
<img src='img/df_example.png' width='500' align='center'>

In [1]:
import pandas as pd

In [None]:
# 다차원 자료형, 딕셔너리 자료형을 사용
# 주의점 : 자료형에 따라서 아이템 길이 이슈 발생
# 다차원 리스트 : 아이템 길이가 동일 / 서로 다른 타입
# 딕셔너리 : 아이템 길이가 동일 / 서로 다른 타입

In [2]:
# 데이터프레임의 셀(튜플)에는 모든 데이터타입 및 여러 타입 혼합 가능
# 다차원 리스트 : 아이템 개수 3개, 하위 아이템 개수 4개
data1 = [[1, 2, 3, 4],
        ['a', 'b', 'c', 'd'],
        [0.1, 0.2, 0.5, 0.8]]

In [3]:
# 아이템 3개 : 행 3줄 => df에 저장하는 데이터의 개수
# 하위 아이템 4개 : 열 4줄 => df에 저장하는 데이터의 속성 / 변수의 개수
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,a,b,c,d
2,0.1,0.2,0.5,0.8


In [4]:
# 아이템의 길이가 다른 다차원 리스트
# 최대 길이 행을 기준으로 df구조가 생성됨
# 길이가 모자란 튜플(셀) : NaN으로 채워짐
data2 = [[1, 2, 3, 4, 5],
         ['a', 'b'],
         [0.1, 0.2, 0.5]]

In [5]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4
0,1,2,3.0,4.0,5.0
1,a,b,,,
2,0.1,0.2,0.5,,


In [6]:
# 아이템 3개, value의 길이 4개 =>  아이템의 개수 (컬럼의 개수), value의 길이 (로우의 개수)
# 딕셔너리의 키 : 
data3 = {'a' : [10, 20, 30, 40],
        'b':[1, 2, 3, 4],
        'c' : [5, 6, 7, 8]}

In [7]:
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,a,b,c
0,10,1,5
1,20,2,6
2,30,3,7
3,40,4,8


In [8]:
# 딕셔너리 자료형을 데이터프레임 데이터로 활용
# 아이템 개수 3개, value 길이는 다르게
# 개수가 모자란 튜플(셀) : ValueError -> key 별 매칭 value의 길이가 다르면 에러
data4 = {'a':[10],
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7]}

In [9]:
df4 = pd.DataFrame(data4)
df4

ValueError: All arrays must be of the same length

In [10]:
data1

[[1, 2, 3, 4], ['a', 'b', 'c', 'd'], [0.1, 0.2, 0.5, 0.8]]

In [23]:
# 인덱스를 지정하여 객체 생성 : DataFrame 함수에서 파라미터로 지정
# columns 파라미터 : 컬럼명(열 개수와 동일한 길이를 가진 리스트 전달)
# index 파라미터 : 로우명(행 개수와 동일한 길이를 가진 리스트 전달)
df5 = pd.DataFrame(data1, index=['r1', 'r2','r3'],columns=['c1', 'c2','c3','c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,a,b,c,d
r3,0.1,0.2,0.5,0.8


In [24]:
# 딕셔너리를 이용했을때 컬럼 순서를 변경하여 df생성 가능
df6 = pd.DataFrame(data3, index=list('wxyz'), columns=list('cab'))
df6

Unnamed: 0,c,a,b
w,5,10,1
x,6,20,2
y,7,30,3
z,8,40,4


In [25]:
# data3에 없는 컬럼명을 전달하는 경우 : 없는 컬럼명도 NaN으로 생성
df7 = pd.DataFrame(data3, columns=list('abd'))
df7

Unnamed: 0,a,b,d
0,10,1,
1,20,2,
2,30,3,
3,40,4,


In [26]:
# 딕셔너리 data와 일치하지 않는 index 개수를 전달하는 경우 :
df8 = pd.DataFrame(data3, index=[10, 20, 30, 40, 50])
df8

ValueError: Length of values (4) does not match length of index (5)

DataFrame 속성

- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : do 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수를 (길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

In [27]:
# 딕셔너리 타입 데이터로 데이터프레임 생성
# 서울, 경기, 충청, 경상, 전라 지역에 대해 2016, 2017, 2018년 유입인구 데이터 세팅
data = {'서울' : [150, 180, 300],
       '경기' : [200, 240, 450],
       '충청' : [-10, 3, -13],
       '경상' : [10, 20, 30],
       '전라' : [5, 6, 7]}

In [28]:
sample = pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [33]:
# 행 인덱스 : 행 개수와 동일하게 리스트 전달
sample.index=[2018, 2019, 2020]
sample

Unnamed: 0,서울,경기,충청,경상,전라
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [34]:
# 행 인덱스에 이름 붙이기
sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [35]:
sample.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [36]:
# 열 인덱스에 'location'이라는 설명을 붙여주세요
sample.columns.name = 'location'
sample

location,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [37]:
# 행 인덱스(row) 수정
# 속성값
# 1, 행의 개수와 동일한 리스트를 전달
# 2. 속성값으로 사용하는 인덱스 객체는 아이템 하나 단위로 바꿀수 없음(전체 리스트를 다 대입해야함)
sample.index = [1991, 1992, 1993]
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [41]:
# 단일 인덱스 수정
# df메서드 : df.rename(data, axis)
# axis 기본값 = 0(row == 'index')
# 열 인덱스(컬럼)에 대한 수정 : axis=1 혹은 axis='columns'를 주면 됩니다
# data : 딕셔너리타입, {'이전 인덱스명':'바꿀 인덱스명'}
# inplace=False(기본값) : 바뀐 결과 적용 x. 시뮬레이션만 수행
# inplace=True : 바뀐 결과가 테이터프레임에 바로 반영
sample.rename({1991:1990}, inplace=True)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [43]:
# 행 , 열 인덱스 : df객체.axes
# 반환값 : 리스트 -> 첫 번째 아이템(행(row)인덱스), 두번째 아이템(열(column)인덱스)
print(sample.axes)
print("----------------------")
print(sample.axes[0])
print("----------------------")
print(sample.axes[1])

[Int64Index([1990, 1992, 1993], dtype='int64'), Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')]
----------------------
Int64Index([1990, 1992, 1993], dtype='int64')
----------------------
Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')


In [44]:
# reset_index(drop=True)를 사용하면 로우에 배정된 인덱스를 일괄적으로 초기화합니다
sample.reset_index(drop=True)

location,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [45]:
# 데이터 : df.values
# 반환값 : 2d array
sample.values

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

In [46]:
# 각 컬럼(열)의 데이터 타입
sample.dtypes

location
서울    int64
경기    int64
충청    int64
경상    int64
전라    int64
dtype: object

In [47]:
# 전체 셀(데이터) 개수
sample.size

15

In [48]:
# len으로 조회시 2차원데이터로 간주해서 row개수만 반환됨
len(sample)

3

In [49]:
# 데이터 구조(행, 열)
sample.shape

(3, 5)

In [52]:
# 행과 열을 전치
sample_t = sample.T
sample_t

Unnamed: 0_level_0,1990,1992,1993
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,150,180,300
경기,200,240,450
충청,-10,3,-13
경상,10,20,30
전라,5,6,7


In [53]:
# 전치한 데이터 프레임의 행(row) 인덱스
sample_t.index

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')

In [55]:
# 전치한 데이터 프레임의 열(column)인덱스
sample_t.columns

Int64Index([1990, 1992, 1993], dtype='int64')

In [56]:
# 전치한 데이터 프레이므이 변경된 구조
sample_t.shape

(5, 3)

In [57]:
#전치는 1회성으로 진행됨
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


### 인덱싱

- 컬럼 조회
    - df[col]
    - df.col
    - df.get(col)
- iloc, loc 메서드로 로우 조회
    - df.iloc[idx] : 기본 숫자형 인덱스
    - df.loc[label] : 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc메서드로 조회)