### DataFrame 생성
- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 하나의 Dataframe은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음

<img src="img/df_example.png" width="450" align="center">

In [99]:
import pandas as pd
import numpy as np

###### 2차원 이상의 데이터가 주로사용됩니다.
###### 다차원 , 딕셔너리 자료형을 사용
###### 주의점 : 자료형에 따라 아이템 길이 이슈 발생
###### 다차원 리스트 : 아이템 길이 동일 / 서로 다른 타입
###### 딕셔너리 : 아이템 길이 동일 / 서로 다른 타입

In [100]:
# 데이터프레임의 셀(튜플)에는 모든 데이터 타입 및 여러 타입 혼합 가능
# 다차원 리스트 : 아이템 갯수 3개, 하위 아이템 갯수 4개
data1 = [[1,2,3,4],
         ['a', 'b', 'c', 'd'],
         [0.1, 0.2, 0.5, 0.8]]

In [101]:
# 아이템 3개 : 행 3줄 -> df에 저장하는 데이터의 갯수
# 하위 아이템 4개 / 열 4줄
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,a,b,c,d
2,0.1,0.2,0.5,0.8


In [102]:
# 아이템 길이가 다른 다차원 리스트
# 최대길이의 행을 기준으로 데이터프레임 구조 셍성
# 길이가 모자란 값은 NaN으로 채워집니다.
data2 = [[1, 2, 3, 4, 5],
        ['a', 'b'],
        [0.1, 0.2, 0.5]]


In [103]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4
0,1,2,3.0,4.0,5.0
1,a,b,,,
2,0.1,0.2,0.5,,


In [104]:
# 아이템 3개, value의 길이 4개 ->
# 아이템의 갯수(컬럼의 개수),
# value의 길이(로우의 갯수)
# 딕셔너리의 키
data3 = {'a' : [10,20,30, 40],
         'b' : [1,2,3,4],
         'c' : [5,6,7,8]}

In [105]:
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,a,b,c
0,10,1,5
1,20,2,6
2,30,3,7
3,40,4,8


In [106]:
# 딕셔너리 자료형을 데이터프레임 데이터로 사용
# 아이템 개수 3개, value 길이는 다르게
# 개수가 모자란 튜플(셀):ValueError -> key별 매칭 value의 길이가 모두 동일해야함
data4 = {'a':[10],
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7]}

In [107]:
# 길이가 맞지 않아 에러 검출
# df4 = pd.DataFrame(data4)
# df4

In [108]:
# 인덱스를 지정하여 객체 생성 : DataFrame 함수에서 파라미터로 지정
# column 파라미터 : 컬럼명(열 개수와 동일한 길이를 가진 리스트 전달)
# index 파라미터 : 로우명(행 개수와 동일한 길이를 가진 리스트 전달)

df5 = pd.DataFrame(data1,
                   index = ['r1', 'r2', 'r3'],
                    columns = ['c1', 'c2', 'c3', 'c4' ])

df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,a,b,c,d
r3,0.1,0.2,0.5,0.8


In [109]:
data1

[[1, 2, 3, 4], ['a', 'b', 'c', 'd'], [0.1, 0.2, 0.5, 0.8]]

In [110]:
data3

{'a': [10, 20, 30, 40], 'b': [1, 2, 3, 4], 'c': [5, 6, 7, 8]}

In [111]:
# 딕셔너리를 이용했을때 컬럼 순서를 변경해서 df 생성 가능
df6 = pd.DataFrame(data3, index = list('wxyz'), columns=list('cab'))
df6

Unnamed: 0,c,a,b
w,5,10,1
x,6,20,2
y,7,30,3
z,8,40,4


In [112]:
# data3에 없는 컬럼명을 전달하는 경우 : 없는 컬럼명으로 NaN생성
df7 = pd.DataFrame(data3, columns=list('abd'))
df7

Unnamed: 0,a,b,d
0,10,1,
1,20,2,
2,30,3,
3,40,4,


In [113]:
# 딕셔너리 data와 일치하지 않는 index 개수를 전달하는 경우:
# df8 = pd.DataFrame(data3, index = [10,20,30,40,50])
# df8

In [114]:
df8 = pd.DataFrame(data3, columns = list('abcde'))
df8

Unnamed: 0,a,b,c,d,e
0,10,1,5,,
1,20,2,6,,
2,30,3,7,,
3,40,4,8,,


DataFrame 속성
- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

In [115]:
# 딕셔너리 타입 데이터로 데이터프레임 생성
# 서울, 경기, 충청, 경상, 전라 지역에 대해 2016, 2017, 2018 유입인구 데이터 셋팅
data = {'서울' : [150, 180, 300],
        '경기' : [200, 240, 450],
        '충청' : [-10, 3, -13],
        '경상' : [10, 20, 30],
        '전라' : [5, 6, 7]}

In [116]:
sample = pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [117]:
# 행(row)인덱스 : 행 개수와 동일하게 리스트로 전달
sample.index = [2018, 2019, 2020]
sample

Unnamed: 0,서울,경기,충청,경상,전라
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [118]:
# 참고 : 행 인덱스 이름 지정
sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [119]:
# 열 인덱스
sample.columns

# 열 인덱스 이름 지정
sample.columns.name = 'location'
sample


location,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [120]:
# 행 인덱스(row) 수정
# 속성값
# 1. 행의 개수와 동일한 리스트를 전달
# 2. 속성값으로 사용하는 인덱스 객체는 아이템 수정 불가(하나만 수정 불가)
sample.index = [1991, 1992, 1993]
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [121]:
# 인덱스 수정
# df 메서드 : df변수.rename(data, axis)
# axis기본값 = 0(로우 == 'index')
# 열 인덱스(컬럼)에 대한 수정 : axis = 1 혹은 axis = 'columns'
# data : 딕셔너리타입, {'이전 인덱스명' : '바꿀 인덱스명'}
# inplace = False(기본값) : 바뀐 결과가 적용X 시뮬만 수행
# inplace = True : 바뀐결과가 바로 적용
sample.rename({1991 : 1990}, inplace = True)

In [122]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [123]:
# 열 인덱스(컬럼) 변경 : axis = 1, axis = 'columns'
# 전라 -> 광주로 변경해보세요 1회성 시뮬입니다.
sample.rename({'전라':'광주'}, axis = 'columns') 

location,서울,경기,충청,경상,광주
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [124]:
# 행, 열 인덱스 : df.axes
# 반환값 : 리스트 -> 첫 번째 아이템(행(row)인덱스), 두 번째 아이템(열(columns))인덱스
print(sample.axes)

[Int64Index([1990, 1992, 1993], dtype='int64'), Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')]


In [125]:
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html?highlight=reset_index
# drop 속성에 대한 doc
# True를 주지않으면 이전 인덱스가 컬럼으로 편입되버립니다.
sample.reset_index()

location,index,서울,경기,충청,경상,전라
0,1990,150,200,-10,10,5
1,1992,180,240,3,20,6
2,1993,300,450,-13,30,7


In [126]:
# reset index(drop = True)를 사용하면 row에 배정된 인덱스를 일괄 삭제합니다
sample.reset_index(drop = True)

location,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [127]:
# 데이터 : df.values
# 반환값 : 2차원.array
sample.values

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

In [128]:
# 데이터 : df.values
# 반환값 : 2차원 array
sample.values

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

In [129]:
# 각 열의 데이터 타입
sample.dtypes

location
서울    int64
경기    int64
충청    int64
경상    int64
전라    int64
dtype: object

In [130]:
# 전체 셀(데이터)개수
sample.size

15

In [131]:
# len 으로 조회시 2차원으로 간주하여 row갯수만 반환됩니다.
# 이 점에 유의합니다.
len(sample)

3

In [132]:
# 데이터 구조(행, 열)
sample.shape

(3, 5)

In [133]:
# 행열 전치
sample_t = sample.T
sample_t

Unnamed: 0_level_0,1990,1992,1993
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,150,180,300
경기,200,240,450
충청,-10,3,-13
경상,10,20,30
전라,5,6,7


In [134]:
# 전치한 데이터 프레임의 행 인덱스
print(sample.index)
print(sample_t.index)

Int64Index([1990, 1992, 1993], dtype='int64')
Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')


In [135]:
# 전치한 데이터 프레임의 열 인덱스
print(sample.columns)
print(sample_t.columns)

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')
Int64Index([1990, 1992, 1993], dtype='int64')


In [136]:
print(sample.shape)
print(sample_t.shape)

(3, 5)
(5, 3)


In [137]:
# 전치 역시 1회성으로 진행됩니다.
# 원본 sample변수는 그대로 3*5 모양을 유지합니다.
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


### 인덱싱
- 컬럼 조회
    - df[col]
    - df.col
    - df.get(col)
- iloc, loc 메서드로 로우 조회
    - df.iloc[idx] : 기본 숫자형 인덱스
    - df.loc[label] : 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc 메서드로 조회)

In [138]:
# 컬럼조회하는 3가지 방법
# 1. 기본적인 인덱싱 기호 : df[columns]
# 2. 컬럼명을.을 이용해서 조회, 무조건 이름이 변수명으로 사용될때만 가능
# 3. df의 get 메서드로 조회 : df.get(colname)

print(sample['경기'])
print('-'*50)
print(sample.서울)
print('-'*50)
print(sample.get('서울'))


1990    200
1992    240
1993    450
Name: 경기, dtype: int64
--------------------------------------------------
1990    150
1992    180
1993    300
Name: 서울, dtype: int64
--------------------------------------------------
1990    150
1992    180
1993    300
Name: 서울, dtype: int64


In [139]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [140]:
# 첫 번째 행(로우) 조회 : 0번 인덱스 참조
# 반환값 : Series
# 라벨 인덱스 : 기존 데이터프레임의 컬럼
# Series name : 기존 데이터프레임에서 참조한 첫 번째 행의 라벨 인덱스
sample.iloc[0]

location
서울    150
경기    200
충청    -10
경상     10
전라      5
Name: 1990, dtype: int64

In [141]:
# 숫자형 라벨로 조회 : 1992년 행 조회
sample.loc[1992]

location
서울    180
경기    240
충청      3
경상     20
전라      6
Name: 1992, dtype: int64

In [142]:
# 여러개의 열 조회 : 리스트로 묶어서 전달(서울, 경기)
sample[['서울', '경기']]

location,서울,경기
1990,150,200
1992,180,240
1993,300,450


In [143]:
# 서울, 경기자역의 1992년 데이터만 조회
sample[['서울', '경기']].loc[1992]

location
서울    180
경기    240
Name: 1992, dtype: int64

In [144]:
sample.loc[1992][['서울', '경기']]

location
서울    180
경기    240
Name: 1992, dtype: int64

In [145]:
# 여러 개의 행 조회(1990, 1993년 한번에 조회)

sample.iloc[::2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [146]:
sample.loc[[1990, 1993]]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [147]:
# 1990, 1993년 데이터에서 충청지역만 남기기
sample.loc[[1990, 1993]][['충청']]

location,충청
1990,-10
1993,-13


In [148]:
# 1990, 1993년 데이터에서 충청지역만 남기기
sample.iloc[[0, 2]].get('충청')

1990   -10
1993   -13
Name: 충청, dtype: int64

### 슬라이싱
- 로우(행) 슬라이싱
    - 순서가 있으며 로우 단독으로 슬라이싱 가능
    - 기본 슬라이싱 문법은 기본 숫자형 인덱스를 기준으로 적용
    - 기본 숫자형 인덱스로 슬라이싱할 때는 마지막 인덱스는 포함하지 않고 라벨 인덱스로 슬라이싱할 때는 마지막 인덱스를 포함
- 컬럼(열) 슬라이싱
    - 순서가 없기 때문에 컬럼 단독으로 슬라이싱할 수 없음
    - 라벨 기준으로 로우 기준 슬라이싱 결과에 대해 컬럼 슬라이싱 가능(기본 숫자형 인덱스는 적용 불가)
    - 마지막 인덱스를 포함

In [149]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [150]:
# 기본 로우 슬라이싱 : df[start:end:step]
# 0부터 1까지 슬라이싱
sample[0:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6


In [151]:
# 전체 로우에 대해 간격을 -1로 지정 : 행을 역수로 나열
sample[::-1]

location,서울,경기,충청,경상,전라
1993,300,450,-13,30,7
1992,180,240,3,20,6
1990,150,200,-10,10,5


In [152]:
# 컬럼 슬라이승 ; 행에 대한 슬라이싱 결과에 열 슬라이싱 적용
# df[:, start : end : step]
# 기본 숫자형 인덱스 기준의 슬라이싱 -> 컬럼명으로 사용
sample.loc[:,:'충청']

location,서울,경기,충청
1990,150,200,-10
1992,180,240,3
1993,300,450,-13


In [153]:
# 컬럼, 로우 인덱스 모두 기본 숫자형 인덱스인 경우
# 4 *4 구조의 영행력 생성
import numpy as np
data = np.zeros((4,4))
data

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [154]:
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0


In [155]:
# 숫자형 슬라이싱
# 컬럼, 로우 순
# 보통 컬럼명은 숫자로 되있는 경우가 매우 드물기에
# 본 예제는 참고정도만 하세요
# 보통 컬럼은 문자로 되어있습니다.

df[:3][:2]

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0


In [156]:
# 1. 컬럼 슬라이싱에서 사용하는 인덱스 : 기본 번호 인덱스
# 2. 컬럼 슬라이싱 조건 : 로우 슬라이싱 결과에서만 가능
# 3. 메서드를 사용한 로우 슬라이싱 : loc/iloc -> 1번기준
df.iloc[:3,:2]

Unnamed: 0,0,1
0,0.0,0.0
1,0.0,0.0
2,0.0,0.0


### 연습문제
#### 아래와 같은 데이터프레임을 생성하고 출력화면과 동일한 결과를 생성하세요.

<img src="img/df_practice1.png" width="250" align="left">

In [157]:
data = {'A' : ['0', 'big', 2.70, True],
        'B' : ['3', 'data', -5.00, True],
        'C' : ['ks01', 'is', 2.12, False],
        'D' : ['2', 'very', 8.31, False],
        'E' : ['5', 'good', -1.34, True]
       }

In [158]:
df_test = pd.DataFrame(data)
df_test = df_test.T
df_test.columns = ['Col1', 'Col2', 'Col3', 'Col4']
df_test

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [159]:
# 컬럼 1과 3만 조회하세요
df_test.iloc[::,::2]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [160]:
df_test[['Col1', 'Col3']]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [161]:
# ACD 로우만 조회
df_test.loc[['A','C','D'],::]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [162]:
# BD 로우, col1, col2만 조회
df_test.loc[['B','D'],['Col1', 'Col2']]

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


In [163]:
# 또 다른 방법 
data_ans = {'Col1':[0,3,'ks01',2,5],
            'Col2':['big', 'data', 'is','very','good'],
            'Col3':[2.7, -5.0, 2.12, 8.31, -1.34],
            'Col4':[True, True, False, False, True]}

In [164]:
data_ans_df = pd.DataFrame(data_ans, index=list('ABCDE'))
data_ans_df

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


### 컬럼, 로우 추가
- 컬럼 추가 / 변경
    - 컬럼 인덱싱 = 스칼라 값
    - 컬럼 인덱싱 = 배열, 리스트(로우 개수와 아이템 개수 일치)
    - 컬럼 인덱싱 = 컬럼 간의 연산
    - 컬럼 인덱싱 = series
- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
- 데이터 분석에서 컬럼과 로우의 의미
    - 컬럼 : 변수(특성)
    - 로우 : 개별 데이터(레코드)
    - 전체 데이터를 구성하는 변수를 추가/삭제하는 일은 빈번하게 발생하지만 특정 인덱스를 기준으로 
    전체 로우 데이터를 추가/삭제하는 일은 자주 발생하지 않으며 데이터 처리를 하는 과정에서 권장하지 않는 작업

In [165]:
# 컬럼 추가 1 : 모든 로우에 대해서 동일 한 값을 가지는 컬럼 -> 스칼라값(단일값)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [166]:
# 제주 컬럼 추가 모든 데이터는 1로 대입
sample['제주'] = 1
sample

location,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1992,180,240,3,20,6,1
1993,300,450,-13,30,7,1


In [167]:
# 컬럼추가 2 : 서로 다른 값을 가지는 데이터로 열을 구성하는 컬럼의 숫자
# 조건 : 전달하는 자료형(배열, 리스트)의 길이 = 행의 길이
# 부산 컬럼 추가, 데이터는 5부터 1씩 증가나는 숫자를 가지는 배열
sample['부산']  = np.arange(5, 8)
sample

location,서울,경기,충청,경상,전라,제주,부산
1990,150,200,-10,10,5,1,5
1992,180,240,3,20,6,1,6
1993,300,450,-13,30,7,1,7


In [168]:
# 컬럼 추가 3번째 : 컬럼간의 연산 -> 파생변수 
# 수도권 컬럼 추가 : 경기 + 서울
sample['수도권'] = sample['서울'] + sample['경기']
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,5,350
1992,180,240,3,20,6,1,6,420
1993,300,450,-13,30,7,1,7,750


In [169]:
# 컬럼 추가 4 : Series 객체를 컬럼으로 전달
# 조건 : 추가 대상인 df의 구조와 추기 아이템인 Series의 구조를 파악해야합니다.
# 라벨 인덱스를 기준으로 Series데이터와 df데이터가 매핑
# Series에 없는 라벨 인덱스의 경우에는 NaN
# 반드시 길이가 일치하지 않아도 됩니다.
s1 = pd.Series([9,-99], index = [1990, 1992])
s1

1990     9
1992   -99
dtype: int64

In [170]:
sample['강원'] = s1
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150,200,-10,10,5,1,5,350,9.0
1992,180,240,3,20,6,1,6,420,-99.0
1993,300,450,-13,30,7,1,7,750,


In [171]:
# 데이터 개수가 동일해도 라벨 기준으로 매핑하기 떄문에, 값 전달이 이뤄지지 않는 케이스
s2 = pd.Series([100, 100, 100])
s2

0    100
1    100
2    100
dtype: int64

In [172]:
sample['test'] = s2
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,


- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
    - 로우 인덱싱 = 자료형(배열, 리스트 / 컬럼 개수와 아이템 개수 일치)

In [173]:
# 로우는.loc 를 이용해서 추가합니다. (iloc 안돰)
# .loc가 붙는다는 점만 빼고는 컬럼과 동일한 문법
sample.loc[1994] = 0
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0


In [174]:
sample.shape

(4, 10)

In [175]:
# 배열, 리스트, 딕셔너리 : 로우 추가 가능한 자료형
# 컬럼개수와 아이템개수를 일치시켜 전달
sample.loc[1995] = np.arange(0,10)
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [176]:
# 딕셔너리로 각 컬럼명 : 값 형식으로 매치된 자료를 연도 로우에 대입
sample.loc[1996] = {'서울':10, '경기':20, '충청':40, '경상':21, '전라':37,
                   '제주':103, '부산':28, '수도권':30, '강원':15, 'test':0}

sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0
1996,10,20,40,21,37,103,28,30,15.0,0.0


In [177]:
# 97년은 로우는 95년 + 96년으로 입력해보세요
sample.loc[1997] =  sample.loc[1995] + sample.loc[1996]
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0,
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0,
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0,0.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0,9.0


In [178]:
import numpy as np

In [179]:
sample = pd.DataFrame({'서울':[150.0, 180.0, 300.0, 0.0, 0.0, 10.0, 10.0],
'경기':[200.0, 240.0, 450.0, 0.0, 1.0, 20.0, 21.0],
'충청':[-10.0, 3.0, -13.0, 0.0, 2.0, 40.0, 42.0],
'경상':[10.0, 20.0, 30.0, 0.0, 3.0, 21.0, 24.0],
'전라':[5.0, 6.0, 7.0, 0.0, 4.0, 37.0, 41.0],
'제주':[1.0, 1.0, 1.0, 0.0, 5.0, 103.0, 108.0],
'부산':[5.0, 6.0, 7.0, 0.0, 6.0, 28.0, 34.0],
'수도권':[350.0, 420.0, 750.0, 0.0, 8.0, 30.0, 37.0],
'강원':[9.0, -99.0, np.NAN, 0.0, 8.0, 15.0, 23.0],
'test':[np.NAN, np.NAN, np.NAN, 0.0, 9.0, 0.0, 9.0]},
        index=[1990, 1992, 1993, 1994, 1995, 1996, 1997])

sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0,
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0,
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,8.0,8.0,9.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0,0.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0,9.0


### 로우, 컬럼 삭제
- 컬럼 삭제
    - del 키워드 + 컬럼 인덱싱
    - df.drop(col, axis = 1)
    - df.drop(columns = col)
- 로우 삭제
    - df.drop(idx) : axis = 0(기본값)

In [180]:
# 컬럼 삭제 1 : del 키워드 + 컬럼 인덱싱
# 특징 : 원본객체에서 바로 데이터가 사라짐(시뮬레이션이 아닌 데이터가 즉시 변경됨)
# sample 데이터프레임에서 test 컬럼을 삭제해보세요.
del sample['test']
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,8.0,8.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0


In [181]:
# 컬럼 삭제 2 : df.drop(columns = 컬럼이름)
# 특징 : 원본 반영되지 않음 -> inplace = True 기입시 원본에 바로 반영
# 경상 컬럼을 삭제하고 원본에 적용도 해보세요

sample.drop(columns = '경상')
# 여기서 sample 그대로 찍으면 반영이 안됩니다.

# 반영이 되게하려면 inplace = True 작성해야 됩니다.
sample.drop(columns = '경상', inplace = True)
sample

Unnamed: 0,서울,경기,충청,전라,제주,부산,수도권,강원
1990,150.0,200.0,-10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,-13.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,4.0,5.0,6.0,8.0,8.0
1996,10.0,20.0,40.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,41.0,108.0,34.0,37.0,23.0


In [182]:
# 컬럼 삭제 3: df.drop(컬럼명, axis = 1)
# 충청컬럼을 삭제해보세요.
sample.drop('충청', axis = 1, inplace = True)
sample

Unnamed: 0,서울,경기,전라,제주,부산,수도권,강원
1990,150.0,200.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,4.0,5.0,6.0,8.0,8.0
1996,10.0,20.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,37.0,23.0


In [183]:
# 로우 삭제
# df.drop(로우, axis = 0(생략가능))
# sample.drop(1995, inplace = True, axis = 0)
sample.drop(1995, inplace = True)
sample

Unnamed: 0,서울,경기,전라,제주,부산,수도권,강원
1990,150.0,200.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,37.0,23.0


In [185]:
# 두 개 이상의 컬럼 삭제하는 법  : 리스트로 묶어서 전달
# [제주, 강원]을 삭제해 보세요
sample.drop(['제주', '강원'], axis = 1, inplace = True)
sample

Unnamed: 0,서울,경기,전라,부산,수도권
1990,150.0,200.0,5.0,5.0,350.0
1992,180.0,240.0,6.0,6.0,420.0
1993,300.0,450.0,7.0,7.0,750.0
1994,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,28.0,30.0
1997,10.0,21.0,41.0,34.0,37.0


In [186]:
# 두 개 이상의 로우 삭제 하는 법 : 리스트로 묶어서 전달
# 1994, 1997 데이터를 삭제해보세요
sample.drop([1994, 1997], axis = 0, inplace = True)
sample

Unnamed: 0,서울,경기,전라,부산,수도권
1990,150.0,200.0,5.0,5.0,350.0
1992,180.0,240.0,6.0,6.0,420.0
1993,300.0,450.0,7.0,7.0,750.0
1996,10.0,20.0,37.0,28.0,30.0


### 산술연산
- dataframe 과 스칼라 값 산술연산
- dataframe 과 series 간의 산술연산
- dataframe 간의 산술연산
    - 컬럼, 로우 인덱스를 기준으로 연산 수행
    - 공통으로 존재하지 않는 경우 NaN 반환
    - fill_value 인자 값을 통해 NaN이 아닌 값으로 대체 가능
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [195]:
# 컬럼명을 서울, 경기, 인천으로 / 로우명을 a,b,c로 가지고
# 0 부터 1씩 증가하는 정구 값을 데이터로 갖는 데이터프레임

df1 = pd.DataFrame(np.arange(9).reshape(3,3), 
                                index = list('abc'),
                                columns = ['서울', '경기', '인천'])

df1

Unnamed: 0,서울,경기,인천
a,0,1,2
b,3,4,5
c,6,7,8


In [199]:
# 컬럼명을 서울, 경기, 인천, 세종, 강원으로
# 로우명을 a,b,c,d로 가지고 0부터 1씩 증가하는 정수값을 갖는 데이터프레임
df2 = pd.DataFrame(np.arange(20).reshape(4,5),
                   index = list('abcd'),
                    columns = ['서울', '경기', '인천', '세종', '강원'])
df2

Unnamed: 0,서울,경기,인천,세종,강원
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19


In [200]:
# df1 + df2 간 연산결과는 어떨까요?
# 결과 해석 : 공통컬럼, 로우 인 데이터만 정상 덧셈 , 아닌부분은 NaN
df1 + df2

# 공통부분이 있는 컬럼 : 서울, 경기, 인천 / 공통부분이 있는 로우 : a, b, c 만 같이 연산됩니다.

Unnamed: 0,강원,경기,서울,세종,인천
a,,2.0,0.0,,4.0
b,,10.0,8.0,,12.0
c,,18.0,16.0,,20.0
d,,,,,


In [201]:
# fill_value : add 메서드의 파라미터
df1.add(df2, fill_value = 0)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,2.0,0.0,3.0,4.0
b,9.0,10.0,8.0,8.0,12.0
c,14.0,18.0,16.0,13.0,20.0
d,19.0,16.0,15.0,18.0,17.0


In [205]:
# 연산결과의 위치를 내가 원하는 대로 조정하고싶을 때 쓰는 문법
df1.loc[['c', 'a', 'b'],['인천', '경기','서울']] - df2.loc[['d', 'a', 'c', 'b']]

Unnamed: 0,인천,경기,서울
c,8,7,6
a,2,1,0
b,5,4,3


In [207]:
# 데이터프레임간 뺄셈도 비슷합니다.
df1 - df2
# 공통부분이 있는 컬럼 : 서울, 경기, 인천 / 공통부분이 있는 로우 : a, b, c 만 같이 연산됩니다.

Unnamed: 0,강원,경기,서울,세종,인천
a,,0.0,0.0,,0.0
b,,-2.0,-2.0,,-2.0
c,,-4.0,-4.0,,-4.0
d,,,,,


In [208]:
df1.sub(df2, fill_value = 0)

Unnamed: 0,강원,경기,서울,세종,인천
a,-4.0,0.0,0.0,-3.0,0.0
b,-9.0,-2.0,-2.0,-8.0,-2.0
c,-14.0,-4.0,-4.0,-13.0,-4.0
d,-19.0,-16.0,-15.0,-18.0,-17.0


In [210]:
# 데이터프레임간 곱셈연산
# .mul로 처리 가능합니다, 곱 연산시 대상 값이 없는 부분을 1로 간주하고 계산
# df1 * df2
df1.mul(df2, fill_value = 1)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,1.0,0.0,3.0,4.0
b,9.0,24.0,15.0,8.0,35.0
c,14.0,77.0,60.0,13.0,96.0
d,19.0,16.0,15.0,18.0,17.0


In [212]:
# 데이터프레임간 나눗셈 연산
df1 / df2
# 0으로 나누는 케이스가 있어 fill_value를 해도 NaN이 나올 수 있습니다.
df1.divide(df2, fill_value = 1)

Unnamed: 0,강원,경기,서울,세종,인천
a,0.25,1.0,,0.333333,1.0
b,0.111111,0.666667,0.6,0.125,0.714286
c,0.071429,0.636364,0.6,0.076923,0.666667
d,0.052632,0.0625,0.066667,0.055556,0.058824


In [213]:
# 컬럼명 : a, b, c, d
# 로우명 : 2010, 2011, 2012
# 데이터 : 0부터 1씩 증가하는 정수
df = pd.DataFrame(np.arange(12).reshape(3, 4),
                  index = [2010, 2011, 2012],
                  columns = list('abcd'))
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [214]:
# 첫 번째 행만 추출(2010만)
# s1 : 라벨 인덱스가 적용된 시리즈
s1 = df.iloc[0]
s1

a    0
b    1
c    2
d    3
Name: 2010, dtype: int32

In [216]:
# 데이터프레임
# 컬럼명 : a,b,c,d,e
# 데이터 20 개의 0
# shape (4,5)
df2 = pd.DataFrame(np.zeros(20).reshape(4,5),
                   columns = list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [217]:
# 기본 인덱스를 가진 시리즈
# 데이터 0, 1, 2, 3, 4
s2 = pd.Series(np.arange(5))
s2

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [221]:
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [223]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [218]:
# 열 단위 산술 연산
# 기본 동작 : Series의 로우 인덱스를 df컬럼에서 매핑
# 결과해석
df2.sub(s2)

Unnamed: 0,a,b,c,d,e,0,1,2,3,4
0,,,,,,,,,,
1,,,,,,,,,,
2,,,,,,,,,,
3,,,,,,,,,,


In [220]:
# axis = 0 : 컬럼과 시리즈의 라벨인덱스가 아닌 로우와 라벨인덱스 일치시 연산
# 결과해석 : idx 4번의 결과만  NaN(s2의 4번 인덱스)
df2.sub(s2, axis = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,-1.0,-1.0,-1.0,-1.0,-1.0
2,-2.0,-2.0,-2.0,-2.0,-2.0
3,-3.0,-3.0,-3.0,-3.0,-3.0
4,,,,,


In [225]:
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [224]:
# df의 컬럼에 없는 인덱스를 가진 Series
# 인덱스 : a, c, e
# 데이터 : 3, 3, 3
# 기존 df에 s3를 연산하면??
s3 = pd.Series([3,3,3], index = list('ace'))
s3

a    3
c    3
e    3
dtype: int64

In [231]:
df - s3
df.sub(s3)
# Series에서는 fill_value 불가능입니다.

Unnamed: 0,a,b,c,d,e
2010,-3.0,,-1.0,,
2011,1.0,,3.0,,
2012,5.0,,7.0,,
