# Pandas
- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음
    - (참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력: csv,excel,RDB 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리

### 자료형
- Series
    - 1차원 배열과 유사한 자료형
    - 색인(index): 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러가지 데이터 타입 사용 가능

In [1]:
# pandas 라이브러리 및 Series, DataFrame 클래스 불러오기
import pandas as pd

In [2]:
from pandas import Series, DataFrame

In [3]:
# Series 객체 생성
pd.Series()

Series([], dtype: float64)

In [4]:
pd.DataFrame()

## Series 생성
- 하나의 값 (숫자,문자) 또는 자료형 (리스트,튜플,np배열)으로 데이터 전달

## Series 속성
- 속성은 소괄호를 붙이지 않음
- index: series 객체의 인덱스 배열
- values: 데이터(값)의 배열
- name: series 객체의 이름
- dtype: 데이터 타입
- size: 데이터 개수(길이)
- shape: 구조 (행,열,차원)

In [5]:
# 숫자 10을 데이터로 가지고 있는 series
# 결과 해석 : 왼쪽 숫자 = 인덱스 번호(자동생성), 오른쪽 숫자 = 값
s1=pd.Series(10)
s1

0    10
dtype: int64

In [6]:
# 값 확인
s1.values

array([10], dtype=int64)

In [7]:
# 인덱스 번호
s1.index

RangeIndex(start=0, stop=1, step=1)

In [8]:
# 문자 abc를 데이터로 전달한 series
s2=pd.Series('abc')
s2

0    abc
dtype: object

In [9]:
# 데이터 확인
s2.values

array(['abc'], dtype=object)

In [10]:
# 인덱스 번호 확인
s2.index

RangeIndex(start=0, stop=1, step=1)

In [11]:
# 리스트 자료형을 데이터로 전달한 series
s3=pd.Series([10,20,30])
s3

0    10
1    20
2    30
dtype: int64

In [12]:
# 데이터 확인
s3.values

array([10, 20, 30], dtype=int64)

In [13]:
# 인덱스 번호 확인
s3.index

RangeIndex(start=0, stop=3, step=1)

In [14]:
#데이터타입이 서로 다른 리스트 자료형
s4=pd.Series([10,13.5,'test',[1,2,3]])
s4

0           10
1         13.5
2         test
3    [1, 2, 3]
dtype: object

In [15]:
s4.values

array([10, 13.5, 'test', list([1, 2, 3])], dtype=object)

In [16]:
s4.index

RangeIndex(start=0, stop=4, step=1)

In [17]:
s5=pd.Series((10,20))
s5

0    10
1    20
dtype: int64

In [18]:
s5.values

array([10, 20], dtype=int64)

In [19]:
s5.index

RangeIndex(start=0, stop=2, step=1)

In [20]:
# 딕셔너리 자료형
s6= pd.Series({'a':100,'b':200,'c':300})
s6

a    100
b    200
c    300
dtype: int64

In [21]:
# 데이터 확인
s6.values

array([100, 200, 300], dtype=int64)

In [22]:
# 인덱스 확인
s6.index

Index(['a', 'b', 'c'], dtype='object')

In [23]:
# 인덱스 새롭게 지정하기
# 시리즈객체.index => 인덱스객체를 조회 => 할당기호(=)
# 데이터 타입: 리스트
# 조건: 기존 인덱스 개수와 일치하게 전달
s5.index = ['x','y']

In [24]:
s5

x    10
y    20
dtype: int64

In [25]:
s5.index=[0,1]
s5

0    10
1    20
dtype: int64

In [26]:
s5.index

Int64Index([0, 1], dtype='int64')

In [27]:
# 인덱스 객체에 대해서 아이템 참조(인덱싱): 가능
s6.index[0]

'a'

In [28]:
# 인덱스 객체의 아이템 수정: 일부 아이템에 대해서 수정 불가
s6.index[0]='A'

TypeError: Index does not support mutable operations

In [29]:
s6.index=['A','b','c']
s6

A    100
b    200
c    300
dtype: int64

In [30]:
# 인덱스를 지정하여 객체 생성
# pd.Series(data,index=list())
s7=pd.Series([10,20,30],index=[1,2,3])

In [31]:
s7

1    10
2    20
3    30
dtype: int64

## dictionary 자료형과 Series 자료형

In [32]:
# dictionary 자료형으로 series 생성
data={'서울':100,'경기':200,'부산':300}
sample=pd.Series(data)

In [33]:
# Series 객체와 in 연산자
# dictionary 와 유사: key 값에만 접근
100 in data  # value 값 조회 안됨


False

In [34]:
'서울' in data

True

In [35]:
# for문에서 in 연산자로 접근 : series의 value 에 접근
for x in sample:
    print(x)

100
200
300


In [36]:
# dictionary 자료형으로 series 생성 시 key와 일치하는 index
data

{'서울': 100, '경기': 200, '부산': 300}

In [37]:
# series 로 생성 하려는 데이터
# 서울 경기 부산 + 강원
idx=['서울','경기','부산','강원']
s8=pd.Series(data,index=idx)
s8

서울    100.0
경기    200.0
부산    300.0
강원      NaN
dtype: float64

## 인덱싱(Indexing)
- 하나의 특정 값을 선택하거나 변경
- 참조하는 인덱스: 기본 숫자 인덱스(RangeIndex). 라벨 인덱스
- 새로운 인덱스를 설정해도 기본 숫자 인덱스 사용 가능

In [38]:
# series 인덱싱 문법: series객체[인덱스번호] 또는  series객체[인덱스라벨] 
# 참조할 수 있는 인덱스 : 서울,0
s8[0]
s8['서울']

100.0

In [39]:
# 값 수정
# 인덱스: 일부 인덱스에 대해 인덱싱으로 수정 X
# s8.index[0]='t'   => Error
# 데이터: 일부 값에 대해 인덱싱으로 수정 O
s8[3]=0

In [40]:
s8

서울    100.0
경기    200.0
부산    300.0
강원      0.0
dtype: float64

In [41]:
# 여러 개의 인덱스에 대한 값 조회: 멀티인덱싱 => 리스트로 전달
s8[[0,3]] # 또는
s8[['서울','강원']]

서울    100.0
강원      0.0
dtype: float64

In [42]:
# 여러 개의 인덱스를 조회 시 사용할 수 없는 데이터 타입: 안됨
# 튜플
# 추후에 나올 계층 인덱싱에서만 사용
s8[('서울','강원')]

KeyError: ('서울', '강원')

## 슬라이싱
- Series 객체[시작인덱스:끝인덱스:간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [43]:
s1 = pd.Series([10,20,30,40,50],index=list('abcde'))
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [44]:
# 0, 1번 인덱스 조회
s1[:2]

a    10
b    20
dtype: int64

In [45]:
# 인덱스 라벨 'a'에서 'c'까지 조회
s1['a':'c']

a    10
b    20
c    30
dtype: int64

In [46]:
# 간격 지정
s1[::2]

a    10
c    30
e    50
dtype: int64

In [47]:
s1['a':'d':2]

a    10
c    30
dtype: int64

## 조건 색인(Boolean Indexing)
- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

In [48]:
# 양수와 음수의 데이터를 저장하고 있는 Series 생성
# 양수는 10을 기준으로 이상 미만의 범위로 생성
s2 = pd.Series([3,-2,6,10,-11,14,-5,20])
s2

0     3
1    -2
2     6
3    10
4   -11
5    14
6    -5
7    20
dtype: int64

In [49]:
# 음수인 데이터만 조회
tmp=s2[s2<0]

In [50]:
tmp.index

Int64Index([1, 4, 6], dtype='int64')

In [51]:
s2[tmp.index]

1    -2
4   -11
6    -5
dtype: int64

In [52]:
# 두개 이상의 조건 처리:
# 조건문 : 조건식1 and 조건식2 / 조건식1 & 조건식2    and 는 안됨
# 양수이면서 10보다 작은 값
s2[(s2>0) & (s2<10)]

0    3
2    6
dtype: int64

## 산술연산
- series 객체와 스칼라 값의 산술연산 => Broadcasting
- series 객체 간의 산술 연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능

- 연산의 종류
    - 더하기: +,add() 메서드
    - 빼기: -,sub() 메서드
    - 곱하기: *,mul() 메서드
    - 나머지만 반환: %
    - 몫만 반환: //

In [53]:
# 데이터: 1,2,3,4 
# 라벨: abcd
s1=pd.Series([1,2,3,4],index=list('abcd'))
s1

a    1
b    2
c    3
d    4
dtype: int64

In [54]:
# data: 10,20,30,40,50,60
# 라벨: acdefg
s2=pd.Series([10,20,30,40,50,60],index=list('acdefg'))
s2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [55]:
# series 객체와 스칼라 값의 산술 연산
s1*3

a     3
b     6
c     9
d    12
dtype: int64

In [56]:
s1+10

a    11
b    12
c    13
d    14
dtype: int64

In [57]:
# series 객체간의 산술연산
s1+s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [58]:
# fill_value 파라미터: 공통이 아닌 인덱스의 값에 NaN 대신 지정한 값을 사용
s1.add(s2,fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [59]:
s1-s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [60]:
s1.sub(s2,fill_value=0)

a    -9.0
b     2.0
c   -17.0
d   -26.0
e   -40.0
f   -50.0
g   -60.0
dtype: float64

In [61]:
s1*s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [62]:
s1.mul(s2,fill_value=1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [63]:
s1%s2

a    1.0
b    NaN
c    3.0
d    4.0
e    NaN
f    NaN
g    NaN
dtype: float64

In [64]:
# 몫 반환
s1//s2

a    0.0
b    NaN
c    0.0
d    0.0
e    NaN
f    NaN
g    NaN
dtype: float64

### 연습문제
1. 실습 데이터 생성: 1~100(미만)사이의 랜덤 정수 값을 26개 저장한 Series를 생성하고 A~Z까지의 알파벳으로 라벨링 설정

In [65]:
import numpy as np

In [193]:
data=np.random.randint(1,100,(26))
data

array([99, 12, 43,  6, 56, 31, 80, 28,  4, 24, 20, 63,  3, 70, 85, 54, 90,
        6, 96, 87, 49, 89, 39, 68, 72, 38])

In [194]:
#아스키코드를 이용한 문자열 생성
# A : 65, Z=90  => chr() 아스키코드 기준으로 문자열로 변환
alphabet=[]
for code in range(65,91):
    alphabet.append(chr(code))
alphabet

['A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z']

In [195]:
data1=pd.Series(data,index=alphabet)
data1

A    99
B    12
C    43
D     6
E    56
F    31
G    80
H    28
I     4
J    24
K    20
L    63
M     3
N    70
O    85
P    54
Q    90
R     6
S    96
T    87
U    49
V    89
W    39
X    68
Y    72
Z    38
dtype: int32

In [198]:
data1.items()

<zip at 0x2a60735ee88>

2.인덱스 라벨이 K항목의 값 출력

In [69]:
data1['K']

57

3. 인덱스 라벨이 A,F,C 항목의 값 출력

In [70]:
data1[['A','F','C']]

A    80
F    23
C    72
dtype: int32

4. 5번 인덱스부터 15번 인덱스까지의 항목 출력

In [71]:
data1[5:15]

F    23
G    86
H    58
I    56
J    56
K    57
L     6
M    99
N    51
O    24
dtype: int32

5. 뒤에서 5개 항목 출력

In [72]:
data1.tail(5)

V    98
W     4
X    56
Y    11
Z    96
dtype: int32

6. 생성한 시리즈의 항목의 개수 출력

In [73]:
len(data1)

26

In [74]:
data1.size

26

7. data 항목 값들의 평균보다 큰 항목만 출력

In [75]:
mean_data=np.mean(data1)
mean_data

52.07692307692308

In [76]:
data1[data1>mean_data]

A    80
B    97
C    72
D    87
G    86
H    58
I    56
J    56
K    57
M    99
Q    83
S    58
V    98
X    56
Z    96
dtype: int32

8. data의 항목 값 중에서 50이 있는지 확인하여 있으면 True 없으면 False 출력

In [77]:
50 in data1.values

False

9. data의 인덱스 라벨과 각 항목 값을 아래와 같이 출력
 - 출력화면
     - index: A, value: XX

In [78]:
for idx,values in data1.items():
    print('index : {}, values: {}'.format(idx,values))

index : A, values: 80
index : B, values: 97
index : C, values: 72
index : D, values: 87
index : E, values: 12
index : F, values: 23
index : G, values: 86
index : H, values: 58
index : I, values: 56
index : J, values: 56
index : K, values: 57
index : L, values: 6
index : M, values: 99
index : N, values: 51
index : O, values: 24
index : P, values: 20
index : Q, values: 83
index : R, values: 17
index : S, values: 58
index : T, values: 40
index : U, values: 7
index : V, values: 98
index : W, values: 4
index : X, values: 56
index : Y, values: 11
index : Z, values: 96


## DataFrame 생성
- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 Dataframe은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스): 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명 (라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스): 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음

In [79]:
# 다차원 자료형, 딕셔너리 자료형을 사용
data1=[[1,2,3,4],
      [0.1,0.2,0.3,0.4],
      ['a','b','c','d']]

In [80]:
df1=pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,0.1,0.2,0.3,0.4
2,a,b,c,d


In [81]:
data2=[[1,2,3,4,5,6],
      [0.1,0.2,0.3],
      ['a','b','c','d']]

In [82]:
df2=pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,4,5.0,6.0
1,0.1,0.2,0.3,,,
2,a,b,c,d,,


In [83]:
# value 길이가 동일한 딕셔너리 타입
dic1= {'a':[1,2,3],
      'b':[10,20,30],
      'c':[100,200,300]}

In [84]:
df3=pd.DataFrame(dic1)  #열 이름으로 들어감
df3   #방향이 달라짐

Unnamed: 0,a,b,c
0,1,10,100
1,2,20,200
2,3,30,300


In [85]:
dic2= {'a':[1,2],
      'b':[10,20,30],
      'c':[100,200,300]}

In [86]:
df4=pd.DataFrame(dic2)    #딕셔너리 타입은 벨류의 길이가 같아야된다.
df4

ValueError: arrays must all be same length

In [87]:
# 인덱스를 지정하여 객체 생성:
# 행 인덱스 : index 파라미터 => r1,r2,r3
# 열 인덱스 : columns 파라미터 => c1,c2,c3,c4
df5=pd.DataFrame(data1,index=['r1','r2','r3'],columns=['c1','c2','c3','c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,0.1,0.2,0.3,0.4
r3,a,b,c,d


In [88]:
# 딕셔너리 자료형을 사용할 때 컬럼 순서를 변경하여 df 생성 가능
pd.DataFrame(dic1,columns=list('bca'))

Unnamed: 0,b,c,a
0,10,100,1
1,20,200,2
2,30,300,3


In [89]:
pd.DataFrame(dic1,columns=list('bcd'))

Unnamed: 0,b,c,d
0,10,100,
1,20,200,
2,30,300,


### DataFrame 속성
- 속성은 소괄호를 붙이지 않음
- index: df객체의 행 인덱스 배열을 반환
- columns: df객체의 열 인덱스 배열을 반환
- values: df객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes: df객체의 데이터 타입을 열 기준으로 반환
- size: df 객체의 데이터 개수(길이)를 반환
- shape: df 객체의 구조(행,열)을 반환
- T : 행과 열을 전치시킴

In [90]:
# 딕셔너리 타입 데이터로 데이터프레임 생성
# 지역(서울 경기 충청 경상)별 2016,2017,2018년 유입 인구
data={'서울':[100,110,120],
     '경기':[130,150,170],
     '충청':[80,40,10],
     '경상':[10,20,10]}

In [91]:
sample=pd.DataFrame(data)

In [92]:
sample

Unnamed: 0,서울,경기,충청,경상
0,100,130,80,10
1,110,150,40,20
2,120,170,10,10


In [93]:
sample.index=[2016,2017,2018]
sample

Unnamed: 0,서울,경기,충청,경상
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [94]:
# 참고 : 행 인덱스 이름 지정
sample.index.name='year'

In [95]:
sample.columns.name='city'

In [96]:
sample

city,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [97]:
# 행 인덱스 수정
# df.rename(data,axis=0)
# 기본동작:행인덱스(axis=0)
# 열인덱스: axis=1
# data: dictionary 타입 => {old1:new1,old2:new2...}
# inplace: 기본값(False),원본에 덮어쓰기 적용 => inplace=True

In [98]:
sample

city,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [99]:
# 행 인덱스 수정
sample.rename({2016:2015},inplace=True)

In [100]:
sample

city,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [101]:
# 열 인덱스 수정
sample.rename({'충청':'강원'},axis=1,inplace=True)

In [102]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [103]:
# 기존 인덱스 삭제하기/리셋
# df.reset_index(): 기존 인덱스가 없어지고 RangeIndex가 생성
# 기본동작: 기존 인덱스가 컬럼으로 추가(drop=False가 기본)
# drop=True

In [104]:
sample.reset_index()

city,year,서울,경기,강원,경상
0,2015,100,130,80,10
1,2017,110,150,40,20
2,2018,120,170,10,10


In [105]:
sample.reset_index(drop=True)

city,서울,경기,강원,경상
0,100,130,80,10
1,110,150,40,20
2,120,170,10,10


In [106]:
# 값
sample.values

array([[100, 130,  80,  10],
       [110, 150,  40,  20],
       [120, 170,  10,  10]], dtype=int64)

In [107]:
# 각 열의 데이터 타입
sample.dtypes

city
서울    int64
경기    int64
강원    int64
경상    int64
dtype: object

In [108]:
# 전체 튜플(셀) 개수: 행*열
sample.size

12

In [109]:
# 행 개수
len(sample)

3

In [110]:
# 데이터 구조(행,열)
sample.shape

(3, 4)

In [111]:
# 행과 열을 전환
sample.T

year,2015,2017,2018
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,100,110,120
경기,130,150,170
강원,80,40,10
경상,10,20,10


In [112]:
sample   # 원본 변화 없음

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


## 인덱싱
- 컬럼 조회
    - df[col]
    - df.col
    - df.get(col)
- iloc,loc 메서드로 로우 조회
    - df.iloc[idx] : 기본 숫자형 인덱스
    - df.loc[label]: 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc 메서드로 조회)

In [113]:
# 기본적인 인덱싱 기법은 데이터프레임의 컬럼에서 값을 조회
sample['경기']
sample.경기
sample.get('경기')  # 조회만 가능

year
2015    130
2017    150
2018    170
Name: 경기, dtype: int64

In [114]:
# 첫번째 행 조회
sample.iloc[0]

city
서울    100
경기    130
강원     80
경상     10
Name: 2015, dtype: int64

In [115]:
# 행 라벨로 조회: df.loc[label]
sample.loc[2015]

city
서울    100
경기    130
강원     80
경상     10
Name: 2015, dtype: int64

In [116]:
# 여러개
sample[['서울','강원']]

city,서울,강원
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2015,100,80
2017,110,40
2018,120,10


In [117]:
sample.iloc[[0,2]]

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2018,120,170,10,10


In [118]:
# 인덱싱에 인덱싱
sample['서울'][[2015,2018]]

year
2015    100
2018    120
Name: 서울, dtype: int64

In [119]:
sample.iloc[1][['서울','경기']]

city
서울    110
경기    150
Name: 2017, dtype: int64

In [120]:
sample['서울']=0
sample.get('서울')=10   # 수정 안됨

SyntaxError: can't assign to function call (<ipython-input-120-4ac12ab97a02>, line 2)

In [121]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


## 슬라이싱
- 로우(행) 슬라이싱
    - 순서가 있으며 로우 단독으로 슬라이싱 가능
    - 기본 슬라이싱 문법은 기본 숫자형 인덱스를 기준으로 적용
    - 기존 숫자형 인덱스로 슬라이싱 할 때는 마지막 인덱스는 포함하지 않고 라벨 인덱스로 슬라이싱할 때는 마지막 인덱스를 포함
- 컬럼(열) 슬라이싱
    - 순서가 없기 때문에 컬럼 단독으로 슬라이싱할 수 없음
    - 라벨 기준으로 로우 기준 슬라이싱 결과에 대해 컬럼 슬라이싱 가능(기본 숫자형 인덱스는 적용 불가)
    - 마지막 인덱스를 포함

In [122]:
data={'서울':[100,110,120],
     '경기':[130,150,170],
     '충청':[80,40,10],
     '경상':[10,20,10],
     '전라':[5,6,7]}

In [123]:
sample= pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,100,130,80,10,5
1,110,150,40,20,6
2,120,170,10,10,7


In [124]:
# 기본 로우 슬라이싱:  df[start(0):end(-1):step(1)]
# 행 기준 0번 인덱스부터 2번 인덱스까지 슬라이싱
sample[:3]

Unnamed: 0,서울,경기,충청,경상,전라
0,100,130,80,10,5
1,110,150,40,20,6
2,120,170,10,10,7


In [125]:
# sample shape => (3,5)
# 0번 인덱스 부터 3번 인덱스까지 2행 간격으로 슬라이싱
sample[::2]

Unnamed: 0,서울,경기,충청,경상,전라
0,100,130,80,10,5
2,120,170,10,10,7


In [126]:
# 전체 로우에 대해 간격을 -1로 지정: 행을 거꾸로 나열
# array 타입에서 내림차순 정렬 또는 나열을 거꾸로 뒤집을때 : arr[::-1]
sample[::-1]

Unnamed: 0,서울,경기,충청,경상,전라
2,120,170,10,10,7
1,110,150,40,20,6
0,100,130,80,10,5


In [127]:
# 컬럼 슬라이싱: 반드시 행에 대해 슬라이싱 한 수 열 슬라이싱을 적용할 수 있다.
# df[:,start:end:step]
# 인덱스 번호: 1번컬럼부터 4번컬럼까지 슬라이싱
# 기본 숫자형 인덱스 기준으로 슬라이싱 => 현재 df가 컬럼명(라벨)을 사용하고 있기 때문에 X
sample[:,1:4]

TypeError: unhashable type: 'slice'

In [128]:
# loc 메서드를 써도, 로우 인덱스는 RangeIndex와 Label Index를 함께 쓸 수 있다.
sample.loc[0:2,:'경상']

Unnamed: 0,서울,경기,충청,경상
0,100,130,80,10
1,110,150,40,20
2,120,170,10,10


In [129]:
# 컬럼,로우 인덱스 모두 기본 숫자형 인덱스인 경우
# 구조: 4*4
# 모든 값이 0인 데이터 프레임 생성
import numpy as np
data=np.zeros((5,5))
data

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [130]:
df1=pd.DataFrame(data)
df1

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0


In [131]:
# 숫자형 슬라이싱
df1[1:4]

Unnamed: 0,0,1,2,3,4
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [132]:
# 숫자형 인덱스로 슬라이싱 할 경우 요렇게하면 에러
df1[1:4,1:3]

TypeError: unhashable type: 'slice'

In [133]:
# 1. 컬럼 슬라이싱에서 사용하는 인덱스: 기본 번호 인덱스
# end point 미포함
df1.iloc[1:4,1:3]

Unnamed: 0,1,2
1,0.0,0.0
2,0.0,0.0
3,0.0,0.0


In [134]:
# 2. 컬럼 슬라이싱 에서 사용하는 인덱스 : 컬럼명(라벨)
# end point 포함
sample.loc[:,'경기':'경상']

Unnamed: 0,경기,충청,경상
0,130,80,10
1,150,40,20
2,170,10,10


In [135]:
# sample index를 label index 로 변경
#1990,1991,1992
sample.index=[1990,1991,1992]
sample

Unnamed: 0,서울,경기,충청,경상,전라
1990,100,130,80,10,5
1991,110,150,40,20,6
1992,120,170,10,10,7


In [136]:
# 1990,1992 행에 대해서 경기, 경상 컬럼만 가져오기
# 컬럼을 먼저 조회
sample[['경기','경상']].loc[[1990,1992]]

Unnamed: 0,경기,경상
1990,130,10
1992,170,10


In [137]:
# 로우를 먼저 조회
sample.loc[[1990,1992]][['경기','경상']]

Unnamed: 0,경기,경상
1990,130,10
1992,170,10


In [138]:
# 1990~1992
# 경기~경상
sample.loc[1990:1992,'경기':'경상']

Unnamed: 0,경기,충청,경상
1990,130,80,10
1991,150,40,20
1992,170,10,10


In [139]:
data2= {'Col1':[0,3,'ks01',2,5],
       'Col2':['big','data','is','very','good'],
       'Col3':[2.70,-5.00,2.12,8.31,-1.34],
       'Col4':[True,True,False,False,True]}
data2

{'Col1': [0, 3, 'ks01', 2, 5],
 'Col2': ['big', 'data', 'is', 'very', 'good'],
 'Col3': [2.7, -5.0, 2.12, 8.31, -1.34],
 'Col4': [True, True, False, False, True]}

In [140]:
df2=pd.DataFrame(data2,index=list('ABCDE'))

In [141]:
df2

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [142]:
df2['Col1']  # Series로 보기
df2[['Col1']] # 데이터 프레임 형식으로 보기

Unnamed: 0,Col1
A,0
B,3
C,ks01
D,2
E,5


In [143]:
df2[['Col1','Col3']]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [144]:
df2.iloc[[0,2]]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False


In [145]:
# 컬럼에 대해 멀티 인덱싱: 인덱싱 => 컬럼먼저
# 로우에 대해 슬라이싱 : 슬라이싱 => 인덱스 먼저
df2[['Col1','Col2']]['B':'D']

Unnamed: 0,Col1,Col2
B,3,data
C,ks01,is
D,2,very


In [146]:
# 로우 먼저 슬라이싱
# 컬럼나중에 슬라이싱
df2.loc['B':'D','Col1':'Col2']

Unnamed: 0,Col1,Col2
B,3,data
C,ks01,is
D,2,very


In [147]:
# 로우 먼저 슬라이싱
# 컬럼 나중에 멀티 인덱싱
df2.loc['B':'D'][['Col1','Col2']]

Unnamed: 0,Col1,Col2
B,3,data
C,ks01,is
D,2,very


## 컬럼, 로우 추가
- 컬럼 추가/ 변경
    - 컬럼 인덱싱 = 스칼라 값
    - 컬럼 인덱싱= 배열, 리스트(로우 개수와 아이템 개수 일치)
    - 컬럼 인덱싱 = 컬럼간의 연산
    - 컬럼 인덱싱 = series
- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
- 데이터 분석에서 컬럼과 로우의 의미
    - 컬럼: 변수(특성)
    - 로우: 개별 데이터(레코드)
    - 전체 데이터를 구성하는 변수를 추가/삭제하는 일은 빈번하게 발생하지만 특정 인덱스를 기준으로 전체 로우 데이터를 추가/삭제하는 일은 자주 발생하지 않으며 데이터 처리를 하는 과정에서 권장하지 않는 작업

In [148]:
sample

Unnamed: 0,서울,경기,충청,경상,전라
1990,100,130,80,10,5
1991,110,150,40,20,6
1992,120,170,10,10,7


In [149]:
# 컬럼 추가 1 : 모든 로우에 대해서 동일한 값을 가지는 컬럼
# 전달하는 값 : 단일값(스칼라/scalar)
# 추가하려는 컬럼 : 제주
sample['제주']=1
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주
1990,100,130,80,10,5,1
1991,110,150,40,20,6,1
1992,120,170,10,10,7,1


In [150]:
# 컬럼 추가 2 : 행 값이 서로 다른 데이터를 가지는 컬럼 추가
# 사용할 수 있는 데이터 타입: 배열, 리스트
# 조건: 추가하려는 데이터프렘임의 행 길이와 일치
# 값: 1,2,3
# 컬럼: 부산
sample['부산']=[1,2,3]
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산
1990,100,130,80,10,5,1,1
1991,110,150,40,20,6,1,2
1992,120,170,10,10,7,1,3


In [151]:
# 컬럼추가 3 : 컬럼 간의 연산
# 파생변수(유도변수) 
# 수도권 컬럼: 서울 + 경기
sample['수도권']=sample['서울']+sample['경기']
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,100,130,80,10,5,1,1,230
1991,110,150,40,20,6,1,2,260
1992,120,170,10,10,7,1,3,290


In [152]:
# 컬럼 추가 4 : series 객체를 컬럼으로 전달
# 조건 : 추가되는 원본 데이터프레임의 구조와 추가되는 시리즈 구조 파악 필요
# 라벨 인덱스를 기준으로 df & sr가 맵핑
# 결과: 공통이 아닌 라벨인덱스 => NaN
# 아이템 개수가 일치하지 않아도 된다.

In [153]:
# 라벨 인덱스 : 1990,1992
# 값:-9,-99
from pandas import DataFrame, Series
s1=pd.Series([-9,-99],index=[1990,1992])
s1

1990    -9
1992   -99
dtype: int64

In [154]:
s2=pd.Series([100,100,100])
s2

0    100
1    100
2    100
dtype: int64

In [155]:
sample['s1']=s1

In [156]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1
1990,100,130,80,10,5,1,1,230,-9.0
1991,110,150,40,20,6,1,2,260,
1992,120,170,10,10,7,1,3,290,-99.0


In [157]:
sample['s2']=s2

In [158]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,100,130,80,10,5,1,1,230,-9.0,
1991,110,150,40,20,6,1,2,260,,
1992,120,170,10,10,7,1,3,290,-99.0,


- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
    - 로우 인덱싱 = 자료형(배열,리스트/컬럼 개수와 아이템 개수 일치)

In [159]:
# 로우 추가 : 모든 컬럼에 대해서 동일한 값을 가지는 로우 추가
# 로우 인덱싱 = 스칼라값
sample.loc[1993]=0

In [160]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,100,130,80,10,5,1,1,230,-9.0,
1991,110,150,40,20,6,1,2,260,,
1992,120,170,10,10,7,1,3,290,-99.0,
1993,0,0,0,0,0,0,0,0,0.0,0.0


In [161]:
# 배열, 리스트
# 컬럼 개수와 배열,리스트의 아이템 개수 일치
sample.loc[1995]=np.arange(10)

In [162]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,100,130,80,10,5,1,1,230,-9.0,
1991,110,150,40,20,6,1,2,260,,
1992,120,170,10,10,7,1,3,290,-99.0,
1993,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [163]:
# 딕셔너리 : 컬럼마다 값을 지정해서 전달하는 경우
sample2=sample.loc[:,'서울':'충청'].copy()
sample2

Unnamed: 0,서울,경기,충청
1990,100,130,80
1991,110,150,40
1992,120,170,10
1993,0,0,0
1995,0,1,2


In [164]:
# 컬럼 개수 일치
sample2.loc[1994]={'서울':10,'경기':20,'충청':30}
sample2

Unnamed: 0,서울,경기,충청
1990,100,130,80
1991,110,150,40
1992,120,170,10
1993,0,0,0
1995,0,1,2
1994,10,20,30


In [165]:
# 로우 간의 연산
# 라벨 'test'
# 더하려는 로우 : 1990+1991
sample2.loc['test']=sample2.loc[1990]+sample2.loc[1991]

In [166]:
sample2

Unnamed: 0,서울,경기,충청
1990,100,130,80
1991,110,150,40
1992,120,170,10
1993,0,0,0
1995,0,1,2
1994,10,20,30
test,210,280,120


## 로우 ,컬럼 삭제
- 컬럼 삭제
    - del 키워드 + 컬럼 인덱싱
    - df.drop(col,axis=1)
    - df.drop(columns=col)
- 로우 삭제
    - df.drop(idx): axis=0(기본값)

In [167]:
# 컬럼 삭제 1: del + 컬럼인덱싱
# 결과 원본에 그대로 반영
del sample['s2']
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1
1990,100,130,80,10,5,1,1,230,-9.0
1991,110,150,40,20,6,1,2,260,
1992,120,170,10,10,7,1,3,290,-99.0
1993,0,0,0,0,0,0,0,0,0.0
1995,0,1,2,3,4,5,6,7,8.0


In [168]:
# 컬럼 삭제 2 df.drop(label,axis=1)
# 결과: 원본 반영 안됨
# inplace=True 원본 반영 0
sample.drop('s1',axis=1)

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,100,130,80,10,5,1,1,230
1991,110,150,40,20,6,1,2,260
1992,120,170,10,10,7,1,3,290
1993,0,0,0,0,0,0,0,0
1995,0,1,2,3,4,5,6,7


In [169]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1
1990,100,130,80,10,5,1,1,230,-9.0
1991,110,150,40,20,6,1,2,260,
1992,120,170,10,10,7,1,3,290,-99.0
1993,0,0,0,0,0,0,0,0,0.0
1995,0,1,2,3,4,5,6,7,8.0


In [170]:
# 컬럼 삭제3 df.drop(cloumns=label)
sample.drop(columns='s1',inplace=True)

In [171]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,100,130,80,10,5,1,1,230
1991,110,150,40,20,6,1,2,260
1992,120,170,10,10,7,1,3,290
1993,0,0,0,0,0,0,0,0
1995,0,1,2,3,4,5,6,7


In [172]:
# 로우 삭제
# df.drop(idx) : 기본 axis=0=> 행 인덱스를 참조
sample.drop(1995,inplace=True)
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,100,130,80,10,5,1,1,230
1991,110,150,40,20,6,1,2,260
1992,120,170,10,10,7,1,3,290
1993,0,0,0,0,0,0,0,0


In [173]:
# 두 개 이상의 로우/컬럼 삭제: 라벨 인덱스를 리스트로 묶어서 전달
sample.drop(['수도권','부산'],axis=1)

Unnamed: 0,서울,경기,충청,경상,전라,제주
1990,100,130,80,10,5,1
1991,110,150,40,20,6,1
1992,120,170,10,10,7,1
1993,0,0,0,0,0,0


## 산술 연산
- dataframe 과 스칼라 값 산술 연산
- dataframe과 series 간의 산술 연산
- dataframe간의 산술연산
    - 컬럼, 로우 인덱스를 기준으로 연산 수행
    - 공통으로 존재하지 않는 경우 NaN 반환
    - fill_value 인자 값을 통해 NaN이 아닌 값으로 대체 가능
- 연산의 종류
    - 더하기: +,add()메서드
    - 빼기: -,sub()메서드
    - 곱하기: *,mul() 메서드
    - 나머지만 반환: %
    - 몫만 반환: //

In [174]:
# 컬럼: 서울 경기 인천
# 로우: a b c
# 값 : 0부터 1씩 증가하는 정수값
data = np.arange(9)

df1=pd.DataFrame(data.reshape(3,3),index=list('abc'),columns=['서울','경기','인천'])
df1

Unnamed: 0,서울,경기,인천
a,0,1,2
b,3,4,5
c,6,7,8


In [175]:
# 컬럼: 서울 경기 인천 세종 강원
# 인덱스 : abcd
# 값; np.arange(20)
data2=np.arange(20)
df2=pd.DataFrame(data2.reshape(4,5),index=list('abcd'),columns=['서울','경기','인천','세종','강원'])
df2

Unnamed: 0,서울,경기,인천,세종,강원
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19


In [176]:
# 데이터 프레임간의 연산
# 공통이 아닌것들 세종 강원
# 공통인 것들의 값만 볼 수 있음
df1+df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,2.0,0.0,,4.0
b,,10.0,8.0,,12.0
c,,18.0,16.0,,20.0
d,,,,,


In [177]:
# fill_value 설정: df1.add(df2,fill_value=0)
df1.add(df2,fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,2.0,0.0,3.0,4.0
b,9.0,10.0,8.0,8.0,12.0
c,14.0,18.0,16.0,13.0,20.0
d,19.0,16.0,15.0,18.0,17.0


In [178]:
df1*df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,0.0,,4.0
b,,24.0,15.0,,35.0
c,,77.0,60.0,,96.0
d,,,,,


In [179]:
df1.mul(df2,fill_value=1)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,1.0,0.0,3.0,4.0
b,9.0,24.0,15.0,8.0,35.0
c,14.0,77.0,60.0,13.0,96.0
d,19.0,16.0,15.0,18.0,17.0


In [180]:
df1.divide(df2,fill_value=1)

Unnamed: 0,강원,경기,서울,세종,인천
a,0.25,1.0,,0.333333,1.0
b,0.111111,0.666667,0.6,0.125,0.714286
c,0.071429,0.636364,0.6,0.076923,0.666667
d,0.052632,0.0625,0.066667,0.055556,0.058824


## DataFrame 과 Series 간의 연산
- 기본적인 동작은 series 객체의 인덱스를 dataframe 객체의 컬럼 인덱스와 매핑하여 브로드캐스팅과 유사하게 연산 수행
- 두 객체간의 공통된 인덱스가 아닌 대상은 NaN 값으로 대입
- 메서드를 사용하여 연산을 수행할 때는 axis 파라미터를 통해 연산을 적용할 축 지정(0:행,1:열)
- 연산의 종류:
    - 더하기 : +,add()메서드
    - 빼기: -, sub()메서드
    - 곱하기: *, mul()메서드
    

In [181]:
# 컬럼명: abcd
# 로우명: 2010,2011,2012
# 데이터: np.arange(0->)
df=pd.DataFrame(np.arange(12).reshape(3,4),index=[2010,2011,2012],columns=list('abcd'))
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [182]:
# 첫번째 행을 추출
# 라벨 인덱스 -> 원본 데이터프레임의 컬럼
s1=df.loc[2010]
s1

a    0
b    1
c    2
d    3
Name: 2010, dtype: int32

In [183]:
# series(라벨 인덱스)와 df 결합기준 : 기본동작( df 컬럼명 * sr 로우명), 아래로 전파
# 더하기
df+s1

Unnamed: 0,a,b,c,d
2010,0,2,4,6
2011,4,6,8,10
2012,8,10,12,14


In [184]:
df.add(s1)

Unnamed: 0,a,b,c,d
2010,0,2,4,6
2011,4,6,8,10
2012,8,10,12,14


In [185]:
df.sub(s1)

Unnamed: 0,a,b,c,d
2010,0,0,0,0
2011,4,4,4,4
2012,8,8,8,8


In [186]:
# dataframe
# 컬럼명: abcde
# 데이터 : 0 
# 구조 4*5
df2=pd.DataFrame(np.zeros((4,5)),columns=list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [187]:
s2=pd.Series([0,1,2,3,4])
s2

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [188]:
# 기본 동작 : 시리즈의 로우인덱스 & 데이터프레임 컬럼
df2.sub(s2)

Unnamed: 0,a,b,c,d,e,0,1,2,3,4
0,,,,,,,,,,
1,,,,,,,,,,
2,,,,,,,,,,
3,,,,,,,,,,


In [189]:
# axis =0 : 시리즈의 값이 데이터프레임의 열 마다 행 단위로 적용
# 4번 인덱스 행의 NaN : df 와 sr의 행 개수가 달라서
df2.sub(s2,axis=0)

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,-1.0,-1.0,-1.0,-1.0,-1.0
2,-2.0,-2.0,-2.0,-2.0,-2.0
3,-3.0,-3.0,-3.0,-3.0,-3.0
4,,,,,


In [190]:
# df 컬럼에 없는 인덱스를 가진  series
# 인덱스 : acf / 공통 ac 공통이 아닌것 f
# 데이터 : 3,3,3
sr3=pd.Series([3,3,3],index=list('acf'))
sr3

a    3
c    3
f    3
dtype: int64

In [191]:
# 빼기
# 공통되지 않은 인덱스 값: NaN
# 라벨 인덱스와 컬럼과 1순위 매칭
df2.sub(sr3)

Unnamed: 0,a,b,c,d,e,f
0,-3.0,,-3.0,,,
1,-3.0,,-3.0,,,
2,-3.0,,-3.0,,,
3,-3.0,,-3.0,,,
