In [1]:
# pandas 라이브러리 및 Series, DataFrame 네임 스페이스 불러오기
import pandas as pd

### dictionary 자료형과 유사한 Series 자료형

In [3]:
# dictionary 자료형으로 series 생성
data = {'서울':100, '경기':200, '강원':300, '부산':400}
sample = pd.Series(data)
print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [4]:
# Series 객체와 in 연산자
# dictionary와 유사 : in 연산자를 사용해 내부 요소 검사시
# key값에 해당하는 라벨을 이요해 요소가 있는지 없는지 여부를 True, False로 출력
print('서울' in data)
print('서울' in sample)

True
True


In [8]:
# for 문에서 in 연산자로 접근 : Series의 value 값을 참조
for key in data:
    print(key)
print("-")
for i in sample:
    print(i)

서울
경기
강원
부산
-
100
200
300
400


In [9]:
# 서울, 경기, 강원, 부산 => 서울, 경기, 강원, 제주로 라벨 인덱싱 변경
# 지정한 index 기준으로 Series 생성
# 사용하는 인덱스에 없는 값은 Series에 NaN 값으로 저장
# NaN : Not a Number(결측치) -> numpy에서 사용함
# None : 결측치(파이썬에서 사용함)
index2 = {'서울', '경기', '강원', '제주'}
sample2 = pd.Series(data, index=index2)
sample2

강원    300.0
경기    200.0
서울    100.0
제주      NaN
dtype: float64

### 인덱싱(Indexing)

- 하나의 특정 값을 선택하거나 변경
- 참조하는 인덱스 : 기본 숫자 인덱스, 라벨 인덱스
- 새로운 인덱스를 설정해도 기본 숫자 인덱스 사용 가능

In [10]:
s6_data = {'a':10, 'b':20, 'c':30}
s6 = pd.Series(s6_data)
s6

a    10
b    20
c    30
dtype: int64

In [11]:
# Series s6의 첫 번째 데이터 => 인덱스 0으로 조회
# Series객체[인덱스번호 or 라벨숫자]
print(s6.index[0]) #인덱스의 0번째는 'a'
print(s6[0]) #s6자체의 0번째 자료는 10

a
10


In [12]:
# Series s6의 인덱스 a값을 조회
s6['a']

10

In [15]:
s7_data = {'mon':10, 'tue':20, 'wed':30, 'thu':40}
s7 = pd.Series(s7_data)
s7

mon    10
tue    20
wed    30
thu    40
dtype: int64

In [16]:
# Series s7의 인덱스 0번째 값을 조회
print(s7[0])
print(s7['mon'])

10
10


In [17]:
# Series s7의 인덱스 tue에 해당하는 데이터 값을 변경
# 인덱스(라벨링)은 개별적으로 하나하나 변경 불가능
# 매칭된 데이터는 개별 데이터 하나만 따로 변경하기 가능
s7['tue']=200
s7

mon     10
tue    200
wed     30
thu     40
dtype: int64

In [18]:
# 시리즈에서 원하는 로우(행)만 조회하기 :  조회할 로우명을 리스트로 묶어서 전달
# Series s7에서 mon, wed 라벨 조회
# 이중 리스트를 사용해 조회해야 함 -> s7['mon', 'wed'] #에러 발생
s7[['wed', 'mon']]

wed    30
mon    10
dtype: int64

In [19]:
# 여러 개의 인덱스를 조회할때는 리스트만 사용 가능하다.
s7[('mon', 'wed')]

KeyError: ('mon', 'wed')

### 슬라이싱(Slicing) 

- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [20]:
# 인덱스 0에서 인덱스2(포함)까지 조회
s1 = pd.Series([10, 20, 30, 40, 50], index=list('abcde'))
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [21]:
# RangeIndex : 0, 1
s1[0:2]

a    10
b    20
dtype: int64

In [22]:
# 라벨 : 'a'에서 라벨 'c' 조회(포함)
s1['a' : 'c']

a    10
b    20
c    30
dtype: int64

In [23]:
# 0~3번째까지 2개 간격으로 인덱싱
s1[0:4:2]

a    10
c    30
dtype: int64

In [24]:
# 인덱스 'd'에서 인덱스 'd'(포함)까지  2개 간격으로 조회
s1['b':'d':2]

b    20
d    40
dtype: int64

### 조건 색인(Boolean Indexing)

- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

<img src="img/conditional_index.png" width="700" align="center">

In [25]:
# 양수와 음수 데이터를 저장하고 있는 Series 생성
# 양수 : 10 기준으로 위 아래
s2 = pd.Series([10, -3, 14, 70, -44, -18, -5, 1, -2, 12, 5])
s2

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [26]:
# 음수인 데이터는 True로, 양수인 데이터는 False로 만들기
s2 < 0

0     False
1      True
2     False
3     False
4      True
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [28]:
# 위의 조건식을 이용해 조건색인으로 s2중 음수만 남겨보세요
s2[s2 < 0]

1    -3
4   -44
5   -18
6    -5
8    -2
dtype: int64

In [29]:
# 인덱스 원본 유지
s2 

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [30]:
# 두 개 이상의 조건 병렬형태로 처리하기 : &, |
# 양수이면서 10보다 작은 값만 조건색인으로 남겨주세요
s2[(s2 < 10) & (s2 > 0)]

7     1
10    5
dtype: int64

### 산술연산

- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능
    
    <img src="img/series_math.png" width="500" align="center">
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [33]:
# 라벨 : a, b, c, d ->데이터 4개
# 라벨 : a, c, d, e, f, g ->데이터 6개 [10, 20, 30, 40, 50, 60]
s1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))
print(s1)
print(s2)

a    1
b    2
c    3
d    4
dtype: int64
a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64


In [34]:
# Series 객체와 스칼라 값의 산술 연산
s1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [35]:
# Series끼리 더하기
# 공통라벨인 a, c, d에만 값 부여, 어느 한 쪽에만 있는 라벨들은 NaN
s1 + s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [36]:
# fill_value 파라미터 : 고통으로 존재하지 않는 라벨에 대해서 NaN 값을
# 적용하지 않고 특정 값으로 대체해서 사용할 수 있다.
# Series 메서드를 사용할 때의 파라미터로 입력 가능
s1.add(s2)

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [37]:
s1.add(s2, fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [38]:
# Series 객체 간의 빼기 연산
s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [39]:
s1.sub(s2, fill_value=100)

a    -9.0
b   -98.0
c   -17.0
d   -26.0
e    60.0
f    50.0
g    40.0
dtype: float64

In [40]:
# Series 객체 간의 곱하기 연산
s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [42]:
s1.mul(s2, fill_value=1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [43]:
# Series 객체 간의 나누기 연산
s1 / s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [44]:
s1.div(s2, fill_value=1)

a    0.100000
b    2.000000
c    0.150000
d    0.133333
e    0.025000
f    0.020000
g    0.016667
dtype: float64

https://pandas.pydata.org/pandas-docs/stable/reference/series.html

위 사이트에서 추가적인 fill_value 사용 가능 연산자별 명령어를 확인할 수 있다.

In [45]:
# Series 객체 간의 나머지 반환 연산
s1 % s2

a    1.0
b    NaN
c    3.0
d    4.0
e    NaN
f    NaN
g    NaN
dtype: float64

In [46]:
# Series 객체간의 정수 몫 반환 연산
s1 // s2

a    0.0
b    NaN
c    0.0
d    0.0
e    NaN
f    NaN
g    NaN
dtype: float64

### 연습 문제 

#### 1. 실습 데이터 생성 : 1 ~ 100(미만) 사이의 랜덤 정수 값을 26개 저장한 Series를 생성하고 A~Z까지의 알파벳으로 라벨링 설정

In [47]:
import numpy as np

In [53]:
data = np.random.randint(1, 100, 26) # 시작값, 끝나는값, 개수

In [54]:
s3 = pd.Series(data, index=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))

In [55]:
s3

A    52
B    87
C    97
D    99
E     6
F    76
G    88
H    27
I    55
J    55
K    45
L    92
M    55
N    32
O     8
P    44
Q    48
R    23
S    61
T     8
U    88
V     8
W    28
X    37
Y    18
Z    95
dtype: int32

#### 2. 인덱스 라벨이 'K' 항목의 값 출력

In [67]:
#s3[s3.index=='K']
s3['K']

45

#### 3. 인덱스 라벨이 'A','F','C' 항목의 값 출력 ★

In [69]:
#s3[(s3.index=='A') | (s3.index=='F') | (s3.index=='C')]
s3[['A', 'F', 'C']]

A    52
F    76
C    97
dtype: int32

#### 4. 5번 인덱스부터 15번 인덱스까지의 항목 출력

In [70]:
s3[5:16] #s3['F':'P']

F    76
G    88
H    27
I    55
J    55
K    45
L    92
M    55
N    32
O     8
P    44
dtype: int32

#### 5. 뒤에서 5개 항목 출력

In [71]:
s3[-5:]

V     8
W    28
X    37
Y    18
Z    95
dtype: int32

#### 6. data의 항목의 개수를 출력

In [81]:
len(s3)
s3.size

26

#### 7. data 항목 값들의 평균보다 큰 항목만 출력

In [82]:
s3.mean()

51.23076923076923

In [76]:
s3[s3.mean()<s3]

A    52
B    87
C    97
D    99
F    76
G    88
I    55
J    55
L    92
M    55
S    61
U    88
Z    95
dtype: int32

#### 8. data의 항목 값 중에 50이 있는지 확인하여, 있으면 True, 없으면 False를 출력

In [78]:
s3 == 50

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
K    False
L    False
M    False
N    False
O    False
P    False
Q    False
R    False
S    False
T    False
U    False
V    False
W    False
X    False
Y    False
Z    False
dtype: bool

In [83]:
50 in s3

False

In [85]:
50 in s3.values

False

### DataFrame 생성 

- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 하나의 Dataframe은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음
    
<img src="img/df_example.png" width="500" align="center">

In [89]:
import pandas as pd

In [None]:
# 다차원 자료형, 딕셔너리 자료형을 사용
# 주의점 : 자료형에 따라서 아이템 길이 이슈 발생
# 다차원 리스트 : 아이템 길이가 동일 / 서로 다른 타입
# 딕셔너리 : 아이템 길이사 동일 / 서로 다른 타입

In [87]:
# 데이터프레임의 셀(튜플)에는 모든 데이터 타입 및 여러 타입 혼합 가능
# 다차원 리스트 : 아이템 개수 3개, 하위 아이템 개수 4개
data1 = [[1, 2, 3, 4], 
        ['a', 'b', 'c', 'd'],
        [0.1, 0.2, 0.5, 0.6]]

In [91]:
# 아이템 3개 : 행 3개줄 => df에 저장하는 데이터의 개수
# 하위 아이템 4개 : 열 4줄 => df에 저장하는 데이터의 속성/변수의 개수
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,a,b,c,d
2,0.1,0.2,0.5,0.6


In [92]:
# 아이템 길이가 다른 다차원 리스트
# 최대 길이의 행을 기준으로 df 구조가 생성됨
# 길이가 모자란 튜플(셀) : NaN값으로 채워짐
data2 = [[1, 2, 3, 4, 5], 
        ['a', 'b'],
        [0.1, 0.2, 0.5]]

In [93]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4
0,1,2,3.0,4.0,5.0
1,a,b,,,
2,0.1,0.2,0.5,,


In [96]:
# 아이템 3개, value의 길이 4개 => 아이템의 개수(컬럼의 개수), value의 길이(로우의 개수)
# 딕셔너리의 키 :
data3 = {'a':[10, 20, 30, 40], 
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7, 8]}

In [98]:
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,a,b,c
0,10,1,5
1,20,2,6
2,30,3,7
3,40,4,8


In [99]:
# 딕셔너리 자료형을 데이터프레임 데이터로 사용
# 아이템 개수 3개, Value 길이 다르게
# 개수가 모자란 튜플(셀) : ValueError -> key에 해당하는 value의 길이가 모두 동일해야 함
data4 = {'a':[10], 
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7]}

In [100]:
df4 = pd.DataFrame(data4) # ValueError: arrays must all be same length
df4

ValueError: arrays must all be same length

In [102]:
# 인덱스를 지정하여 객체 생성 : DataFrame 함수에서 파라미터로 지정
# column 파라미터 : 컬럼명(열 개수와 동일한 길이를 가진 리스트 전달)
# index 파라미터 : 로우명(행 개수와 동일한 길이를 가진 리스트 전달)
df5= pd.DataFrame(data1, index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3', 'c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,a,b,c,d
r3,0.1,0.2,0.5,0.6


In [103]:
data1

[[1, 2, 3, 4], ['a', 'b', 'c', 'd'], [0.1, 0.2, 0.5, 0.6]]

In [104]:
data3

{'a': [10, 20, 30, 40], 'b': [1, 2, 3, 4], 'c': [5, 6, 7, 8]}

In [105]:
# 딕셔너리를 이용했을 때 컬럼 순서를 변경하여 df 생성 가능
df6 = pd.DataFrame(data3, index=list('wxyz'), columns=list('cab'))
df6

Unnamed: 0,c,a,b
w,5,10,1
x,6,20,2
y,7,30,3
z,8,40,4


In [106]:
# data에 없는 인덱스를 전달하는 경우 : 없는 key에 대해서 컬럼을 생성, 값은, NaN으로 
df7 = pd.DataFrame(data3, columns=list('abd'))
df7

Unnamed: 0,a,b,d
0,10,1,
1,20,2,
2,30,3,
3,40,4,


In [107]:
# 딕셔너리 data와 일치하지 않는 index 개수를 전달하는 경우
df8 = pd.DataFrame(data3, index=[10, 20, 30, 40, 50])
df8

ValueError: Shape of passed values is (4, 3), indices imply (5, 3)

DataFrame 속성

- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

In [108]:
# 딕셔너리 타입 데이터로 데이터프레임 샌선
# 서울, 경기, 충청, 경상, 전라 지역에 대해 2016, 2017, 2018영 유입인구 데이터 세팅
data = { '서울':[150, 180, 300], 
       '경기':[200, 240, 450], 
       '충청':[-10, 3, -13], 
       '경상':[10, 20, 30],
       '전라':[5, 6, 7]}

In [118]:
sample = pd.DataFrame(data) #, index=[2016, 2017, 2018]
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [119]:
# 행 인덱스 : 행 개수와 동일하게 리스트 전달
sample.index = [2016, 2017, 2018]
sample

Unnamed: 0,서울,경기,충청,경상,전라
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [120]:
# 참고 : 행 인덱스 이름 지정
sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [121]:
# 열 인덱스
sample.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [124]:
# 참고 : 열 인덱스 이름 지정
sample.columns.name = 'location'
sample

location,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [125]:
# 행 인덱스(로우) 수정
# 속성값
# 1. 행의 개수와 동일한 리스트를 전달
# 2. 속성값으로 사용하는 인덱스 객체는 아이템 수정 불가(하나의 인덱스만 개별 수정 불가)
sample.index = [1991, 1992, 1993]
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [164]:
# 인덱스 수정
# df 메서드 : df변수.rename(data, axis)
# axis 기본값 = 0 (로우 == 'index')
# 열 인덱스(컬럼)에 대한 수정 : axis=1 혹은 axis='columns'
# data : 딕셔너리타입, {'이전 인덱스명':'바꿀 인덱스명'}
# inplace = False(기본값) : 바뀐 결과 적용 x 시뮬레이션 ★
# inplace = True : 바뀐 결과를 바로 적용 ★
#sample.rename({1991:1990})
sample.rename({1991:1990}, inplace=True) # 영구히 바뀜

In [165]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [166]:
# 열 인덱스(컬럼) 변경 : axis=1 or axis='columns'
# 전라 -> 제주로 변경해보세요. 1회성 시뮬레이션입니다.
sample.rename({'전라':'제주'}, axis='columns')

location,서울,경기,충청,경상,제주
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [130]:
# 행, 열 인덱스 : df객체.axes
# 반환값 : 리스트 -> 첫 번째 아이템(행(row)인덱스), 두 번째 아이템(열(column)인덱스)
print(sample.axes)
print(sample.axes[0])
print(sample.axes[1])

[Int64Index([1991, 1992, 1993], dtype='int64'), Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')]
Int64Index([1991, 1992, 1993], dtype='int64')
Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')


In [167]:
# reset_index(drop=True)를 사용하면 로우에 배정된 인덱스를 일괄 삭제한다,
sample.reset_index(drop=True)

location,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [168]:
# 데이터 : df.values
# 반환값 : 2d array
sample.values

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

In [133]:
# 각 열의 데이터 타입
sample.dtypes

location
서울    int64
경기    int64
충청    int64
경상    int64
전라    int64
dtype: object

In [134]:
# 전체 튜플(셀) 개수 : 
sample.size

15

In [135]:
# len으로 조회시 2차원 데이터로 간주해 row 개수가 반환됨
len(sample)

3

In [136]:
# 데이터 구조(행, 열)
sample.shape

(3, 5)

In [139]:
# 행과 열을 전치
sample_t = sample.T

In [140]:
sample_t

Unnamed: 0_level_0,1991,1992,1993
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,150,180,300
경기,200,240,450
충청,-10,3,-13
경상,10,20,30
전라,5,6,7


In [141]:
# 전치한 데이터 프레임의 행 인덱스
sample_t.index

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')

In [142]:
# 전치한 데이터 프레임의 열 인덱스
sample_t.columns

Int64Index([1991, 1992, 1993], dtype='int64')

In [143]:
# 전치한 데이터 프레임의 구조
sample_t.shape

(5, 3)

In [169]:
# 전치는 1회성으로 진행됨(원본 sample 변수는 그대로 3 x 5형태)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


### 인덱싱

- 컬럼 조회
    - df[col]
    - df.col
    - df.get(col)
- iloc, loc 메서드로 로우 조회
    - df.iloc[idx] : 기본 숫자형 인덱스
    - df.loc[label] : 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc 메서드로 조회)

In [170]:
# 기본적인 인덱싱 기법은 데이터 프레임의 컬럼에서 값을 조회
# 객체[idx_n]
sample['서울']

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [171]:
# '서울' 컬럼 조회의 3가지 방법
# 1. 기본적인 인덱싱 기호 :df[colname]
# 2. 컬럼명을 도트를 이용해서 조회, 무조건 이름이 문자열일때만 사용 가능 : df.colname
# 3. df메서드로 조회 : df.get(colname)
sample['서울']
sample.서울
sample.get('서울')

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [172]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [173]:
# 첫 번째 행(로우) 조회 : 0번 인덱스 참조
# 반환값 : Series
# 라벨 인덱스 : 기존 데이터프레임의 컬럼
# Series name : 기존 데이터프레임에서 참조한 첫 번째 행의 라벨 인덱스
sample.iloc[0]

location
서울    150
경기    200
충청    -10
경상     10
전라      5
Name: 1990, dtype: int64

In [174]:
# 숫자형 라벨로 조회 : 1992행 조회
sample.loc[1992]

location
서울    180
경기    240
충청      3
경상     20
전라      6
Name: 1992, dtype: int64

In [175]:
# 여러 개의 열 조회 : 리스트로 묶어서 전달(서울, 경기) ★
sample[['서울', '경기']]

location,서울,경기
1990,150,200
1992,180,240
1993,300,450


In [176]:
# 서울, 경기지역의 1992년 데이터만 조회
sample.loc[1992, ['서울', '경기']] #sample[['서울', '경기']].loc[1992]

location
서울    180
경기    240
Name: 1992, dtype: int64

In [178]:
# 여러 개의 행 조회(1990, 1993년 한꺼번에 조회)
sample.loc[[1990, 1993]]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [180]:
# 1990, 1993년도의 데이터에서 충청도 지역 데이터만 남기기
#sample.loc[[1990, 1993]].get('충청')
#sample.loc[[1990, 1993]].충청
sample.loc[[1990, 1993]]['충청']

1990   -10
1993   -13
Name: 충청, dtype: int64

### 슬라이싱

- 로우(행) 슬라이싱 
    - 순서가 있으며 로우 단독으로 슬라이싱 가능
    - 기본 슬라이싱 문법은 기본 숫자형 인덱스를 기준으로 적용
    - 기본 숫자형 인덱스로 슬라이싱할 때는 마지막 인덱스는 포함하지 않고 라벨 인덱스로 슬라이싱할 때는 마지막 인덱스를 포함
- 컬럼(열) 슬라이싱 
    - 순서가 없기 때문에 컬럼 단독으로 슬라이싱할 수 없음
    - 라벨 기준으로 로우 기준 슬라이싱 결과에 대해 컬럼 슬라이싱 가능(기본 숫자형 인덱스는 적용 불가)
    - 마지막 인덱스를 포함

In [181]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [182]:
# 기본 로우 슬라이싱 : df[start:end:step]
# 0번부터 1번까지 슬라이싱
sample[0:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6


In [184]:
# 0번 인덱스부터 2번 인덱스까지 2행 간격으로 슬라이싱
sample[0:3:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [185]:
# 전체 로우에 대해 간격을 -1로 지정 : 행을 역순으로 나열
sample[::-1]

location,서울,경기,충청,경상,전라
1993,300,450,-13,30,7
1992,180,240,3,20,6
1990,150,200,-10,10,5


In [187]:
# 컬럼 슬라이싱 : 행에 대한 슬라이싱 결과에 열 슬라이싱 적용
# df[:, start:end:step]
# 기본 숫자형 인덱스 기준의 슬라이싱 -> 컬럼명으로 사용
sample.loc[:, :'경상']

location,서울,경기,충청,경상
1990,150,200,-10,10
1992,180,240,3,20
1993,300,450,-13,30


In [191]:
# 컬럼, 로우 인덱스 모두 기본 숫자형 인덱스인 경우
# 4 x 4 구조에서 모든 값이 0인 데이터 프레임 생성
data = np.zeros((4, 4))
data

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [192]:
# df화 시키기
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0


In [193]:
# 숫자형 슬라이싱
# 컬럼, 로우
df[:3][:2]

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0


In [194]:
# Error
df[:3, :2]

TypeError: '(slice(None, 3, None), slice(None, 2, None))' is an invalid key

In [195]:
# 1. 컬럼 슬라이싱에서 사용하는 인덱스 : 기본 번호 인덱스
# 2. 컬럼 슬라이싱 조건 : 로우 슬라이싱 결과에서만 가능
# 3. 메서드를 사용한 로우 슬라이싱 : iloc / loc -> 1번 기준
df.iloc[:3, :2]

Unnamed: 0,0,1
0,0.0,0.0
1,0.0,0.0
2,0.0,0.0


### 연습문제

#### 아래와 같은 데이터프레임을 생성하고 출력화면과 동일한 결과를 생성하세요.

<img src="img/df_practice1.png" width="250" align="left">

In [199]:
data = {'Col1':[0, 3, 'ks01', 2, 5],
      'Col2':['big', 'data', 'is', 'very', 'good'],
      'Col3':[2.7, -5.0, 2.12, 8.31, -1.34],
      'Col4':[True, True, False, False, True]}
df1 = pd.DataFrame(data) #df1 = pd.DataFrame(data, index=list("ABCDE")) 

In [200]:
df1

Unnamed: 0,Col1,Col2,Col3,Col4
0,0,big,2.7,True
1,3,data,-5.0,True
2,ks01,is,2.12,False
3,2,very,8.31,False
4,5,good,-1.34,True


In [201]:
df1.index= ['A', 'B', 'C', 'D', 'E'] 

In [202]:
df1

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [204]:
# Col1, Col3 함께 조회
df1[['Col1', 'Col3']]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [205]:
# A, C, D 로우만 조회
df1.loc[['A', 'C', 'D']]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [206]:
# B, D로우의 Col1, Col2만 조회
df1[['Col1', 'Col2']].loc[['B', 'D']]

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


In [207]:
df1.loc[['B', 'D']][['Col1', 'Col2']]
#df1.loc['B':'D':2, 'Col1':'Col2']

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


### 컬럼, 로우 추가

- 컬럼 추가 / 변경
    - 컬럼 인덱싱 = 스칼라 값
    - 컬럼 인덱싱 = 배열, 리스트(로우 개수와 아이템 개수 일치)
    - 컬럼 인덱싱 = 컬럼 간의 연산
    - 컬럼 인덱싱 = series
- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
- 데이터 분석에서 컬럼과 로우의 의미
    - 컬럼 : 변수(특성)
    - 로우 : 개별 데이터(레코드)
    - 전체 데이터를 구성하는 변수를 추가/삭제하는 일은 빈번하게 발생하지만 특정 인덱스를 기준으로 전체 로우 데이터를 추가/삭제하는 일은 자주 발생하지 않으며 데이터 처리를 하는 과정에서 권장하지 않는 작업

In [208]:
# 컬럼 추가 1 : 모든 로우에 대해서 동일한 값을 가지는 컬럼 =>  스칼라값(단일값)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [209]:
# 제주 컬럼 추가, 모든 데이터는 1로 통일
sample['제주'] = 1

In [211]:
sample

location,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1992,180,240,3,20,6,1
1993,300,450,-13,30,7,1


In [214]:
# 컬럼 추가 2 : 서로 다은 값을 가지는 데이터로 행을 구성하는 컬럼 추가
# 조건 : 전달하는 자료형(배열, 리스트)의 길이 = 행의 길이
# 부산 컬럼 증가, 데이터는 5부터 1씩 증가하는 숫자를 가지는 배열
#sample['부산'] = [5, 6, 7]
sample['부산'] = np.arange(5, 8)

In [215]:
sample

location,서울,경기,충청,경상,전라,제주,부산
1990,150,200,-10,10,5,1,5
1992,180,240,3,20,6,1,6
1993,300,450,-13,30,7,1,7


In [219]:
# 컬럼 추가 3 : 컬럼 간의 연산 -> 파생 변수 ★
# 수도권 : 서울 + 경기
sample['수도권'] = sample['서울']+sample['경기']

In [220]:
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,5,350
1992,180,240,3,20,6,1,6,420
1993,300,450,-13,30,7,1,7,750


In [221]:
# 컬럼 추가 4 : Series 객체를 컬럼으로 전달
# 조건 : 추가 대상인 df의 구조와 추가 아이템인 Series의 구조를 파악해야 함
# 라벨 인덱스를 기준으로 Series 데이터와 df 데이터가 매핑
# Series에 없는 라벨 인덱스의 경우에는 NaN
# 반드시 길이가 일치하지 않아도 된다.
s1 = pd.Series([9, -99], index=[1990, 1992])
s1

1990     9
1992   -99
dtype: int64

In [222]:
sample['강원'] = s1
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150,200,-10,10,5,1,5,350,9.0
1992,180,240,3,20,6,1,6,420,-99.0
1993,300,450,-13,30,7,1,7,750,


In [224]:
# 데이터 개수가 동일해도 라벨 기준으로 매핑하기 때문에 값 전달이 이루어지지 않음
s2 = pd.Series([100, 100, 100])
s2

0    100
1    100
2    100
dtype: int64

In [225]:
sample['test'] = s2
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,


- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
    - 로우 인덱싱 = 자료형(배열, 리스트 / 컬럼 개수와 아이템 개수 일치

In [226]:
# 로우는  ,loc를 이용해서 추가해준다.
# .loc가 붙는다는 점만 빼면 컬럼과 완전히 동일한 문법을 사용한다
sample.loc[1994] = 0
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0


In [227]:
sample.shape

(4, 10)

In [228]:
# 배열, 리스트, 딕셔너리 : 로우 추가 가능한 자료형
# 컬럼 개수와 아이템 개수를 일치시켜 전단
sample.loc[1995] = np.arange(10)
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [237]:
# 1990 -> 1991로 고쳐주세요 #v
sample.rename({1990:1991}, inplace=True)
#sample.index = [1991, 1992, 1993, 1994, 1995]

In [238]:
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1991,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0
1996,10,20,40,21,37,103,28,30,15.0,0.0


In [236]:
sample.loc[1996] = {'서울':10, '경기':20, '충청':40, '경상':21, '전라':37, '제주':103, '부산':28, '수도권':30, '강원':15, 'test':0}
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1991,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0
1996,10,20,40,21,37,103,28,30,15.0,0.0


In [240]:
# 로우 추가 : 로우 간의 연산으로 데이터 추가 -> 1997 row = 96 + 95
sample.loc[1997] = sample.loc[1996] + sample.loc[1995]
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1991,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0,
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0,
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0,0.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0,9.0


### 로우, 컬럼 삭제

- 컬럼 삭제
    - del 키워드 + 컬럼 인덱싱
    - df.drop(col, axis=1)
    - df.drop(columns=col)
- 로우 삭제
    - df.drop(idx) : axis = 0 (기본값)

In [241]:
# 컬럼 삭제 1 :del 키워드 + 컬럼 인덱싱
# 특징 : 원본 객체에서 바로 데이터가 사라짐
del sample['test']
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1991,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0


In [243]:
# 컬럼 삭제 2 : df.drop(columns = 컬럼이름)
# 특징 : 원본 반영 되지 않음 -> inplace = True로 적용 가능
sample.drop(columns='경상', inplace=True)

In [244]:
sample

location,서울,경기,충청,전라,제주,부산,수도권,강원
1991,150.0,200.0,-10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,-13.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,40.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,41.0,108.0,34.0,37.0,23.0


In [246]:
# 컬럼 삭제 3 : df.drop(컬럼이름, axis=1)
sample.drop('충청', axis=1, inplace=True)

In [247]:
sample

location,서울,경기,전라,제주,부산,수도권,강원
1991,150.0,200.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,37.0,23.0


In [248]:
# 로우 삭제
# df.drop(로우명)
sample.drop(1995, inplace=True)

In [249]:
sample

location,서울,경기,전라,제주,부산,수도권,강원
1991,150.0,200.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,37.0,23.0


In [251]:
# 두 개 이상 컬럼이나 로우 삭제 : 리스트로 묶어서 전달
# 제주, 강원 컬럼 삭제
sample.drop(['제주', '강원'], axis=1, inplace=True)
sample.drop(columns=['제주', '강원'], inplace=True)

In [252]:
sample

location,서울,경기,전라,부산,수도권
1991,150.0,200.0,5.0,5.0,350.0
1992,180.0,240.0,6.0,6.0,420.0
1993,300.0,450.0,7.0,7.0,750.0
1994,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,28.0,30.0
1997,10.0,21.0,41.0,34.0,37.0


In [253]:
# 로우 역시 리스크로 붂어서 전달하면 된다.
# 1994, 1997년 데이터를 삭제해주세요
sample.drop([1994, 1997], inplace=True)

In [254]:
sample

location,서울,경기,전라,부산,수도권
1991,150.0,200.0,5.0,5.0,350.0
1992,180.0,240.0,6.0,6.0,420.0
1993,300.0,450.0,7.0,7.0,750.0
1996,10.0,20.0,37.0,28.0,30.0
