In [1]:
import pandas as pd
from pandas import Series, DataFrame 

- pandas : 2차원 정형데이터(테이블, 표, 데이터 프레임)
- Series 
  - 1차원 자료 구조 
  - 하나의 데이터 타입만 허용

In [3]:
# 1. 생성 

s1 = Series([1,2,3,4])
s2 = Series([1,2,3,'4'])
s3 = Series([1,2,3,4], index = ['a','b','c','d'])

In [4]:
s1

0    1
1    2
2    3
3    4
dtype: int64

In [7]:
s2

0    1
1    2
2    3
3    4
dtype: object

In [8]:
type(s2)

pandas.core.series.Series

In [9]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [10]:
Series(s3, index=['A','B','C','D'])

A   NaN
B   NaN
C   NaN
D   NaN
dtype: float64

In [11]:
# 이미, index가 존재하는 경우, 
# Series 의 옵션은 해당 값대로 재배치 

In [12]:
# 2. 색인(indexing)

s1

0    1
1    2
2    3
3    4
dtype: int64

In [13]:
s1[0]

1

In [14]:
s1[0:3]

0    1
1    2
2    3
dtype: int64

In [15]:
s1[[0,3]]

0    1
3    4
dtype: int64

In [22]:
# s1[0,3]
# KeyError 발생 

In [23]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [24]:
s3['a']

1

In [25]:
# s3[a]
# NameError: name 'a' is not defined

In [26]:
 s3[['a','c']]

a    1
c    3
dtype: int64

In [27]:
s3['a':'c']
# 문자의 연속 추출은 마지막 범위까지 포함

a    1
b    2
c    3
dtype: int64

In [28]:
s1

0    1
1    2
2    3
3    4
dtype: int64

In [30]:
s1>2 # 조건

0    False
1    False
2     True
3     True
dtype: bool

In [31]:
s1[s1>2]

2    3
3    4
dtype: int64

In [33]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [32]:
s3.a # key indexing

1

In [34]:
# 3. 연산 
s1

0    1
1    2
2    3
3    4
dtype: int64

In [35]:
s1+1

0    2
1    3
2    4
3    5
dtype: int64

In [37]:
s4 = Series([10,20,30,40])
s5 = Series([10,20,30,40], index=['c','d','e','f'])

In [40]:
s1

0    1
1    2
2    3
3    4
dtype: int64

In [39]:
s4

0    10
1    20
2    30
3    40
dtype: int64

In [38]:
s1 + s4 # key가 같은 값끼리 연산 가능 

0    11
1    22
2    33
3    44
dtype: int64

In [41]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [42]:
s5

c    10
d    20
e    30
f    40
dtype: int64

In [44]:
s3 + s5
# key가 다른 경우, 모두 NaN 값 반환 

a     NaN
b     NaN
c    13.0
d    24.0
e     NaN
f     NaN
dtype: float64

In [45]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [46]:
# NaN 값 방지 >> fill_value 옵션 사용
s3.add(s5, fill_value=0)

a     1.0
b     2.0
c    13.0
d    24.0
e    30.0
f    40.0
dtype: float64

In [47]:
s3.sub(s5, fill_value=0)

a     1.0
b     2.0
c    -7.0
d   -16.0
e   -30.0
f   -40.0
dtype: float64

In [48]:
s3.mul(s5, fill_value=1)

a     1.0
b     2.0
c    30.0
d    80.0
e    30.0
f    40.0
dtype: float64

In [49]:
s3.div(s5, fill_value=1)

a    1.000000
b    2.000000
c    0.300000
d    0.200000
e    0.033333
f    0.025000
dtype: float64

In [51]:
# 기본 메소드 

s1.dtype # 데이터 타입 출력 

dtype('int64')

In [52]:
s1.index # index 출력

RangeIndex(start=0, stop=4, step=1)

In [54]:
s1.values # 값 출력 

array([1, 2, 3, 4], dtype=int64)

In [56]:
s3[['c','d','a','b']]
# 색인을 사용하여 배치 순서 변경 가능 

c    3
d    4
a    1
b    2
dtype: int64

In [57]:
s3.reindex(['c','d','a','b'])

c    3
d    4
a    1
b    2
dtype: int64

In [59]:
s3 = s3.reindex(['c','d','a','b'])
s3

c    3
d    4
a    1
b    2
dtype: int64

In [62]:
s3.index = ['A','B','C','D']
s3

A    3
B    4
C    1
D    2
dtype: int64

In [64]:
s3[0] = 10 # 값 수정 가능 
s3

A    10
B     4
C     1
D     2
dtype: int64

In [65]:
s1

0    1
1    2
2    3
3    4
dtype: int64

DataFrame

- 2차원 자료 구조(행, 열로 구성)

In [67]:
# 생성 

d1 = {'name':['drwill','zzuyu'], 'sal':[5000,2800]}
DataFrame(d1)

Unnamed: 0,name,sal
0,drwill,5000
1,zzuyu,2800


In [69]:
d2 = DataFrame({'name':['multi','campus'], 'sal':[15000,12800]})
d2

Unnamed: 0,name,sal
0,multi,15000
1,campus,12800


In [72]:
import numpy as np 

DataFrame(np.arange(1,7).reshape(2,3), index=['a','b'],
         columns=['col1','col2','col3'])

Unnamed: 0,col1,col2,col3
a,1,2,3
b,4,5,6


In [73]:
d3 = DataFrame(np.arange(1,7).reshape(2,3), index=['a','b'],
         columns=['col1','col2','col3'])

In [74]:
# 2. 색인(***)

d3['col1'] # 추천

a    1
b    4
Name: col1, dtype: int32

In [75]:
d3.col1

a    1
b    4
Name: col1, dtype: int32

In [76]:
# iloc(): index로 접근(행방향, 열방향)
# positional indexing

d3

Unnamed: 0,col1,col2,col3
a,1,2,3
b,4,5,6


In [77]:
d3.iloc[:, 0]

a    1
b    4
Name: col1, dtype: int32

In [78]:
d3.iloc[:, 0:3]

Unnamed: 0,col1,col2,col3
a,1,2,3
b,4,5,6


In [79]:
d3.iloc[:,[0,2]]

Unnamed: 0,col1,col3
a,1,3
b,4,6


In [81]:
d3.iloc[1,1]

5

In [82]:
# loc()
# label indexing 

d3.loc[:, ['col1','col3']]


Unnamed: 0,col1,col3
a,1,3
b,4,6


In [83]:
# 조건 색인
d3.loc[d3.col1 == 1 , :]

Unnamed: 0,col1,col2,col3
a,1,2,3


In [84]:
# 3. 기본 메소드 
d3.dtypes # 각 컬럼별 데이터 타입 확인

col1    int32
col2    int32
col3    int32
dtype: object

In [85]:
d3.index

Index(['a', 'b'], dtype='object')

In [86]:
d3.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [87]:
d3.values

array([[1, 2, 3],
       [4, 5, 6]])

In [90]:
d3.columns = ['A','B','C']
d3

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [91]:
# 연산 

d3 + 10

Unnamed: 0,A,B,C
a,11,12,13
b,14,15,16


In [94]:
d4 = DataFrame({'A':[10,40], 'B':[20,30], 'C':[30,60]}, index=['a','b'])
d4

Unnamed: 0,A,B,C
a,10,20,30
b,40,30,60


In [96]:
d5 = DataFrame({'A':[10,40], 'B':[20,30]}, index=['a','b'])
d5

Unnamed: 0,A,B
a,10,20
b,40,30


In [97]:
d3

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [98]:
d3 + d5
# 한 쪽에만 있는 컬럼은 NaN 반환

Unnamed: 0,A,B,C
a,11,22,
b,44,35,


In [99]:
d3.add(d5, fill_value=0)
# 한 쪽에만 있는 컬럼은 NaN 반환 해결 >> fill_value 옵션 

Unnamed: 0,A,B,C
a,11,22,3.0
b,44,35,6.0
