In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# pandas 
- 2차원 정형데이터(테이블, 표, 데이터프레임)
- 기본단위는 Series : 1차원 자료구조, 하나의 데이터 타입만 허용

## Series

In [2]:
s1 = Series([1,2,3,4])
s2 = Series([1,2,3,'4'])

In [3]:
s3 = Series([1,2,3,4], index = ['a','b','c','d'])
# == Series([1,2,3,4], ['a','b','c','d'])

In [5]:
Series(s3,index = ['A','B','C','D'])  
#이미 인덱스가 존재하므로 NaN

A   NaN
B   NaN
C   NaN
D   NaN
dtype: float64

### 색인 (indexing)

In [6]:
s1[0] #차원축소로 인해 scalar 값 반환

1

In [7]:
s1[0:1]   #차원축소 일어나지 않음 >> Series로 반환(index존재)

0    1
dtype: int64

In [8]:
s1[[0,3]] #차원축소 일어나지 않음 >> Series로 반환

0    1
3    4
dtype: int64

In [10]:
s3['a']

1

In [11]:
s3[['a','c']]

a    1
c    3
dtype: int64

In [12]:
s3['a':'c'] #문자열의 연속 추출은 마지막 범위도 포함됨

a    1
b    2
c    3
dtype: int64

In [13]:
s1 > 2

0    False
1    False
2     True
3     True
dtype: bool

In [14]:
s1[s1 > 2]

2    3
3    4
dtype: int64

In [16]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [17]:
s3.b #key indexing

2

### 연산

In [18]:
s1 + 1 

0    2
1    3
2    4
3    5
dtype: int64

In [19]:
s4 = Series([10,20,30,40])
s5 = Series([10,20,30,40], index = ['c','d','e','f'])

In [20]:
s1 + s4   #key가 같은 값끼리 연산 가능 

0    11
1    22
2    33
3    44
dtype: int64

In [21]:
s3 + s5   #key가 같은 c,d값만 계산, key가 다른 경우 모두 NaN 반환

a     NaN
b     NaN
c    13.0
d    24.0
e     NaN
f     NaN
dtype: float64

In [22]:
s3.add(s5)

a     NaN
b     NaN
c    13.0
d    24.0
e     NaN
f     NaN
dtype: float64

In [24]:
s3.add(s5, fill_value = 0)  
#양쪽 모두 존재하지 않는 key일 경우(key = 인덱스 = 컬럼명)
#NaN 값이 반환되는 것을 방지하기 위해 fill_value 옵션 사용 

a     1.0
b     2.0
c    13.0
d    24.0
e    30.0
f    40.0
dtype: float64

In [25]:
s3.sub(s5, fill_value = 0) # - 연산

a     1.0
b     2.0
c    -7.0
d   -16.0
e   -30.0
f   -40.0
dtype: float64

In [26]:
s3.mul(s5, fill_value = 1)  # * 연산

a     1.0
b     2.0
c    30.0
d    80.0
e    30.0
f    40.0
dtype: float64

In [27]:
s3.div(s5, fill_value = 1)  # / 연산

a    1.000000
b    2.000000
c    0.300000
d    0.200000
e    0.033333
f    0.025000
dtype: float64

### 기본 메서드

In [29]:
s1.dtype   #데이터 타입 출력

dtype('int64')

In [30]:
s1.index   #인덱스 출력

RangeIndex(start=0, stop=4, step=1)

In [31]:
s3.values  #값(value) 출력

array([1, 2, 3, 4], dtype=int64)

In [32]:
s3[['c','d','a','b']]  #색인 사용, 배치 순서 변경

c    3
d    4
a    1
b    2
dtype: int64

In [34]:
s3.reindex(['a','b','c','d'])  #메서드 사용, 배치 순서 변경

a    1
b    2
c    3
d    4
dtype: int64

In [36]:
s3.index = ['A','B','C','D']  #index수정
s3

A    1
B    2
C    3
D    4
dtype: int64

In [37]:
s3[0] = 10  #값 수정
s3

A    10
B     2
C     3
D     4
dtype: int64

## DataFrame
- 2차원 자료구조 (행과 열 구조)

### 생성

In [39]:
d1 = {'name': ['sinae','lee'], 'sal': [900,1800]}
d1

{'name': ['sinae', 'lee'], 'sal': [900, 1800]}

In [40]:
df1 = DataFrame(d1)
df1

Unnamed: 0,name,sal
0,sinae,900
1,lee,1800


In [41]:
import numpy as np
d3 = DataFrame(np.arange(1,7).reshape(2,3), index = ['a','b'], columns = ['col1','col2','col3'])
d3

Unnamed: 0,col1,col2,col3
a,1,2,3
b,4,5,6


In [42]:
np.arange(1,7)

array([1, 2, 3, 4, 5, 6])

In [43]:
np.arange(1,7).reshape(2,3)

array([[1, 2, 3],
       [4, 5, 6]])

### 색인

- 컬럼 선택

In [44]:
d3.col1

a    1
b    4
Name: col1, dtype: int32

In [45]:
d3['col1']

a    1
b    4
Name: col1, dtype: int32

- iloc, loc 

iloc : positional indexing, 
loc : label indexing

In [46]:
d3
d3.iloc[:,0]  #행은 전부, 열은 인덱스 0만

a    1
b    4
Name: col1, dtype: int32

In [47]:
d3.iloc[:,0:3]  #행은 전부, 열은 0~2 인덱스

Unnamed: 0,col1,col2,col3
a,1,2,3
b,4,5,6


In [48]:
d3.iloc[:,[0,2]]

Unnamed: 0,col1,col3
a,1,3
b,4,6


In [49]:
d3.iloc[:,[0,-1]]

Unnamed: 0,col1,col3
a,1,3
b,4,6


In [50]:
d3.loc[:,['col1','col3']]

Unnamed: 0,col1,col3
a,1,3
b,4,6


- 조건색인 처리

In [52]:
d3.loc[d3.col1 == 1, :]  #col1의  값이 1인 행, 열은 전부

Unnamed: 0,col1,col2,col3
a,1,2,3


### 기본 메서드

- 데이터 타입 확인 (dtypes)

In [53]:
d3.dtypes

col1    int32
col2    int32
col3    int32
dtype: object

In [54]:
d3.index

Index(['a', 'b'], dtype='object')

In [55]:
d3.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [56]:
d3.values

array([[1, 2, 3],
       [4, 5, 6]])

In [57]:
d3.columns = ['A','B','C']  #컬럼 이름 변경
d3

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


- 연산

In [58]:
d3 + 10

Unnamed: 0,A,B,C
a,11,12,13
b,14,15,16


In [60]:
d4 = DataFrame({'A': [10,40],'B': [20,30], 'C': [30,60]}, index = ['a','b'])
d4

Unnamed: 0,A,B,C
a,10,20,30
b,40,30,60


In [61]:
d5 = DataFrame({'A': [10,40],'B': [20,30]}, index = ['a','b'])
d5

Unnamed: 0,A,B
a,10,20
b,40,30


In [63]:
d4 + d5

Unnamed: 0,A,B,C
a,20,40,
b,80,60,


In [64]:
d4.add(d5, fill_value = 0)

Unnamed: 0,A,B,C
a,20,40,30.0
b,80,60,60.0
