# Pandas

In [36]:
import pandas as pd

# DataFrame 생성

In [37]:
s1 = pd.Series( [ 4000, 20000, 10000 ],                                   # Series객체 하나가 하나의 행이 되는 것
              index = [ '2020-6-15', '2020-6-16', '2020-6-17' ] )
s2 = pd.Series( [ 5000, 8000, 11000 ],
              index = [ '2020-6-15', '2020-6-16', '2020-6-17' ] )
s3 = pd.Series( [ 6000, 9000, 12000 ],
              index = [ '2020-6-15', '2020-6-16', '2020-6-17' ] )
df = pd.DataFrame( [ s1, s2, s3 ] )
df

Unnamed: 0,2020-6-15,2020-6-16,2020-6-17
0,4000,20000,10000
1,5000,8000,11000
2,6000,9000,12000


In [38]:
indexs = [ 'name', 'kor', 'eng', 'sci' ]
hong = pd.DataFrame( [ 'hong', 50, 50, 50 ],index = indexs )
kim = pd.DataFrame( [ 'kim', 90, 90, 90 ],index = indexs )
lee = pd.DataFrame( [ 'lee', 70, 70, 70 ],index = indexs )
df = pd.DataFrame( [ hong, kim, lee ],index = indexs, columns = [1, 2, 3] )
df

ValueError: Shape of passed values is (3, 1), indices imply (4, 3)

In [39]:
import numpy as np

In [40]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [41]:
df.columns

Index(['2020-6-15', '2020-6-16', '2020-6-17'], dtype='object')

In [42]:
df.values

array([[ 4000, 20000, 10000],
       [ 5000,  8000, 11000],
       [ 6000,  9000, 12000]], dtype=int64)

In [43]:
data = np.array( [ [ 10, 20, 30, 40 ], [ 100, 200, 300, 400 ] ] )
index_list = pd.date_range( '2020-06-15', periods = 2 )
col_list = [ 'A', 'B', 'C', 'D' ]
df =pd.DataFrame( data, index = index_list, columns = col_list )
df

Unnamed: 0,A,B,C,D
2020-06-15,10,20,30,40
2020-06-16,100,200,300,400


In [44]:
df.index

DatetimeIndex(['2020-06-15', '2020-06-16'], dtype='datetime64[ns]', freq='D')

In [45]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [46]:
df.values

array([[ 10,  20,  30,  40],
       [100, 200, 300, 400]])

### DataFrame의 행 인덱스 또는 열 이름 변경

- rename() 메서드 이용
- 원본 객체 변경시에는 inplace = True 옵션 사용

In [47]:
df = pd.DataFrame( [ [ 50, 50, 50 ], [ 90, 90, 90 ], [ 70, 70, 70 ] ],
              index = [ 'hong', 'kim', 'lee' ],
              columns = [ 'kor', 'eng', 'sci' ] )
df

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [48]:
df2 = df[ : ] # DataFrame 복사(내용만 복사), df2 = df랑 다름, 내용은 같지만 별개의 데이터 프레임
df2

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [49]:
df2.rename( columns = { 'kor' : 'subject1',                    # column 이름만 바꾼 것 
                        'eng' : 'subject2',
                        'sci' : 'subject3' } )

Unnamed: 0,subject1,subject2,subject3
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [50]:
df2                                                           # 원본 df2는 안바뀜

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [51]:
df2.rename( columns = { 'kor' : 'subject1',                   
                        'eng' : 'subject2',
                        'sci' : 'subject3' }, inplace = True )    # inplace = True 하기

In [52]:
df2                                                               # 원본에 적용

Unnamed: 0,subject1,subject2,subject3
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [53]:
df                                                                 # 복사한 df2에만 적용 df는 적용x

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [54]:
df2.rename( index = { 'hong' : 'hong gil dong',
                      'kim' : 'kim gil dong',   
                      'lee' : 'lee gil dong'} )

Unnamed: 0,subject1,subject2,subject3
hong gil dong,50,50,50
kim gil dong,90,90,90
lee gil dong,70,70,70


In [55]:
df2

Unnamed: 0,subject1,subject2,subject3
hong,50,50,50
kim,90,90,90
lee,70,70,70


### 행/열 삭제

- DataFrame의 행/열 삭제는 drop() 메서드 사용
- 행을 삭제할 때는 축( axis )옵션으로 axis = 0을 입력하거나, 별도로 입력하지 않는다.
- 축( axis )옵션으로 axis = 1은 열을 삭제할 때 부여한다
- 동시에 여러 개의 행 또는 열을 삭제하려면 리스트 형태로 입력한다.
- 원본 객체 변경시에는 inplace = True 옵션 사용

In [56]:
df2.drop( 'lee' )

Unnamed: 0,subject1,subject2,subject3
hong,50,50,50
kim,90,90,90


In [57]:
df2.drop( 'subject3', axis = 1, inplace = True )

In [58]:
df2 = df[ : ]            # 전체 내용 복사
df2

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [59]:
df2.drop( [ 'hong', 'lee' ] )

Unnamed: 0,kor,eng,sci
kim,90,90,90


In [60]:
df2.drop( [ 'kor', 'eng' ], axis = 1 )

Unnamed: 0,sci
hong,50
kim,90
lee,70


### 행 선택

- DataFrame의 행 데이터를 선택하기 위해서는 loc와 iloc 인덱서를 사용한다.
- 인덱스 이름을 기준으로 행을 선택할 때는 loc를 사용한다.
- 정수형 위치 인덱스를 사용할 때는 iloc를 사용한다.


In [61]:
df2.iloc[ 0 ]

kor    50
eng    50
sci    50
Name: hong, dtype: int64

In [62]:
df2.loc[ 'hong' ]

kor    50
eng    50
sci    50
Name: hong, dtype: int64

In [63]:
df2.iloc[ [ 0, 2 ] ]   # 0행과 2행 인덱스 위치값 표시한 것 (정수 인덱스를 사용해서 iloc) 리스트로 묶는다 [],
                       #     [[]]로 하면 데이터프레임으로 나옴, []로만 묶으면 Series객체로 나옴

Unnamed: 0,kor,eng,sci
hong,50,50,50
lee,70,70,70


In [64]:
df2.loc[ [ 'hong', 'kim' ] ]     # 홍과 김의 인덱스값을 표시한 것 ( loc 사용 )           # 리스트로 묶는다[]

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90


In [65]:
df2.iloc[ 0:2 ]       # 리스트로 [[]]두번 묶지 않았지만 여러 행을 선택해서 데이터프레임으로 나온다.

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90


In [66]:
df2.loc[ 'hong':'lee' ]    # 리스트로 [[]]두번 묶지 않았지만 여러 행을 선택해서 데이터프레임으로 나온다.

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


### 열 선택

- DataFrame의 열 데이터를 한 개만 선택할 때는, []안에 열이름을 ' 또는 "와 함께 입력하거나 도트( . ) 다음에 열 이름을 입력하는
  두가지 방식이 있다.
- 도트( . )를 사용하는 방식에서는 반드시 열 이름이 문자열일 경우만 가능하다.
- 열 한 개만 선택하면 시리즈 객체가 반환된다.
- []안에 열 이름의 리스트를 입력하면 리스트의 원소인 열을 모두 선택하여 DataFrame으로 반환한다.


In [67]:
df2[ 'kor' ]

hong    50
kim     90
lee     70
Name: kor, dtype: int64

In [68]:
df2.kor              # Series 객체로 나옴(마우스를 대도 색이 안변함)

hong    50
kim     90
lee     70
Name: kor, dtype: int64

In [69]:
df2[ [ 'kor', 'sci' ] ]

Unnamed: 0,kor,sci
hong,50,50
kim,90,90
lee,70,70


In [70]:
df2[ [ 'sci' ] ]    # []대괄호가 두개 묶이면 무조건 데이터프레임으로 나온다 []하나만 묶이면 Series로 나옴

Unnamed: 0,sci
hong,50
kim,90
lee,70


### 범위 슬라이싱을 이용한 행 선택

In [71]:
df2.iloc[  ::2 ]   # 처음부터 끝까지 2간격으로

Unnamed: 0,kor,eng,sci
hong,50,50,50
lee,70,70,70


In [72]:
df2.iloc[  ::-1 ]   # 처음부터 끝까지 역순으로

Unnamed: 0,kor,eng,sci
lee,70,70,70
kim,90,90,90
hong,50,50,50


In [73]:
df2.iloc[ 0:3:2 ]

Unnamed: 0,kor,eng,sci
hong,50,50,50
lee,70,70,70


## 요소 선택

- DataFrame의 행 인덱스와 열 이름을 [행, 열 ] 형식의 2차원 좌표로 입력하여 입력하여 요소 위치를 지정하는 방법이다.,
- 1개의 행과 2개 이상의 열을 선택하거나 2개 이상의 행과 1개의 열을 선택하는 경우 Series객체가 반환된다.
- 2개 이상의 행과 2개 이상의 열을 선택하면 DataFrame 객체를 반환한다.

In [74]:
df2

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [75]:
df2.iloc[ 0, 0 ]

50

In [76]:
df2.iloc[ 1, 0 ]

90

In [78]:
df2.loc[ 'hong', 'kor' ]

50

In [79]:
df2.loc[ 'kim', 'kor' ]

90

In [80]:
df2.iloc[ 0, [ 2, 1 ] ]

sci    50
eng    50
Name: hong, dtype: int64

In [82]:
df2.loc[ 'hong', [ 'sci', 'eng' ] ]

sci    50
eng    50
Name: hong, dtype: int64

In [83]:
df2.iloc[ [ 0, 2 ], [ 2, 0 ] ]

Unnamed: 0,sci,kor
hong,50,50
lee,70,70


In [84]:
df2.loc[ [ 'kim', 'hong' ], [ 'kor', 'eng' ] ]

Unnamed: 0,kor,eng
kim,90,90
hong,50,50


In [87]:
df2.loc[ 'hong':'kim',  'kor':'eng' ]

Unnamed: 0,kor,eng
hong,50,50
kim,90,90


In [90]:
df2 = df[ : ]
df2

Unnamed: 0,kor,eng,sci
hong,50,50,50
kim,90,90,90
lee,70,70,70


In [91]:
df2.iloc[ 0, 0 ] = 55
df2

Unnamed: 0,kor,eng,sci
hong,55,50,50
kim,90,90,90
lee,70,70,70


In [93]:
df2.loc[ [ 'hong', 'kim' ], [ 'eng', 'sci' ] ] = 98
df2

Unnamed: 0,kor,eng,sci
hong,55,98,98
kim,90,98,98
lee,70,70,70


In [94]:
df2

Unnamed: 0,kor,eng,sci
hong,55,98,98
kim,90,98,98
lee,70,70,70


### dufcnrk 

In [96]:
df2[ 'math' ] = 88
df2

Unnamed: 0,kor,eng,sci,math
hong,55,98,98,88
kim,90,98,98,88
lee,70,70,70,88


In [101]:
df2[ 'math2' ] = [ 88, 92, 81 ]
df2

Unnamed: 0,kor,eng,sci,math,math2,mmm
hong,55,98,98,88,88,22
kim,90,98,98,88,92,22
lee,70,70,70,88,81,22


### 행추가
- 추가하려는 행이름과 데이터 값을 loc 인덱서를 사용하여 입력한다.
- 하나의 데이터 값을 입력하거나 열의 개수에 맞게 데이터를 입력하여 추가한다.

In [115]:
df2.loc[ 3 ] = 0
df2

Unnamed: 0,kor,eng,sci,math,math2
hong,55,98,98,88,88
kim,90,98,98,88,92
lee,70,70,70,88,81
3,0,0,0,0,0
park,78,72,71,75,74


In [114]:
df2.loc[ 'park' ] = [ 78, 72, 71, 75, 74 ]   # 데이터를 열의 수만큼 맞춰 넣는다.
df2

Unnamed: 0,kor,eng,sci,math,math2
hong,55,98,98,88,88
kim,90,98,98,88,92
lee,70,70,70,88,81
3,0,0,0,0,0
park,78,72,71,75,74


### Series/DataFrame 연산

In [119]:
s1 = pd.Series( [ 1, 2, 3, 4, 5 ] )
s2 = pd.Series( [ 10, 20, 30, 40, 50 ] )

In [117]:
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [120]:
s2

0    10
1    20
2    30
3    40
4    50
dtype: int64

### Series와 scalar 간의 연산

In [121]:
s1 * 5

0     5
1    10
2    15
3    20
4    25
dtype: int64

In [122]:
s1 / 2

0    0.5
1    1.0
2    1.5
3    2.0
4    2.5
dtype: float64

### Series와 Series 간 연산

In [123]:
s1 + s2

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [124]:
s2 / s1

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [125]:
s1 = pd.Series( { 'kor': 50, 'eng':70, 'sci':90 } )
s1

kor    50
eng    70
sci    90
dtype: int64

In [126]:
s2 = pd.Series( { 'sci': 77, 'kor':52, 'eng':30 } )
s2

sci    77
kor    52
eng    30
dtype: int64