# Pandas

## 1. pandas를 사용하는 이유

>- Numpy와 함께 파이썬의 대표적인 데이터 사이언스 라이브러리
- Numpy: 기본적인 다차원 벡터화 연산을 도와줌
- Pandas
- 1) Numpy 기반으로 데이터 프레임의 활용
- 2) 피벗 테이블 생성이 가능
- 3) 데이터 입/출력 가능


>  자료 구조
- Series
- DataFrame

> R에서의 유사한 패키지, 라이브러리
- data.frame/data.table: 데이터를 담는 자료 구조
- tidyr : warggling- messy한 데이터 셋을 tidy한 데이터 셋으로 만들기
- dplyr : handling- 여러 인사이트를 반영하여 변수를 추가/수정/삭제하고 요약하기

> 시각화
- R의 ggplot2와 비굑하여 지나치게 간소한 기능만 제공

> pandas는
- 모든 계산은 numpy 기반으로 수행
- 행은 indxe,열은 변수명으로 접근 가능 -> 실수를 줄이고 가독성 제고
- 데이터 분석에 특화된 전용 함수 제공
- 자동 혹은 사용자 지정에 따라 축을 설정하고 데이터를 정렬/연산
- 시계열 및 비시계열을 모두 처리 가능
- 누락 데이터 처리 용이
- RDMAS에서 수행하는 데이터 처리 기능 지원

> 포인트
- Pandas의 매서드들을 적용하게 될 핵심 개체인 pdSeries와pd.DataFrame에 대해 이해하고
- 이를 활용하여 기본 task들을 어떻게 수행하게 된느지 이해하고 응용

> 결과적으로 R에서 base 자료구조이고 함수인것들이 Python에서는 존재하지 않음에서 오는 비대칭을 해소하기 위함.


# 2. pd.Series에 대한 소개 및 생성/활용

## 2.1 pd.Series란?

- one dimensional data를 담는 객체(사실은 클래스)
- 리스트와 딕셔너리의 성격이 섞여있다
- 차원은 1개, 실제 형태는 m * 2 -> index를 갖고 있기 때문


## 2.2. Series의 객체의 주요 attribute

> pd.Series.shape
- 객체의 shape는 m행 2열이다 => 인덱스, 컬렴명-> 2행
 
> Series.values
- 객체의 데이터 부분에서 내용물.
- 이 속성에는 ap.array가 들어가 있음.

> Series.index
- 이 객체의 데이투 부분에서 껌데기.
- 이 속성에는 pd.index라는 ㅔ가 들어가 있음.
- pd.Index: immutable(변경이 불가능)-> 안정성 면에서 중요

 

## 2.3. Series 객체를 생성하는 방법들

In [3]:
import pandas as pd
import numpy as np

In [8]:
dir()  # 메모리에 올라간 아이들


['In',
 'Out',
 '_',
 '_3',
 '_4',
 '_7',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_dh',
 '_i',
 '_i1',
 '_i2',
 '_i3',
 '_i4',
 '_i5',
 '_i6',
 '_i7',
 '_i8',
 '_ih',
 '_ii',
 '_iii',
 '_oh',
 'a',
 'exit',
 'get_ipython',
 'np',
 'pd',
 'quit']

In [10]:
a = pd.Series([1,2,3,4], index = ['a','b','c','d'])
a

a    1
b    2
c    3
d    4
dtype: int64

In [13]:
c = pd.Series(np.array([1,2,3,4]), index = ['a','b','c','d'])
c
# 형태는 같으나 메모리를 효율적으로 관리할 수 있음.

a    1
b    2
c    3
d    4
dtype: int32

In [15]:
pd.Series([1,2,3,4],  ['a','b','c','d'])  #index 안써도 됨

a    1
b    2
c    3
d    4
dtype: int64

## 2.4 pd.Series 객체를 indexing & slicing을 통해 접근 & 변경하는 법

- 일차원  array에 접근하는 방법: index, 문자 인덱스로 가능


In [20]:
a['a']  # 인덱스를 통해 접근

1

In [21]:
a[0]

1

In [22]:
a[:]  # 빈칸: 빈칸

a    1
b    2
c    3
d    4
dtype: int64

In [23]:
a[::2]

a    1
c    3
dtype: int64

In [25]:
a['a']=2
a

a    2
b    2
c    3
d    4
dtype: int64

In [26]:
a[a>2]

c    3
d    4
dtype: int64

 ### boolearn indexing for Series

In [28]:
a[a>2]=10
a

a     2
b     2
c    10
d    10
dtype: int64

In [29]:
a

a     2
b     2
c    10
d    10
dtype: int64

## 2.5 operation for pd.Series 객체

- np.array와 거의 비슷함.

In [31]:
sr1 = pd.Series(np.arange(1,13, dtype = np.int))
sr1

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int32

In [32]:
sr1.sum()

78

In [33]:
sr1.mean()

6.5

In [34]:
sr1.std() # 모 표준편차가 아니라 표준편차이다 -> 이제 더 정확한거?
# numpy와 달리 n -1로 나눠준다(자유도 상실)

3.605551275463989

In [2]:
sr1.max()

NameError: name 'sr1' is not defined

## 2.6 operation for 2개의 pd.Series 객체

- np.array와 같음

In [37]:
sr1 = pd.Series([1,2,3,4], index = ['a','b','c','d'])
sr2 = pd.Series([5,6,7,8], index = ['a','b','c','d'])


In [38]:
sr1

a    1
b    2
c    3
d    4
dtype: int64

In [39]:
sr2

a    5
b    6
c    7
d    8
dtype: int64

In [40]:
sr1 + sr2

a     6
b     8
c    10
d    12
dtype: int64

In [41]:
sr1 - sr2

a   -4
b   -4
c   -4
d   -4
dtype: int64

In [42]:
sr1/sr2

a    0.200000
b    0.333333
c    0.428571
d    0.500000
dtype: float64

In [44]:
sr1.dot(sr2)  # 내적(곱해서 더하기)

70

In [3]:
pd.concat((sr1, sr2))  # Series이므로 행방향으로만 concatnate

NameError: name 'pd' is not defined

- shape가 다른 객체들간의 연산도 지원한다

In [46]:
sr1 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
sr2 = pd.Series([5, 6, 7, 8, 9], index = ['a', 'b', 'c', 'd', 'e']) 

In [48]:
sr1 + sr2  # 없는 값끼리는 NaN 처리

a     6.0
b     8.0
c    10.0
d    12.0
e     NaN
dtype: float64

- 다양한 것이 가능하다. 연산은 기본적으로 인덱스 기준

In [51]:
sr11 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
sr12 = pd.Series([5, 6, 7, 8], index = ['d', 'c', 'b', 'a'])

In [54]:
sr11 + sr12  # 연산은 인덱스 기준

a    9
b    9
c    9
d    9
dtype: int64

## 2.7 pd.Series with Nan values

In [56]:
sr3 = sr1 + sr2

In [58]:
sr3  # 없는 갓은 Nan(이상값, 예외값)

a     6.0
b     8.0
c    10.0
d    12.0
e     NaN
dtype: float64

In [59]:
# 이상치 판단
pd.isnull(sr3)

a    False
b    False
c    False
d    False
e     True
dtype: bool

In [60]:
# 결측치 제외
sr3[pd.notnull(sr3)]

a     6.0
b     8.0
c    10.0
d    12.0
dtype: float64

## 2.8 pd.Series.index.name

In [61]:
sr3

a     6.0
b     8.0
c    10.0
d    12.0
e     NaN
dtype: float64

In [64]:
#index의 이름 붙이기 -> 좀 더 실용적으로 , 편리하게 하기 위해 header 달기
sr3.index.name = 'name'

In [63]:
sr3

name
a     6.0
b     8.0
c    10.0
d    12.0
e     NaN
dtype: float64


# 3. pd.data.frame

### 3.1. pd.DataFrame

- two dimensional data를 담는 객체


### 3.2 pd.DataFrame 객체의 주요 attribute

> DataFrame.shape
- 객체의 shape은 m행 n열이다

> DataFrame.value
- 객체의 내용물
- 속석에는 2차원 np.array가 들어감.

> DataFrame.index
- 객체 데이터의 행별 이름
- 속성에는 pd.Index가 들어감
- pd.Index는 immutable(변경이 불가능)한데 이것은 안정성 면에서 중요

> DataFrame.column
- 객체 데이터의 열별 이름

## 3.3 pd.DataFrame 객체를 생성하는 방법들

### 3.3.1 Dictionary로 생성하는 방법

In [4]:
data = {'score1':['91','94','97','100'], 
        'score2': np.arange(100, 90, -3)}

In [5]:
df1 = pd.DataFrame(data = data, index = ['a','b','c','d'])

In [68]:
df1

Unnamed: 0,score1,score2
a,91,100
b,94,97
c,97,94
d,100,91


In [70]:
df11 = pd.DataFrame( data, ['a','b','c','d'])
df1

Unnamed: 0,score1,score2
a,91,100
b,94,97
c,97,94
d,100,91


### 3.3.2. two dimensional np.array로 생성하는 방법

In [74]:
data = np.arange(8).reshape(4,2)
data

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [76]:
df1 = pd.DataFrame(data = data, index = ['a','b','c','d'])
df1

Unnamed: 0,0,1
a,0,1
b,2,3
c,4,5
d,6,7


## 3.4. pd.DataFrame 객체를 indexing & slicing을 통해 접근, 변경하는 법

- iloc: 2차원 np.array처럼 ~행, ~열에 접근할 때 사용
- loc: index명을 이용하여 접근할 때 사용
- ix는 잘 사용하지 않음.

In [8]:
data = np.array([[1, 2, 3, 4],
[5, 6, 7, 8],
[9, 10, 11, 12]],dtype=np.int)
data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [12]:
df1 = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['score1', 'score2', 'score3', 'score4'])
df1

Unnamed: 0,score1,score2,score3,score4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12


In [10]:
df1.iloc[1,2]  # 2행 3열에 접근하는 방법

7

In [13]:
df1.iloc[1][2]

7

In [82]:
# loc: 컬럼명으로 접근하기
df1.loc['b','score3']  # b행의 score값

7

In [83]:
df1.loc['b']['score3']

7

In [84]:
df1.score3[1]  # srcore3열의 두 번재 행 값에 접근하는 방법

7

In [87]:
df1

Unnamed: 0,score1,score2,score3,score4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12


- fancy indexing for DataFrame

In [16]:
df1.iloc[[1,2,1],[0,2,3]]  
# 행: 1,2,1, 열: 0,2,3, 순으로 데이터프레임 형태로 가져오기

Unnamed: 0,score1,score3,score4
b,5,7,8
c,9,11,12
b,5,7,8


## 3.5 operation for pd.DataFrame 객체

In [17]:
mat1 = np.array([[1,2,3,4],
               [5,6,7,8],
               [9,10,11,12]], dtype = np.int)


In [18]:
mat1 = np.array([[1, 2, 3, 4],
[5, 6, 7, 8],
[9, 10, 11, 12]], dtype=np.int)
df1 = pd.DataFrame(mat1)
df1


Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [19]:
df1.sum(axis = 0)  # 행끼리을 더한 값 , 결과는 PD.Series

0    15
1    18
2    21
3    24
dtype: int64

In [20]:
df1.sum(axis = 1) # 열끼리을 더한 값, 결과는 pd.Series


0    10
1    26
2    42
dtype: int64

## 3.6 operation for 2개의 pd.DataFrame 객체

In [53]:
mat1 = np.array([[1, 2, 3, 4],       
                 [5, 6, 7, 8],        
                 [9, 10, 11, 12]], dtype = np.int) # 3 X 4 
df1 = pd.DataFrame(mat1)

In [54]:
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [55]:
df2 = np.arange(13, 25, dtype = np.int).reshape(3,4)
df2 = pd.DataFrame(df2)

In [44]:
df1 + df2


Unnamed: 0,score1,score2,score3,score4
a,14,16,18,20
b,22,24,26,28
c,30,32,34,36


In [45]:
df1 - df2


Unnamed: 0,score1,score2,score3,score4
a,-12,-12,-12,-12
b,-12,-12,-12,-12
c,-12,-12,-12,-12


In [46]:
df1 * df2


Unnamed: 0,score1,score2,score3,score4
a,13,28,45,64
b,85,108,133,160
c,189,220,253,288


In [47]:
df2.T

array([[13, 17, 21],
       [14, 18, 22],
       [15, 19, 23],
       [16, 20, 24]])

In [48]:
df1.dot(df2.T)

Unnamed: 0,0,1,2
a,150,190,230
b,382,486,590
c,614,782,950


In [57]:
pd.concat((df1, df2), axis = 0)  # 행 방향으로 caocat

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
0,13,14,15,16
1,17,18,19,20
2,21,22,23,24


In [58]:

pd.concat((df1, df2), axis = 1)  # 열 방향으로 concat!

Unnamed: 0,0,1,2,3,0.1,1.1,2.1,3.1
0,1,2,3,4,13,14,15,16
1,5,6,7,8,17,18,19,20
2,9,10,11,12,21,22,23,24


In [60]:

pd.concat((df1, df2), axis = 1).loc[:, 1]
# 인덱스 값으로 가져오기

Unnamed: 0,1,1.1
0,2,14
1,6,18
2,10,22


- shape가 다른 객체들간의 연산도 지원한다.

In [81]:
mat1  = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]], 
                 dtype = np.int)

df1 = pd.DataFrame( mat1, 
                    index = ['a','b','c'],columns = ['score1','score2','score3','score4','score5'])
df1

Unnamed: 0,score1,score2,score3,score4,score5
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15


In [80]:

mat2  = np.array([[6,7,8,9],[11,12,13,14],[16,17,18,19]], 
                 dtype = np.int)
df2 = pd.DataFrame( mat2, 
                    index = ['a','b','c'],columns = ['score3','score4','score5','score6'])
df2

Unnamed: 0,score3,score4,score5,score6
a,6,7,8,9
b,11,12,13,14
c,16,17,18,19


In [74]:
df1 + df2

Unnamed: 0,0,1,2,3
0,14,16,18,20
1,22,24,26,28
2,30,32,34,36


## 3.7. pd.DataFrame with Nan values

In [83]:
df3 = df1 + df2
df3  # 없는 값은 NaN으로 채우기

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,,,9,11,13,
b,,,19,21,23,
c,,,29,31,33,


In [85]:
#null 값이 있는지 계산
df3.isnull()  # true, False 값 반환

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,True,True,False,False,False,True
b,True,True,False,False,False,True
c,True,True,False,False,False,True


In [88]:
# null값이 있는 인덱스 반환
np.where(df3.notnull())

(array([0, 0, 0, 1, 1, 1, 2, 2, 2], dtype=int64),
 array([2, 3, 4, 2, 3, 4, 2, 3, 4], dtype=int64))

In [91]:
# null값이 있는지 확인
df3.where(df3.notnull())

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,,,9,11,13,
b,,,19,21,23,
c,,,29,31,33,


In [93]:
#null값 없애기 ( axis = 0 : 행 기준)
df3.where(df3.notnull()).dropna(axis = 0)

Unnamed: 0,score1,score2,score3,score4,score5,score6


In [94]:
#null 값 없애기 ( axis = 1: 열 기준)
df3.where(df3.notnull()).dropna(axis = 1)

Unnamed: 0,score3,score4,score5
a,9,11,13
b,19,21,23
c,29,31,33


## 3.8 pd.DataFrame.index(or columns).name

In [95]:
df3

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,,,9,11,13,
b,,,19,21,23,
c,,,29,31,33,


In [99]:
# 인덱스 컬럼명 바꾸기
df3.index.name = 'name'
df3

Unnamed: 0_level_0,score1,score2,score3,score4,score5,score6
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,,,9,11,13,
b,,,19,21,23,
c,,,29,31,33,


In [102]:
# 컬럼명 전체의 이름 바꾸기
df3.columns.name = 'exam'
df3

exam,score1,score2,score3,score4,score5,score6
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,,,9,11,13,
b,,,19,21,23,
c,,,29,31,33,


In [None]:
srt