# Pandas를 사용하는 이유

NumPy 튜토리얼에서 언급했듯, 파이썬은 원래 데이터 분석에 특화된 언어가 아니다.
Pandas는 NumPy와 함께 파이썬의 대표적인 데이터 사이언스 라이브러리로 NumPy가 기본적인 다차원 벡터화 연산을 도와준다고 하면, Pandas는 Numpy를 기반으로 하여 데이터 프레임의 활용이나 피벗테이블 생성 등이 가능하며, 데이터의 입/출력 등 여러 응용 기능을 제공한다.
또한, Pandas는 리스트, 튜플 및 딕셔너리 등의 Python 기본 자료구조 외에 Series와 DataFrame이라는 고유 자료 구조를 활용한다.

R에서는 유사한 기능을 사용하기 위하여 일반적으로 아래와 같은 패키지/라이브러리를 이용한다.

- **data.frame/data.table** (데이터를 담는 자료 구조)
- **tidyr** (wraggling; messy한 데이터셋을 tidy한 데이터셋으로 만들기)
- **dplyr** (handling; 여러 인사이트를 반영하여 변수를 추가/수정/삭제 하고 요약하기)

Pandas에서도 데이터 시각화가 가능하나, R의 ggplot2와 비교하기엔 지나치게 간소한 기능만 지원한다.

!Pandas는
1. 모든 계산은 numpy 기반으로 수행
2. 행은 index, 열은 변수명으로 접근할 수 있게 하여 실수를 줄이고 가독성을 제고
3. 데이터분석에 특화된 전용 함수들을 제공
4. 자동 혹은 사용자 지정에 따라 축을 설정하고 데이터를 정렬/연산
5. 시계열 및 비시계열을 모두 처리 가능
6. 누락 데이터 처리 용이
7. RDBMS에서 수행하는 데이터 처리 기능 지원

# 2. pd.Series에 대한 소개 및 생성/활용

## 2.1 pd.Series란?
one dimensional data를 담는 객체(사실은 클래스)로서, 리스트의 성격과 딕셔너리의 성격이 섞여있다.
차원은 한 개이나, 실제 형태는 m x 2 이다.

## 2.2 pd.Series 객체의 주요 attribute

**pd.Series.shape**
- 객체의 shape은 m행 2열이다.

In [3]:
import pandas as pd
import numpy as np

In [8]:
a = pd.Series([1,2,3,4],index =['a','b','c','d'])
a

a    1
b    2
c    3
d    4
dtype: int64

In [9]:
pd.Series(np.array([1, 2, 3, 4]), index = ['a', 'b', 'c', 'd'])

a    1
b    2
c    3
d    4
dtype: int32

In [10]:
a['a']

1

In [11]:
a[:]

a    1
b    2
c    3
d    4
dtype: int64

In [12]:
a[::2]

a    1
c    3
dtype: int64

In [14]:
a[a>2]

c    3
d    4
dtype: int64

In [16]:
a[a>2]=10
a

a     1
b     2
c    10
d    10
dtype: int64

In [17]:
sr1 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
sr2 = pd.Series([5, 6, 7, 8, 9], index = ['a', 'b', 'c', 'd', 'e'])

In [18]:
sr3 = sr1+sr2

In [19]:
sr3

a     6.0
b     8.0
c    10.0
d    12.0
e     NaN
dtype: float64

In [20]:
# 결측값 확인
pd.isnull(sr3)

a    False
b    False
c    False
d    False
e     True
dtype: bool

In [None]:
sr3[pd.notnull(sr3)] # 결측치 제외

## 결측치 제거시
1. 결측치 값을 완전히 제거하는 경우
2. 결측치를 평균등으로 메꾸는 경우 (오히려 원자료를 망치는 경우가 많음)
3. 결측치를 그냥 두고 분석하는 경우


-  머신러닝에서는 DGM 사용

In [21]:
data = {'score1' : ['91', '94', '97', '100'], 'score2' : np.arange(100, 90, -3)}

In [22]:
data

{'score1': ['91', '94', '97', '100'], 'score2': array([100,  97,  94,  91])}

In [23]:
df1 = pd.DataFrame(data = data, index = ['a', 'b', 'c', 'd'])
df1

Unnamed: 0,score1,score2
a,91,100
b,94,97
c,97,94
d,100,91


In [24]:
df11 = pd.DataFrame(data, ['a', 'b', 'c', 'd'])
df11

Unnamed: 0,score1,score2
a,91,100
b,94,97
c,97,94
d,100,91


In [33]:
data = np.array([[1, 2, 3, 4],
          [5, 6, 7, 8],
          [9, 10, 11, 12]],dtype=np.int)
data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [34]:
df1 = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['score1', 'score2', 'score3', 'score4'])
df1

Unnamed: 0,score1,score2,score3,score4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12


In [27]:
df1.iloc[1,2] # 2행 3열에 접근하는 방법1

7

In [28]:
df1.iloc[1][2] # 2행 3열에 접근하는 방법2

7

In [35]:
df1.loc['b', 'score3'] # b행의 score3값(2행 3열)에 접근하는 방법1

7

In [36]:
df1.loc['b', 'score3'] # b행의 score3값(2행 3열)에 접근하는 방법1

7

In [37]:
df1.loc['b']['score3'] # b행의 score3값(2행 3열)에 접근하는 방법2

7

In [30]:
df1.loc['b']['score3'] = 100 # b행의 score3값(2행 3열)에 접근하여 변경

In [38]:
df1

Unnamed: 0,score1,score2,score3,score4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12


In [39]:
df1.iloc[[1, 2, 1],[0, 2, 3]] # (1,0), (2, 2), (1, 3) 선택

Unnamed: 0,score1,score3,score4
b,5,7,8
c,9,11,12
b,5,7,8


In [40]:
mat1 = np.array([[1, 2, 3, 4],
          [5, 6, 7, 8],
          [9, 10, 11, 12]], dtype=np.int)
df1 = pd.DataFrame(mat1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [41]:
df1.sum(axis = 0)

0    15
1    18
2    21
3    24
dtype: int64

In [42]:
df1.sum(axis=1) # 반환 값의 타입은 pd.Series이다.

0    10
1    26
2    42
dtype: int64

In [43]:
mat1 = np.array([[1, 2, 3, 4, 5],
          [6, 7, 8, 9, 10],
          [11, 12, 13, 14, 15]],dtype=np.int)
df1 = pd.DataFrame(mat1, index=['a', 'b', 'c'], columns=['score1', 'score2', 'score3', 'score4', 'score5'])

In [44]:
mat2 = np.array([[3, 4, 5, 6],
          [7, 8, 9, 10],
          [11, 12, 13, 14]],dtype=np.int)
df2 = pd.DataFrame(mat2, index=['a', 'b', 'c'], columns=['score3', 'score4', 'score5', 'score6'])

In [46]:
df3 = df1 + df2

In [47]:
df3

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,,,6,8,10,
b,,,15,17,19,
c,,,24,26,28,


In [48]:
df3.isnull()

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,True,True,False,False,False,True
b,True,True,False,False,False,True
c,True,True,False,False,False,True


In [49]:
df3.where(df3.notnull())

Unnamed: 0,score1,score2,score3,score4,score5,score6
a,,,6,8,10,
b,,,15,17,19,
c,,,24,26,28,


In [50]:
df3.where(df3.notnull()).dropna(axis = 0)

Unnamed: 0,score1,score2,score3,score4,score5,score6


In [51]:
df3.where(df3.notnull()).dropna(axis = 1)

Unnamed: 0,score3,score4,score5
a,6,8,10
b,15,17,19
c,24,26,28


In [52]:
df1 = pd.DataFrame(np.random.randn(9).reshape(3,3), index=['stu1', 'stu2', 'stu3'], columns=['exam3', 'exam2', 'exam1'])

In [53]:
df1.sort_values(by=['exam3', 'exam1']) # exam3 순으로 먼저 sort하고 그 다음 exam1 순으로 sort

Unnamed: 0,exam3,exam2,exam1
stu2,-0.4693,0.56698,-1.894947
stu3,0.145078,2.446048,-0.502327
stu1,0.591688,1.062635,0.774824
