# Pandas 시작하기

## **2. 핵심 기능**

 - Series 또는 DataFrame에 저장된 데이터를 다루는 방법
 

### **2.1 재색인(Reindexing)**
-재색인이 중요한 이유: 우리가 데이터를 저장하고 나면 우리가 원하는 데이터를 가져다 쓸 수 있어야 함. 그 원하는 범위를 잘 표현하는 방법

     - reindex: 새로운 색인에 맞도록 객체를 새로 생성
       -  데이터를 새로운 색인에 맞게 재배열
       -  존재하지 않는 색인값은 NaN 추가
       - method 옵션: 값을 보간하거나 채워 넣을 때 사용
         - ffill: 누락된 값을 직전의 값으로 채움
       - 로우(색인), 컬럼 또는 둘 다 변경 가능
         - 로우 재색인: 인덱스 순서 전달
         - 컬럼 재색인: column 예약어 사용하여 인덱스 순서 전달 

In [2]:
import pandas as pd
import numpy as np

[데이터를 새로운 색인에 맞게 재배열]

In [3]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj 

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

[존재하지 않는 색인값은 NaN 추가]

In [4]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

[method 옵션: ffill 사용하기]

NaN값을 남겨두는 것은 좋지 않음

In [5]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [6]:
#method='ffill'를 사용했기 때문에 index=1,3,5값이 NaN이 아니라 채워진다.
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

[로우(색인), 컬럼  변경하기 ]

In [7]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


[로우 변경]

In [8]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


[컬럼 변경]

In [9]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


[loc 사용하여 재색인]
  - 레이블로 색인


  

  

In [10]:
frame.loc[['a', 'd']]

Unnamed: 0,Ohio,Texas,California
a,0,1,2
d,6,7,8


In [11]:
states2 = ['Texas', 'California']

In [12]:
frame.loc[['c'],states2]

Unnamed: 0,Texas,California
c,4,5


In [13]:
#KeyError: "None of [Index(['b'], dtype='object')] are in the [index]"
frame.loc[['b']]

KeyError: ignored

**< 재색인 함수>**

|인자|설명|
|----|----|
|index|색인으로 사용할 새로운 순서. Index 인스턴스나 다른 순차적인 자료구조가 사용가능. Index는 복사가 이루어지지않고 그대로 사용|
|method|채움 메서드 ffill은 직전 값을 채워넣고 bfill은 다음 값을 채움 |
|fill_value|재색인 과정 중에 새롭게 나타나는 비어있는 데이터를 채우기 위한 값|
|limit|전/후 보간 시에 사용할 최대 갭크기(채워넣을 원소의 수)|
|tolerance|전/후 시에 사용할 최대 갭 크기(값 차이)|
|level|MultiIndex의 단계(level)에 단순 색인을 맞춤, 그렇지 않으면 MultiIndex의 하위집합에 맞춤|
|copy|True인 경우 새로운 색인이 이전 색인과 동일하더라도 데이터를 복사, False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않음|

### **2.2 하나의 행이나 컬럼 삭제하기**

      - drop 메서드(원본은 유지되고 새로운 객체가 생성됨): 선택한 값들이 삭제된 새로운 객체 생성
         - 로우와 컬럼을 모두 삭제 가능
            - 로우 삭제
                - 로우 이름 
                - 로우 (axis = 0)의 값을 모두 삭제
            - 컬럼 삭제
                -  컬럼의 이름
                -  axis =1 또는 axis ='columns':컬럼의 값을 모두 삭제
         -  inplace 옵션(원본을 변형시킴): 버려지는 값을 모두 삭제
            - Series 나 DataFrame 의 크기 또는 형태를 변경하는 함수, 새로운 객체를 반환하는 대신 원본 객체를 변경 
          
           

[drop 메서드를 사용한 로우 삭제]

In [14]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [15]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [16]:
new_obj = obj.drop(['d', 'c'])
new_obj

a    0.0
b    1.0
e    4.0
dtype: float64

In [17]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

[drop 메서드를 사용한 컬럼 삭제]

In [18]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [19]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [20]:
data.drop('two', axis=1) #axis=1: column방향

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [21]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [22]:
data #원본은 유지

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


  
[inplace 옵션 사용하여 버려지는 값을 모두 삭제하기]

In [23]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### **2.3 색인하기(Indexing), 선택하기(Selection), 거르기(Filtering)**

     - Series의 색인은 NumPy 배열의 색인과 유사함
     - 정수가 아니어도 동작
         

[숫자 슬라이싱]

In [24]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [25]:
obj['b']

1.0

In [None]:
obj[1]

In [None]:
obj[-1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]] #여기서는 index가 아니라 값 그 자체로 해석이 됨.

In [None]:
obj[obj < 2]

     - 레이블 이름으로 슬라이싱
       -  시작점과 끝점을 포함(일반 파이썬 슬라이싱과의 차이점) 

[문자 슬라이싱]

In [None]:
obj['b':'c'] #숫자로 할 때와 다르게 문자로 슬라이싱할때는 끝점을 포함

[슬라이싱을 통한 대입]

In [None]:
obj['b':'c'] = 5
obj

[색인으로 하나 이상의 컬럼 값 가져오기]

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three', 'one']] #대괄호 안쪽에 list를 넣어서 여러 개를 가져올 수도 있음

[슬라이싱으로 로우 선택]

In [None]:
data[:2]

[불리언 배열로 로우 선택] 

In [None]:
data['three'] > 5

In [None]:
type(data['three'] > 5)

In [None]:
data[data['three'] > 5]

[스칼라 비교 이용해서 생성된 불리언  DataFrame 사용해서 선택]

In [None]:
data < 5 #각각의 원소에 대해 대소비교

In [None]:
type(data < 5)

In [None]:
data[data < 5] = 0
data

#### **loc와 iloc를 사용한 선택하기**

    - DataFrame의 로우에 대한 레이블을 사용한 색인 방법
       - loc
          - 축의 이름 선택
       - iloc
          - 정수 색인 선택

loc: [축의 레이블로 하나의 로우와 여러 컬럼 선택]

In [None]:
data
#Ohio, Colorado,one,two 등 모든 이름을 label이라고 부름름 

In [None]:
data.loc['Colorado', ['two', 'three']]

In [None]:
data.loc[['Colorado','Utah'], ['two', 'three']]

[iloc을 이용한 정수 색인]:

In [None]:
data.iloc[2, [3, 0, 1]] #지정한 행/열을, 지정한 순서대로 가져옴

In [None]:
data.iloc[2]

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

[슬라이싱]

In [None]:
data.loc[:'Utah', 'two']

In [None]:
data.iloc[:, :3]

In [None]:
data.iloc[:, :3][data.three > 5]

In [None]:
#at: 레이블 지정을 통해 딱 하나의 값만을 지정
#iat: 정수 색인을 통해 딱 하나의 값만을 지정
data.iat[1, 1]

**< DataFrame의 값을 선택하기>**

|방식|설명|
|----|----|
|df[val]|DataFrame에서 하나의 컬럼 또는여러 컬럼을 선택, 편의를 위해 불리언 배열, 슬라이스, 블리언 DataFrame을 사용|
|df.loc[val]|DataFrame에서 레이블값으로 로우의 부분집합 선택|
|df.loc[:, val]|DataFrame에서 레이블값으로 컬럼의 부분집합 선택|
|df.loc[val1, val2]|DataFrame에서 레이블값으로 로우, 컬럼의 부분집합 선택|
|df.iloc[where]|DataFrame에서 정수색인으로 로우의 부분집합 선택|
|df.iloc[:, where]|DataFrame에서 정수색인으로 컬럼의 부분집합 선택|
|df.iloc[where_i, where_j]|DataFrame에서 정수색인으로 로우와 컬럼의 부분집합 선택|
|df.at[label_i, label_j]|로우와 컬럼의 레이블로 단일 값을 선택|
|df.iat[i, j]|로우와 컬럼의 정수 색인으로 단일 값을 선택|
|reindex 메서드|하나 이상의 축을 새로운 색인으로 맞춤|
|get_value, set_value 메서드|로우와 컬럼 이름으로 DataFrame의 값을 선택|


### **2.4 정수색인 (Integer Indexes)**

     - 리스트나 튜플 같은 파이썬 내장 자료구조와 pandas 객체의 차이점

In [26]:
ser = pd.Series(np.arange(3.))

In [27]:
ser #여기 나오는 index는 레이블 index.

0    0.0
1    1.0
2    2.0
dtype: float64

In [28]:
# 오류 발생
# 레이블 색인을 찾는데 실패
ser[-1]

KeyError: ignored

In [29]:
obj = pd.Series(np.arange(4.))
print(obj)
obj.drop(1, inplace = True)
print(obj)
#print(obj[1]) # 오류 발생시킴(1을 drop했으므로)
print(obj.iloc[1])

0    0.0
1    1.0
2    2.0
3    3.0
dtype: float64
0    0.0
2    2.0
3    3.0
dtype: float64
2.0


    - 문제점 해결: 정수 기반의 색인을 사용하지 않기

In [30]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c']) #index를 헷갈리지 않고 확실히 label인 label로 지정해줌
ser2[-1] #ser2의 index가 정수형태가 아니기 때문에, ser2[-1]이라고 하면 레이블에서 찾지 않고 그냥 index라고 생각해 줌.

2.0

    - 일관성 유지를 위해: 정수값을 담고 있는 축 색인이 있다면 우선적으로 레이블을 먼저 찾아보도록 구현되어 있음
    -  레이블: loc, 정수 색인: iloc 사용 권장

In [31]:
ser[:1]

0    0.0
dtype: float64

In [32]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [33]:
ser.iloc[:1]

0    0.0
dtype: float64

In [34]:
ser.iloc[:-1]

0    0.0
1    1.0
dtype: float64

In [35]:
ser.iloc[-1]

2.0

### **2.5 산술 연산과 데이터 정렬**

- Pandas는 다른 색인을 가지고 있는 객체 간의 산술 연산 가능

     - 객체를 더할 때 짝이 맞지 않은 색인이 있다면 결과에 두 색인을 통합
       - 서로 겹치는 색인이 없는 경우 데이터는 NaN 값이 됨

In [36]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],index=['a', 'c', 'e', 'f', 'g'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [37]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [38]:
s1 + s2 #한쪽에만 있을 때는 NaN으로 처리

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

    - 두 DataFrame을 더하면 DataFrame에 있는 색인과 컬럼을 하나로 합침

In [39]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [40]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [41]:
# 'c'와 'e' 컬럼이 양쪽 DataFrame 객체에 존재하지 않으모로 결과에서 모두 NaN
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


      -공통되는 컬럼 레이블이나 로우 레이블이 없는  DataFrame을 더하면 결과에 아무것도 나타나지 않음

In [42]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [43]:
df2

Unnamed: 0,B
0,3
1,4


In [44]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


In [45]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


#### **fill values를 사용하는 산술 메서드**

     - 서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값으로 지정 

In [48]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df2.loc[1, 'b'] = np.nan #numpy의 NaN값을 입력해주기

In [49]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [50]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


     - 덧셈 연산에서 겹치지 않는 부분은 NaN 값을 가짐

In [51]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


     - NaN을 특수한 값으로 채우기 
       - add 메서드와 fill_value 속성을 사용 

[없는 값을 1으로 채운 후 add 연산]

In [53]:
df1.add(df2, fill_value=0) #df1, df2의 NaN값을 모두 0으로 채워준 후, 그 다음 df1와 df2를 더하는 것

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


**< 산술 연산 메서드 >**
 * 각 산술 연산 메서드는 r로 시작하는 계산 인자를 뒤집어 계산하는 메서드가 존재 


|메서드|설명|
|------|----|
|add, radd|덧셈(+)을 위한 메서드|
|sub, rsub|뺄셈(-)을 위한 메서드|
|div, rdiv|나눗셈(/)을 위한 메서드|
|floordiv, rfloordiv|소수점 내림(//)연산을 위한 메서드|
|mul, rmul|곱셈(*)을 위한 메서드|
|pow, rpow|제곱(**)을 위한 메서드|

In [54]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [56]:
df1.rdiv(1) #div라면 df1 나누기 1, rdiv는 반대로 바꿔줘서 1 나누기 df1을 수행함

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


    - Series나 DataFrame은 재색인할 경우에도 fill_value를 지정 가능

In [57]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0
