### Pandas : 구조화된 데이터의 처리를 지원하는 라이브러리

- 인덱싱, 연산용 함수, 전처리 함수 등을 제공함

In [1]:
# 판다스 호출

import pandas as pd

In [2]:
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' #Data URL
# data_url = './housing.data' #Data URL
df_data = pd.read_csv(data_url, sep='\s+', header = None) #csv 타입 데이터 로드, separate는 빈공간으로 지정하고, Column은 없음

In [3]:
df_data.columns = [
    'CRIM','ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO' ,'B', 'LSTAT', 'MEDV'] 
# Column Header 이름 지정
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [46]:
# 판다스의 dataframe에 values사용시 array형태로 불러옴
print(df_data.values)
print(type(df_data.values))

[[6.3200e-03 1.8000e+01 2.3100e+00 ... 3.9690e+02 4.9800e+00 2.4000e+01]
 [2.7310e-02 0.0000e+00 7.0700e+00 ... 3.9690e+02 9.1400e+00 2.1600e+01]
 [2.7290e-02 0.0000e+00 7.0700e+00 ... 3.9283e+02 4.0300e+00 3.4700e+01]
 ...
 [6.0760e-02 0.0000e+00 1.1930e+01 ... 3.9690e+02 5.6400e+00 2.3900e+01]
 [1.0959e-01 0.0000e+00 1.1930e+01 ... 3.9345e+02 6.4800e+00 2.2000e+01]
 [4.7410e-02 0.0000e+00 1.1930e+01 ... 3.9690e+02 7.8800e+00 1.1900e+01]]
<class 'numpy.ndarray'>


### Pandas의 구성

**Series** : Dataframe중 하나의 Column에 해당하는 데이터의 모음

**Dataframe** : Data Table 전체를 포함하는 Object

In [4]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [5]:
list_data = [1,2,3,4,5]
example_obj = Series(data = list_data)
example_obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

### Series

- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

**index** = 배열의 데이터와 연관된 이름


In [48]:
# data 인덱스에 접근하기
example_obj[0]

1

### Dataframe
***
- 표 같은 스프레드시트 형식의 자료 구조
<br>
- 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값(숫자, 문자열 등)을 담을 수 있다.
***

In [51]:
data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year' : [2000,2001,2002,2001,2002,2003],
       'pop' : [1.5,1.7,3.6,2.4,2.9,3.2]}

frame = pd.DataFrame(data)

In [52]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [53]:
# 컬럼 선택
DataFrame(frame,columns = ['state','pop'])

Unnamed: 0,state,pop
0,Ohio,1.5
1,Ohio,1.7
2,Ohio,3.6
3,Nevada,2.4
4,Nevada,2.9
5,Nevada,3.2


columns를 쓰고 column 이름을 쓰면 해당 column만 가져 올 수 있다.

In [54]:
# 새로운 컬럼 생성
DataFrame(frame,columns = ['year','state','pop','debt'])

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


새로운 column 추가시 NaN(결측치)로 저장 됨.

In [55]:
df = DataFrame(frame,columns = ['year','state','pop','debt'])

#### Column 선택 - Series 추출

In [56]:
# 컬럼의 형태를 series로 불러옴1
df.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [57]:
# 컬럼의 형태를 series로 불러옴2
df['year']

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [58]:
df2 = DataFrame(data,columns = ['year','state','pop','debt'],index = ['one','two','three','four','five','six'])
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [59]:
# 인덱스가 1인 값을 출력
df.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [61]:
# state열을 series로 호출
df['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [63]:
# state열의 1번 인덱스부터 호출
df['state'].iloc[1:]

1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [14]:
df2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

**loc**는 index 이름으로,  **iloc**은 index number로 속성에 접근 할 수 있다

In [64]:
# series 생성
s = pd.Series(np.nan, index = [49,48,47,46,45,1,2,3,4,5])
s

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
dtype: float64

In [65]:
# index의 이름이 3인것까지 출력해라 
s.loc[:3]

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
dtype: float64

In [66]:
# 인덱스값 3번쨰까지 출력해라
s.iloc[:3]

49   NaN
48   NaN
47   NaN
dtype: float64

In [18]:
df2['debt'] = 16

현 재 비어있는 'debt' 컬럼에 배열의 값을 대입할 수 있다.

In [19]:
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16
two,2001,Ohio,1.7,16
three,2002,Ohio,3.6,16
four,2001,Nevada,2.4,16
five,2002,Nevada,2.9,16
six,2003,Nevada,3.2,16


In [20]:
# 컬럼에 새로운 데이터를 할당

df2.debt = df2.year > 2001

df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,False
two,2001,Ohio,1.7,False
three,2002,Ohio,3.6,True
four,2001,Nevada,2.4,False
five,2002,Nevada,2.9,True
six,2003,Nevada,3.2,True


In [21]:
df2['debt'] = np.arange(6.)

df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


리스트나 배열을 컬럼에 대입 할 때는 대입하려는 값의 길이가 dataframe의 크기와 동일해야 한다.

In [22]:
val = pd.Series([-1.2,-1.5,-1.7],index = ['two','four','five'])

val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [23]:
df2['debt'] = val
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [24]:
df2['eastern'] = df2.state == 'Ohio'
df2
# column을 삭제
del df2['eastern']
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


state의 컬럼 값이 'Ohio' 인지 아닌지에 대한 boolean값을 담고 있는 새로운 컬럼 생성

**del** 예약어를 통해 이 컬럼을 삭제할 수 있다.

In [25]:
df2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

### Selection with column names

In [67]:
df.head()

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,


In [26]:
# 한개의 컬럼 선택시
# series 객체를 가져옴
df2['year'].head(3)

one      2000
two      2001
three    2002
Name: year, dtype: int64

In [27]:
# 1개 이상의 컬럼 선택시
# dataframe을 가져옴
df2[['year','state','pop']].head(3)

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6


### Selection with index number

In [28]:
# 컬럼 이름 없이 사용하는 인덱스 넘버는 row 기준 표시

df2[:3]

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,


In [29]:
# 컬럼 이름에 따라 인덱스 넘버 표시, 해당 column만 가져올 경우

df2['year'][:2]

one    2000
two    2001
Name: year, dtype: int64

In [30]:
# year행 출력
df2_series = df2['year']

df2_series

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [31]:
# row 인덱스 순서를 뽑아라.
# 전체 데이터중 인덱스 번호가 1,5,2인 행 출력
df2_series[[1,5,2]]

two      2001
six      2003
three    2002
Name: year, dtype: int64

In [32]:
# 조건에 맞는 값만 출력
df2_series[df2_series < 2001]

one    2000
Name: year, dtype: int64

In [33]:
df[['year', 'state']][:2]

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio


In [70]:
# 인덱스 변경
df2.index = df['pop']

In [71]:
df2.head()

Unnamed: 0_level_0,year,state,pop,debt
pop,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1.5,2000,Ohio,1.5,
1.7,2001,Ohio,1.7,
3.6,2002,Ohio,3.6,
2.4,2001,Nevada,2.4,
2.9,2002,Nevada,2.9,


In [73]:
# 인덱스로 들어갔으므로 pop컬럼 del
del df2['pop']

In [74]:
df2.head()

Unnamed: 0_level_0,year,state,debt
pop,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1.5,2000,Ohio,
1.7,2001,Ohio,
3.6,2002,Ohio,
2.4,2001,Nevada,
2.9,2002,Nevada,


### Basic, loc, iloc selection

In [75]:
df

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [76]:
# column의 이름과 index number로 가져오기
df[['year','pop']][:2]

Unnamed: 0,year,pop
0,2000,1.5
1,2001,1.7


In [78]:
# loc로 인덱스의 값을 통해 column의 이름으로 가져오기 -인덱스를 먼저 적음
df.loc[[0,1,2,5],['state','pop']]

Unnamed: 0,state,pop
0,Ohio,1.5
1,Ohio,1.7
2,Ohio,3.6
5,Nevada,3.2


In [81]:
# iloc로 인덱스의 번호만 사용
df.iloc[:2,:2]

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio


### Series operation

In [34]:
# series1 생성
s1 = Series(
range(1,6), index = list('abced'))

s1

a    1
b    2
c    3
e    4
d    5
dtype: int64

In [91]:
# series2 생성
s2 = Series(
range(5,11), index = list('bcedef'))

s2

b     5
c     6
e     7
d     8
e     9
f    10
dtype: int64

In [92]:
# 인덱스가 겹치지 않을경우 NaN 반환
s1.add(s2)

a     NaN
b     7.0
c     9.0
d    13.0
e    11.0
e    13.0
f     NaN
dtype: float64

In [93]:
s1 + s2

a     NaN
b     7.0
c     9.0
d    13.0
e    11.0
e    13.0
f     NaN
dtype: float64

index 기준으로 연산수행하며 겹치는 index가 없을 경우 NaN값으로 변환한다!

In [96]:
df1 = DataFrame(
np.arange(9).reshape(3,3),
columns = list('abc'))

df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [98]:
df2 = DataFrame(
np.arange(16).reshape(4,4),
columns = list('abcd'))

df2

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [99]:
df1 + df2

Unnamed: 0,a,b,c,d
0,0.0,2.0,4.0,
1,7.0,9.0,11.0,
2,14.0,16.0,18.0,
3,,,,


In [100]:
df1.add(df2,fill_value = 0)

Unnamed: 0,a,b,c,d
0,0.0,2.0,4.0,3.0
1,7.0,9.0,11.0,7.0
2,14.0,16.0,18.0,11.0
3,12.0,13.0,14.0,15.0


df는 column과 index를 모두 고려

add operation을 쓰면 NaN값을 0으로 변환이 가능하다!<br>
**add operation** : add, sub, div, mul

In [42]:
df = DataFrame(
np.arange(16).reshape(4,4),
columns = list('abcd'))

df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [43]:
s = Series(
np.arange(10,14),
index = list('abcd'))

s

a    10
b    11
c    12
d    13
dtype: int32

In [44]:
df + s

Unnamed: 0,a,b,c,d
0,10,12,14,16
1,14,16,18,20
2,18,20,22,24
3,22,24,26,28


column을 기준으로 **broadcasting**이 발생함!<br><br>
a+10, b+11, c+12, d+13 순 