## Pandas 개요
- pandas는 for문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제
공하는 등 NumPy의 배열 기반 계산 스타일을 많이 차용
- pandas가 NumPy 스타일을 많이 차용했지만 가장 큰 차이점은 pandas는 표 형
식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계
- 그에 비해 NumPy는 단일 산술 배열 데이터를 다루는 데 특화
- 고수준의 자료구조를 제공하고 파이썬 생태계 내의 다른 분석 라이브러리 등과 함께 사용

## 1. Pandas 자료구조

In [1]:
import pandas as pd
import numpy as np

### 1.1 Series
- 1차원 데이터

#### 

In [6]:
obj=pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [8]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [9]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
obj2= pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [15]:
obj2.values

array([ 4,  7, -5,  3], dtype=int64)

In [16]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [13]:
obj2['d'] # 라벨 이름으로 색인

4

In [None]:
obj2['0'] #정수로 색인

In [19]:
obj2[[0,1,3]] # 팬시색인 

d    4
b    7
c    3
dtype: int64

In [20]:
obj2[['d','b','c']] # 팬시색인 

d    4
b    7
c    3
dtype: int64

In [21]:
obj2>0 #부울린 색인

d     True
b     True
a    False
c     True
dtype: bool

In [23]:
obj2[obj2>0]

d    4
b    7
c    3
dtype: int64

In [24]:
obj2*2

d     8
b    14
a   -10
c     6
dtype: int64

In [25]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [27]:
sdata={'Ohio':3500,'Texas':71000,'Oregon':16000,'Utha':5000}
obj3=pd.Series(sdata)

In [32]:
states=['California','Ohio','Oregon','Texas']
obj4=pd.Series(sdata,index=states)
obj4

California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [34]:
pd.isnull(obj4)  # obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [35]:
pd.isnull(obj4).sum() #null인 항목의 합

1

In [37]:
obj4.notnull() #pd.notnul(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [39]:
obj4.index.name='state'
obj4

state
California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [40]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [None]:
obj.index=["철수",""]

### Workshop

- 딕셔너리 -> 시리즈 변환 (index, values 출력)

In [41]:
dict_data={'a':1,'b':2,'c':3}

In [43]:
pd_dict=pd.Series(dict_data)
pd_dict

a    1
b    2
c    3
dtype: int64

- 리스트 -> 시리즈 변환 (index, values 출력)

In [44]:
list_data=['2019-01-02',3.14,'ABC',100,True]

In [45]:
pd_list=pd.Series(list_data)
pd_list

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object

- 튜플 -> 시리즈 변환 (index, values 출력)

In [47]:
tuple_data=('영인','2010-05-01','여',True)
index_name=['이름','생년월일','성별','학생여부']

In [49]:
pd_tuple=pd.Series(tuple_data,index_name)
pd_tuple



이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object

In [50]:
pd_tuple['생년월일':'성별']

생년월일    2010-05-01
성별               여
dtype: object

### 1.2 DataFrame
- 2차원 데이터

In [58]:
data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame=pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [59]:
frame.index

RangeIndex(start=0, stop=6, step=1)

In [60]:
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

In [62]:
frame.values

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9],
       ['Nevada', 2003, 3.2]], dtype=object)

In [63]:
type(frame)

pandas.core.frame.DataFrame

In [68]:
frame.head(3) #앞에서 부터보여줌

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


In [67]:
frame.tail(3)#뒤에서 부터 보여줌

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [72]:
frame2=pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five','six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [74]:
frame2.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

In [75]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [77]:
type(frame2['state']) #2 차원 데이터의 DataFrame을 색인하면 1차원 데이터인 Series가 나옴

pandas.core.series.Series

**(2) 행 색인**

In [82]:
frame2.loc['one']

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object

In [84]:
type(frame2.loc['one'])

pandas.core.series.Series

In [85]:
frame2['one':'two'] #슬라이싱을 통해서 행을 가져올 때는 loc를 안써도 선택이 됨!

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,


In [86]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [87]:
frame2['debt']=16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [96]:
sr=pd.Series([1,2,3,4,5,6],index=frame2.index)
sr2=pd.Series([1,3,5],index=['one','three','five'])

In [98]:
frame2['debt']=sr
frame2['yahoo']=sr2


In [100]:
frame2

Unnamed: 0,year,state,pop,debt,yahoo
one,2000,Ohio,1.5,1,1.0
two,2001,Ohio,1.7,2,
three,2002,Ohio,3.6,3,3.0
four,2001,Nevada,2.4,4,
five,2002,Nevada,2.9,5,5.0
six,2003,Nevada,3.2,6,


In [103]:
pop={'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.8,2002:3.6}}
frame3=pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.8
2002,2.9,3.6
2000,,1.5


In [104]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.8,3.6,1.5


In [106]:
pd.DataFrame(pop,index=[2001,2002,2003]) #2000은 사라짐

Unnamed: 0,Nevada,Ohio
2001,2.4,1.8
2002,2.9,3.6
2003,,


In [108]:
frame3.index.name='year'
frame3.columns.name='state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.8
2002,2.9,3.6
2000,,1.5


### 1.3 Index
- 컬럼명, 인덱스 (데이터과 행과 열을 알려주는 메타 데이터) 

In [112]:
obj=pd.Series(range(3),index=['a','b','c'])
obj

a    0
b    1
c    2
dtype: int64

In [114]:
obj.index

Index(['a', 'b', 'c'], dtype='object')

In [117]:
obj.index[:2]

Index(['a', 'b'], dtype='object')

In [118]:
obj.index[1]

'b'

In [120]:
obj.index[1]='d' #immutable


TypeError: Index does not support mutable operations

In [122]:
labels=pd.Index(np.arange(3))
pd.Series([1,2,3],labels)

0    1
1    2
2    3
dtype: int64

### Workshop

- 딕셔너리 -> 데이터프레임

In [123]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

In [124]:
dict_frame=pd.DataFrame(dict_data)
dict_frame

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


- 행인덱스/열이름 설정

In [148]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [138]:
# 준서, 예은 -> 학생1, 학생2

In [143]:
df.rename(index={'준서':'학생1','예은':'학생2'},inplace=True)
df
#리네임 사용하기 


Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [145]:
df.index=['준서','예은']
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [130]:
sr=pd.Series(['학생1','학생2'])

In [136]:
df2=pd.DataFrame(df.values,sr,df.columns)
df2

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [149]:
df.rename(index={'준서':'학생1','예은':'학생2'},columns={'나이':'연령','성별':'남녀','학교':'소속'},inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [None]:
df.rename(columns={'나이':'연령','성별':'남녀','학교':'소속'},inplace=True)

In [None]:
# 나이, 성별, 학교 -> 연령, 남녀, 소속

In [133]:
sr2=pd.Series(['연령','남녀','소속'])

In [135]:
df3=pd.DataFrame(df.values,df.index,sr2)
df3

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


## 2. 중요한 기능들

### 2.1 재색인 

In [150]:
sr=pd.Series([1,2,3,4],[0,3,4,5])
sr

0    1
3    2
4    3
5    4
dtype: int64

In [152]:
np.arange(6)

array([0, 1, 2, 3, 4, 5])

In [154]:
sr.reindex(np.arange(6))

0    1.0
1    NaN
2    NaN
3    2.0
4    3.0
5    4.0
dtype: float64

In [156]:
sr.reindex(np.arange(6),method='bfill') #back fill


0    1
1    2
2    2
3    2
4    3
5    4
dtype: int64

In [157]:
sr.reindex(np.arange(6),method='ffill') #foward fill


0    1
1    1
2    1
3    2
4    3
5    4
dtype: int64

### 2.2 로우나 컬럼 삭제하기

In [168]:
obj=pd.Series(np.arange(5),['a','b','c','d','e'])
obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [166]:
obj.drop('c',inplace=True)

In [169]:
obj.drop(['c','d'])

a    0
b    1
e    4
dtype: int32

In [171]:
data=pd.DataFrame(np.arange(16).reshape(4,4),index=['Ohio','Colorado','Utha','New York'], columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


In [172]:
# axis= 0 행축 axis= 1 열축 
# (1) drop 연산을 할 경우네는 지정된 축을 삭제
# (2) 통계/수학 메서드 (sum,mean....)를 사용할 때는 "축을 따라서 ~" 계산
data.drop('Colorado',axis=0)
# data.drop('Colorado')
#data.drop('Colorado',axis='index')

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Utha,8,9,10,11
New York,12,13,14,15


In [174]:
#data.drop('two',axis=1)
data.drop('two',axis="columns")

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utha,8,10,11
New York,12,14,15


### 2.3 색인하기, 선택하기, 거르기

In [175]:
data=pd.DataFrame(np.arange(16).reshape(4,4),index=['Ohio','Colorado','Utha','New York'], columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


In [196]:
data['two'] # data.two <- 컬럼이름에 공백있으면 못씀

Ohio         1
Colorado     5
Utha         9
New York    13
Name: two, dtype: int32

In [197]:
data[['two', 'four']]

Unnamed: 0,two,four
Ohio,1,3
Colorado,5,7
Utha,9,11
New York,13,15


In [198]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utha,False,False,False,False
New York,False,False,False,False


In [199]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


In [181]:
data.loc['New York']['one'] #라벨 색인

12

In [184]:
data.iloc[1][0]   #정수 로 색인

4

In [200]:
data.loc['Colorado'][['one','three']]

one      0
three    6
Name: Colorado, dtype: int32

In [201]:
data.loc['Colorado',['one','three']]

one      0
three    6
Name: Colorado, dtype: int32

In [202]:
data.iloc[1,[0,2]]

one      0
three    6
Name: Colorado, dtype: int32

In [203]:
data.loc[:'Utha']

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utha,8,9,10,11


In [204]:
data.iloc[:3]

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utha,8,9,10,11


### Workshop

- 행삭제

In [230]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [232]:
# '서준'행 삭제
df.drop('서준',axis=0)

Unnamed: 0,수학,영어,음악,체육
우현,80,89,95,90
인아,70,95,100,90


In [234]:
# '서준', '우현' 행 삭제
df.drop(['서준','우현'],0)

Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90


- 열 삭제

In [208]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [235]:
# '수학' 열 삭제
df.drop('수학',1)

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [210]:
# '수학', '영어' 열 삭제

In [236]:
df.drop(['수학','영어'],1)

Unnamed: 0,음악,체육
서준,85,100
우현,95,90
인아,100,90


- 행 선택

In [211]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [241]:
# '서준' 행 선택(라벨 색인, 정수 색인)
df.loc['서준'] # 라벨
df.iloc[0]

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [259]:
# '서준', '우현' 행 선택 (라벨 색인, 정수 색인, 슬라이싱)
df.loc[['서준','우현']] #라벨
df.iloc[[0,1]]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


- 열 선택

In [214]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [262]:
# '수학' 열 선택
df['수학']

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

In [263]:
# '음악', '체육' 열 선택
df[['음악','체육']]

Unnamed: 0,음악,체육
서준,85,100
우현,95,90
인아,100,90


- 원소 선택

In [217]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [265]:
# '서준'의 '음악' 점수
df.loc['서준']['음악']
df.iloc[0][2]

85

In [267]:
#'서준'의 '음악','체육' 점수
df.loc['서준'][['음악','체육']]
df.iloc[0][[2,3]]

음악     85
체육    100
Name: 서준, dtype: int64

In [220]:
#'서준','우현'의 '음악','체육' 점수

In [283]:
a=['서준','우현']
b=['음악','체육']
df.loc[['서준','우현']][['음악','체육']]

df.iloc[[0,1],[2,3]]  #iloc 는 이렇게 써야함 <- 큰 괄호 안에 

Unnamed: 0,음악,체육
서준,85,100
우현,95,90


- 열 추가

In [221]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [222]:
# '국어' 열 추가, 값은 80 점 지정

In [284]:
df['국어']=80
df

Unnamed: 0,수학,영어,음악,체육,국어
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80


- 행 추가

In [285]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [224]:
# "본인 이름" 으로 행추가, 과목 점수도 지정

In [287]:
df.loc['세현']=[90,80,90,100]
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
세현,90,80,90,100


- 원소 값 변경

In [288]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [289]:
# '서준'의 '체육' 점수를 80 점으로 변경(라벨 색인, 정수 색인)

In [294]:
df.iloc[0][3]=80
df.loc['서준']['체육']=70
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,70
우현,80,89,95,90
인아,70,95,100,90


In [227]:
# '서준'의 '음악','체육' 점수 변경

In [302]:
df.iloc[[0],[2,3]]=1
df.loc['서준'][['체육','음악']]=2
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,2,2
우현,80,89,95,90
인아,70,95,100,90


- 행, 열 바꾸기

In [228]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [303]:
df.T

Unnamed: 0,서준,우현,인아
수학,90,80,70
영어,98,89,95
음악,2,95,100
체육,2,90,90
