## 정렬처리

In [1]:
import pandas as pd

#### 시리즈의 값 정렬 

In [2]:
obj1 = pd.Series([40,10,20,30], index=['가','다','나','라'])

In [3]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [4]:
obj1.sort_values()

다    10
나    20
라    30
가    40
dtype: int64

In [5]:
obj1.sort_values(ascending=False)

가    40
라    30
나    20
다    10
dtype: int64

In [6]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [7]:
obj1.idxmin() #최소값의 위치확인

'다'

In [8]:
obj1.idxmax()

'가'

#### 시리즈의 인덱스 정렬 

In [9]:
obj2 = pd.Series([40,10,20,30], index=['c','a','b','d'])

In [10]:
obj2

c    40
a    10
b    20
d    30
dtype: int64

In [11]:
obj2.sort_index() #인덱스의 오름차순으로 정렬할때

a    10
b    20
c    40
d    30
dtype: int64

In [12]:
obj2.sort_index(ascending=False) #내림차순

d    30
c    40
b    20
a    10
dtype: int64

#### 데이터프레임의 값 정렬

In [13]:
import numpy as np

- 2차원 배열을 만들어보자
- 넘파이 모둘을 이용해 .arange함수로 8개의 값을 갖는 1차원 벡터를 만들자.
- 1차원을 다른 차원으로 바꾸는 .rshape메소드를 통해 2차원으로 변환

In [14]:
data = np.arange(8).reshape((2,4))

In [15]:
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [16]:
frame = pd.DataFrame(data, 
                     index=['three','one'], 
                     columns=['d','a','b','c'])

In [17]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


- 특정열을 기준으로 값의 순서를 바꾸려면 매개변수 BY에 열이름을 지정해 .sort_value메소드를 실행

In [18]:
frame.sort_values(by='a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [19]:
frame.sort_values(by='a', ascending=False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


### 데이터프레임의  인덱스 정렬

In [20]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])

In [21]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [22]:
frame3.sort_index(axis=0)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [23]:
frame3.sort_index(axis=1) #열을 기준으로 정렬

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


- 행과 열을 연달아 처리하는 메소드 체인
- sort_index()의 axis는 디폴드값이 0 바로 이어서 메소드에 1을지정

In [25]:
frame3.sort_index().sort_index(axis=1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


#### 데이터프레임의  순위 및 이동  처리

- 데이터 프레임의 구조를 정렬로 바꾸지 않고, 정렬에 대한 정보를 만들어서 열로 추가할 수 있음
- 특정 열의 데이터 값만을 원하는 위치로 이동해서도 처리 가능

- 1) 순위 및 이동처리 : rank(), shift()

In [26]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}

In [27]:
frame3 = pd.DataFrame(data1)

In [28]:
frame3

Unnamed: 0,과제건수,이름,점수,학번
0,1,길동,25,2012
1,5,옥주,94,2012
2,2,현웅,57,2013
3,3,주몽,62,2014
4,4,지원,70,2014


In [29]:
frame3['점수'].rank(ascending=False) #내림차순 순위값으로 채워짐

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [30]:
frame3['순위'] = frame3['점수'].rank(ascending=False) #위의 점수에 대한 순위를 마지막열에 추가

In [31]:
frame3

Unnamed: 0,과제건수,이름,점수,학번,순위
0,1,길동,25,2012,5.0
1,5,옥주,94,2012,1.0
2,2,현웅,57,2013,4.0
3,3,주몽,62,2014,3.0
4,4,지원,70,2014,2.0


In [32]:
frame3.sort_values(by="순위") #순위열을 가지고 값을 .sort_values메소드를 통해 정렬

Unnamed: 0,과제건수,이름,점수,학번,순위
1,5,옥주,94,2012,1.0
4,4,지원,70,2014,2.0
3,3,주몽,62,2014,3.0
2,2,현웅,57,2013,4.0
0,1,길동,25,2012,5.0


In [33]:
frame4 = frame3.sort_values(by="순위") #정렬하면 새로운 객체로 반환하므로 이를 다른 변수에 할당

In [34]:
frame4 #행의 인덱스 레이블을 변경하지 않고 기존 레이블대로 정렬처리 되었음. 

Unnamed: 0,과제건수,이름,점수,학번,순위
1,5,옥주,94,2012,1.0
4,4,지원,70,2014,2.0
3,3,주몽,62,2014,3.0
2,2,현웅,57,2013,4.0
0,1,길동,25,2012,5.0


In [35]:
frame4.index = [0,1,2,3,4] #인덱스의 정보를 새롭게 변경해야 실제 순위로 정렬된것과 레이블 정보가 맞게 처리됨

In [36]:
frame4

Unnamed: 0,과제건수,이름,점수,학번,순위
0,5,옥주,94,2012,1.0
1,4,지원,70,2014,2.0
2,3,주몽,62,2014,3.0
3,2,현웅,57,2013,4.0
4,1,길동,25,2012,5.0


In [37]:
data = {'가' : pd.Series([1.], index=['a']),
        '나' : pd.Series([1., 2.], index=['a', 'b']),
        '다' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}


In [38]:
df = pd.DataFrame(data)

In [39]:
df #각열에 없는 행의 레이블에 누락값이 들어갔음. 

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


In [40]:
#하나의 열을 인덱스 검색으로 지정하고, 시리즈를 할당하면 기존 데이터 프레임이 변경됨
df['나'] = pd.Series([3,4,5,6],index=list('abcd'),dtype='float')

In [41]:
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [42]:
df1 = df[["나", "다"]]


In [43]:
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [44]:
#특정 행의 레이블과 열의 레이블을 넣어 하나의 원소로 변경할때 .at레이블로 처리함
df1.at['a','나'] = 100

In [45]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [46]:
df1.at[['b','c'],['나']] = 99 #행과 열의 리이블을 리스트로 주면 매핑해서 각각의 원소를 갱신함. 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.loc[index, col] = value


In [47]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [48]:
pd.set_option('chained',None)

In [49]:
a = df1.나.shift(-1) #내부값을 이동시킬때. 밑에서 위로 이동시킬때에는 음수로 표시

In [50]:
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

In [51]:
df1['나'] = a

In [52]:
a = df1.나.shift(1) #양수로 처리하면 위에서 아래로 이동해서 처리

In [53]:
a

a     NaN
b    99.0
c    99.0
d     6.0
Name: 나, dtype: float64

In [54]:
df1['나'] = a

## 데이터 구조 변경

- 피봇으로 데이터 재구조화

In [55]:
import seaborn as sns

In [56]:
titanic = sns.load_dataset('titanic')

In [57]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [60]:
titanic.count() #count메소드로 각열의 데이터 건수 확인

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [61]:
titaic_s =  titanic.groupby('survived').mean() #survivied열을 이용해 그룹화하고 실제값은 그룹화된것의 평균으로 처리

In [62]:
titaic_s

Unnamed: 0_level_0,pclass,age,sibsp,parch,fare,adult_male,alone
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887,0.817851,0.681239
1,1.950292,28.34369,0.473684,0.464912,48.395408,0.25731,0.476608


In [63]:
titaic_s.pivot(index='pclass', columns='age', values='fare') #피봇을 이용해 새로운데이터프레임 생성. 행은 pclass이고 열은 age

age,28.343689655172415,30.62617924528302
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1.950292,48.395408,
2.531876,,22.117887


In [64]:
titanic_ = titanic.pivot_table(values='survived', #피봇테이블은 집계연산이 가능
                               index='sex', 
                               columns='class',
                               aggfunc='sum')

In [65]:
titanic_

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


In [66]:
titanic_first = titanic.query('pclass==1') #쿼리로 논리적인 결과가 맞는것만 표시
titanic_first.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
23,1,1,male,28.0,0,0,35.5,S,First,man,True,A,Southampton,yes,True


###  데이터를 합치기 

In [67]:
import numpy as np

In [68]:
columns = np.array(['봄','여름','가을','겨울'])

In [69]:
data = np.array([['A0','A1','A2','A3'],
                 ['B0','B1','B2','B3'],
                 ['C0','C1','C2','C3'],
                 ['D0','D1','D2','D3']])

In [70]:
df1 = pd.DataFrame(data,columns=columns)

In [71]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3


In [72]:
data1 = np.array([['A4','A5','A6','A7'],
                 ['B4','B5','B6','B7'],
                 ['C4','C5','C6','C7'],
                 ['D4','D5','D6','D7']])

In [73]:
df2 = pd.DataFrame(data1,columns=columns)

In [74]:
df_con = pd.concat([df1,df2]) #concat함수는 행 축을 기준으로 연결하므로 열의 이름이 같으면 단순하게 붙힐수 있음

In [75]:
df_con

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
0,A4,A5,A6,A7
1,B4,B5,B6,B7
2,C4,C5,C6,C7
3,D4,D5,D6,D7


In [76]:
index_r = list(range(0,8)) 
#행의 인덱스 레이블을 변경하기 위해 range함수로 인덱스를 만들어서 새롭게 만들어진 행의 인덱스를 대체

In [77]:
df_con.index = index_r

In [78]:
df_con

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
4,A4,A5,A6,A7
5,B4,B5,B6,B7
6,C4,C5,C6,C7
7,D4,D5,D6,D7


In [79]:
df_con1 = pd.concat([df1,df2],ignore_index=True)
#행의 레이블을 자동으로 변경하는 방법

In [80]:
df_con1

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
4,A4,A5,A6,A7
5,B4,B5,B6,B7
6,C4,C5,C6,C7
7,D4,D5,D6,D7


In [81]:
df_h = pd.concat([df1,df2],axis=1) #축을 변경해서 연결하고 싶을때 가로축

In [82]:
df_h

Unnamed: 0,봄,여름,가을,겨울,봄.1,여름.1,가을.1,겨울.1
0,A0,A1,A2,A3,A4,A5,A6,A7
1,B0,B1,B2,B3,B4,B5,B6,B7
2,C0,C1,C2,C3,C4,C5,C6,C7
3,D0,D1,D2,D3,D4,D5,D6,D7


In [83]:
columns_r = ['봄', '여름', '가을', '겨울', '봄_', '여름_', '가을_', '겨울_']

In [84]:
df_h.columns = columns_r

In [85]:
df_h

Unnamed: 0,봄,여름,가을,겨울,봄_,여름_,가을_,겨울_
0,A0,A1,A2,A3,A4,A5,A6,A7
1,B0,B1,B2,B3,B4,B5,B6,B7
2,C0,C1,C2,C3,C4,C5,C6,C7
3,D0,D1,D2,D3,D4,D5,D6,D7


In [86]:
df_g = pd.concat([df1,df2],axis=1,ignore_index=True) #기존 열의 레이블 무시

In [87]:
df_g

Unnamed: 0,0,1,2,3,4,5,6,7
0,A0,A1,A2,A3,A4,A5,A6,A7
1,B0,B1,B2,B3,B4,B5,B6,B7
2,C0,C1,C2,C3,C4,C5,C6,C7
3,D0,D1,D2,D3,D4,D5,D6,D7


###  데이터를 추가하기 

In [88]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3


In [89]:
df11 = df1.copy()

In [90]:
df11.loc[4] = ['A4','B4','C4','D4']

In [91]:
df11

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
4,A4,B4,C4,D4


- .append메소드안에 딕셔너리로 추가할 열의 레이블을 딕셔너리의 키로 넣고 데이터는 값으로 넣는방법

In [92]:
df11_a = df11.append({'봄':'A5','여름' :'B5','가을':'C5','겨울':'D5'}, 
                     ignore_index=True)

In [93]:
df11_a

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5


In [94]:
df11

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
4,A4,B4,C4,D4


In [95]:
df2

Unnamed: 0,봄,여름,가을,겨울
0,A4,A5,A6,A7
1,B4,B5,B6,B7
2,C4,C5,C6,C7
3,D4,D5,D6,D7


In [96]:
df11.append(df2)

Unnamed: 0,봄,여름,가을,겨울
0,A0,A1,A2,A3
1,B0,B1,B2,B3
2,C0,C1,C2,C3
3,D0,D1,D2,D3
4,A4,B4,C4,D4
0,A4,A5,A6,A7
1,B4,B5,B6,B7
2,C4,C5,C6,C7
3,D4,D5,D6,D7


### 필터링해서 열 할당 

In [97]:
movie = pd.read_csv('korea_movie_list.csv',encoding='cp949')

In [98]:
movie.head(2)

Unnamed: 0,movie_code,title,title_Eng,show_time,produce_year,open_date,produce_state,type,nation,genre,director,actor,show_type,watch_grade
0,20185801,할로우 차일드,The Hollow Child,88.0,2017,20180802,개봉예정,장편,캐나다,공포(호러)/판타지,제레미 루터,,,15세이상관람가
1,20187649,죽음의 리무진,Glass Coffin,75.0,2016,20180816,개봉예정,장편,스페인,스릴러/공포(호러),하리츠 쥬빌라가,파울라 본템피,,


- filter메소드로 새로운 데이터 프레임 2개 생성해서 붙히기

In [99]:
movie_ = pd.concat([movie.filter(like='prod'),
                    movie.filter(like='title')],
                   axis=1)

In [100]:
movie_.head()

Unnamed: 0,produce_year,produce_state,title,title_Eng
0,2017,개봉예정,할로우 차일드,The Hollow Child
1,2016,개봉예정,죽음의 리무진,Glass Coffin
2,2018,개봉예정,극장판 도라에몽: 진구의 보물섬,
3,2018,개봉예정,명탐정 코난 : 제로의 집행인,Detective Conan: Zero the Enforcer
4,2017,개봉예정,살아남은 아이,Last Child


In [101]:
movie_.assign(show_time= movie['show_time']).head() #새로운열 추가

Unnamed: 0,produce_year,produce_state,title,title_Eng,show_time
0,2017,개봉예정,할로우 차일드,The Hollow Child,88.0
1,2016,개봉예정,죽음의 리무진,Glass Coffin,75.0
2,2018,개봉예정,극장판 도라에몽: 진구의 보물섬,,107.0
3,2018,개봉예정,명탐정 코난 : 제로의 집행인,Detective Conan: Zero the Enforcer,110.0
4,2017,개봉예정,살아남은 아이,Last Child,123.0
