## DataFrame
> 판다스를 사용하는 목적 : 서로 다른 여러 가지 유형의 데이터를 **공통의 포맷**으로 정리하는 것으로, **시리즈**(1차원벡터)와 **데이터프레임**(2차원벡터, 행렬)이라는 구조화된 데이터 형식을 제공.
- 판다스의 1차적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것
- 2차원 구조(r, c)의 data frame은 데이터 분석 실무에서 자주 사용
- 2차원 배열구조는 엑셀이나 관계형 데이터베이스 등 다양한 분야에서 사용되므로 변환이 유용
- 여러 개의 시리즈들이 모여서 구성되고 데이터의 열은 시리즈 객체이다. 시리즈들이 모여 행렬(matrix)가 된다고 할 수 있다
- 행과 열은 다양하게 불림. (참고) `행 - row, 레코드(record), 관측값(observation)`, `열 - column, 공통의 속성을 갖는 일련의 데이터, 속성, 범주, 변수(variable)`

'''
 **데이터정리**를 위해 엑셀(.xlsx)과 같이, python의 판다스로 자료정리.
Python list, Dictionary로 된 것을 엑셀과 같이 표 형식으로 만드는 것이 **데이터프레임**으로 변환하는 것.
'''

**CRUD😎 DataFrame ver.**

### CREATE
**주의** : Series 변경 시 반드시 비교해서 암기
- Dict → DataFrame
- List → DataFrame

#### Dictionary → DataFrame
> Series : Key → index

> DataFrame : Key → column & Index → number

In [1]:
import pandas as pd
import numpy as np

In [2]:
'''
다음 딕셔너리를 데이터프레임으로 변경하자
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
'''
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [3]:
'''
위의 데이터프레임을 아래의 결과값이 나오도록 변경한다.

     c0  c1  c2  c3  c4
하나  1   4   7  10  13
둘    2   5   8  11  14
셋    3   6   9  12  15
'''
df.index = ['하나', '둘', '셋']
print(type(df), "\n")
print(df)

<class 'pandas.core.frame.DataFrame'> 

    c0  c1  c2  c3  c4
하나   1   4   7  10  13
둘    2   5   8  11  14
셋    3   6   9  12  15


#### List → DataFrame
> Series : Key → index (행)

> DataFrame : Key → column (열)

In [4]:
'''
pandas.DataFrame(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열)

아래의 결과 값이 나오도록 만들자
1.
    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고

2.
Index(['진현', '민지'], dtype='object')

3.
Index(['나이', '성별', '학교'], dtype='object')
'''
df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])
print(df)
print()

print(df.index)
print(df.columns) # vs values

    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고

Index(['진현', '민지'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


#### 열/행 추가
- 열 추가는 딕셔너리와 비슷
- 행 추가는 loc를 이용해서 추가. 이 때 값을 하나만 넣어도 전체가 채워짐.

In [5]:
'''
아래의 예를 참고하여 자유롭게 열 추가를 해보자
'''
exam_data = {'수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철'])
print(df, "\n")

df.loc['진현', :] = [11, 22, 333]
print(df, "\n")

df.loc[:, '화학'] = 0 # 하나만 넣어도 된다며? -> [0, 0, 0]
print(df)

     수학  영어  생물
진현  100  50  50
민지   40  70  90
성철   70  90  70 

    수학  영어   생물
진현  11  22  333
민지  40  70   90
성철  70  90   70 

    수학  영어   생물  화학
진현  11  22  333   0
민지  40  70   90   0
성철  70  90   70   0


In [6]:
'''
아래의 예를 참고하여 자유롭게 열/행 추가를 실습해 보자.
'''
### 열추가
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,생물,도덕
0,진현,100,50,50,88
1,민지,40,70,90,68
2,성철,70,90,70,58
3,지산,30,80,18,77


In [7]:
df['국어'] = 80
print(df)
print()

df['국사'] = [100, 98, 100, 97] 
df

   이름   수학  영어  생물  도덕  국어
0  진현  100  50  50  88  80
1  민지   40  70  90  68  80
2  성철   70  90  70  58  80
3  지산   30  80  18  77  80



Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사
0,진현,100,50,50,88,80,100
1,민지,40,70,90,68,80,98
2,성철,70,90,70,58,80,100
3,지산,30,80,18,77,80,97


In [8]:
df.loc[:,'AI'] = [10, 20, 30, 40]
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100,50,50,88,80,100,10
1,민지,40,70,90,68,80,98,20
2,성철,70,90,70,58,80,100,30
3,지산,30,80,18,77,80,97,40


In [9]:
df.loc[1, :] # df.loc['민지', :]  KeyError: '민지'

이름    민지
수학    40
영어    70
생물    90
도덕    68
국어    80
국사    98
AI    20
Name: 1, dtype: object

In [10]:
print(df.iloc[1:])
print(df.iloc[:1])
print(df.iloc[[2, 1]]) # 두개 뽑은거

   이름  수학  영어  생물  도덕  국어   국사  AI
1  민지  40  70  90  68  80   98  20
2  성철  70  90  70  58  80  100  30
3  지산  30  80  18  77  80   97  40
   이름   수학  영어  생물  도덕  국어   국사  AI
0  진현  100  50  50  88  80  100  10
   이름  수학  영어  생물  도덕  국어   국사  AI
2  성철  70  90  70  58  80  100  30
1  민지  40  70  90  68  80   98  20


In [11]:
### 행추가
df.loc[1] = ['하나', 1, 2, 3, 4, 5, 6, 7]
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100,50,50,88,80,100,10
1,하나,1,2,3,4,5,6,7
2,성철,70,90,70,58,80,100,30
3,지산,30,80,18,77,80,97,40


In [12]:
df.loc[4] = 100
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100,50,50,88,80,100,10
1,하나,1,2,3,4,5,6,7
2,성철,70,90,70,58,80,100,30
3,지산,30,80,18,77,80,97,40
4,100,100,100,100,100,100,100,100


In [13]:
df.loc[5, :] = 200
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100.0,50.0,50.0,88.0,80.0,100.0,10.0
1,하나,1.0,2.0,3.0,4.0,5.0,6.0,7.0
2,성철,70.0,90.0,70.0,58.0,80.0,100.0,30.0
3,지산,30.0,80.0,18.0,77.0,80.0,97.0,40.0
4,100,100.0,100.0,100.0,100.0,100.0,100.0,100.0
5,200,200.0,200.0,200.0,200.0,200.0,200.0,200.0


### READ

#### 행 선택 (loc, iloc)
- loc : *인덱스 이름*을 기준으로 행을 선택
- iloc : *정수형 위치 인덱스*를 기준으로 행을 선택
- 2개 이상의 행 인덱스를 추출하려면 리스트로 넣어서 뽑기
- **Slicing** → loc와 iloc의 차이 / python과의 차이

In [14]:
'''
exam_data = {'수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}

1. 위의 딕셔너리를 이용하여 아래의 결과값을 만드시오
     수학  영어  생물
진현  100  50  50
민지   40  70  90
성철   70  90  70

2. 만든 데이터프레임에서 아래의 시리즈를 뽑으시오 (loc, iloc 각각 사용)
수학    40
영어    70
생물    90
Name: 민지, dtype: int64
'''

exam_data = {'수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철'])
print(df)
print()

print(df.loc['민지'])
print(df.iloc[1])

     수학  영어  생물
진현  100  50  50
민지   40  70  90
성철   70  90  70

수학    40
영어    70
생물    90
Name: 민지, dtype: int64
수학    40
영어    70
생물    90
Name: 민지, dtype: int64


In [15]:
'''
아래의 print문을 하나씩 실행하보고
슬라이싱 시 loc와 iloc의 차이를 서술하시오
'''
print(df.loc[:'민지'])
print(df.loc['민지':])
print(df.loc[['진현', '성철']])
print()

print(df.iloc[1:])
print(df.iloc[:1])
print(df.iloc[[2, 1]])

     수학  영어  생물
진현  100  50  50
민지   40  70  90
    수학  영어  생물
민지  40  70  90
성철  70  90  70
     수학  영어  생물
진현  100  50  50
성철   70  90  70

    수학  영어  생물
민지  40  70  90
성철  70  90  70
     수학  영어  생물
진현  100  50  50
    수학  영어  생물
성철  70  90  70
민지  40  70  90


#### 열 선택
> 행과 비교
- df.수학
- df['수학']
- df[['수학']]

위의 3가지의 차이점을 이해!!<br>
df.수학과 df['수학']은 같은 결과값으로 **시리즈 객체**를 도출한다.<br>
df[['수학']]로 2중 대괄호를 사용하면 시리즈가 아닌 **데이터프레임**을 반환한다.

In [16]:
'''
아래의 데이터프레임을 활용하여 문제를 풀어보시오
1. df.loc['수학']  가 에러가 발생함을 확인하시오
2. df.loc[:, ['수학']]  의 실행값을 생각 후 확인 하시오
3. df.iloc[:, 0]  의 실행값을 생각 후 확인 하시오
4. df.수학  의 실행값을 생각 후 확인 하시오
5. df["수학"]  의 실행값을 생각 후 확인 하시오
6. df[["수학"]]  의 실행값을 생각 후 확인 하시오
7. for문과 print 문을 활용하여 아래의 결과값 4줄을 만드시오
100
40
70
30

8. df['수학', '영어'] 가 에러가 발생함을 확인하시오
9. df[['수학', '영어']]  의 실행값을 생각 후 확인 하시오
10. df.loc[:, ['수학', '영어']]  의 실행값을 생각 후 확인 하시오
'''

import pandas as pd
exam_data = {'수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철', '지산'])
df

Unnamed: 0,수학,영어,생물,도덕
진현,100,50,50,88
민지,40,70,90,68
성철,70,90,70,58
지산,30,80,18,77


In [17]:
df.loc['수학'] # keyerror : 없다고

KeyError: '수학'

In [18]:
df.수학

진현    100
민지     40
성철     70
지산     30
Name: 수학, dtype: int64

In [19]:
df.진현

AttributeError: 'DataFrame' object has no attribute '진현'

In [20]:
print(type(df["수학"]))
df["수학"] # sr 반환

<class 'pandas.core.series.Series'>


진현    100
민지     40
성철     70
지산     30
Name: 수학, dtype: int64

In [21]:
print(type(df[["수학"]]))
df[["수학"]] # df 반환

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,수학
진현,100
민지,40
성철,70
지산,30


In [22]:
df.loc[:, ['수학']] # df

Unnamed: 0,수학
진현,100
민지,40
성철,70
지산,30


In [23]:
df.iloc[:, 0] # sr

진현    100
민지     40
성철     70
지산     30
Name: 수학, dtype: int64

In [24]:
for i in range(len(df)):
    print(df.iloc[i,0])  # iterable : 반복 가능한
# for i in df.수학:
#     print(i) 

100
40
70
30


In [25]:
df['수학', '영어'] 

KeyError: ('수학', '영어')

In [26]:
df[['수학', '영어']]

Unnamed: 0,수학,영어
진현,100,50
민지,40,70
성철,70,90
지산,30,80


In [27]:
df.loc[:, ['수학', '영어']]

Unnamed: 0,수학,영어
진현,100,50
민지,40,70
성철,70,90
지산,30,80


### UPDATE
- 데이터프레임을 수정하는 방법
1. 행과 열이름을 변경하는 방법
2. 데이터프레임의 값들을 변경하는 방법

#### INDEX NAME, COLUMNS NAME 변경하기
**df.index**<BR>
**df.columns**

In [28]:
# col이 많기 때문에 rename(일부변경)보단 colums 전체 변경 / 가독성
# ***set_index -> 주로 데이터를 시간순으로 파악할 때 사용하는듯
# reset_index(), drop vs set_index
# index는 data(객체?)가 아님

# 다중공산성
# x를 가지고 y를 추측하기 때문에 상관성 높아야 한다
# x 끼리는 상관성이 낮아야 한다 -> 높을 경우 같은걸 두번 학습시킨 결과 -> 오버피팅

In [29]:
df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
진현,18,남,김천고
민지,19,여,울산고


In [30]:
df.rename(columns={'나이':'연령'})
df.rename(index={'진현':'학생'}, inplace=True)
df

Unnamed: 0,나이,성별,학교
학생,18,남,김천고
민지,19,여,울산고


In [31]:
'''
위의 데이터 프레임의 인덱스 값을 변경하여 아래의 결과값이 나오게 만들자.

     나이 성별   학교
학생1  18  남  김천고
학생2  19  여  울산고
'''

df.index = ["학생1", "학생2"]
df

Unnamed: 0,나이,성별,학교
학생1,18,남,김천고
학생2,19,여,울산고


In [32]:
'''
위의 데이터 프레임의 인덱스 값을 변경하여 아래의 결과값이 나오게 만들자.

     연령 남녀   소속
학생1  18  남  김천고
학생2  19  여  울산고
'''
df.columns = ["연령", "남녀", "소속"]
df

Unnamed: 0,연령,남녀,소속
학생1,18,남,김천고
학생2,19,여,울산고


In [33]:
'''
rename을 사용하여 아래의 데이터프레임이 아래의 결과 값이 나오게 만들자.

     연령 남녀   소속
학생1  18  남  김천고
학생2  19  여  울산고
'''

df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])
print(df)

df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
df

    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고


Unnamed: 0,연령,남녀,소속
진현,18,남,김천고
민지,19,여,울산고


- **inplace=True** 를 넣지 않으면, 원본 객체를 직접 수정하는 것이 아니라 새로운 데이터프레임 객체를 반환한다. 따라서 inplace=True를 잊지말고 넣어줘야 함.<br>
이 방법은 일부를 선택하여 변경할 수 있다는 장점이 있지만, 가독성이 좋지 않아 잘 쓰지는 않음. 

In [34]:
'''
**중요**
df.rename은 잘 쓰지 않는다.
df.columns로 주로 변경한다.
df.index는 사실 변경할 일이 없다. (ex_len(df.index))
'''
df.columns

Index(['연령', '남녀', '소속'], dtype='object')

#### 열을 인덱스로 지정하기
##### set_index()
> 딕셔너리로 들어온 열중에 그 열을 인덱스로 지정하고 싶을 때 → set_index() 메소드를 적용하여 새로운 인덱스로 지정할 수 있다. 그러면 지정된 인덱스에 덮어쓰기가 된다. 

In [35]:
'''
set_index()을 사용하여 아래의 데이터프레임이 아래의 결과 값이 나오게 만들자.

   영어 생물 도덕
수학             
100  50  50  88
40   70  90  68
70   90  70  58
30   80  18  77
'''
exam_data = {'수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철', '지산'])
df.set_index('수학', inplace=True) # == df.set_index(['수학'])
df

Unnamed: 0_level_0,영어,생물,도덕
수학,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,50,50,88
40,70,90,68
70,90,70,58
30,80,18,77


##### 데이터 프레임 수정하기
> 대부분 아래와 같은 방법으로 데이터를 가져와서 index를 설정하게 된다.

In [36]:
#data.loc[행, 열]
#data.iloc[행, 열]
'''
아래의 데이터프레임이 아래의 결과 값이 나오게 만들자.
1.
    수학 영어 생물 도덕
이름                 
진현  100  50  50  88
민지   40  70  90  68
성철   70  90  70  58
지산   30  80  18  77

2. iloc를 활용하여 아래의 값을 만들자
영어    70
생물    90
Name: 민지, dtype: int64

3. loc와 슬라이싱(:)를 활용하여 아래의 값을 만들자
영어    70
생물    90
도덕    68
Name: 민지, dtype: int64

4. loc를 활용하여 아래의 값을 만들자
영어    70
생물    90
Name: 민지, dtype: int64
'''


import pandas as pd
import numpy as np
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
'''
   이름 수학 영어 생물 도덕
0  진현  100  50  50  88
1  민지   40  70  90  68
2  성철   70  90  70  58
3  지산   30  80  18  77
'''

'\n   이름 수학 영어 생물 도덕\n0  진현  100  50  50  88\n1  민지   40  70  90  68\n2  성철   70  90  70  58\n3  지산   30  80  18  77\n'

- df.iloc**[1, 1]**과 df.iloc**[1][1]**은 같은결과값을 출력

In [37]:
'''
df.iloc[1, 1]
df.iloc[1][1]
iloc를 활용하여 데이터 값들을 자유롭게 뽑아보자.
'''
exam_data = {'수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철', '지산'])
df

Unnamed: 0,수학,영어,생물,도덕
진현,100,50,50,88
민지,40,70,90,68
성철,70,90,70,58
지산,30,80,18,77


In [38]:
print(df.iloc[1, 1])
print(df.iloc[1][1])

70
70


In [39]:
df.iloc[1, 1:3]

영어    70
생물    90
Name: 민지, dtype: int64

In [40]:
df.loc['민지', '영어':]

영어    70
생물    90
도덕    68
Name: 민지, dtype: int64

In [41]:
df.loc['민지', '영어':'생물']

영어    70
생물    90
Name: 민지, dtype: int64

In [42]:
df.loc['민지', ['영어','생물']]

영어    70
생물    90
Name: 민지, dtype: int64

In [43]:
df.iloc[-1, -2]

18

#### 전치( transpose() )
- 데이터프레임의 행과 열을 서로 맞바꾸는 방법
- 선형대수학의 전치행렬과 같은 개념
- transpose() 매소드를 활용하거나 df.T와 같은 클래스 속성을 활용할 수도 있다.
- 두 번 실행 → 최초의 원본 데이터프레임으로 돌아옴

In [44]:
'''
전치를 두번하면 본래의 값으로 돌아옴을 확인하자.
'''
exam_data = {'이름': ['진현', '민지', '성철'], 
             '수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}
df = pd.DataFrame(exam_data)
df = df.transpose()
df

Unnamed: 0,0,1,2
이름,진현,민지,성철
수학,100,40,70
영어,50,70,90
생물,50,90,70


In [45]:
df = df.T
df

Unnamed: 0,이름,수학,영어,생물
0,진현,100,50,50
1,민지,40,70,90
2,성철,70,90,70


#### 행인덱스 수정 ( reindex() )
- reindex() : 행인덱스 재배열
- fill_value 옵션 : NaN값이 있는 경우 지정값으로 변경
- reset_index() : 인덱스 초기화 ()<br>
'''
df.reset_index()                 : 처음상태로 복귀<br>
df.reset_index(drop=True)        : 인덱스 삭제 (미복귀)
'''

In [46]:
'''
아래의 데이터프레임을 활용하여 문제를 풀자
1. reindex를 활용하여 아래의 값을 만들자
     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN

2. fill_value옵션을 활용하여 아래의 값을 만들자
    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0

3. 아래의 값을 만들자
   c0  c1  c2  c3  c4
a   1   4   7  10  13
b   2   5   8  11  14
c   3   6   9  12  15
d   0   0   0   0   0
e   0   0   0   0   0

'''


# reindex()
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [47]:
data_index = ['r0', 'r1', 'r2', 'r3', 'r4']
df = df.reindex(data_index)
print(df)

     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


In [48]:
df = df.reindex(data_index, fill_value=0)
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [49]:
df.index = ['a', 'b', 'c', 'd', 'e']
df.sort_index()

Unnamed: 0,c0,c1,c2,c3,c4
a,1.0,4.0,7.0,10.0,13.0
b,2.0,5.0,8.0,11.0,14.0
c,3.0,6.0,9.0,12.0,15.0
d,,,,,
e,,,,,


### 정렬
> Series와 DataFrame의 정렬에 대해 알아보자. 기본적으로 정렬 할 기준이 색인인지, 객체인지에 따라 사용하는 메서드가 다르다.

#### 색인 정렬
- row나 col의 색인인 경우는 **sort_index** 메서드를 사용한다. 
- 디폴트 값은 오름차순. 내림차순으로 정리하려면 → **ascending=False**

In [50]:
'''
아래의 시리즈를 이용하자.
1. sort_index()를 활용하여 아래의 값을 만들자
a    3
b    1
c    2
d    0
dtype: int64

'''
# Series의 색인 정렬
data = pd.Series(range(4), index=['d', 'b', 'c', 'a'])
data

d    0
b    1
c    2
a    3
dtype: int64

In [51]:
data.sort_index()

a    3
b    1
c    2
d    0
dtype: int64

In [52]:
'''
1. sort_index()를 활용하여 아래의 값을 만들자.
       d  a  b  c
one    4  5  6  7
three  0  1  2  3


2. sort_index()를 활용하여 아래의 값을 만들자.
       a  b  c  d
three  1  2  3  0
one    5  6  7  4
'''

# DataFrame 정렬
# axis를 활용하여 기준 축을 설정할 수 있다.
frame = pd.DataFrame(np.arange(8).reshape(2, 4), 
                    index=['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [53]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [54]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


#### 데이터(객체 값) 정렬
> 객체의 값에 따라 정렬을 하려면 **sort_values** 메서드를 사용 → 이 때 정렬 시 Series 객체에서 비어있는 값은 기본적으로 마지막에 위치 함.

In [55]:
'''
아래의 시리즈를 활용한다
1. sort_values를 활용하여 아래의 값을 만들자
4   -1.0
3    3.0
0    4.0
1    9.0
2    NaN
5    NaN
dtype: float64
'''

# Series의 객체 값에 따른 정렬
# NaN은 가장 마지막에 위치한다
data = pd.Series([4, 9, np.nan, 3, -1, np.nan])
data.sort_values()

4   -1.0
3    3.0
0    4.0
1    9.0
2    NaN
5    NaN
dtype: float64

In [56]:
'''
아래의 데이터프레임을 사용한다.
1. b를 기준으로 아래의 값을 만들자
   b  a
2 -3  1
3  2  0
0  4  0
1  7  1

2. 아래와 같이 'a'를 정렬한 후에 'b'를 정렬한다.
   b  a
1  7  1
2 -3  1
0  4  0
3  2  0
'''

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 1, 0]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,1
3,2,0


In [57]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,1
3,2,0
0,4,0
1,7,1


In [58]:
frame.sort_values(by=['a', 'b'], ascending=False) #  ascending=False

Unnamed: 0,b,a
1,7,1
2,-3,1
0,4,0
3,2,0


### DELETE
##### drop() 
> 데이터프레임의 행 또는 열을 삭제하는 명령
- 행삭제 : axis=0(de)
- 열삭제 ; axis=1
- 다수의 행과 열 삭제 시 list로 넣어준다.
- 원본 객체 변경 시 inplace = True를 추가해 준다.

In [59]:
df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
진현,18,남,김천고
민지,19,여,울산고


In [60]:
df.drop('진현', inplace=True) # default : axis=0 # inplace
df

Unnamed: 0,나이,성별,학교
민지,19,여,울산고


In [61]:
df.drop(['나이', '학교'], axis=1, inplace=True)
# KeyError: "['나이' '학교'] not found in axis"
df

Unnamed: 0,성별
민지,여
