<a href="https://colab.research.google.com/github/whataLIN/DataAnalysis/blob/main/ch06_02_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84_%EC%A1%B0%EC%9E%91.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터프레임 고급 인덱싱

* 인덱싱(indexing) : 데이터프레임에서 특정한 데이터만 골라내는 것
 * 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱
* 그런데 Pandas는 Numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공
* `loc` : 라벨값 기반의 2차원 인덱싱
* `iloc` : 순서를 나타내는 정수 기반의 2차원 인덱싱

## `loc` 인덱서
```
df.loc[행 인덱싱 값]
df.loc[행 인덱싱 값, 인덱싱 값]
```
* 행 인덱싱 값 : 정수 또는 행 인덱스 데이터
* 열 인덱싱 값 : 라벨 문자열
---
* 인덱스 데이터
* 인덱스 데이터 슬라이스
* 인덱스 데이터 리스트
* 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
* 위의 값들을 반환하는 함수

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    np.arange(10,22).reshape(3,4),
    columns = list('ABCD'),   #나열된 문자열이 하나의 요소가 되는 리스트.
    index=list("abc")
)

df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱 값을 하나만 받는 경우
* 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택

In [None]:
df.loc['a']     #문자열 인덱스만 취급함
df.loc['b']
df.loc['c']

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [None]:
# 인덱스 데이터의 슬라이스도 가능
df.loc['a':'b']     #문자열 슬라이싱 - 끝점도 포함.
df.loc['b':]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 기본 인덱싱과 동일
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱스데이터의 리스트도 됨
df.loc[['c','a','b']]

Unnamed: 0,A,B,C,D
c,18,19,20,21
a,10,11,12,13
b,14,15,16,17


In [None]:
# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생
df.[['c','a','b']]      #column만 가능

SyntaxError: ignored

In [None]:
# 데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있음
df.A>15   #A시리즈가 15보다 큼?


a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df.loc[df.A>10]     #A를 필터링

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있음

def select_rows(df):
  return df.A>15

In [None]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능
df.loc["A"]     #행에 A가 없음


KeyError: ignored

In [None]:
df.loc[['A','B']]

KeyError: ignored

In [None]:
# 원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 됨
# 즉, 슬라이스의 마지막 값이 포함
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4),
                   columns=list("ABCD"))

In [None]:
df2.loc[1:2]     #끝점이 포함됨 - loc에서는 정수인덱싱에서도 끝점 포함됨.

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


|인덱싱 값|가능|결과|자료형|추가사항|
|:-|:-|:-|:-|:-|
|행 인덱스 값( 정수)|O|행|시리즈|
|행 인덱스 값 (정수) 슬라이스|O|행|데이터프레임|`loc`가 없는 경우와 같음|
|행 인덱스 값 (정수) 리스트|O|행|데이터프레임|
|불리언 시리즈|O|행|데이터프레임|시리즈의 인덱스가 데이터프레임의 행 인덱스와 같아야 함|
|불리언 시리즈를 반환하는 함수|O|행|데이터프레임
|열 라벨|X|||loc가 없는 경우에만 쓸 수 있음|
|열 라벨 리스트|X|||loc가 없는 경우에만 쓸 수 있음|

### 인덱싱 값을 행과 열 모두 받는 경우
* `df.loc[행 인덱스, 열 인덱스]`와 같은 형태로 사용

In [25]:
df.loc["a","A"]     #a행의 A열

10

In [27]:
# 인덱싱값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있음
# 배열 인덱싱이 가능 - 필터링도 가능함

df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int64

In [29]:
df.loc["a","A":"C"]   #a열의 모든 데이터를 가져오세여

A    10
B    11
C    12
Name: a, dtype: int64

In [30]:
df.loc[["b","a"],["C","A"]]

Unnamed: 0,C,A
b,16,14
a,12,10


In [31]:
# 행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있음
df.loc[df.A>10,["C","D"]]       #10보다 큰 것 중 C,D열

Unnamed: 0,C,D
b,16,17
c,20,21


## `iloc` 인덱서
* loc인덱서는 문자열인덱싱에 기반.
* `iloc` 인덱서는 `loc` 인덱서와 달리 라벨이 아니라 **순서를 나타내는 정수(integer) 인덱스만** 받음 (다른 사항은 `loc`와 동일)

In [32]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [33]:
df.iloc[0,1]    #numpy 행렬 의식과 똑같다

11

In [None]:
df.iloc[:2]   #끝점을 포함하지 않음.

C    12
D    13
Name: a, dtype: int64

In [35]:
df.iloc[0,-2:]

C    12
D    13
Name: a, dtype: int64

In [39]:
print(df.iloc[2,1:3]) #한개 행 조회 - 시리즈
print(df.iloc[[2],1:3]) #데이터프레임으로 나옴
print(df.iloc[2:,1:3]) #데이터프레임으로 나옴

# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택


B    19
C    20
Name: c, dtype: int64
    B   C
c  19  20
    B   C
c  19  20


In [40]:
#가장 많이 쓰이는 거 :

df.iloc[0]
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [42]:
df*2

Unnamed: 0,A,B,C,D
a,20,22,24,26
b,28,30,32,34
c,36,38,40,42


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


## 🦆 연습문제 4
1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
1. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

In [None]:
# import random

# df1 = pd.DataFrame(
#     "A" : np.random.randint(5,),
#     columns = list('ABCDE'),   #나열된 문자열이 하나의 요소가 되는 리스트.
#     index=list("abcde")
# )

# df

In [59]:
import random

df = pd.DataFrame(
    data=np.random.choice(np.arange(0,4),25).reshape(5,5),
    columns = list('ABCDE'),   #나열된 문자열이 하나의 요소가 되는 리스트.
    index=list("abcde")
)

df

Unnamed: 0,A,B,C,D,E
a,0,3,3,3,0
b,3,2,0,1,0
c,1,2,3,2,0
d,0,2,2,2,1
e,1,1,2,1,0


In [None]:
print(df['A'])      #시리즈형태
print(df[['A','C']])    #두개의 열 선택하기
print(df[['A']])    #데이터프레임형태
print(df[:1])    #0번째 행 선택
print(df[1:2])    #1번째 행 선택
print(df[1:3])
print(df['a':'b'])    #문자열 슬라이싱 -= 끝점포함
print(df.A['a'])
print(df['A']['a'])
print(df.A.a)

In [73]:
##loc로 불러오기

print(df.loc['a'])
print(df.loc['b':'c'])
print(df.loc[['d','e']])
print(df.loc[df.A<=2])
print(df.loc[(lambda x: x.E >=3)(df)])
print(df.loc[:,'A'])
print(df.loc['a','A'])
print(df.loc[df.A>2, ["C","D"]]) #열은 조건부 인덱싱 X
print(df.loc['b','a'])


A    0
B    3
C    3
D    3
E    0
Name: a, dtype: int64
   A  B  C  D  E
b  3  2  0  1  0
c  1  2  3  2  0
   A  B  C  D  E
d  0  2  2  2  1
e  1  1  2  1  0
   A  B  C  D  E
a  0  3  3  3  0
c  1  2  3  2  0
d  0  2  2  2  1
e  1  1  2  1  0
Empty DataFrame
Columns: [A, B, C, D, E]
Index: []


In [74]:
## iloc

print(df.iloc[0,1])
print(df.iloc[:2,2])
print(df.iloc[0,-2:])
print(df.iloc[2:3,1:3])
print(df.iloc[-1])
print(df.iloc[0:5:2,0:3:2]) #증가폭도됨

3
a    3
b    0
Name: C, dtype: int64
D    3
E    0
Name: a, dtype: int64
   B  C
c  2  3
A    1
B    1
C    2
D    1
E    0
Name: e, dtype: int64
   A  C
a  0  3
c  1  3
e  1  2


# 데이터프레임에서의 데이터 조작(처리)

* Pandas는 Numpy 2차원 배열에서 가능한 대부분의 데이터 처리
* (+) Pandas만의 데이터 처리 및 변환 관련 함수/기능들을 제공

## 데이터 갯수 세기

### 시리즈의 갯수 세기

In [75]:
s=pd.Series(range(10))
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [76]:
s2=pd.Series(range(10))
s2.count()      #갯수세기

10

In [77]:
#결측치

s[3]=np.nan   #결측치 삽입
s     #float타입


0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [78]:
s.count()   #null, nan 빼고 비교.  셀 수 있는것만
len(s)      #null포함.

s.count(), len(s)

(9, 10)

In [79]:
len(s[s.notnull()])   #==s.count() 같은효과!

9

### 데이터 프레임의 갯수 세기

In [84]:
np.random.seed(13)

df=pd.DataFrame(
    np.random.randint(5, size=(4,4)),
    dtype=float  #0부터 4까지.
)

df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,4.0
3,2.0,2.0,1.0,3.0


In [85]:
df[3][2]

4.0

In [86]:
df.loc[2,3]

4.0

In [87]:
df.iloc[2,3]

4.0

In [90]:
df.iloc[2,3]=np.nan
print(df,"\n")
print(df.count, len(df))    #count - 열마다의 갯수. len - 열의 개수

     0    1    2    3
0  2.0  0.0  2.0  0.0
1  2.0  4.0  1.0  4.0
2  2.0  3.0  2.0  NaN
3  2.0  2.0  1.0  3.0 

<bound method DataFrame.count of      0    1    2    3
0  2.0  0.0  2.0  0.0
1  2.0  4.0  1.0  4.0
2  2.0  3.0  2.0  NaN
3  2.0  2.0  1.0  3.0> 4


In [92]:
df.columns=["A","B","C","D"]
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [93]:
df.count()      #열 이름대로 갯수 셈

A    4
B    4
C    4
D    3
dtype: int64

In [96]:
#축 방향을 가지고 싶음 - 행 방향으로 세고싶음

df.count(axis=0)      #행 차원을 축소해, 열 단위로 만듬

A    4
B    4
C    4
D    3
dtype: int64

In [97]:
df.count(axis=1)    #열 차원을 축소.


0    4
1    4
2    3
3    4
dtype: int64

In [99]:
import seaborn as sns # 데이터 시각화 관련 패키지 -> 분석할만한 데이터셋을 내장

titanic = sns.load_dataset('titanic')   #pd.read_csv 혹은 url

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [102]:
titanic.head()    #상위 5개 불러오기

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [104]:
titanic.head(10)  #상단10개

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [103]:
titanic.tail()    #하위 5개

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [105]:
titanic.tail(20)  #하단20개

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
872,0,1,male,33.0,0,0,5.0,S,First,man,True,B,Southampton,no,True
873,0,3,male,47.0,0,0,9.0,S,Third,man,True,,Southampton,no,True
874,1,2,female,28.0,1,0,24.0,C,Second,woman,False,,Cherbourg,yes,False
875,1,3,female,15.0,0,0,7.225,C,Third,child,False,,Cherbourg,yes,True
876,0,3,male,20.0,0,0,9.8458,S,Third,man,True,,Southampton,no,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0,S,Second,woman,False,,Southampton,yes,False


In [106]:
titanic.info()  #데이터프레임의 정보

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [108]:
titanic.describe()    #기술통계값 표현 - 계산 가능한 숫자들을 기준으로.

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [114]:
titanic.describe(include='O')     #오브젝트 형태의 값들을 불러오기
titanic.describe(include='category')     #카테고리 형태의 값들을 불러오기
titanic.describe(include='all')     #모든 형태의 값들을 불러오기


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


## 🐱 연습 문제 1
* 타이타닉 승객 데이터의 데이터 개수를 각 열마다 구해보시오

In [118]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [121]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


## 범주(카테고리) 값 세기
* 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `value_counts` 메소드로 각각의 값이 나온 횟수를 셀 수 있음

In [122]:
np.random.seed(13)

s2=pd.Series(np.random.randint(6,size=100))

In [130]:
s2.value_counts() 
#중복되지 않은 유니크한 값들만 추려내 값들의 갯수를 카운팅 - 행의 중복 여부 감지


3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [126]:
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [131]:
df.value_counts()    #행이 완전히 다른 애들을 별도로 카운트

A    B    C    D  
2.0  0.0  2.0  0.0    1
     2.0  1.0  3.0    1
     4.0  1.0  4.0    1
dtype: int64

In [132]:
df['A'].value_counts()      #열 - 시리즈 - 중복되는 값들을 추려 카운팅

2.0    4
Name: A, dtype: int64

In [133]:
# 고윳값 배열 # set.
s2.unique() # 고윳값 배열을 리턴

array([2, 0, 4, 1, 3, 5])

In [134]:
set([1,2,3,4,1,2,3,4])
#중복을 모두 없애줌!

{1, 2, 3, 4}

In [138]:
# 고윳값의 개수

len(s2.unique())
df.nuique()     #고유값의 갯수를 반환  

AttributeError: ignored

## 정렬 (sort)
* 데이터를 정렬하려면 `sort_index` 또는 `sort_values`
* `sort_index` : 인덱스 값을 기준으로. (정수냐 라벨-문자열)
* `sort_values` : 데이터 값 기준으로 정렬.
> 오름차순 -> 행이 늘어나는 방향 -> 데이터 나열되는 방향으로 -> 데이터가 커지는 방향을 일치시켜주겠다 (ascending)<br>
> 내림차순 -> 데이터가 나열되는 방향 -> 데이터가 커지는 방향을 반대로 하겠다

In [139]:
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [140]:
s2.value_counts()   #값 기준 내림차순으로 정렬

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [146]:
s2.value_counts().sort_index()    #오름차순으로 정렬. ascending=True


0    13
1    15
2    20
3    21
4    13
5    18
dtype: int64

In [147]:
s2.value_counts().sort_index(ascending=False)     #내림차순으로 정렬

5    18
4    13
3    21
2    20
1    15
0    13
dtype: int64

In [155]:
s.sort_values()      #nan은 가장 밑으로 내려간다. - 무한취급
s.sort_values(na_position='last')     #기본값
s.sort_values(na_position='first')     #맨처음으로 설정.

3    NaN
0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [157]:
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [162]:
# 데이터 프레임의 경우에는 sort_values 하고 싶으면 기준이 되는 열의 라벨(이름)을 by로 지정해야한다
# df.sort_value() - 오류남
df.sort_values(by='D')    #열의 이름을 직접 설정하면 됨

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,


In [164]:
df.iloc[2,1]=2

df.sort_values(by=['B','A','C'])    #정렬하고자 하는 리스트로 넣으면 해당 순서대로 정렬.

#만약 첫 순번 열의 값이 같다면 두번째 순번으로 정렬

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
2,2.0,2.0,2.0,
1,2.0,4.0,1.0,4.0


## 행/열 합계
* numpy? np.sum...?

In [170]:
import numpy as np
import random

np.random.seed(2023)

df2=pd.DataFrame(np.random.randint(10, size=(4,8)))    


Unnamed: 0,0,1,2,3,4,5,6,7
0,7,9,6,7,1,3,4,4
1,6,5,0,6,1,5,7,5
2,8,2,3,1,0,7,1,0
3,0,1,8,1,2,1,0,1


In [None]:
# 행 방향 합계 (열 방향 axis=0 / 행 방향 axis=1)
df2.sum()
df2.sum(axis=0)
df2.sum(axis=1)

0    22
1    39
2    29
3    29
dtype: int64

In [172]:
df2.loc['ColSum',:]=df2.sum()   #열방향 합계
df2

df2.loc['sum',:]

Unnamed: 0,0,1,2,3,4,5,6,7
0,7.0,9.0,6.0,7.0,1.0,3.0,4.0,4.0
1,6.0,5.0,0.0,6.0,1.0,5.0,7.0,5.0
2,8.0,2.0,3.0,1.0,0.0,7.0,1.0,0.0
3,0.0,1.0,8.0,1.0,2.0,1.0,0.0,1.0
ColSum,42.0,34.0,34.0,30.0,8.0,32.0,24.0,20.0


Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,6.0,1.0,2.0,3.0,3.0,0.0,6.0,1.0,22.0
1,4.0,5.0,9.0,2.0,6.0,0.0,5.0,8.0,39.0
2,2.0,9.0,3.0,4.0,3.0,1.0,7.0,0.0,29.0
3,2.0,6.0,2.0,0.0,4.0,6.0,9.0,0.0,29.0
ColSum,14.0,21.0,16.0,9.0,16.0,7.0,27.0,9.0,119.0


In [174]:
# sum : 합계 / mean : 평균
df2.mean()    #기본값은 axis=0
df2.mean(axis=1)    #열을 축소, 행방향 평균이 나옴


0          5.125
1          4.375
2          2.750
3          1.750
ColSum    28.000
dtype: float64

## 🐱 연습문제 2
1. 타이타닉호 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [175]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [179]:
# 타이타닉호 승객의 평균 나이를 구하라.
# 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
# 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

titanic.age.mean

  ageavr=titanic.sum(axis=0)


23.79929292929293

In [198]:
titanic[titanic.sex=='female'].age.mean()

27.915708812260537

In [207]:
df_filter=titanic[(titanic.pclass.eq(1)) & (titanic.sex=='female')]    #1과 같은값
df_filter

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


In [208]:
df_filter.pclass.unique(), df_filter.sex.unique()

(array([1]), array(['female'], dtype=object))

In [210]:
df_filter.age.mean()

34.61176470588235

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889     True
890    False
Name: pclass, Length: 891, dtype: bool

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Length: 891, dtype: bool

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


(array([1]), array(['female'], dtype=object))

34.61176470588235

## `apply` 변환

* sum, mean 이미 정의된 함수/메소드. 어떠한 작업을 해줄지 이미 정해져있음
* 행이나 열 단위로 복잡한 데이터 처리 -> `apply` 메소드 사용
* 인수로 행 또는 열을 받는 함수 (axis)를 `apply` 메소드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킴


In [211]:
df3=pd.DataFrame({
    'A':[1,3,4,3,4],
    'B':[2,3,1,2,3],
    'C':[1,5,2,4,4],
    
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [214]:
# 각 열의 최댓값과 최솟값의 차이를 구하는 연산
# 열을 행방향 축소

df3.max() - df3.min()

A    4
B    3
C    5
dtype: int64

In [215]:
df3.columns #axis=0. 행차원축소 - 열 기준 값
#col 기준으로 나머지 행들은 축소.

Index(['A', 'B', 'C'], dtype='object')

In [216]:
df3.index   #axis=1. 열차원축소 - 행 기준 값
# index(행방향인덱스) 기준으로 나머지 열이 축소

RangeIndex(start=0, stop=5, step=1)

In [219]:
#람다함수. - 인수를 리턴형태로. 익명함수
lambda x:(x)

df3.apply(lambda x : x.max()-x.min(), axis=0)

A    3
B    2
C    4
dtype: int64

In [221]:
#axis의 방향에 따라 x의 의미가 바뀜.
# axis=0 => x는 각각의 열.

#특정한 열만 ㄴ하기 ㄷ위해서는
df3.apply(lambda x : x.max()-x.min())['A']

3

In [222]:
# 행 방향으로 apply
df3.apply(lambda x : x.max()-x.min(), axis=1)

#여기서 x는 행을 기준으로 한 모든 열들.

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [225]:
titanic.sex.apply(lambda x : x[0].upper())
titanic.sex.apply(lambda x:'M' if x == 'male' else 'F')

0      M
1      F
2      F
3      F
4      M
      ..
886    M
887    F
888    F
889    M
890    M
Name: sex, Length: 891, dtype: object

In [226]:
titanic   #apply는 원본에 영향을 미치지 않는다.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [228]:
# [행 기준으로 apply]

titanic.apply(lambda x:x)     #x는 행 하나하나.

#행들은 각각 열들을 속성으로 가지고 있음.
#열들을 키로 가지고 있는 딕셔너리이다.

titanic.apply (lambda x: f"{x.sex} + '/' + {x.embark_town}", axis=1)

0        male + '/' + Southampton
1        female + '/' + Cherbourg
2      female + '/' + Southampton
3      female + '/' + Southampton
4        male + '/' + Southampton
                  ...            
886      male + '/' + Southampton
887    female + '/' + Southampton
888    female + '/' + Southampton
889        male + '/' + Cherbourg
890       male + '/' + Queenstown
Length: 891, dtype: object

In [230]:
def some_fun(x):
  return len(x)**2

In [231]:
titanic.apply(some_fun, axis=0)

survived       793881
pclass         793881
sex            793881
age            793881
sibsp          793881
parch          793881
fare           793881
embarked       793881
class          793881
who            793881
adult_male     793881
deck           793881
embark_town    793881
alive          793881
alone          793881
dtype: int64

survived       793881
pclass         793881
sex            793881
age            793881
sibsp          793881
parch          793881
fare           793881
embarked       793881
class          793881
who            793881
adult_male     793881
deck           793881
embark_town    793881
alive          793881
alone          793881
dtype: int64

survived       891
pclass         891
sex            891
age            891
sibsp          891
parch          891
fare           891
embarked       891
class          891
who            891
adult_male     891
deck           891
embark_town    891
alive          891
alone          891
dtype: int64

In [None]:
# apply로 계산한 값을 특정 키(열이름)에 추가


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male adult


## 🐱 연습문제 3
> 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.
1. 20살이 넘으면 성별을 그대로 사용한다.
1. 20살 미만이면 성별에 관계없이 “child”라고 한다.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,male adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female adult
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,female adult
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,female adult
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,male adult


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,male adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,female child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,female child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,male adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,male adult,male


male      364
child     341
female    186
Name: category1, dtype: int64

## `fillna`
* NaN 값을 채워주는 메소드

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [None]:
# fill -> 채운다 / na? - nan


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## `astype` 메소드
* 지정한 시리즈, 데이터프레임의 자료형을 변경

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 1 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       5 non-null      float64
 2   C       5 non-null      float64
dtypes: float64(3)
memory usage: 160.0 bytes


In [None]:
# astype(바꾸고 싶은 타입)
df4.A.astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


1    1.0
2    0.0
3    2.0
4    2.0
5    0.0
Name: A, dtype: float64

1    1
2    0
3    2
4    2
5    0
Name: A, dtype: int64

## 실수 값을 범주형 값으로 변환
* 연령 (숫자) -> 0~99 -> 어린이, 청소년, 청년, 중년, 노년...
* 소득 (숫자) -> 빈민, 서민, 중산, 부유, 초부유층...
> 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때 `cut` `qcut`

In [233]:
np.random.seed=313
ages=np.random.randint(120,size=12)
ages

array([ 53,  38, 116,  70,  15, 111,  88,  72,  47, 100,  65,  71])

In [236]:
# cut : 우리가 직접 범위를 지정해서 해당하는 카테고리를 부여
#1세부터 : 미성년자 / 2=세부터 : cjdsus / 30세~ "중년" / 50세~ 중년 / 70세~노년

bins=[1,20,30,50,70,100]

#5개의 구간

labels=["미성년자","청년","중년","장년","노년"]
cats=pd.cut(ages,bins,labels=labels)    #bin을 기준으로 
cats

['장년', '중년', NaN, '장년', '미성년자', ..., '노년', '중년', '노년', '장년', '노년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [238]:

bins2=[-1, 1,20,30,50,70,100, 200]

#5개의 구간

labels2=["아기", "미성년자","청년","중년","장년","노년","초고령"]
cats2=pd.cut(ages,bins2,labels=labels2)    #bin을 기준으로 
cats2

['장년', '중년', '초고령', '장년', '미성년자', ..., '노년', '중년', '노년', '장년', '노년']
Length: 12
Categories (7, object): ['아기' < '미성년자' < '청년' < '중년' < '장년' < '노년' < '초고령']

In [245]:
df_age=pd.DataFrame({'age':ages})
df_age

df_age['age_cat']=cats

df_age

Unnamed: 0,age,age_cat
0,53,장년
1,38,중년
2,116,
3,70,장년
4,15,미성년자
5,111,
6,88,노년
7,72,노년
8,47,중년
9,100,노년


In [242]:
cats.dtype

CategoricalDtype(categories=['미성년자', '청년', '중년', '장년', '노년'], ordered=True)

In [247]:
df_age['age_cat'].astype('object').fillna('미분류')
df_age

Unnamed: 0,age,age_cat
0,53,장년
1,38,중년
2,116,
3,70,장년
4,15,미성년자
5,111,
6,88,노년
7,72,노년
8,47,중년
9,100,노년


CategoricalDtype(categories=['미성년자', '청년', '중년', '장년', '노년'], ordered=True)

Unnamed: 0,age,age_cat
0,0,미분류
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


Unnamed: 0,age,age_cat
0,0,아기
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [248]:
# qcut : 특정한 범위를 쪼개서 처리. 누락되는 값 없이 처리함!
#데이터가 균질하지 않다면 정확한 결과가 나오지 않을 수 있음.

qcats= pd.qcut(ages,4,labels=['유년','청년','장년','노년'])
qcats

['청년', '유년', '노년', '청년', '유년', ..., '장년', '유년', '노년', '청년', '장년']
Length: 12
Categories (4, object): ['유년' < '청년' < '장년' < '노년']

In [249]:
df_age['age_cat2']=qcats
df_age

Unnamed: 0,age,age_cat,age_cat2
0,53,장년,청년
1,38,중년,유년
2,116,,노년
3,70,장년,청년
4,15,미성년자,유년
5,111,,노년
6,88,노년,장년
7,72,노년,장년
8,47,중년,유년
9,100,노년,노년


## 데이터프레임 인덱스 조작
* `set_index` : 특정한 열을 새로운 행 인덱스로 지정 (기존 행의 인덱스를 제거)
* `reset_index` : 기존의 행 인덱스를 제거하고, 해당 인덱스를 새로운 열로 추가

In [250]:
"ABCDE"

'ABCDE'

In [251]:
list("ABCDE")

['A', 'B', 'C', 'D', 'E']

In [252]:
for c in "ABCDE":
  print(c)

A
B
C
D
E


In [254]:
arr=np.vstack([
    list("ABCDE"),
    np.round(np.random.rand(3,5),2)
])
arr

array([['A', 'B', 'C', 'D', 'E'],
       ['0.21', '0.41', '0.62', '0.8', '0.1'],
       ['0.82', '0.03', '0.02', '0.57', '0.59'],
       ['0.91', '0.25', '0.07', '0.3', '0.27']], dtype='<U32')

In [255]:
arr.T

array([['A', '0.21', '0.82', '0.91'],
       ['B', '0.41', '0.03', '0.25'],
       ['C', '0.62', '0.02', '0.07'],
       ['D', '0.8', '0.57', '0.3'],
       ['E', '0.1', '0.59', '0.27']], dtype='<U32')

In [256]:
df1=pd.DataFrame(arr.T,columns=['C1','C2',"C3","C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.21,0.82,0.91
1,B,0.41,0.03,0.25
2,C,0.62,0.02,0.07
3,D,0.8,0.57,0.3
4,E,0.1,0.59,0.27


In [257]:
df1.info()      #전부 object형태임

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   C1      5 non-null      object
 1   C2      5 non-null      object
 2   C3      5 non-null      object
 3   C4      5 non-null      object
dtypes: object(4)
memory usage: 288.0+ bytes


In [258]:
df2=df1.set_index("C1")

In [259]:
df2   #c1에 있던 열이 인덱스로 감 -> 해당 열을 삭제하고 그 열을 인덱스로 사용하겠다

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.21,0.82,0.91
B,0.41,0.03,0.25
C,0.62,0.02,0.07
D,0.8,0.57,0.3
E,0.1,0.59,0.27


In [261]:
df2.set_index("C2")
#원본에 영향을 받지 않음 - inplace=False

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.21,0.82,0.91
0.41,0.03,0.25
0.62,0.02,0.07
0.8,0.57,0.3
0.1,0.59,0.27


In [262]:
df2.reset_index()     #원래대로 돌려둠 - 예전자리는 정수인덱스로 채워짐

Unnamed: 0,C1,C2,C3,C4
0,A,0.21,0.82,0.91
1,B,0.41,0.03,0.25
2,C,0.62,0.02,0.07
3,D,0.8,0.57,0.3
4,E,0.1,0.59,0.27


In [263]:
df2.reset_index(drop=True) #기존인덱스를 삭제만 할 때

Unnamed: 0,C2,C3,C4
0,0.21,0.82,0.91
1,0.41,0.03,0.25
2,0.62,0.02,0.07
3,0.8,0.57,0.3
4,0.1,0.59,0.27


## 데이터프레임에서의 삭제 `drop`

In [264]:
# del 로 키값을 지정해서 지울 수 있다
# -> 일반적으로 쓰이는 방식은 아니다
# df.drop 메소드

df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [265]:
df_copy=df3.copy()
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [266]:
# df_copy.drop(라벨, axis=축)
# df_copy의 0 행을 삭제한다
# df_copy.drop(행 이름)

df_copy.drop(0)

Unnamed: 0,A,B,C
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [267]:
# df_copy.drop(열 이름, axis=1)
df_copy.drop('A', axis=1)   #행중에 없음 - 삭제불가. 열연산으로 해야됨

Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4


In [268]:
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [269]:
# inplace : 원본에 영향을 미치는 함수로 만들어주겠다 (True)
df_copy2=df_copy.drop('A',axis=1)
df_copy2    #삭제 내용이 반영된 새로운 사본을 변수에 할당


Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4


In [None]:
df_copy.drop('B',axis=1,inplace=True)


In [272]:
df_copy

Unnamed: 0,A,C
0,1,1
1,3,5
2,4,2
3,3,4
4,4,4
