<a href="https://colab.research.google.com/github/CHOISEONGGU/DataAnalysis_ChoiSG/blob/main/CHOISEONGGU/%EA%B3%B5%EB%B6%80%EC%9E%90%EB%A3%8C/ch06_02_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84_%EC%A1%B0%EC%9E%91_ChoiSG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터프레임 고급 인덱싱

* 인덱싱(indexing) : 데이터프레임에서 특정한 데이터만 골라내는 것
 * 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱
* 그런데 Pandas는 Numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공
* `loc` : 라벨값 기반의 2차원 인덱싱
* `iloc` : 순서를 나타내는 정수 기반의 2차원 인덱싱

## `loc` 인덱서
```
df.loc[행 인덱싱 값]
df.loc[행 인덱싱 값, 인덱싱 값]
```
* 행 인덱싱 값 : 정수 또는 행 인덱스 데이터
* 열 인덱싱 값 : 라벨 문자열
---
* 인덱스 데이터
* 인덱스 데이터 슬라이스
* 인덱스 데이터 리스트
* 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
* 위의 값들을 반환하는 함수

In [1]:
import pandas as pd
import numpy as np

In [5]:
df = pd.DataFrame(
    np.arange(10,22).reshape(3, 4),
    columns = list("ABCD"),
    index = list('abc')
)
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱 값을 하나만 받는 경우
* 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택

In [6]:
# df.loc['a']   # loc는 문자열 인덱스만 인식
df.loc['b']   # loc는 문자열 인덱스만 인식

A    14
B    15
C    16
D    17
Name: b, dtype: int64

In [8]:
# 인덱스 데이터의 슬라이스도 가능
# df.loc['a':'b']   # 문자열 슬라이싱 -> 끝점도 포함
# df.loc['b':'c']   # 문자열 슬라이싱 -> 끝점도 포함
df.loc['b':]   # 문자열 슬라이싱 -> 끝점도 포함

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [10]:
# 기본 인덱싱과 동일
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [12]:
# 인덱스데이터의 리스트도 됨


In [None]:
# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생


"None of [Index(['b', 'c'], dtype='object')] are in the [columns]"
<class 'KeyError'>


In [14]:
# 데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있음
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [16]:
df.loc[df.A > 10]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [17]:
# 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있음
def select_rows(df):
    return df.A > 15

In [18]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [19]:
df[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [20]:
# loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능
df.loc['A']   # A라는 키가 행에 없음

KeyError: ignored

In [21]:
df.loc[['A', 'B']]

KeyError: ignored

In [22]:
# 원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 됨
# 즉, 슬라이스의 마지막 값이 포함
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=list("ABCD"))
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [23]:
df2.loc[1:2]   # 끝점 포함 / 숫자로 넣어도 loc는 끝점이 포함된다(정수 인덱스를 써도)

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


|인덱싱 값|가능|결과|자료형|추가사항|
|:-|:-|:-|:-|:-|
|행 인덱스 값( 정수)|O|행|시리즈|
|행 인덱스 값 (정수) 슬라이스|O|행|데이터프레임|`loc`가 없는 경우와 같음|
|행 인덱스 값 (정수) 리스트|O|행|데이터프레임|
|불리언 시리즈|O|행|데이터프레임|시리즈의 인덱스가 데이터프레임의 행 인덱스와 같아야 함|
|불리언 시리즈를 반환하는 함수|O|행|데이터프레임
|열 라벨|X|||loc가 없는 경우에만 쓸 수 있음|
|열 라벨 리스트|X|||loc가 없는 경우에만 쓸 수 있음|

### 인덱싱 값을 행과 열 모두 받는 경우
* `df.loc[행 인덱스, 열 인덱스]`와 같은 형태로 사용

In [26]:
df.loc['a','A']

10

In [28]:
# 인덱싱값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있음
df.loc['b':,'A']

b    14
c    18
Name: A, dtype: int64

In [29]:
df.loc['a',:]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [30]:
df.loc[['b','a'], ['C','A']]

Unnamed: 0,C,A
b,16,14
a,12,10


In [31]:
# 행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있음
df.loc[df.A > 10, ['C', 'D']]

Unnamed: 0,C,D
b,16,17
c,20,21


## `iloc` 인덱서
* `iloc` 인덱서는 `loc` 인덱서와 달리 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받음 (다른 사항은 `loc`와 동일)

In [32]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [33]:
df.iloc[0, 1]   # numpy 행렬에서의 indexing 과 같다.

11

In [34]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [35]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [37]:
print(df.iloc([2:,1:3))   # 시리즈 나옴
print(df.iloc[[2]:,1:3])   # dataframe 으로 나옴
print(df.iloc[2:,1:3])   # dataframe 으로 나옴

Unnamed: 0,B,C
c,19,20


In [None]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택


A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [38]:
df.iloc[-1] = df.iloc[-1] * 2


## 🦆 연습문제 4
1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
1. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

In [69]:
df = pd.DataFrame({
    "A": np.random.randint(5, size=5),
    "B": np.random.randint(5, size=5),
    "C": np.random.randint(5, size=5),
    "D": np.random.randint(5, size=5),
    "E": np.random.randint(5, size=5),
}, index=list('abcde'))
df

Unnamed: 0,A,B,C,D,E
a,3,1,4,4,4
b,1,3,3,4,2
c,3,0,1,3,3
d,0,1,1,4,0
e,3,2,4,1,0


In [71]:
df['A'] # 한 개의 열 선택하기 -> 시리즈
df[['A', 'C']] # 두 개의 열 선택하기 (리스트)
df[['A']] # 한 개의 열 선택하기 -> 데이터프레임
df[:1] # 0번째 행 선택하기
df[1:2] # 1번째 행 선택하기
df[1:3] # 1~2번째 행 선택하기
df['a':'b'] # 문자열 슬라이싱 -> 끝점 포함
df['A']['a'] # 대문자 A열의 소문자 a행을 조회
df.A['a'] # 열A를 속성취급해서 조회후, a행을 조회
df.A.a # 열A를 속성취급해서 조회후, a행을 속성으로 조회
df.loc['a']
df.loc['b':'c'] # 끝점 포함
df.loc[['e', 'a', 'd']]
df.loc[df.A <= 2]
df.loc[(lambda x: x.E >= 3)(df)]
df.loc[:, 'A']
df.loc['a', 'A'] # df.A.a
df.loc[['b', 'a'], ['D', 'C']]
df.loc[df.A > 2, ["C", "D"]] # 열은 조건부 인덱싱 X
df.iloc[0, 1] # 2차원 배열, 행렬 (numpy -> 인덱싱)
df.iloc[:2, 2]
df.iloc[0, -2:]
df.iloc[2:3, 1:3]
df.iloc[-1]
df.iloc[0:5:2, 0:3:2]
df.iloc[::-1, ::-1]

Unnamed: 0,E,D,C,B,A
e,0,1,4,2,3
d,0,4,1,1,0
c,3,3,1,0,3
b,2,4,3,3,1
a,4,4,4,1,3


# 데이터프레임에서의 데이터 조작(처리)

* Pandas는 Numpy 2차원 배열에서 가능한 대부분의 데이터 처리
* (+) Pandas만의 데이터 처리 및 변환 관련 함수/기능들을 제공

## 데이터 갯수 세기

### 시리즈의 갯수 세기

In [73]:
s = pd.Series(range(10))
s = pd.Series(np.arange(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [74]:
s2 = pd.Series(range(10))
s2.count()   # 갯수 세기

10

In [76]:
# 결측치
s[3] = np.nan   # not a number 결측치 넣기 / NaN -> float type
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [78]:
# series.count() -> 셀 수 있는 것 : null이 아닌 것, nan이 아닌 것
s.count(), len(s)   # null, NaN 는 count 에서 제외

(9, 10)

In [80]:
len(s[s.notnull()])    # == s.count()

9

### 데이터 프레임의 갯수 세기

In [85]:
np.random.seed(13)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,4.0
3,2.0,2.0,1.0,3.0


In [86]:
df[3][2]

4.0

In [87]:
df.loc[2, 3]

4.0

In [88]:
df.iloc[2, 3]

4.0

In [89]:
df.iloc[2,3] = np.nan

In [90]:
df.count()   # 열마다의 갯수

0    4
1    4
2    4
3    3
dtype: int64

In [91]:
len(df)   # 열의 갯수

4

In [92]:
df.columns = ['A', 'B', 'C', 'D']
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [93]:
df.count()   # 열 이름대로

A    4
B    4
C    4
D    3
dtype: int64

In [94]:
df.count(axis=0)   # 행 차원을 축소

A    4
B    4
C    4
D    3
dtype: int64

In [95]:
df.count(axis=1)   # 열 차원을 축소 -> 행이름

0    4
1    4
2    3
3    4
dtype: int64

In [96]:
import seaborn as sns # 데이터 시각화 관련 패키지 -> 분석할만한 데이터셋을 내장
titanic = sns.load_dataset('titanic')   # pd.read_csv...url...

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [97]:
titanic.head()   # 상위 5개

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [100]:
titanic.tail()   # 하위 5개

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [101]:
titanic.head(10)   # 상단 10개

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [103]:
titanic.tail(20)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
872,0,1,male,33.0,0,0,5.0,S,First,man,True,B,Southampton,no,True
873,0,3,male,47.0,0,0,9.0,S,Third,man,True,,Southampton,no,True
874,1,2,female,28.0,1,0,24.0,C,Second,woman,False,,Cherbourg,yes,False
875,1,3,female,15.0,0,0,7.225,C,Third,child,False,,Cherbourg,yes,True
876,0,3,male,20.0,0,0,9.8458,S,Third,man,True,,Southampton,no,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0,S,Second,woman,False,,Southampton,yes,False


In [105]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [106]:
titanic.describe()   # 기술통계값들을 자동으로 표현해준다. -> int, float 되어 있는..

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [112]:
# titanic.describe(include='O')   # object
# titanic.describe(include='C')   # category
titanic.describe(include='all')   # 전체

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


## 🐱 연습 문제 1
* 타이타닉 승객 데이터의 데이터 개수를 각 열마다 구해보시오

In [113]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [128]:
titanic.count(axis=0)

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [114]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


## 범주(카테고리) 값 세기
* 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `value_counts` 메소드로 각각의 값이 나온 횟수를 셀 수 있음

In [129]:
np.random.seed(13)
s2 = pd.Series(np.random.randint(6, size=100))
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [130]:
# 중복되지 않은 (unique한) 값들만 추려내서, 각 값들의 갯수를 카운팅
s2.value_counts()

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [131]:
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [None]:
# 행의 중복 여부
df.value_counts()   # 행이 완전히 다른 애들을 별도로 카운트(df은)

A    B    C    D  
2.0  0.0  3.0  0.0    1
     3.0  4.0  1.0    1
3.0  4.0  1.0  1.0    1
dtype: int64

In [132]:
df['A'].value_counts()   # 열 -> 시리즈 -> 중복되는 값들 추려서 카운팅

2.0    4
Name: A, dtype: int64

In [133]:
set([1, 2, 3, 4, 1, 2, 3, 4])

{1, 2, 3, 4}

In [None]:
# 고윳값 배열 # set.
s2.unique() # 고윳값 배열을 리턴

array([3, 4, 1, 5, 2, 0])

In [135]:
# 고윳값의 개수
# len(s2.unique())
s2.nunique()   # 같은 말

6

## 정렬 (sort)
* 데이터를 정렬하려면 `sort_index` 또는 `sort_values`
* `sort_index` : 인덱스 값을 기준으로. (정수냐 라벨-문자열)
* `sort_values` : 데이터 값 기준으로 정렬.
> 오름차순 -> 행이 늘어나는 방향 -> 데이터 나열되는 방향으로 -> 데이터가 커지는 방향을 일치시켜주겠다 (ascending)<br>
> 내림차순 -> 데이터가 나열되는 방향 -> 데이터가 커지는 방향을 반대로 하겠다

In [136]:
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [143]:
# s2.value_counts(ascending=Fasle)   # ascending=False / default 값 기준으로 내림차순
s2.value_counts(ascending=True)   # 값 기준으로 오름차순

0    13
4    13
1    15
5    18
2    20
3    21
dtype: int64

In [139]:
s2.value_counts().sort_index()   # 인덱스 오름차순

0    13
1    15
2    20
3    21
4    13
5    18
dtype: int64

In [140]:
# s2.value_counts().sort_index(ascending=True)   ascending=True-> 기본 값
s2.value_counts().sort_index(ascending=False)   # 인덱스 내림차순

5    18
4    13
3    21
2    20
1    15
0    13
dtype: int64

In [144]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [146]:
# s.sort_values()   # NaN 가장 밑으로 내려감. 양의 무한대 취급
s.sort_values(na_position='last')

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [148]:
s.sort_values(na_position='first')

3    NaN
0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [149]:
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [150]:
# 데이터 프레임의 경우에는 sort_values 하고 싶으면 기준이 되는 열의 라벨(이름)을 by로 지정해야한다
df.sort_values()   #   by가 필요

TypeError: ignored

In [151]:
df.sort_values(by="A")

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [154]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
2,2.0,3.0,2.0,
1,2.0,4.0,1.0,4.0


In [155]:
df.sort_values(by="D")

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,


In [None]:
df.sort_values(by=['B', 'A'])   # 키( 열의 이름 )를 리스트로 넣으면, 해당 순서대로 정렬

In [156]:
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [158]:
df.iloc[2,1] = 2
df

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,2.0,2.0,
3,2.0,2.0,1.0,3.0


In [159]:
df.sort_values(by=['B', 'C'])

Unnamed: 0,A,B,C,D
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
2,2.0,2.0,2.0,
1,2.0,4.0,1.0,4.0


## 행/열 합계
* numpy? np.sum...?

In [162]:
np.random.seed(2023)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,7,9,6,7,1,3,4,4
1,6,5,0,6,1,5,7,5
2,8,2,3,1,0,7,1,0
3,0,1,8,1,2,1,0,1


In [165]:
# 행 방향 합계 (열 방향 axis=0 / 행 방향 axis=1)
df2.sum()   # 행을 축소 -> 열방향 합계. axis=0
df2.sum(axis=0)
df2.sum(axis=1)   # 열을 축소 -> 행방향 합계

0    41
1    35
2    22
3    14
dtype: int64

In [167]:
df2['Sum'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,7,9,6,7,1,3,4,4,41
1,6,5,0,6,1,5,7,5,35
2,8,2,3,1,0,7,1,0,22
3,0,1,8,1,2,1,0,1,14


In [169]:
df2.loc['ColSum'] = df2.sum()   # 열방향 합계
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,7,9,6,7,1,3,4,4,41
1,6,5,0,6,1,5,7,5,35
2,8,2,3,1,0,7,1,0,22
3,0,1,8,1,2,1,0,1,14
ColSum,42,34,34,30,8,32,24,20,224


In [None]:
# sum : 합계 / mean : 평균
df2.mean()   #axis=0 기본 행을 축소 -> 열방향 평균
df2.mean(axis=1)   #axis=0 열을 축소 -> 행방향 평균

0          4.888889
1          8.666667
2          6.444444
3          6.444444
ColSum    26.444444
dtype: float64

## 🐱 연습문제 2
1. 타이타닉호 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [170]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [187]:
titanic.age.mean()

29.69911764705882

In [188]:
titanic.sex == 'female'

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888     True
889    False
890    False
Name: sex, Length: 891, dtype: bool

In [189]:
titanic[titanic.sex == 'female'].age.mean()

27.915708812260537

In [190]:
titanic.pclass.unique()

array([3, 1, 2])

In [193]:
df_filter = titanic[titanic.sex.eq('female') & titanic.pclass.eq(1)]
df_filter

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


In [194]:
df_filter.pclass.unique(), df_filter.sex.unique()

(array([1]), array(['female'], dtype=object))

In [195]:
df_filter.age.mean()

34.61176470588235

## `apply` 변환

* sum, mean 이미 정의된 함수/메소드. 어떠한 작업을 해줄지 이미 정해져있음
* 행이나 열 단위로 복잡한 데이터 처리 -> `apply` 메소드 사용
* 인수로 행 또는 열을 받는 함수 (axis)를 `apply` 메소드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킴


In [196]:
df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4],
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [197]:
# 각 열의 최댓값과 최솟값의 차이를 구하는 연산
df3.max() - df3.min()

A    3
B    2
C    4
dtype: int64

In [199]:
df3.columns   # axis=0 (행 차원 축소 -> 열들 기준 값)
# columns를 기준으로 나머지 행들이 축소되어 처리

Index(['A', 'B', 'C'], dtype='object')

In [198]:
df3.index   # axis=1 (열 차원 축소 -> 행들의 기준 값)
# index(행 방향 인덱스)를 기준으로 나머지 열들이 축소되어 처리

RangeIndex(start=0, stop=5, step=1)

In [200]:
# 람다 함수
lambda x : (x)   # lambda 인자들(0개이상 인자들) : 인자를 사용해서 반환될 표현식(return 값)
# 익명 함수 -> lambda 이름을 줄 필요 x (def... 변수에 할당 x) -> 사용되고 휘발된다.(재사용 x)
# x -> 처리할 데이터 -> apply 변수
df3.apply(lambda x : x.max() - x.min(), axis=0)   # axis=0 이 디폴트

A    3
B    2
C    4
dtype: int64

In [202]:
# axis의 방향에 따라서 x의미가 바뀐다. 기본값인 axis=0 -> 각각의 열
# 특정한 열만 하고 싶어...
df3.apply(lambda x : x.max() - x.min())['A']

3

In [203]:
# 여기서의 x는 행을 기준으로 한 모든 열들
df3.apply(lambda x : x.max() - x.min(), axis=1)   # 행 방향

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [207]:
# [열 기준으로 apply]
# titanic.sex.apply(lambda x : x[0].upper())
titanic.sex.apply(lambda x : 'M' if x == 'male' else 'F')   # apply -> 원본에 영향을 미치지 않는다.

0      M
1      F
2      F
3      F
4      M
      ..
886    M
887    F
888    F
889    M
890    M
Name: sex, Length: 891, dtype: object

In [208]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [212]:
# [행 기준으로 apply]
# 행은 무엇을 가지고 있나? : 열들의 속성, 열들을 키로 가지고 있는 딕셔너리.
# 성별 / 정박지
titanic.apply(lambda x : (str(x.sex) + ' / '+ str(x.embark_town)), axis=1)

0        male / Southampton
1        female / Cherbourg
2      female / Southampton
3      female / Southampton
4        male / Southampton
               ...         
886      male / Southampton
887    female / Southampton
888    female / Southampton
889        male / Cherbourg
890       male / Queenstown
Length: 891, dtype: object

In [213]:
def some_fum(x):
    return len(x) ** 2

In [215]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [214]:
titanic.apply(some_fum, axis=0)

survived       793881
pclass         793881
sex            793881
age            793881
sibsp          793881
parch          793881
fare           793881
embarked       793881
class          793881
who            793881
adult_male     793881
deck           793881
embark_town    793881
alive          793881
alone          793881
dtype: int64

In [216]:
titanic.apply(some_fum, axis=1)

0      225
1      225
2      225
3      225
4      225
      ... 
886    225
887    225
888    225
889    225
890    225
Length: 891, dtype: int64

In [217]:
titanic.apply(len)

survived       891
pclass         891
sex            891
age            891
sibsp          891
parch          891
fare           891
embarked       891
class          891
who            891
adult_male     891
deck           891
embark_town    891
alive          891
alone          891
dtype: int64

In [219]:
# apply로 계산한 값을 특정 키(열이름)에 추가
titanic['adult/child/sex'] = titanic.apply(
    lambda r : f"{r.sex} / {'adult' if r.age >= 20 else 'child'}",
    axis=1   # 성인인지 아이인지 -> age로 판단 + 성별 sex.
)

In [220]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male / adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female / adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female / adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female / adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male / adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male / adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female / child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female / child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male / adult


## 🐱 연습문제 3
> 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.
1. 20살이 넘으면 성별을 그대로 사용한다.
1. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [227]:
titanic['category1'] = titanic.apply(
      lambda row : row.sex if row.age >= 20 else 'child',
      axis=1
)

In [228]:
titanic.category1

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887     child
888     child
889      male
890      male
Name: category1, Length: 891, dtype: object

In [229]:
titanic.category1.unique()


array(['male', 'female', 'child'], dtype=object)

## `fillna`
* NaN 값을 채워주는 메소드

In [230]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [231]:
df3.apply(pd.value_counts)   # 특정한 고유값이 얼마나(몇번) 쓰였는지 (index는 고유값)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [232]:
# fill -> 채운다 / na? - nan
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## `astype` 메소드
* 지정한 시리즈, 데이터프레임의 자료형을 변경

In [234]:
df4 = df3.apply(pd.value_counts).fillna(0.0)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [235]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 1 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       5 non-null      float64
 2   C       5 non-null      float64
dtypes: float64(3)
memory usage: 160.0 bytes


In [237]:
# astype(바꾸고 싶은 타입)
df4.astype(int)   # astype 원본 영향 x / 사본을 만든다.

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [238]:
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [239]:
df4.A

1    1.0
2    0.0
3    2.0
4    2.0
5    0.0
Name: A, dtype: float64

In [240]:
df4.A.astype(int)
# df4 = df4.A.astype(int)   이렇게 해야 원본이 바뀐다.

1    1
2    0
3    2
4    2
5    0
Name: A, dtype: int64

## 실수 값을 범주형 값으로 변환
* 연령 (숫자) -> 0~99 -> 어린이, 청소년, 청년, 중년, 노년...
* 소득 (숫자) -> 빈민, 서민, 중산, 부유, 초부유층...
> 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때 `cut` `qcut`

In [241]:
np.random.seed(313)
ages = np.random.randint(120, size=12)
ages

array([ 8, 42, 87, 31, 39, 73, 25, 72,  0, 50, 82, 26])

In [246]:
# cut : 우리가 직접 범위를 지정해서 해당하는 카테고리를 부여
# 1세~ : 미성년자 / 20세~ : 청년 / 30세~ : 중년 / 50세~ : 장년 / 70세~ : 노년
bins = [1, 20, 30, 50, 70, 100]   # 5개 구간
labels = ['미성년자', '청년', '중년', '장년', '노년']
cats = pd.cut(ages, bins, labels = labels)
cats

['미성년자', '중년', '노년', '중년', '중년', ..., '노년', NaN, '중년', '노년', '청년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [247]:
# cut : 우리가 직접 범위를 지정해서 해당하는 카테고리를 부여
# 1세~ : 미성년자 / 20세~ : 청년 / 30세 ~: 중년 / 50세~장년 / 70세~ 노년
bins = [-1, 1, 20, 30, 50, 70, 100, 200] # 5개 구간
labels = ["아기", "미성년자", "청년", "중년", "장년", "노년","초고령"]
cats2 = pd.cut(ages, bins, labels=labels)
cats2

['미성년자', '중년', '노년', '중년', '중년', ..., '노년', '아기', '중년', '노년', '청년']
Length: 12
Categories (7, object): ['아기' < '미성년자' < '청년' < '중년' < '장년' < '노년' < '초고령']

In [248]:
df_age = pd.DataFrame({'age': ages})
df_age

Unnamed: 0,age
0,8
1,42
2,87
3,31
4,39
5,73
6,25
7,72
8,0
9,50


In [249]:
df_age['age_cat'] = cats
df_age

Unnamed: 0,age,age_cat
0,8,미성년자
1,42,중년
2,87,노년
3,31,중년
4,39,중년
5,73,노년
6,25,청년
7,72,노년
8,0,
9,50,중년


In [245]:
cats.dtype

CategoricalDtype(categories=['아기', '미성년자', '청년', '중년', '장년', '노년', '초고령'], ordered=True)

In [250]:
df_age['age_cat'].astype('object').fillna('미분류')

0     미성년자
1       중년
2       노년
3       중년
4       중년
5       노년
6       청년
7       노년
8      미분류
9       중년
10      노년
11      청년
Name: age_cat, dtype: object

In [251]:
# qcut : 특정한 범위를 쪼개서 처리
qcats = pd.qcut(ages, 4, labels=['유년','청년','장년','노년'])
qcats

['유년', '장년', '노년', '청년', '청년', ..., '장년', '유년', '장년', '노년', '청년']
Length: 12
Categories (4, object): ['유년' < '청년' < '장년' < '노년']

In [252]:
df_age['age_cat2'] = qcats
df_age

Unnamed: 0,age,age_cat,age_cat2
0,8,미성년자,유년
1,42,중년,장년
2,87,노년,노년
3,31,중년,청년
4,39,중년,청년
5,73,노년,노년
6,25,청년,유년
7,72,노년,장년
8,0,,유년
9,50,중년,장년


## 데이터프레임 인덱스 조작
* `set_index` : 특정한 열을 새로운 행 인덱스로 지정 (기존 행의 인덱스를 제거)
* `reset_index` : 기존의 행 인덱스를 제거하고, 해당 인덱스를 새로운 열로 추가

In [None]:
'ABCDE'

'ABCDE'

In [253]:
list('ABCDE')

['A', 'B', 'C', 'D', 'E']

In [254]:
for c in 'ABCDE':
    print(c)

A
B
C
D
E


In [255]:
arr = np.vstack([
    list('ABCDE'),
    np.round(np.random.rand(3, 5), 2)
])
arr

array([['A', 'B', 'C', 'D', 'E'],
       ['0.87', '0.17', '0.45', '0.53', '0.44'],
       ['0.78', '0.59', '0.3', '0.85', '0.07'],
       ['0.53', '0.06', '0.76', '0.59', '0.46']], dtype='<U32')

In [256]:
arr.T

array([['A', '0.87', '0.78', '0.53'],
       ['B', '0.17', '0.59', '0.06'],
       ['C', '0.45', '0.3', '0.76'],
       ['D', '0.53', '0.85', '0.59'],
       ['E', '0.44', '0.07', '0.46']], dtype='<U32')

In [259]:
df1 = pd.DataFrame(arr.T, columns=(['C1','C2','C3','C4']))
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.87,0.78,0.53
1,B,0.17,0.59,0.06
2,C,0.45,0.3,0.76
3,D,0.53,0.85,0.59
4,E,0.44,0.07,0.46


In [260]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   C1      5 non-null      object
 1   C2      5 non-null      object
 2   C3      5 non-null      object
 3   C4      5 non-null      object
dtypes: object(4)
memory usage: 288.0+ bytes


In [261]:
df2 = df1.set_index('C1')

In [262]:
df2   # set_index(열이름)  -> 해당 열을 삭제하고, 그 열을 인덱스로 쓰겠다.

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.87,0.78,0.53
B,0.17,0.59,0.06
C,0.45,0.3,0.76
D,0.53,0.85,0.59
E,0.44,0.07,0.46


In [263]:
df2.set_index('C2')

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.87,0.78,0.53
0.17,0.59,0.06
0.45,0.3,0.76
0.53,0.85,0.59
0.44,0.07,0.46


In [265]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.87,0.78,0.53
B,0.17,0.59,0.06
C,0.45,0.3,0.76
D,0.53,0.85,0.59
E,0.44,0.07,0.46


In [266]:
df2.reset_index()   # 예전 자리는 정수 인덱스로 채워줌

Unnamed: 0,C1,C2,C3,C4
0,A,0.87,0.78,0.53
1,B,0.17,0.59,0.06
2,C,0.45,0.3,0.76
3,D,0.53,0.85,0.59
4,E,0.44,0.07,0.46


In [268]:
df2.reset_index(drop=True)   # 기존 인덱스를 삭제하려고만 할 때

Unnamed: 0,C2,C3,C4
0,0.87,0.78,0.53
1,0.17,0.59,0.06
2,0.45,0.3,0.76
3,0.53,0.85,0.59
4,0.44,0.07,0.46


## 데이터프레임에서의 삭제 `drop`

In [269]:
# del 로 키값을 지정해서 지울 수 있다
# -> 일반적으로 쓰이는 방식은 아니다
# df.drop 메소드
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [270]:
df_copy = df3.copy()
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [272]:
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [271]:
# df_copy.drop(라벨, axis=축)
# df_copy의 0 행을 삭제한다
# df_copy.drop(행 이름)
df_copy.drop(0)

Unnamed: 0,A,B,C
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [273]:
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [274]:
# df_copy.drop(열 이름, axis=1)
df_copy.drop('A', axis=1)

Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4


In [275]:
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [None]:
# inplace : 원본에 영향을 미치는 함수로 만들어주겠다 (True)
df_copy2 = df_copy.drop('A', axis=1)
df_copy2   # 삭제된 내용이 반영된 새로운 사본을 변수에 할당해서 처리

Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4


In [278]:
df_copy.drop('B', axis=1, inplace=True)   #원본에 영향을 미치겠다.

In [279]:
df_copy

Unnamed: 0,A,C
0,1,1
1,3,5
2,4,2
3,3,4
4,4,4
