<a href="https://colab.research.google.com/github/tkd8973/DataAnalysis_SSW/blob/main/tkd8973/DataFrame%EC%A1%B0%EC%9E%91%EB%B3%80%ED%99%98.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터프레임 고급 인덱싱

* 인덱싱(indexing) : 데이터프레임에서 특정한 데이터만 골라내는 것
 * 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱
* 그런데 Pandas는 Numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공
* `loc` : 라벨값 기반의 2차원 인덱싱
* `iloc` : 순서를 나타내는 정수 기반의 2차원 인덱싱

## `loc` 인덱서
```
df.loc[행 인덱싱 값]
df.loc[행 인덱싱 값, 인덱싱 값]
```
* 행 인덱싱 값 : 정수 또는 행 인덱스 데이터
* 열 인덱싱 값 : 라벨 문자열
---
* 인덱스 데이터
* 인덱스 데이터 슬라이스
* 인덱스 데이터 리스트
* 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
* 위의 값들을 반환하는 함수

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    np.arange(10, 22).reshape(3, 4),
    columns = list('ABCD'),
    index = list('abc')
)
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱 값을 하나만 받는 경우
* 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택

In [None]:
# df.loc['a'] # 문자열 인덱스
# df.loc['b'] # 문자열 인덱스
df.loc['c'] # 문자열 인덱스

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [None]:
# 인덱스 데이터의 슬라이스도 가능
# df.loc['a':'b'] # 문자열 슬라이싱 -> 끝점도 포함
# df.loc['b':'c'] # 문자열 슬라이싱 -> 끝점도 포함
df.loc['b':] # 문자열 슬라이싱 -> 끝점도 포함

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 기본 인덱싱과 동일
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱스데이터의 리스트도 됨
# df.loc[['b', 'c']]
df.loc[['c', 'a', 'b']]

Unnamed: 0,A,B,C,D
c,18,19,20,21
a,10,11,12,13
b,14,15,16,17


In [None]:
# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생
df[['c', 'a', 'b']]

KeyError: ignored

In [None]:
# 데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있음
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df.loc[df.A > 10]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있음
def select_rows(df):
    return df.A > 15

In [None]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능
df.loc["A"] # A라는 키가 행에 없음

KeyError: ignored

In [None]:
df.loc[['A', 'B']]

KeyError: ignored

In [None]:
# 원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 됨
# 즉, 슬라이스의 마지막 값이 포함
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4),
                   columns=list("ABCD"))
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [None]:
df2.loc[1:2] # 끝점 포함. 숫자로 넣어도. loc는 끝점이 포함된다 (정수 인덱스를 써도)

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


|인덱싱 값|가능|결과|자료형|추가사항|
|:-|:-|:-|:-|:-|
|행 인덱스 값( 정수)|O|행|시리즈|
|행 인덱스 값 (정수) 슬라이스|O|행|데이터프레임|`loc`가 없는 경우와 같음|
|행 인덱스 값 (정수) 리스트|O|행|데이터프레임|
|불리언 시리즈|O|행|데이터프레임|시리즈의 인덱스가 데이터프레임의 행 인덱스와 같아야 함|
|불리언 시리즈를 반환하는 함수|O|행|데이터프레임
|열 라벨|X|||loc가 없는 경우에만 쓸 수 있음|
|열 라벨 리스트|X|||loc가 없는 경우에만 쓸 수 있음|

### 인덱싱 값을 행과 열 모두 받는 경우
* `df.loc[행 인덱스, 열 인덱스]`와 같은 형태로 사용

In [None]:
df.loc["a", "A"]

10

In [None]:
# 인덱싱값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있음
df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int64

In [None]:
# df.loc["a"]
df.loc["a", "A":"C"]

A    10
B    11
C    12
Name: a, dtype: int64

In [None]:
df.loc[["b","a"], ["C","A"]]

Unnamed: 0,C,A
b,16,14
a,12,10


In [None]:
# 행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있음
df.loc[df.A > 10, ["C", "D"]]

## `iloc` 인덱서
* `iloc` 인덱서는 `loc` 인덱서와 달리 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받음 (다른 사항은 `loc`와 동일)

In [None]:
df

In [None]:
df.iloc[0, 1]

In [None]:
df.iloc[:2, 2]

In [None]:
df.iloc[0, -2:]

In [None]:
print(df.iloc[2, 1:3]) # 시리즈
print(df.iloc[[2], 1:3]) # df
print(df.iloc[2:3, 1:3]) # df

In [None]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

In [None]:
df.T['향단']

In [None]:
df.loc['향단']

In [None]:
# df.iloc[-2]
# df.iloc[2]
df.iloc[2,:]

In [None]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택
df.iloc[0], df.iloc[-1]

In [None]:
df = pd.DataFrame(
    np.arange(10, 22).reshape(3, 4),
    columns = list('ABCD'),
    index = list('abc')
)
df

In [None]:
df.iloc[-1] = df.iloc[-1] * 2
df

## 🦆 연습문제 4
1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
1. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

In [None]:
df = pd.DataFrame({
    "A": np.random.randint(5, size=5),
    "B": np.random.randint(5, size=5),
    "C": np.random.randint(5, size=5),
    "D": np.random.randint(5, size=5),
    "E": np.random.randint(5, size=5),
}, index=list('abcde'))
df

In [None]:
df['A'] # 한 개의 열 선택하기 -> 시리즈
df[['A', 'C']] # 두 개의 열 선택하기 (리스트)
df[['A']] # 한 개의 열 선택하기 -> 데이터프레임
df[:1] # 0번째 행 선택하기
df[1:2] # 1번째 행 선택하기
df[1:3] # 1~2번째 행 선택하기
df['a':'b'] # 문자열 슬라이싱 -> 끝점 포함
df['A']['a'] # 대문자 A열의 소문자 a행을 조회
df.A['a'] # 열A를 속성취급해서 조회후, a행을 조회
df.A.a # 열A를 속성취급해서 조회후, a행을 속성으로 조회
df.loc['a']
df.loc['b':'c'] # 끝점 포함
df.loc[['e', 'a', 'd']]
df.loc[df.A <= 2]
df.loc[(lambda x: x.E >= 3)(df)]
df.loc[:, 'A']
df.loc['a', 'A'] # df.A.a
df.loc[['b', 'a'], ['D', 'C']]
df.loc[df.A > 2, ["C", "D"]] # 열은 조건부 인덱싱 X
df.iloc[0, 1] # 2차원 배열, 행렬 (numpy -> 인덱싱)
df.iloc[:2, 2]
df.iloc[0, -2:]
df.iloc[2:3, 1:3]
df.iloc[-1]
df.iloc[0:5:2, 0:3:2]
df.iloc[::-1, ::-1]

# 데이터프레임에서의 데이터 조작(처리)

* Pandas는 Numpy 2차원 배열에서 가능한 대부분의 데이터 처리
* (+) Pandas만의 데이터 처리 및 변환 관련 함수/기능들을 제공

## 데이터 갯수 세기

### 시리즈의 갯수 세기

In [None]:
s = pd.Series(range(10))
s = pd.Series(np.arange(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [None]:
s2 = pd.Series(range(10))
s2.count() # 갯수 세기

In [None]:
# 결측치
s[3] = np.nan # not a number, nan = float
s

In [None]:
# series.count() -> 셀 수 있는 것 : null이 아닌 것, nan이 아닌 것
s.count(), len(s)

In [None]:
len(s[s.notnull()]) # == s.count()

### 데이터 프레임의 갯수 세기

In [None]:
np.random.seed(13)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df

In [None]:
df[3][2]

In [None]:
df.loc[2, 3]

In [None]:
df.iloc[2, 3]

In [None]:
df.iloc[2, 3] =  np.nan

In [None]:
df.count() # 열마다의 갯수

In [None]:
len(df) # 열의 갯수

In [None]:
df.columns = ['A', 'B', 'C', 'D']
df

In [None]:
df.count() # 열 이름대로...

In [None]:
df.count(axis=0) # 행 차원을 축소

In [None]:
df.count(axis=1) # 열 차원을 축소 -> 행 이름

In [None]:
import seaborn as sns # 데이터 시각화 관련 패키지 -> 분석할만한 데이터셋을 내장
titanic = sns.load_dataset('titanic') # pd.read_csv ... url ...
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [None]:
titanic.head() # 상위 5개 (머리)

In [None]:
titanic.head(10) # 상단 10개

In [None]:
titanic.tail(20) # 하단 20개 (꼬리)

In [None]:
titanic.tail() # 하위 5개 (꼬리)

In [None]:
titanic.info()

In [None]:
titanic.describe() # 기술통계값들을 자동으로 표현 -> int, float되어 있는.

In [None]:
titanic.describe(include='O') # Object

In [None]:
titanic.describe(include='category')

In [None]:
titanic.describe(include='all')

## 🐱 연습 문제 1
* 타이타닉 승객 데이터의 데이터 개수를 각 열마다 구해보시오

In [None]:
titanic.count()

In [None]:
titanic.info()

## 범주(카테고리) 값 세기
* 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `value_counts` 메소드로 각각의 값이 나온 횟수를 셀 수 있음

In [None]:
np.random.seed(13)
s2 = pd.Series(np.random.randint(6, size=100))
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [None]:
# 중복되지 않은 (unique) 값들만 추려내서, 각 값들의 갯수를 카운팅
s2.value_counts()

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [None]:
# 행의 중복 여부
df.value_counts() # 행이 완전히 다른 애들을 별도로 카운트 (df은)

A   B   C   D 
10  11  12  13    1
14  15  16  17    1
18  19  20  21    1
dtype: int64

In [None]:
df['A'].value_counts() # 열 -> 시리즈 -> 중복되는 값들 추려서 카운팅

10    1
14    1
18    1
Name: A, dtype: int64

In [None]:
set([1, 2, 3, 4, 1, 2, 3, 4])

{1, 2, 3, 4}

In [None]:
# 고윳값 배열 # set.
s2.unique() # 고윳값 배열을 리턴

array([2, 0, 4, 1, 3, 5])

In [None]:
# 고윳값의 개수
# len(s2.unique())
s2.nunique()

6

## 정렬 (sort)
* 데이터를 정렬하려면 `sort_index` 또는 `sort_values`
* `sort_index` : 인덱스 값을 기준으로. (정수냐 라벨-문자열)
* `sort_values` : 데이터 값 기준으로 정렬.
> 오름차순 -> 행이 늘어나는 방향 -> 데이터 나열되는 방향으로 -> 데이터가 커지는 방향을 일치시켜주겠다 (ascending)<br>
> 내림차순 -> 데이터가 나열되는 방향 -> 데이터가 커지는 방향을 반대로 하겠다

In [None]:
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [None]:
s2.value_counts() # 값 기준으로 내림차순

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [None]:
s2.value_counts(ascending=False)

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [None]:
s2.value_counts(ascending=True)

0    13
4    13
1    15
5    18
2    20
3    21
dtype: int64

In [None]:
# s2.value_counts().sort_index(ascending=True)
s2.value_counts().sort_index() # 인덱스 오름차순

0    13
1    15
2    20
3    21
4    13
5    18
dtype: int64

In [None]:
s2.value_counts().sort_index(ascending=False) # 인덱스 내림차순

5    18
4    13
3    21
2    20
1    15
0    13
dtype: int64

In [None]:
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [None]:
s.sort_values(na_position='first')

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [None]:
# 데이터 프레임의 경우에는 sort_values 하고 싶으면 기준이 되는 열의 라벨(이름)을 by로 지정해야한다


두개 이상의 키값으로 정렬하기 위해서는 순서대로 리스트로 넣어주면 된다
* ex) B를정렬 후 C에 대해 정렬을 하려고 할 경우 밑의 코드로 입력해주면 된다.
``` 
df.sort_values(['B','C'])
```

## 행/열 합계
* numpy? np.sum...?

In [None]:
np.random.seed(2023)
df2 = pd.DataFrame(np.random.randint(10,size=(4,8)))
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [None]:
# 행 방향 합계 (열 방향 axis=0 / 행 방향 axis=1)
print(df2.sum(axis=0))
print(df2.sum(axis=1))
print(df2.sum())

0    21
1    17
2    17
3    15
4     4
5    16
6    12
7    10
dtype: int64
0    41
1    35
2    22
3    14
dtype: int64
0    21
1    17
2    17
3    15
4     4
5    16
6    12
7    10
dtype: int64


In [None]:
df2['Sum'] = df2.sum(axis=1)    # 열 추가
df2.loc['Colsum',:] = df2.sum()    # 행 추가
print(df2)

           0     1     2     3    4     5     6     7    Sum
0        7.0   9.0   6.0   7.0  1.0   3.0   4.0   4.0  205.0
1        6.0   5.0   0.0   6.0  1.0   5.0   7.0   5.0  175.0
2        8.0   2.0   3.0   1.0  0.0   7.0   1.0   0.0  110.0
3        0.0   1.0   8.0   1.0  2.0   1.0   0.0   1.0   70.0
Colsum  21.0  17.0  17.0  15.0  4.0  16.0  12.0  10.0  560.0


In [None]:
# sum : 합계 / mean : 평균
print(df2.mean())
print('-----------')
print(df2.mean(axis=1))

0        8.4
1        6.8
2        6.8
3        6.0
4        1.6
5        6.4
6        4.8
7        4.0
Sum    224.0
dtype: float64
-----------
0         27.333333
1         23.333333
2         14.666667
3          9.333333
Colsum    74.666667
dtype: float64


Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,7.0,9.0,6.0,7.0,1.0,3.0,4.0,4.0,205.0
1,6.0,5.0,0.0,6.0,1.0,5.0,7.0,5.0,175.0
2,8.0,2.0,3.0,1.0,0.0,7.0,1.0,0.0,110.0
3,0.0,1.0,8.0,1.0,2.0,1.0,0.0,1.0,70.0
Colsum,21.0,17.0,17.0,15.0,4.0,16.0,12.0,10.0,560.0


## 🐱 연습문제 2
1. 타이타닉호 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [None]:
print(titanic['age'].mean())

29.69911764705882


In [None]:
titanic[titanic.sex=='female'].age.mean()

27.915708812260537

In [None]:
titanic[(titanic.pclass==1) & (titanic.sex=='female')].age.mean()

34.61176470588235

## `apply` 변환

* sum, mean 이미 정의된 함수/메소드. 어떠한 작업을 해줄지 이미 정해져있음
* 행이나 열 단위로 복잡한 데이터 처리 -> `apply` 메소드 사용
* 인수로 행 또는 열을 받는 함수 (axis)를 `apply` 메소드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킴


In [None]:
# 각 열의 최댓값과 최솟값의 차이를 구하는 연산
df3 = pd.DataFrame(np.random.randint(5,size=(4,3)),columns=list("ABC"))
df3

Unnamed: 0,A,B,C
0,3,2,1
1,3,0,4
2,4,3,4
3,4,2,2


In [None]:
df3.max()-df3.min()

0    3
1    1
2    3
dtype: int64

In [None]:
# [열 기준으로 apply]

titanic.sex.apply(lambda x:'M' if x=='male' else 'F')

0      M
1      F
2      F
3      F
4      M
      ..
886    M
887    F
888    F
889    M
890    M
Name: sex, Length: 891, dtype: object

In [None]:
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [None]:
# [행 기준으로 apply]
titanic.apply(lambda x:x.sex+'/'+str(x.embarked),axis=1)


0        male/S
1      female/C
2      female/S
3      female/S
4        male/S
         ...   
886      male/S
887    female/S
888    female/S
889      male/C
890      male/Q
Length: 891, dtype: object

In [None]:
# apply로 계산한 값을 특정 키(열이름)에 추가
titanic['adult/child/sex'] = titanic.apply(
    lambda x:f'{x.sex}/{"adult" if x.age>=20 else "child"}', axis=1
)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male/adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female/adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female/adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female/adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male/adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male/adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female/child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female/child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male/adult


## 🐱 연습문제 3
> 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.
1. 20살이 넘으면 성별을 그대로 사용한다.
1. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [None]:
titanic['category1']=titanic.apply(
    lambda x:f'{x.sex if x.age>=20 else "child"}',\
    axis=1)
titanic.category1.unique()

array(['male', 'female', 'child'], dtype=object)

## `fillna`
* NaN 값을 채워주는 메소드

In [None]:
df3

Unnamed: 0,0,1,2
0,0,3,1
1,2,3,1
2,3,4,3
3,1,4,0


In [None]:
df3.apply(pd.value_counts)    # value가 열에서 몇번 찍혔는지 알아보는 법

Unnamed: 0,0,1,2
0,1.0,,1.0
1,1.0,,2.0
2,1.0,,
3,1.0,2.0,1.0
4,,2.0,


In [None]:
# fill -> 채운다 / na? - nan
df3.apply(pd.value_counts).fillna(0)

Unnamed: 0,0,1,2
0,1.0,0.0,1.0
1,1.0,0.0,2.0
2,1.0,0.0,0.0
3,1.0,2.0,1.0
4,0.0,2.0,0.0


## `astype` 메소드
* 지정한 시리즈, 데이터프레임의 자료형을 변경

In [None]:
df4 = df3.apply(pd.value_counts).fillna(0)
df4

Unnamed: 0,0,1,2
0,1.0,0.0,1.0
1,1.0,0.0,2.0
2,1.0,0.0,0.0
3,1.0,2.0,1.0
4,0.0,2.0,0.0


In [None]:
# astype(바꾸고 싶은 타입)
df4.astype(int)
df4

Unnamed: 0,0,1,2
0,1.0,0.0,1.0
1,1.0,0.0,2.0
2,1.0,0.0,0.0
3,1.0,2.0,1.0
4,0.0,2.0,0.0


## 실수 값을 범주형 값으로 변환
* 연령 (숫자) -> 0~99 -> 어린이, 청소년, 청년, 중년, 노년...
* 소득 (숫자) -> 빈민, 서민, 중산, 부유, 초부유층...
> 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때 `cut` `qcut`

In [None]:
np.random.seed(313)
ages = np.random.randint(120,size=12)
ages


array([ 8, 42, 87, 31, 39, 73, 25, 72,  0, 50, 82, 26])

In [None]:
# cut : 우리가 직접 범위를 지정해서 해당하는 카테고리를 부여
# 1~20 : 미성년자, 20~30 : 청년, 30~50 : 중년, 50~70 : 장년, 70~ 노년
labels = ['아이','미자','청년','중년','장년','노년','초고령']
bins = [-1,1,20,30,50,70,100,120]
pd.cut(ages,bins,labels=labels)

['미자', '중년', '노년', '중년', '중년', ..., '노년', '아이', '중년', '노년', '청년']
Length: 12
Categories (7, object): ['아이' < '미자' < '청년' < '중년' < '장년' < '노년' < '초고령']

In [None]:
df_age=pd.DataFrame({'age': ages})
df_age

Unnamed: 0,age
0,8
1,42
2,87
3,31
4,39
5,73
6,25
7,72
8,0
9,50


In [None]:
# qcut : 특정한 범위를 쪼개서 처리
qcats = pd.qcut(ages,4,labels=['유년','청년','장년','노년'])

qcats

['유년', '장년', '노년', '청년', '청년', ..., '장년', '유년', '장년', '노년', '청년']
Length: 12
Categories (4, object): ['유년' < '청년' < '장년' < '노년']

In [None]:
df_age['age_cats2'] = qcats
df_age

Unnamed: 0,age,age_cats2
0,8,유년
1,42,장년
2,87,노년
3,31,청년
4,39,청년
5,73,노년
6,25,유년
7,72,장년
8,0,유년
9,50,장년


## 데이터프레임 인덱스 조작
* `set_index` : 특정한 열을 새로운 행 인덱스로 지정 (기존 행의 인덱스를 제거)
* `reset_index` : 기존의 행 인덱스를 제거하고, 해당 인덱스를 새로운 열로 추가

In [None]:
a = np.vstack([list('ABCDE'),
              np.round(np.random.randn(3,5),2)])
a

array([['A', 'B', 'C', 'D', 'E'],
       ['-0.57', '-1.36', '0.61', '-2.46', '0.66'],
       ['-0.95', '2.18', '0.84', '0.44', '-0.16'],
       ['0.23', '-0.81', '-2.02', '-2.35', '-0.09']], dtype='<U32')

In [None]:
arr_df = pd.DataFrame(a.T,columns = ['C1','C2','C3','C4]'])
arr_df

Unnamed: 0,C1,C2,C3,C4]
0,A,-0.57,-0.95,0.23
1,B,-1.36,2.18,-0.81
2,C,0.61,0.84,-2.02
3,D,-2.46,0.44,-2.35
4,E,0.66,-0.16,-0.09


In [None]:
arr2 = arr_df.set_index('C1')
arr2

Unnamed: 0_level_0,C2,C3,C4]
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,-0.57,-0.95,0.23
B,-1.36,2.18,-0.81
C,0.61,0.84,-2.02
D,-2.46,0.44,-2.35
E,0.66,-0.16,-0.09


In [None]:
arr2.reset_index()

Unnamed: 0,C1,C2,C3,C4]
0,A,-0.57,-0.95,0.23
1,B,-1.36,2.18,-0.81
2,C,0.61,0.84,-2.02
3,D,-2.46,0.44,-2.35
4,E,0.66,-0.16,-0.09


In [None]:
arr2.set_index('C3')


Unnamed: 0_level_0,C2,C4]
C3,Unnamed: 1_level_1,Unnamed: 2_level_1
-0.95,-0.57,0.23
2.18,-1.36,-0.81
0.84,0.61,-2.02
0.44,-2.46,-2.35
-0.16,0.66,-0.09


## 데이터프레임에서의 삭제 `drop`

In [None]:
# del 로 키값을 지정해서 지울 수 있다
# -> 일반적으로 쓰이는 방식은 아니다
# df.drop 메소드
df3

Unnamed: 0,A,B,C
0,3,2,1
1,3,0,4
2,4,3,4
3,4,2,2


In [None]:
df_copy = df3.copy()
df_copy

Unnamed: 0,A,B,C
0,3,2,1
1,3,0,4
2,4,3,4
3,4,2,2


In [None]:
# df_copy.drop(라벨, axis=축)
# df_copy의 0 행을 삭제한다
# df_copy.drop(행 이름)
df_copy.drop(0)

Unnamed: 0,A,B,C
1,3,0,4
2,4,3,4
3,4,2,2


In [None]:
# df_copy.drop(열 이름, axis=1)
df_copy.drop('A',axis=1)

Unnamed: 0,B,C
0,2,1
1,0,4
2,3,4
3,2,2


In [None]:
df_copy.drop('B',axis=1,inplace=True)


In [None]:
# inplace : 원본에 영향을 미치는 함수로 만들어주겠다 (True)
df_copy

Unnamed: 0,A,C
0,3,1
1,3,4
2,4,4
3,4,2
