<a href="https://colab.research.google.com/github/chohoon901/DataAnalysis_1/blob/main/sunghuncho/ch06_02_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84_%EC%A1%B0%EC%9E%91_sunghuncho.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터프레임 고급 인덱싱

* 인덱싱(indexing) : 데이터프레임에서 특정한 데이터만 골라내는 것
 * 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱
* 그런데 Pandas는 Numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공
* `loc` : 라벨값 기반의 2차원 인덱싱
* `iloc` : 순서를 나타내는 정수 기반의 2차원 인덱싱

## `loc` 인덱서
```
df.loc[행 인덱싱 값]
df.loc[행 인덱싱 값, 인덱싱 값]
```
* 행 인덱싱 값 : 정수 또는 행 인덱스 데이터
* 열 인덱싱 값 : 라벨 문자열
---
* 인덱스 데이터
* 인덱스 데이터 슬라이스
* 인덱스 데이터 리스트
* 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
* 위의 값들을 반환하는 함수

In [3]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    np.arange(10, 22).reshape(3, 4),
    columns = list('ABCD'),
    index = list('abc')
)
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱 값을 하나만 받는 경우
* 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택

In [None]:
# df.loc['a'] # 문자열 인덱스
# df.loc['b'] # 문자열 인덱스
df.loc['c'] # 문자열 인덱스

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [None]:
# 인덱스 데이터의 슬라이스도 가능
# df.loc['a':'b'] # 문자열 슬라이싱 -> 끝점도 포함
# df.loc['b':'c'] # 문자열 슬라이싱 -> 끝점도 포함
df.loc['b':] # 문자열 슬라이싱 -> 끝점도 포함

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 기본 인덱싱과 동일
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱스데이터의 리스트도 됨
# df.loc[['b', 'c']]
df.loc[['c', 'a', 'b']]

Unnamed: 0,A,B,C,D
c,18,19,20,21
a,10,11,12,13
b,14,15,16,17


In [None]:
# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생
df[['c', 'a', 'b']]

KeyError: ignored

In [None]:
# 데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있음
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df.loc[df.A > 10]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있음
def select_rows(df):
    return df.A > 15

In [None]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [None]:
df[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능
df.loc["A"]

NameError: ignored

In [1]:
df.loc[["A","B"]]

NameError: ignored

In [5]:
# 원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 됨
# 즉, 슬라이스의 마지막 값이 포함
df2=pd.DataFrame(np.arange(10,26).reshape(4,4),columns=list("ABCD"))
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [7]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


|인덱싱 값|가능|결과|자료형|추가사항|
|:-|:-|:-|:-|:-|
|행 인덱스 값( 정수)|O|행|시리즈|
|행 인덱스 값 (정수) 슬라이스|O|행|데이터프레임|`loc`가 없는 경우와 같음|
|행 인덱스 값 (정수) 리스트|O|행|데이터프레임|
|불리언 시리즈|O|행|데이터프레임|시리즈의 인덱스가 데이터프레임의 행 인덱스와 같아야 함|
|불리언 시리즈를 반환하는 함수|O|행|데이터프레임
|열 라벨|X|||loc가 없는 경우에만 쓸 수 있음|
|열 라벨 리스트|X|||loc가 없는 경우에만 쓸 수 있음|

### 인덱싱 값을 행과 열 모두 받는 경우
* `df.loc[행 인덱스, 열 인덱스]`와 같은 형태로 사용

In [8]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [9]:
# 인덱싱값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있음
df.loc["a","A"]

10

In [10]:
df.loc["a":"b",["B","D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [11]:
df.loc["b":,"C":]

Unnamed: 0,C,D
b,16,17
c,20,21


In [None]:
# 행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있음


Unnamed: 0,C,D
b,16,17
c,20,21


## `iloc` 인덱서
* `iloc` 인덱서는 `loc` 인덱서와 달리 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받음 (다른 사항은 `loc`와 동일)

In [12]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
df.iloc[0,1]

11

In [14]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int64

In [16]:
df.iloc[0,2:]

C    12
D    13
Name: a, dtype: int64

In [19]:
print(df.iloc[0])

A    10
B    11
C    12
D    13
Name: a, dtype: int64


In [None]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택


A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [20]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [22]:
df.iloc[-1]*=2

In [23]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,72,76,80,84


## 🦆 연습문제 4
1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
1. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

In [33]:
arr=[[random.choice(range(5)) for j in range(5)]for i in range(5)]

In [34]:
import random

df=pd.DataFrame(arr,index=list("abcde"),columns=list("ABCDE"))
df

Unnamed: 0,A,B,C,D,E
a,4,1,3,4,3
b,0,3,1,3,1
c,4,0,3,1,3
d,4,3,3,1,0
e,2,3,2,2,1


In [45]:
df.iloc[0,0:-2]

A    4
B    1
C    3
Name: a, dtype: int64

In [50]:
print(df["A"])
print(df[["A","C"]])
print(df[["A"]])
df[1:2]

a    4
b    0
c    4
d    4
e    2
Name: A, dtype: int64
   A  C
a  4  3
b  0  1
c  4  3
d  4  3
e  2  2
   A
a  4
b  0
c  4
d  4
e  2


Unnamed: 0,A,B,C,D,E
b,0,3,1,3,1


# 데이터프레임에서의 데이터 조작(처리)

* Pandas는 Numpy 2차원 배열에서 가능한 대부분의 데이터 처리
* (+) Pandas만의 데이터 처리 및 변환 관련 함수/기능들을 제공

## 데이터 갯수 세기

### 시리즈의 갯수 세기

In [51]:
s=pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [52]:
s2=pd.Series(range(10))
s2.count() # 갯수 세기

10

In [53]:
# 결축치
s[3]=np.nan

In [54]:
s[3]

nan

### 데이터 프레임의 갯수 세기

In [29]:
np.random.seed(13)
df=pd.DataFrame(np.random.randint(5,size=(4,4)),dtype=float)
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,4.0
3,2.0,2.0,1.0,3.0


In [60]:
df[1][2]

3.0

In [61]:
df.loc[2][1]

3.0

In [62]:
df.loc[2,1]

3.0

In [30]:
df[3][2]=np.nan
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [65]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

Unnamed: 0,A,B,C,D
0,3.0,4.0,1.0,1.0
1,2.0,0.0,3.0,0.0
2,0.0,4.0,1.0,
3,2.0,3.0,4.0,1.0


A    4
B    4
C    4
D    3
dtype: int64

In [66]:
df.count(axis=0)

0    4
1    4
2    4
3    3
dtype: int64

In [67]:
df.count(axis=1)

0    4
1    4
2    3
3    4
dtype: int64

In [50]:
import seaborn as sns # 데이터 시각화 관련 패키지 -> 분석할만한 데이터셋을 내장
titanic = sns.load_dataset('titanic') 
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [70]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [71]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [73]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [74]:
titanic.describe() # 기술통계값들 자동표현(int, float 등 숫자만)

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [78]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [75]:
titanic.describe(include='O')

Unnamed: 0,sex,embarked,who,embark_town,alive
count,891,889,891,889,891
unique,2,3,3,3,2
top,male,S,man,Southampton,no
freq,577,644,537,644,549


In [76]:
titanic.describe(include='category')

Unnamed: 0,class,deck
count,891,203
unique,3,7
top,Third,C
freq,491,59


In [77]:
titanic.describe(include='all')

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


## 🐱 연습 문제 1
* 타이타닉 승객 데이터의 데이터 개수를 각 열마다 구해보시오

In [79]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [80]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


## 범주(카테고리) 값 세기
* 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `value_counts` 메소드로 각각의 값이 나온 횟수를 셀 수 있음

In [8]:
np.random.seed(13)
s2=pd.Series(np.random.randint(6,size=100))
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [82]:
s2.value_counts() # 중복되지 않은 값들만 추려내서 각 값들의 갯수 카운팅

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [83]:
df.value_counts() # 행이 완전 다른애들을 별도로 카운트

0    1    2    3  
2.0  0.0  2.0  0.0    1
     2.0  1.0  3.0    1
     4.0  1.0  4.0    1
dtype: int64

In [86]:
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [90]:
df[1:3].value_counts()

0    1    2    3  
2.0  4.0  1.0  4.0    1
dtype: int64

In [91]:
# 고윳값 배열 # set.
s2.unique() # 고윳값 배열을 리턴

array([2, 0, 4, 1, 3, 5])

In [92]:
# 고윳값의 개수
s2.nunique()

6

## 정렬 (sort)
* 데이터를 정렬하려면 `sort_index` 또는 `sort_values`
* `sort_index` : 인덱스 값을 기준으로. (정수냐 라벨-문자열)
* `sort_values` : 데이터 값 기준으로 정렬.
> 오름차순 -> 행이 늘어나는 방향 -> 데이터 나열되는 방향으로 -> 데이터가 커지는 방향을 일치시켜주겠다 (ascending)<br>
> 내림차순 -> 데이터가 나열되는 방향 -> 데이터가 커지는 방향을 반대로 하겠다

In [9]:
s2

0     2
1     0
2     2
3     0
4     2
     ..
95    1
96    2
97    1
98    3
99    4
Length: 100, dtype: int64

In [10]:
s2.value_counts() # 값 기준 내림차순

3    21
2    20
5    18
1    15
0    13
4    13
dtype: int64

In [11]:
# s2.value_counts().sort_index(ascending=True)
s2.value_counts().sort_index() # 인덱스 기준 오름차순

0    13
1    15
2    20
3    21
4    13
5    18
dtype: int64

In [13]:
s2.value_counts().sort_index(ascending=False) # 인덱스 내림차순

5    18
4    13
3    21
2    20
1    15
0    13
dtype: int64

In [19]:
s2.sort_values(na_position='first')

56    0
46    0
20    0
29    0
84    0
     ..
77    5
64    5
66    5
37    5
49    5
Length: 100, dtype: int64

In [31]:
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,
3,2.0,2.0,1.0,3.0


In [33]:
# 데이터 프레임의 경우에는 sort_values 하고 싶으면 기준이 되는 열의 라벨(이름)을 by로 지정해야한다
df.sort_values(by=3)

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
1,2.0,4.0,1.0,4.0
2,2.0,3.0,2.0,


In [34]:
df.sort_values(by=[1,0])

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
3,2.0,2.0,1.0,3.0
2,2.0,3.0,2.0,
1,2.0,4.0,1.0,4.0


## 행/열 합계
* numpy? np.sum...?

In [35]:
np.random.seed(2023)
df2=pd.DataFrame(np.random.randint(10,size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,7,9,6,7,1,3,4,4
1,6,5,0,6,1,5,7,5
2,8,2,3,1,0,7,1,0
3,0,1,8,1,2,1,0,1


In [39]:
# 행 방향 합계 (열 방향 axis=0 / 행 방향 axis=1)
df2.sum()
df2.sum(axis=0)
df2.sum(axis=1)

0    41
1    35
2    22
3    14
dtype: int64

In [40]:
df2["sum"]=df2.sum(axis=1)

In [41]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,sum
0,7,9,6,7,1,3,4,4,41
1,6,5,0,6,1,5,7,5,35
2,8,2,3,1,0,7,1,0,22
3,0,1,8,1,2,1,0,1,14


In [42]:
df2.loc["colsum",:]=df2.sum()

In [54]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,sum
0,7.0,9.0,6.0,7.0,1.0,3.0,4.0,4.0,41.0
1,6.0,5.0,0.0,6.0,1.0,5.0,7.0,5.0,35.0
2,8.0,2.0,3.0,1.0,0.0,7.0,1.0,0.0,22.0
3,0.0,1.0,8.0,1.0,2.0,1.0,0.0,1.0,14.0
colsum,21.0,17.0,17.0,15.0,4.0,16.0,12.0,10.0,112.0


In [44]:
df2.loc["colsum"]=df2.sum()

In [47]:
df2.loc["colsum"]/=2

In [53]:
# sum : 합계 / mean : 평균
df2.mean()
df2.mean(axis=1)

0          9.111111
1          7.777778
2          4.888889
3          3.111111
colsum    24.888889
dtype: float64

## 🐱 연습문제 2
1. 타이타닉호 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [51]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [57]:
titanic.age.mean()

29.69911764705882

In [77]:
titanic[titanic.sex=="female"].age.mean()

27.915708812260537

In [81]:
titanic.pclass.eq(1)&titanic.sex.eq("female")

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Length: 891, dtype: bool

In [82]:
titanic[titanic.pclass.eq(1)&titanic.sex.eq("female")]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


In [84]:
df_filter=titanic[titanic.pclass.eq(1)&titanic.sex.eq("female")]

In [85]:
df_filter.age.mean()

34.61176470588235

array([3, 1, 2])

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889     True
890    False
Name: pclass, Length: 891, dtype: bool

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Length: 891, dtype: bool

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


(array([1]), array(['female'], dtype=object))

34.61176470588235

## `apply` 변환

* sum, mean 이미 정의된 함수/메소드. 어떠한 작업을 해줄지 이미 정해져있음
* 행이나 열 단위로 복잡한 데이터 처리 -> `apply` 메소드 사용
* 인수로 행 또는 열을 받는 함수 (axis)를 `apply` 메소드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킴


In [86]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4],
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [87]:
# 각 열의 최댓값과 최솟값의 차이를 구하는 연산
df3.max()-df3.min()

A    3
B    2
C    4
dtype: int64

In [89]:
df3.columns # 열 기준 값

Index(['A', 'B', 'C'], dtype='object')

In [90]:
df3.index # 행 기준 값

RangeIndex(start=0, stop=5, step=1)

In [93]:
lambda x : (x) # lambda 인자들 : 인자를 사용해서 반환될 표현식을 만들어내는 기법
df3.apply(lambda x: x.max()-x.min()) # axis=0, 언급이 없으면 기본적으로 x는 열

A    3
B    2
C    4
dtype: int64

In [95]:
df3.apply(lambda x:x.max()-x.min())["A"] # x에 A할당

3

In [96]:
# x : 행 기준 모든 열들
df3.apply(lambda x:x.max()-x.min(),axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [99]:
# [열 기준으로 apply]
titanic.sex.apply(lambda x:"M" if x=="male" else 'F')

0      M
1      F
2      F
3      F
4      M
      ..
886    M
887    F
888    F
889    M
890    M
Name: sex, Length: 891, dtype: object

In [100]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [105]:
# [행 기준으로 apply]
titanic.apply(lambda x:f"{x.sex} / {x.embark_town}",axis=1)

0        male / Southampton
1        female / Cherbourg
2      female / Southampton
3      female / Southampton
4        male / Southampton
               ...         
886      male / Southampton
887    female / Southampton
888    female / Southampton
889        male / Cherbourg
890       male / Queenstown
Length: 891, dtype: object

In [106]:
def some_fun(x):
  return len(x)**2

In [107]:
titanic.apply(some_fun)

survived       793881
pclass         793881
sex            793881
age            793881
sibsp          793881
parch          793881
fare           793881
embarked       793881
class          793881
who            793881
adult_male     793881
deck           793881
embark_town    793881
alive          793881
alone          793881
dtype: int64

In [108]:
titanic.apply(len)

survived       891
pclass         891
sex            891
age            891
sibsp          891
parch          891
fare           891
embarked       891
class          891
who            891
adult_male     891
deck           891
embark_town    891
alive          891
alone          891
dtype: int64

In [110]:
# apply로 계산한 값을 특정 키(열이름)에 추가
titanic['adult/child/sex']=titanic.apply(
    lambda r: f"{r.sex} / {'adult' if r.age >= 20 else 'child'}",
    axis=1
)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male / adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female / adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female / adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female / adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male / adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male / adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female / child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female / child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male / adult


## 🐱 연습문제 3
> 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.
1. 20살이 넘으면 성별을 그대로 사용한다.
1. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [114]:
titanic['adult/child/sex']=titanic.apply(
    lambda x:f"{x.sex} {'adult' if x.age>20 else 'child'}",
    axis=1
)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,male adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,female child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,female child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,male adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,male adult


In [118]:
titanic['category1']=titanic.apply(
    lambda x:f"{x.sex if x.age>20 else 'child'}",
    axis=1
)
titanic.tail(6)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child/sex,category1
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False,female adult,female
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,male adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,female child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,female child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,male adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,male adult,male


In [122]:
# titanic.category1.unique()
titanic.category1.value_counts()

child     356
male      351
female    184
Name: category1, dtype: int64

## `fillna`
* NaN 값을 채워주는 메소드

In [123]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [125]:
pd.value_counts

<function pandas.core.algorithms.value_counts(values, sort: 'bool' = True, ascending: 'bool' = False, normalize: 'bool' = False, bins=None, dropna: 'bool' = True) -> 'Series'>

In [124]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [126]:
# fill -> 채운다 / na? - nan
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## `astype` 메소드
* 지정한 시리즈, 데이터프레임의 자료형을 변경

In [127]:
df4=df3.apply(pd.value_counts).fillna(0.0)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [128]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 1 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       5 non-null      float64
 2   C       5 non-null      float64
dtypes: float64(3)
memory usage: 160.0 bytes


In [130]:
# astype(바꾸고 싶은 타입)
df4.astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [131]:
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [132]:
df4.astype(int).A

1    1
2    0
3    2
4    2
5    0
Name: A, dtype: int64

## 실수 값을 범주형 값으로 변환
* 연령 (숫자) -> 0~99 -> 어린이, 청소년, 청년, 중년, 노년...
* 소득 (숫자) -> 빈민, 서민, 중산, 부유, 초부유층...
> 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때 `cut` `qcut`

In [141]:
np.random.seed=313
ages=np.random.randint(120,size=12)
ages

array([ 61,  53,  11,  67,  22,  80,  87, 109,  62,  27,  35,  78])

In [142]:
# cut : 우리가 직접 범위를 지정해서 해당하는 카테고리를 부여
bins=[1,20,30,50,70,100]
labels=["미성년자","청년","중년","장년","노년"]
cats=pd.cut(ages,bins,labels=labels)
cats

['장년', '장년', '미성년자', '장년', '청년', ..., NaN, '장년', '청년', '중년', '노년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [143]:
bins=[-1,1,20,30,50,70,100,200]
labels=["아기","미성년자","청년","중년","장년","노년","초고령"]
cats2=pd.cut(ages,bins,labels=labels)
cats2

['장년', '장년', '미성년자', '장년', '청년', ..., '초고령', '장년', '청년', '중년', '노년']
Length: 12
Categories (7, object): ['아기' < '미성년자' < '청년' < '중년' < '장년' < '노년' < '초고령']

In [145]:
df_age=pd.DataFrame({"age":ages})
df_age

Unnamed: 0,age
0,61
1,53
2,11
3,67
4,22
5,80
6,87
7,109
8,62
9,27


In [146]:
df_age["age_cat"]=cats
df_age

Unnamed: 0,age,age_cat
0,61,장년
1,53,장년
2,11,미성년자
3,67,장년
4,22,청년
5,80,노년
6,87,노년
7,109,
8,62,장년
9,27,청년


In [147]:
cats.dtype

CategoricalDtype(categories=['미성년자', '청년', '중년', '장년', '노년'], ordered=True)

In [149]:
df_age["age_cat"].astype("object").fillna("미분류")

0       장년
1       장년
2     미성년자
3       장년
4       청년
5       노년
6       노년
7      미분류
8       장년
9       청년
10      중년
11      노년
Name: age_cat, dtype: object

In [150]:
df_age["age_cat"]

0       장년
1       장년
2     미성년자
3       장년
4       청년
5       노년
6       노년
7      NaN
8       장년
9       청년
10      중년
11      노년
Name: age_cat, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [151]:
df_age

Unnamed: 0,age,age_cat
0,61,장년
1,53,장년
2,11,미성년자
3,67,장년
4,22,청년
5,80,노년
6,87,노년
7,109,
8,62,장년
9,27,청년


Unnamed: 0,age,age_cat
0,0,아기
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [153]:
# qcut : 특정한 범위를 쪼개서 처리
qcuts=pd.qcut(ages,4,labels=['유년', '청년', '장년', '노년'])
qcuts

['청년', '청년', '유년', '장년', '유년', ..., '노년', '장년', '유년', '청년', '장년']
Length: 12
Categories (4, object): ['유년' < '청년' < '장년' < '노년']

In [154]:
df_age["age_cat2"]=qcuts
df_age

Unnamed: 0,age,age_cat,age_cat2
0,61,장년,청년
1,53,장년,청년
2,11,미성년자,유년
3,67,장년,장년
4,22,청년,유년
5,80,노년,노년
6,87,노년,노년
7,109,,노년
8,62,장년,장년
9,27,청년,유년


## 데이터프레임 인덱스 조작
* `set_index` : 특정한 열을 새로운 행 인덱스로 지정 (기존 행의 인덱스를 제거)
* `reset_index` : 기존의 행 인덱스를 제거하고, 해당 인덱스를 새로운 열로 추가

In [155]:
list("ABCDE")

['A', 'B', 'C', 'D', 'E']

In [157]:
for i in "ABCDE":
  print(i)

A
B
C
D
E


In [158]:
arr=np.vstack([
    list("ABCDE"),
    np.round(np.random.rand(3,5),2)
])

In [159]:
arr.T

array([['A', '0.85', '0.36', '0.95'],
       ['B', '0.9', '0.44', '0.79'],
       ['C', '0.22', '0.5', '0.99'],
       ['D', '0.89', '0.37', '0.27'],
       ['E', '0.14', '0.32', '0.22']], dtype='<U32')

In [163]:
df1 = pd.DataFrame(arr.T, columns="'C1', 'C2', 'C3', 'C4'")
df1

TypeError: ignored

In [162]:
df1=pd.DataFrame(arr.T,columns="'C1', 'C2', 'C3', 'C4'")
df1

TypeError: ignored

Unnamed: 0,C1,C2,C3,C4
0,A,0.21,0.34,0.01
1,B,0.48,0.27,0.56
2,C,0.42,0.69,0.81
3,D,0.86,0.22,0.75
4,E,0.17,0.81,0.19


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   C1      5 non-null      object
 1   C2      5 non-null      object
 2   C3      5 non-null      object
 3   C4      5 non-null      object
dtypes: object(4)
memory usage: 288.0+ bytes


Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.21,0.34,0.01
B,0.48,0.27,0.56
C,0.42,0.69,0.81
D,0.86,0.22,0.75
E,0.17,0.81,0.19


Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.21,0.34,0.01
0.48,0.27,0.56
0.42,0.69,0.81
0.86,0.22,0.75
0.17,0.81,0.19


Unnamed: 0,C1,C2,C3,C4
0,A,0.21,0.34,0.01
1,B,0.48,0.27,0.56
2,C,0.42,0.69,0.81
3,D,0.86,0.22,0.75
4,E,0.17,0.81,0.19


Unnamed: 0,C2,C3,C4
0,0.21,0.34,0.01
1,0.48,0.27,0.56
2,0.42,0.69,0.81
3,0.86,0.22,0.75
4,0.17,0.81,0.19


## 데이터프레임에서의 삭제 `drop`

In [164]:
# del 로 키값을 지정해서 지울 수 있다
# -> 일반적으로 쓰이는 방식은 아니다
# df.drop 메소드
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [168]:
df_copy=df3.copy()
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [170]:
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [169]:
# df_copy.drop(라벨, axis=축)
# df_copy의 0 행을 삭제한다
# df_copy.drop(행 이름)
df_copy.drop(0)


Unnamed: 0,A,B,C
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [171]:
# df_copy.drop(열 이름, axis=1)
df_copy.drop('A',axis=1)

Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4


In [172]:
df_copy

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [None]:
# inplace : 원본에 영향을 미치는 함수로 만들어주겠다 (True)
df_copy.drop(0,inplace=True)

Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4


In [173]:
df_copy.drop("B",axis=1,inplace=True)
df_copy

Unnamed: 0,A,C
0,1,1
1,3,5
2,4,2
3,3,4
4,4,4


Unnamed: 0,B,C
0,2,1
1,3,5
2,1,2
3,2,4
4,3,4
