In [35]:
import numpy as np
import pandas as pd

# 데이터프레임에서의 데이터 조작 - 데이터를 통계/정돈/정리
* Pandas는 Numpy 2차원 배열에서 가능한 대부분의 데이터 처리
* (+) Pandas만의 데이터 정리 및 변환 관련 함수/기능들을 제공

## 데이터 갯수 세기

### 리시즈

In [36]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [37]:
s2  = pd.Series(range(10))
s2.count() # nan이 없음 (모두 가득 차 있음)

10

In [38]:
s[3] = np.nan # 결측치 - 측정을 했는데 결여된? 없는? 오류난? 값
# 결측치, 이상치, ... 
s # 결측치 1개 포함 (10개 중)

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [39]:
s.count() # series.count() -> 결측치(nan)를 빼고 세준다

9

### 데이터 프레임의 갯수 세기

In [40]:
np.random.seed(8) # 결과는 int로 나옴
# dtype이 float이고 4행 4열 배열로 데이터 프레임 생성 (NaN이 float)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float) # 직접 타입을 지정가능
df

Unnamed: 0,0,1,2,3
0,3.0,4.0,1.0,1.0
1,2.0,0.0,3.0,0.0
2,0.0,4.0,1.0,3.0
3,2.0,3.0,4.0,1.0


In [41]:
df[3][2] # 인덱싱 방식

3.0

In [42]:
df.loc[2,3] # loc 방식

3.0

In [43]:
df.loc[2,3] # iloc 방식 

3.0

In [44]:
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,3.0,4.0,1.0,1.0
1,2.0,0.0,3.0,0.0
2,0.0,4.0,1.0,
3,2.0,3.0,4.0,1.0


In [62]:
df.columns = ['A', 'B', 'C', 'D']
df

Unnamed: 0,A,B,C,D
0,3.0,4.0,1.0,1.0
1,2.0,0.0,3.0,0.0
2,0.0,4.0,1.0,
3,2.0,3.0,4.0,1.0


In [45]:
df.count(axis=0) # 열방향으로 count

0    4
1    4
2    4
3    3
dtype: int64

In [46]:
df.count(axis=1) # 행 방향으로 count

0    4
1    4
2    3
3    4
dtype: int64

In [47]:
import seaborn as sns #  데이터 시각화 관련 패키지 -> 분석할만한 데이터셋을 내장
titanic = sns.load_dataset('titanic') # pd.read_csv... url # 내장된 데이터 셋을 불러옴
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [48]:
titanic.head() # 상위 5개 출력

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [49]:
titanic.tail() # 하위 5개 출력

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [50]:
titanic.info() # 행과 열에 대한 정보 # non-null은 채워져 있는 수 # 15개

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [51]:
titanic.describe() # 통계값 -> 계산 가능한 숫자들로 구성된 값들에 대한 통계값
# -> 연속형 변수 6개(계산이 가능한 변수만 사용 = 연속형 변수/계산이 불가능한 변수 = 범주형 변수  )

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [52]:
titanic.describe(include='O') # 범주형 변수에 대한 설명

Unnamed: 0,sex,embarked,who,embark_town,alive
count,891,889,891,889,891
unique,2,3,3,3,2
top,male,S,man,Southampton,no
freq,577,644,537,644,549


In [53]:
titanic.describe(include='all') # 모든 결과를 출력하고 싶을때 # bool은 출력되지 않는다.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


## ⏰ 연습 문제 1
* 타이타닉 승객 데이터의 데이터 개수를 각 열마다 구해보시오

In [54]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [55]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


## 범주(카테고리) 값 세기
* 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `values_counts`메소드로 각각의 값이 나온 횟수를 셀 수 없음

In [56]:
np.random.seed(8)
s2 = pd.Series(np.random.randint(6, size=100)) #0~5까지 숫자 중에 100개를 선택(특정한 범위에서 원하는 개수를 꺼냄)
s2

0     3
1     4
2     1
3     1
4     5
     ..
95    4
96    0
97    1
98    3
99    2
Length: 100, dtype: int64

In [57]:
s.value_counts() # 1. 중복되지 않는 값들만 추려내서 2. 

0.0    1
1.0    1
2.0    1
4.0    1
5.0    1
6.0    1
7.0    1
8.0    1
9.0    1
dtype: int64

In [58]:
s2.value_counts() # 우리가 원하는 값이 아니다(의도된 값이 아님)

3    20
2    19
1    16
5    16
4    15
0    14
dtype: int64

In [63]:
df['A'].value_counts() # df[열이름].value_counts -> 고유한 값들 -> 카운트

2.0    2
3.0    1
0.0    1
Name: A, dtype: int64

In [64]:
# 고윳값
s2.unique() # 고윳값 배열을 리턴

array([3, 4, 1, 5, 2, 0])

## 정령(sort)
* 데이터를 정렬하려면 `sort_index` 또는 `sort_values`
* `sort_index` : 인덱스 값을 기준으로 (정수나 라벨 - 문자열)
* `sort_values` : 데이터 값 기준으로 정렬
> 오름차순 - 행이 늘어나는 방향(데이터가 전개 되는 방향을 일치시키) (ascending) <br>
> 내림차순 - 데이터가 나열되는 방향과 데이터가 전개되는 방향을 반대로 하겠다!

In [66]:
s2

0     3
1     4
2     1
3     1
4     5
     ..
95    4
96    0
97    1
98    3
99    2
Length: 100, dtype: int64

In [65]:
s2.value_counts() # 기본값이 값? 기준 내림차순

3    20
2    19
1    16
5    16
4    15
0    14
dtype: int64

In [67]:
s2.value_counts().sort_index() # 인덱스를 오름차순으로 정렬(기본 설정)

0    14
1    16
2    19
3    20
4    15
5    16
dtype: int64

In [68]:
s2.value_counts().sort_index(ascending=True)  # 인덱스를 오름차순으로 정렬

0    14
1    16
2    19
3    20
4    15
5    16
dtype: int64

In [69]:
s2.value_counts().sort_index(ascending=False)  # 인덱스를 내림차순으로 정렬

5    16
4    15
3    20
2    19
1    16
0    14
dtype: int64

In [70]:
s.sort_values() # nan을 가장 나중에 출력하도록

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [72]:
s.sort_values(na_position='first') #nan을 원하는 위치로 옮길 수 있다! - 원하는 연산을 할 수 있다.

3    NaN
0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [73]:
df

Unnamed: 0,A,B,C,D
0,3.0,4.0,1.0,1.0
1,2.0,0.0,3.0,0.0
2,0.0,4.0,1.0,
3,2.0,3.0,4.0,1.0


In [74]:
# 데이터 프레임을 sort_values 하고 싶으면 기준이 되는 열의 라벨(이름)을 by로 지정
df.sort_values(by="A") # 원하는 열의 라벨을 기준으로 오름차순 정렬 

Unnamed: 0,A,B,C,D
2,0.0,4.0,1.0,
1,2.0,0.0,3.0,0.0
3,2.0,3.0,4.0,1.0
0,3.0,4.0,1.0,1.0


In [76]:
df.sort_values(by=['B','A']) # 정렬 기준 열 B로 정렬을 했을때, 동점이 있으면 A로 정렬

Unnamed: 0,A,B,C,D
1,2.0,0.0,3.0,0.0
3,2.0,3.0,4.0,1.0
2,0.0,4.0,1.0,
0,3.0,4.0,1.0,1.0


## 행/열 합계
* numpy에서 사용했던 np.sum 등을 이용한다.

In [77]:
np.random.seed(12)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,6,1,2,3,3,0,6,1
1,4,5,9,2,6,0,5,8
2,2,9,3,4,3,1,7,0
3,2,6,2,0,4,6,9,0


In [79]:
# 행방향 합계 (열 방향 axis = 0, 행 방향 axis = 1)
df.sum() # 열단위 합계!

A     7.0
B    11.0
C     9.0
D     2.0
dtype: float64

In [81]:
df2.sum(axis=1) # 행방향 합계 

0    22
1    39
2    29
3    29
dtype: int64

In [82]:
df2['Sum'] = df2.sum(axis=1) # sum이라는 열을 만들어서 결과값을 넣음
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,6,1,2,3,3,0,6,1,22
1,4,5,9,2,6,0,5,8,39
2,2,9,3,4,3,1,7,0,29
3,2,6,2,0,4,6,9,0,29


In [83]:
df2.loc['ColSum', :] = df2.sum() # 열 합계
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,6.0,1.0,2.0,3.0,3.0,0.0,6.0,1.0,22.0
1,4.0,5.0,9.0,2.0,6.0,0.0,5.0,8.0,39.0
2,2.0,9.0,3.0,4.0,3.0,1.0,7.0,0.0,29.0
3,2.0,6.0,2.0,0.0,4.0,6.0,9.0,0.0,29.0
ColSum,14.0,21.0,16.0,9.0,16.0,7.0,27.0,9.0,119.0


In [88]:
# sum : 합계, mean: 평균
df2.mean() # 열방향 평균

0       5.6
1       8.4
2       6.4
3       3.6
4       6.4
5       2.8
6      10.8
7       3.6
Sum    47.6
dtype: float64

In [89]:
df2.mean(axis=1)

0          4.888889
1          8.666667
2          6.444444
3          6.444444
ColSum    26.444444
dtype: float64

## ⏰ 연습문제 2
1. 타이타닉호 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
# 나이는 age / (sex: male=남성, female=여성) / pl

In [90]:
titanic 

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [91]:
# 타이타닉호 승객의 평균 나이를 구하라.
titanic.age.mean()

29.69911764705882

In [102]:
# 2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
#2-1 여성 승객의 행을 구하기
#                               titanic['sex'] == female' 만족시키는 행들만 필터링 => 불리언 배열 인덱싱
#2-2 여성 승객 행들 간의 평균 나이 구하기
#2-1
# 벡터화 연산  성별이 여성과 같은 일치하는지 여부 
#titanic['sex'] == 'female' # 불리언 배열 -> 여성만 필터링
f = titanic['sex'] == 'female' # 불리언 배열 -> 여성만 필터링
f

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888     True
889    False
890    False
Name: sex, Length: 891, dtype: bool

In [101]:
female = titanic.loc[f] # df.loc[행 조건(불리언 배열 인덱싱)]
female

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True


In [103]:
# 3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.
# [타이타닉호] (df) [1등실 선실] (condition) [여성 승객] (condition) [평균] (계산) [나이] (column)
titanic.pclass.unique() # 1->1등급

array([3, 1, 2])

In [104]:
first_class = titanic.pclass == 1
first_class

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889     True
890    False
Name: pclass, Length: 891, dtype: bool

In [108]:
first_class & f # and(&) => 둘 다 True 만족시키는 원소만 True

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Length: 891, dtype: bool

In [106]:
#first_class | f # or(|) => 둘 중 하나만 True 만족시켜도 True

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888     True
889     True
890    False
Length: 891, dtype: bool

In [109]:
df_t = titanic[first_class & f]
df_t

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


In [110]:
df_t.pclass.unique(), df_t.sex.unique()

(array([1]), array(['female'], dtype=object))

In [111]:
df_t.age.mean()

34.61176470588235

## `apply` 변환
* sum, mean 이미 정의된 함수/메소드. 어떠한 작업을 해줄지 이미 정해져 있음.
* 행이나 열 단위로 복잡한 데이터 처리 -> `apply` 메소드 사용
* 인수로 행 또는 열을 받는 함수 (axis)를 `apply` 메소드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킴

In [112]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [113]:
# 각 열의 최댓값과 최솟값의 차이를 구하는 연산
df3.max() - df3.min()

A    3
B    2
C    4
dtype: int64

In [114]:
df3.columns

Index(['A', 'B', 'C'], dtype='object')

### 람다함수
lambda x: (x) # lamebda(인자): 표현식
# 익명함수-> 한번 사용하고 휘발됨

In [115]:
# x는 열을 의미
df3.apply(lambda x:x.max() - x.min())
# A, B, ...

A    3
B    2
C    4
dtype: int64

In [118]:
df3.apply(lambda x:x.max() - x.min(), axis = 0)

A    3
B    2
C    4
dtype: int64

In [117]:
# x는 행을 의미
df3.apply(lambda x:x.max() - x.min(), axis = 1)
# 0행,1행,...

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [119]:
# 열 기준으로 apply
#age : 칼럼 -> 시리즈 -> 행들이 x
# 삼항 연산자: (조건을 만족시켰을때 값) if (검증할 조건) else (조건을 만족시키지 않았을때 값)
# 다른 언어 : (조건) ? (참일 때) : (거짓일 때)
titanic.sex.apply(lambda x: 'M' if x == 'male' else 'F')

0      M
1      F
2      F
3      F
4      M
      ..
886    M
887    F
888    F
889    M
890    M
Name: sex, Length: 891, dtype: object

In [120]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [122]:
# 행 기준으로 apply
# f"{sex} / {embark_town}"
titanic.apply(lambda x: f"{x.sex} / {x.embark_town}", axis=1) # axis가 1이니까 행 기준으로 (여기서는 문자열로 작성ㅇ)

0        male / Southampton
1        female / Cherbourg
2      female / Southampton
3      female / Southampton
4        male / Southampton
               ...         
886      male / Southampton
887    female / Southampton
888    female / Southampton
889        male / Cherbourg
890       male / Queenstown
Length: 891, dtype: object

In [124]:
def some_fun(x):
    return len(x) ** 2

In [125]:
titanic.apply(some_fun) # 함수 호출

survived       793881
pclass         793881
sex            793881
age            793881
sibsp          793881
parch          793881
fare           793881
embarked       793881
class          793881
who            793881
adult_male     793881
deck           793881
embark_town    793881
alive          793881
alone          793881
dtype: int64

In [123]:
titanic.apply(len) # 원래 함수()로 사용했던 함수를 괄호없이 함수명만 넣으면 lambda 처럼 사용가능

survived       891
pclass         891
sex            891
age            891
sibsp          891
parch          891
fare           891
embarked       891
class          891
who            891
adult_male     891
deck           891
embark_town    891
alive          891
alone          891
dtype: int64

In [129]:
# apply로 계산한 값을 특정 키(열이름)에 추가
titanic['adult/child'] = titanic.apply(
    lambda r: "adult" if r.age >= 20 else "child",
    axis=1 # row(행) 기준 처리
)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult


In [131]:
# apply로 계산한 값을 특정 키(열이름)에 추가
titanic['adult/child/sex'] = titanic.apply(
    lambda r: r.sex + " " + ("adult" if r.age >= 20 else "child"),
    axis=1 # row(행) 기준 처리
)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,adult/child/sex
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,female child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male adult


## ⏰ 연습문제 3
> 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.
1. 20살이 넘으면 성별을 그대로 사용한다.
1. 20살 미만이면 성별에 관계없이 “child”라고 한다

In [132]:
# apply로 계산한 값을 특정 키(열이름)에 추가
titanic['category1'] = titanic.apply(
    lambda r: r.sex if r.age >= 20 else "child",    axis=1 # row(행) 기준 처리
)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,adult/child/sex,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,female child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male adult,male


In [133]:
titanic.category1.unique()

array(['male', 'female', 'child'], dtype=object)

In [134]:
titanic.category1.value_counts() # 카테고리별 몇 개가 나오는지!

male      364
child     341
female    186
Name: category1, dtype: int64

## `fillna`
* NaN 값을 채워주는 메소드 

In [135]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [137]:
df3.apply(pd.value_counts) # 열 마다 고유 값의 빈도를 확인가능
# apply
# pd.value_counts(열) -> 특정한 열에 고유값이 어떤 빈도 쓰였는지

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [138]:
# fill -> 채운다 / nan을 0.0으로 채움
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## `astype`메소드
* 지정한 시리즈, 데이터 자료형을 변경

In [139]:
df4 = df3.apply(pd.value_counts).fillna(0.0)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [140]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 1 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       5 non-null      float64
 2   C       5 non-null      float64
dtypes: float64(3)
memory usage: 160.0 bytes


In [141]:
# astype(바꾸고 싶은 타입) - float를 int 로, 형변환과 비슷!
df4.astype(int) # 원본에 영향을 안줌

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [142]:
df4.A

1    1.0
2    0.0
3    2.0
4    2.0
5    0.0
Name: A, dtype: float64

## 실수 값을 범주형 값으로 변환
* 연령 범위(숫자) -> 0~99를 어린이, 청소년, 청년, 중년, 노년, 등으로 분류 가능
* 소득(숫자) -> 빈민, 서민, 중산, 부유
> 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을때 `cut`, `qcut`

In [143]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101] # 데이터

In [151]:
# cut : 우리가 직접 범위를 지정해서 해당하는 카테고리를 부여
# 1세 ~ : 미성년자
# 20세 ~ : 청년
# 30세 ~ : 중년
# 50세 ~ : 장년
# 70세 ~ : 노년
bins = [1, 20, 30, 50, 70, 100] # 범주화 기준(데이터와 비교대상)
labels = ["미성년자","청년","중년","장년","노년"] # 범주화 기준(범주화 기준 숫자 -1인 이유는 숫자 기준 사이에 들어가서!!!!)
cats = pd.cut(ages, bins, labels=labels)
cats # 0세와 100세의 경우 NaN 발생

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [146]:
bins2 = [-1, 1, 20, 30, 50, 70, 100, 200] # 0로 작성하면 0이 포함x라서 -1로 시작!
labels2 = ["아기","미성년자", "청년", "중년", "장년", "노년", "초고령"]
cats2 = pd.cut(ages, bins2, labels=labels2)
cats2

['아기', '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', '초고령']
Length: 12
Categories (7, object): ['아기' < '미성년자' < '청년' < '중년' < '장년' < '노년' < '초고령']

In [147]:
df_age = pd.DataFrame({'age': ages})
df_age

Unnamed: 0,age
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [None]:
# df_age['cat'] = df_age.apply(...) # 이런식으로 많이 사용한다.

In [148]:
df_age['age_cat'] = cats # pd.cut 내용을 변수에 담은 cats!
df_age

Unnamed: 0,age,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [149]:
# qcut : 특정한 범위를 쪼개서 처리
qcats = pd.qcut(ages, 4, labels=['유년', '청년', '장년', '노년']) # 들어온 데이터 기준으로 4등분?
qcats

['유년', '유년', '유년', '청년', '청년', ..., '노년', '청년', '노년', '장년', '노년']
Length: 12
Categories (4, object): ['유년' < '청년' < '장년' < '노년']

In [150]:
df_age['age_cat2'] = qcats
df_age

Unnamed: 0,age,age_cat,age_cat2
0,0,,유년
1,2,미성년자,유년
2,10,미성년자,유년
3,21,청년,청년
4,23,청년,청년
5,37,중년,장년
6,31,중년,장년
7,61,장년,노년
8,20,미성년자,청년
9,41,중년,노년


In [154]:
qcats = pd.qcut(ages, 5, labels=['1구역', '2구역', '3구역', '4구역','5구역']) # 들어온 데이터 기준으로 5등분?
qcats

['1구역', '1구역', '1구역', '2구역', '3구역', ..., '5구역', '2구역', '5구역', '4구역', '5구역']
Length: 12
Categories (5, object): ['1구역' < '2구역' < '3구역' < '4구역' < '5구역']

In [156]:
df_age['age_cat2'] = qcats  # 1구역 3, 2구역 2, 3구역 2, 4구역 2, 5구역 3
df_age

Unnamed: 0,age,age_cat,age_cat2
0,0,,1구역
1,2,미성년자,1구역
2,10,미성년자,1구역
3,21,청년,2구역
4,23,청년,3구역
5,37,중년,4구역
6,31,중년,3구역
7,61,장년,5구역
8,20,미성년자,2구역
9,41,중년,5구역


In [157]:
cats.dtype # fillna 불가

CategoricalDtype(categories=['미성년자', '청년', '중년', '장년', '노년'], ordered=True)

In [158]:
df_age['age_cat'] = df_age['age_cat'].astype('object').fillna('미분류')
df_age

Unnamed: 0,age,age_cat,age_cat2
0,0,미분류,1구역
1,2,미성년자,1구역
2,10,미성년자,1구역
3,21,청년,2구역
4,23,청년,3구역
5,37,중년,4구역
6,31,중년,3구역
7,61,장년,5구역
8,20,미성년자,2구역
9,41,중년,5구역


# 데이터프레임 인덱스 조작
* `set_index` : 특정한 행을 새로운 인덱스로 사용(기존 행의 인덱스를 제거)
* `reset_index` : 기존의 행 인덱스를 제거하고, 해당 인덱스를 새로운 열로 추가

In [160]:
"ABCDE"

'ABCDE'

In [161]:
for c in "ABCDE":
    print(c)

A
B
C
D
E


In [162]:
arr = np.vstack([
      ["A", "B", "C", "D", "E"], # list('ABCDE') 1 x 5
        # 0 ~ 1 실수를 3x5 행렬 모양으로.
        np.round(np.random.rand(3, 5), 2) # 3 x 5
    ])
arr # 4 x 5

array([['A', 'B', 'C', 'D', 'E'],
       ['0.21', '0.48', '0.42', '0.86', '0.17'],
       ['0.34', '0.27', '0.69', '0.22', '0.81'],
       ['0.01', '0.56', '0.81', '0.75', '0.19']], dtype='<U32')

In [163]:
arr.shape # 4, 5
arr.T # 열(String), float, float, float

array([['A', '0.21', '0.34', '0.01'],
       ['B', '0.48', '0.27', '0.56'],
       ['C', '0.42', '0.69', '0.81'],
       ['D', '0.86', '0.22', '0.75'],
       ['E', '0.17', '0.81', '0.19']], dtype='<U32')

In [164]:
np.random.seed(22)
df1 = pd.DataFrame(
    np.vstack([ # 같은 열 사이즈인데 행 방향으로 겹쳐짐
      ["A", "B", "C", "D", "E"], # list('ABCDE') # 1 x 5
        # 0 ~ 1 실수를 3x5 행렬 모양으로.
        np.round(np.random.rand(3, 5), 2) # 3 x 5 => 4 x 5
    ]).T, # .T -> 전치
    columns=["C1", "C2", "C3", "C4"] # 열 인덱스
)

In [165]:
df1.info() # c2, c3, c4를 float? => astype => astype(float) => 대입

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   C1      5 non-null      object
 1   C2      5 non-null      object
 2   C3      5 non-null      object
 3   C4      5 non-null      object
dtypes: object(4)
memory usage: 288.0+ bytes


In [166]:
# set_index를 사용해서 C1 열을 인덱스로 지정해서 사용
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.21,0.34,0.01
B,0.48,0.27,0.56
C,0.42,0.69,0.81
D,0.86,0.22,0.75
E,0.17,0.81,0.19


In [167]:
df2.set_index('C2') # set_index C2 인덱스 지정 -> 인덱스로 지정했던 C1 

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.21,0.34,0.01
0.48,0.27,0.56
0.42,0.69,0.81
0.86,0.22,0.75
0.17,0.81,0.19


In [168]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.21,0.34,0.01
1,B,0.48,0.27,0.56
2,C,0.42,0.69,0.81
3,D,0.86,0.22,0.75
4,E,0.17,0.81,0.19


In [169]:
df2.reset_index(drop=True) # 원래 있던 행 인덱스를 삭제해주고 싶다 - 정수형 인덱스로 만들고 싶을때

Unnamed: 0,C2,C3,C4
0,0.21,0.34,0.01
1,0.48,0.27,0.56
2,0.42,0.69,0.81
3,0.86,0.22,0.75
4,0.17,0.81,0.19


# 데이터프레임의 합성
* `numpy` 배열을 합치는 것 : `concatenate`, `vstack`(열 사이즈), 'hstack`(행), 'dstack'(m x n), 'stack`(m x n) ... 모양이 맞는 것들을 연결

1:1로 연결

|이름|전화번호|
|-|-|
|김제육|010-xxxx-xxxx|
|이김치|010-xxxx-xxxx|

|이름|주소|
|-|-|
|김제육|서울시 제육구|
|이김치|경기도 김치시|

↓

|이름|전화번호|주소|
|-|-|-|
|김제육|010-xxxx-xxxx|서울시 제육구|
|이김치|010-xxxx-xxxx|경기도 김치시|

`이름` : `공통 열`
행 라벨 -> 열, 이름. 행 인덱스
0~10....

---
1:M 로 연결

|이름|주소|
|-|-|
|A|서울시|
|B|경기도|
|C|서울시|
|D|울산시|

|주소|지원금|
|-|-|
|서울시|10000|
|경기도|11100|
|인천시|20000|

↓

|이름|주소|지원금|
|-|-|-|
|A|서울시|10000|
|B|경기도|11100|
|C|서울시|10000|

In [170]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


## `merge` (두 개 이상의 데이터프레임을 join, 연결)

In [171]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [173]:
# 결합하다
# inner join (기준되는 열) 양쪽 데이터프레임에 모두 속하는 원소 = sql에서의 조인과 비슷하다
pd.merge(df1, df2) #  고객번호를 기준으로 df1과 df2에 있는 행들만 결합! inner join이 기본값

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [174]:
pd.merge(df1, df2, how='outer') # outer join # 없으면 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [175]:
pd.merge(df1, df2, how='left') # outer join - left : df1의 전체 내용 출력

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [176]:
pd.merge(df1, df2, how='right') # outer join - right : df2의 전체 내용 출력

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [None]:
#df1.join -> left, right등 설정가능하고 df1을 left로 본다(주체니까!)