In [1]:
import numpy as np
import pandas as pd

In [2]:
# Series apply() 메서드
# 각 값에 대해 모두 함수를 적용하는 방법
# pd.Series.apply(func, convert_dtype=True, args=(), **kwargs)
# 첫 인자 값은 함수 객체(소괄호 없이)를 넘겨주며 필수값

In [3]:
# 함수 호출 -> 함수명()
# 함수 객체 -> 함수명

In [4]:
pokemons = pd.read_csv("C:/python/datas/pokemon.csv", index_col=["Pokemon"]).squeeze()
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [5]:
# 타입이 2개이면 “Multi”라는 값을 반환
# 타입이 1개이면 “Single”이라고 반환

def single_or_multi(type):
    if "/" in type:
        return "Multi"
    return "Single"

pokemons.apply(single_or_multi)    # Series 형태로 반환

Pokemon
Bulbasaur       Multi
Ivysaur         Multi
Venusaur        Multi
Charmander     Single
Charmeleon     Single
                ...  
Stakataka       Multi
Blacephalon     Multi
Zeraora        Single
Meltan         Single
Melmetal       Single
Name: Type, Length: 809, dtype: object

In [6]:
# 연습문제
# 타입이 2개인 포켓몬의 수와 타입이 1개인 포켓몬의 수

pokemons.apply(single_or_multi).value_counts()

Multi     405
Single    404
Name: Type, dtype: int64

In [7]:
# DataFrame apply() 메서드

# 첫 인자:함수(필수 값)
# 두 번째 인자: axis(axis 인자는 0이 default)

In [8]:
df=pd.DataFrame([[4, 9]]*3, columns=['A', 'B'])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [9]:
# np.sqrt: 각 요소마다 적용되는 함수(universal function, ufunc)
# 이 경우에는 np.sqrt(df)와 동일한 결과

df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [10]:
# 차원 축소 함수(reducing function)
# axis의 값에 따라 값의 축소되는 방향이 달라서 서로 결과가 다르다.
# axis = 0, axis = "index", axis = "rows" 모두 동일한 결과

In [11]:
df.apply(np.sum, axis="index")

A    12
B    27
dtype: int64

In [12]:
df.apply(np.sum, axis="rows")

A    12
B    27
dtype: int64

In [13]:
# axis=0은 axis="rows", axis="index"와 같다.
df.apply(np.sum, axis=0)

A    12
B    27
dtype: int64

In [14]:
# 함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과 얻음
# row마다 리스트를 반환하면 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과 얻음

df    # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [15]:
df.apply(lambda x: [1, 2], axis=0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [16]:
df.apply(lambda x: [1, 2], axis=1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

In [17]:
# result_type = 'expand'
# 리스트를 하나의 값으로 보지 않고 리스트 요소마다 column으로 인식하도록 확장

df.apply(lambda x: [1, 2], axis=1, result_type='expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


In [18]:
# Series를 return하는 함수를 사용
# result_type = 'expand'과 비슷한 결과
# 이 때 Series의 index label은 column label이 된다.

df.apply(lambda x: pd.Series([1, 2], index=['foo', 'bar']), axis=1)

Unnamed: 0,foo,bar
0,1,2
1,1,2
2,1,2


In [19]:
# result_type=’broadcast’를 인수로 전달하면 동일한 shape의 결과를 보장
# 기존의 shape와 함수 return된 값의 shape의 크기가 동일하다. → 브로드캐스팅 가능

df.apply(lambda x: [1, 2], axis=1, result_type='broadcast')

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [20]:
# return되는 값이 기존 shape로 broadcast할 수 없는 shape이면 ValueError 발생

# 기존의 shape      : 3 × 2
# 함수 return shape :     3

In [21]:
# column마다의 최대값과 최소값의 차이

df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [22]:
# column마다의 최대값과 최소값의 차이를 계산

df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [23]:
# row에 대하여 적용하고 싶으면 axis = 1 사용

df3.apply(lambda x: x.max() - x.min(), axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [24]:
# value_counts 함수
# 각 column에 대해 어떤 값이 얼마나 사용되었는지 알 수 있음

df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [25]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [26]:
# 성인(adult)과 미성년자 (child)를 구별하는 label column

titanic["adult/child"]=titanic.apply(lambda r: "adult" 
                                      if r.age >= 20 
                                      else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


In [27]:
titanic["category1"] = titanic.apply(lambda x: x['sex']
                                     if x['age'] >= 20
                                     else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


In [28]:
# DataFrame fillna() 메서드

# NaN 값을 원하는 값으로 바꿀 수 있음
# 첫 인자로 NaN을 변경하고자 하는 값을 전달

In [29]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [30]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


In [31]:
# limit 키워드 인자에 숫자를 전달
# 그 숫자만큼 column마다 변경 횟수를 제한

values = {"A": 0, "B": 1, "C": 2, "D": 3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


In [32]:
# DataFrame을 value로 전달해서 NaN 값 대체 가능
# column label과 row index가 일치하지 않으면 적용되지 않음

df2 = pd.DataFrame(np.zeros((3, 4)), columns=list('ABCE'))
df2

Unnamed: 0,A,B,C,E
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0


In [33]:
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [34]:
df.fillna(df2)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,,3.0,,4.0


In [35]:
# 연습문제
# 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 나오는 DataFrame

titanic['age'] = titanic['age'].fillna(round(titanic['age'].mean(), 2))
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


In [36]:
# DataFrame astype() 메서드
# 첫 인자로 변경해줄 dtype을 전달
# DataFrame.astype(dtype, copy = True, errors = 'raise')

In [37]:
# astype(‘int32’)를 호출해서 모든 column의 dtype을 형변환 

d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df.dtypes

col1    int64
col2    int64
dtype: object

In [38]:
df.astype('int32').dtypes

col1    int32
col2    int32
dtype: object

In [39]:
df.astype({'col1':'int32'}).dtypes

col1    int32
col2    int64
dtype: object

In [40]:
# 연습문제

employees = pd.read_csv('C:/python/datas/employees.csv', parse_dates=['Start Date'])
employees

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


In [41]:
# 연습문제
# Mgmt의 데이터 타입 변경

employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        933 non-null    object        
 5   Team        957 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 47.0+ KB


In [42]:
employees['Mgmt'] = employees['Mgmt'].astype(bool)
employees.info()

# memory usage가 줄어듦 -> 최적화!
# np.nan -> True

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    object        
dtypes: bool(1), datetime64[ns](1), float64(1), object(3)
memory usage: 40.2+ KB


In [43]:
# 연습문제
# Salary의 2개의 nan 값을 0으로 변경
# Salary의 값이 소수점 값이 있는지 검토하고 없다면 int형으로 변경

employees['Salary'] = employees['Salary'].fillna(0)

In [44]:
# 소수점 값이 전부 없음을 확인

sum((employees.Salary - employees.Salary.astype(int))>0)

0

In [45]:
employees['Salary'] = employees['Salary'].astype('int')
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      1001 non-null   int32         
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    object        
dtypes: bool(1), datetime64[ns](1), int32(1), object(3)
memory usage: 36.3+ KB


In [46]:
# 연습문제
# 컬럼마다 고유한 값의 숫자가 얼마나 되는지 확인
# 범주형(category)으로 만들면 좋을 컬럼이 어떤 것이 있는지 고민해보고 적용

employees.nunique()

First Name    200
Gender          2
Start Date    971
Salary        995
Mgmt            2
Team           10
dtype: int64

In [47]:
employees.Gender.value_counts()

Female    431
Male      423
Name: Gender, dtype: int64

In [48]:
employees.Team.value_counts()

IT              106
Finance         102
Business Dev    101
Marketing        98
Product          95
Sales            94
Engineering      92
HR               91
Distribution     90
Legal            88
Name: Team, dtype: int64

In [49]:
employees['Gender'] = employees['Gender'].astype('category')
employees['Team'] = employees['Team'].astype('category')

employees.info()
# memory usage가 40% 이상 줄어듦

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    category      
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      1001 non-null   int32         
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    category      
dtypes: bool(1), category(2), datetime64[ns](1), int32(1), object(1)
memory usage: 23.1+ KB


In [50]:
# 연습문제
# 나이와 성별에 의한 카테고리 column인 category2 column

titanic['category2'] = titanic['sex'] + titanic['age'].astype('str')
titanic[['age', 'category2']]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,29.7,female29.7
889,26.0,male26.0


In [51]:
# DataFrame 실수 값을 카테고리 값으로 변환

# cut: 하한값, 상한값을 갖는 리스트를 bins 키워드 인수에 전달
#    - x = 1차원 형태의 배열 형태가 온다.
#    - bins = int, 스칼라를 요소로 갖는 시퀀스가 온다.

In [52]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

# cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있음
# bins 인수는 카테고리를 나누는 기준값이 됨
# 영역을 넘는 값은 NaN 처리

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
cats = pd.cut(ages, bins, labels = labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [53]:
# ages에서 0과 101은 bins 범위 밖이므로 NaN
# 각 구간에 있는 숫자들은 label로 삽입
# (단, 경계에 있는 숫자까지가 앞 구간에 속한다.)

In [54]:
# cut 명령이 반환하는 값은 Categorical 클래스 객체

type(cats)

pandas.core.arrays.categorical.Categorical

In [55]:
# Categories속성(attribute)으로 label 문자열 조회

cats.categories

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [56]:
# codes 속성(attribute)으로 정수로 인코딩한 카테고리 값을 가짐

cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [57]:
df4 = pd.DataFrame(ages, columns = ["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [58]:
df4.dtypes

ages          int64
age_cat    category
dtype: object

In [59]:
df4['age_cat'].astype(str) + df4['ages'].astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       장년37
6       장년31
7       중년61
8     미성년자20
9       장년41
10      장년32
11    nan101
dtype: object

In [60]:
# DataFrame 실수 값을 카테고리 값으로 변환

# qcut : 개수가 똑같은 구간으로 나누는 경우(분위수)
#    - x = 1d ndarray 혹은 Series
#    - q = int 혹은 분위수를 나타내는 1. 이하의 실수를 요소로 갖는 리스트
#          (e.g. [0, .25, .5, .75, 1.])

In [61]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

['Q2', 'Q1', 'Q2', 'Q4', 'Q3', ..., 'Q2', 'Q2', 'Q3', 'Q2', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [62]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

In [74]:
# 연습문제

# 타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘장년’, ‘중년’, ‘노년’ 나이 그룹으로 나눔
# 각 나이 그룹의 승객 비율을 구함
# 비율의 전체 합은 1

import seaborn as sns
titanic = sns.load_dataset("titanic")

titanic.age = titanic.age.fillna(titanic.age.mean())

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]

titanic_age = pd.cut(titanic.age, bins=bins, labels = labels)
round(titanic_age.value_counts() / titanic_age.value_counts().sum(), 2)

청년      0.46
장년      0.27
미성년자    0.19
중년      0.07
노년      0.01
Name: age, dtype: float64

In [75]:
# 또다른 풀이

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
titanic_age = pd.cut(titanic.age, bins, labels = labels)
titanic_age

titanic_age.value_counts()

titanic_age_df = pd.DataFrame(titanic_age.value_counts())
titanic_age_df.columns = ["연령층"]
titanic_age_df["연령비율"] = [round(i / titanic_age.count(), 2) for i in 
                      titanic_age.value_counts()]
titanic_age_df

Unnamed: 0,연령층,연령비율
청년,407,0.46
장년,241,0.27
미성년자,165,0.19
중년,59,0.07
노년,5,0.01


In [85]:
# 연습문제

titanic["category3"] = pd.cut(titanic.age, bins, labels = labels).astype('str') + ["남성" if _ == 'male' else '여성' for _ in titanic.sex]
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category3
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,청년남성
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,미성년자여성
888,0,3,female,29.699118,1,2,23.45,S,Third,woman,False,,Southampton,no,False,청년여성
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,청년남성
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,장년남성
