In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

# DataFrame 단일 값 추출 at, iat

## .at(레이블로 인덱싱)

In [2]:
nba = pd.read_csv("C:/python/datas/nba.csv", index_col = "Name")
nba.nlargest(1, columns = ["Salary"])

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Stephen Curry,Golden State Warriors,PG,3/14/88,40231758


In [3]:
%%timeit
# %%timeit는 jupyter 매직 메서드
# 코드를 실행하고 걸리는 평균 시간 측정

nba.at["Stephen Curry", "Birthday"]

3.02 µs ± 20.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [4]:
%%timeit
nba.loc["Stephen Curry", "Birthday"]

5.91 µs ± 18.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [5]:
# %%timeit를 통해 100,000회 반복한 평균 실행시간이 도출된 것을 알 수 있다.
# at이 loc에 비해 빠른 것을 알 수 있다.

## .iat(정수 값으로 인덱싱)

In [6]:
%%timeit
nba.iat[263, 1]

9.05 µs ± 30.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [7]:
%%timeit
nba.iloc[263, 1]

12.1 µs ± 187 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [8]:
# %%timeit를 통해 100,000회 반복한 평균 실행시간이 도출된 것을 알 수 있다.
# iat이 iloc에 비해 빠른 것을 알 수 있다.

# Series loc, iloc, at, iat

In [9]:
# 동작속도는 DataFrame과 동일하게 at, iat이 loc, iloc보다 빠르다.

In [10]:
nba.Salary.loc["Damian Lillard"]

29802321

In [11]:
nba.Salary.at["Damian Lillard"]

29802321

In [12]:
nba.Salary.iloc[234]

2033160

In [13]:
nba.Salary.iat[234]

2033160

# DataFrame columns 값 변경하기

In [14]:
# columns 속성에 리스트 값으로 재할당하면 columns 변경이 가능
nba.columns

Index(['Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [15]:
nba.columns = ['Team', 'Position', 'Date of Birth', 'Pay']

In [16]:
nba.head(1)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697


In [17]:
# rename()메서드를 활용해서 column명을 변경할 수 있다.
# columns 키워드 인수에 딕셔너리 형태로 전달
# key값은 기존 컬럼명, value값은 변경 후 컬럼명 입력

# rename은 기본적으로 inplace 키워드 인수 값이 False이므로,
# 재할당하거나 inplace = True로 메서드를 호출해야 변경 가능

nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"})
nba.head(2) # inplace = True를 안 한 상태

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [18]:
nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"}, 
           inplace = True)
nba.head(2)

# nba = nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"})
# inplace가 키워드 인수로 없는 경우도 많으므로 재할당 권장!!

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


## Column 순서 바꾸기

In [19]:
# 배열 꼴로 컬럼명 순서를 새로 입력하면 컬럼 단위로 순서가 바뀐다.
nba2 = nba[["Team", "Position", "Salary", "Birthday"]]
nba2.head(2)

Unnamed: 0_level_0,Team,Position,Salary,Birthday
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1445697,9/26/96
Christian Wood,Detroit Pistons,PF,1645357,9/27/95


# DataFrame index 값 변경하기

In [20]:
# Birthday → Date of Birth, Salary → Pay로 다시 컬럼명 변경
nba.rename(columns = {"Birthday" : "Date of Birth", "Salary" : "Pay"}, 
           inplace = True)
nba.head(2)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [21]:
# rename() 메서드를 활용해서 index값 변경 가능
# index 키워드 인수에 딕셔너리 형태로 전달
# key값은 기존 row index, value값은 변경 후 row index

nba.loc["Giannis Antetokounmpo"]

Team             Milwaukee Bucks
Position                      PF
Date of Birth            12/6/94
Pay                     25842697
Name: Giannis Antetokounmpo, dtype: object

In [22]:
nba = nba.rename(index = {"Giannis Antetokounmpo" : "Greek Freak"})

In [23]:
nba.loc["Greek Freak"]

Team             Milwaukee Bucks
Position                      PF
Date of Birth            12/6/94
Pay                     25842697
Name: Greek Freak, dtype: object

# Series apply() 메서드

In [24]:
# apply() 메서드는 Series 객체의 값에 대해 한 번씩 함수를
# 호출하고 함수 호출의 반환 값으로 구성된 새로운 Series 객체 반환

# Series.apply(func, convert_dtype = True, args = (), **kwargs)

# apply() 메서드의 첫 인자 값은 함수 객체(소괄호 없이)를 넘겨주면 필수값

In [25]:
pokemons = pd.read_csv("C:/python/datas/pokemon.csv",
                       index_col = ["Pokemon"]).squeeze()
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [26]:
# 타입이 2개이면 Multi, 타입이 1개이면 Single을 반환하는 함수
def single_or_multi(type):
    if "/" in type:
        return "Multi"
    return "Single"

pokemons.apply(single_or_multi)

Pokemon
Bulbasaur       Multi
Ivysaur         Multi
Venusaur        Multi
Charmander     Single
Charmeleon     Single
                ...  
Stakataka       Multi
Blacephalon     Multi
Zeraora        Single
Meltan         Single
Melmetal       Single
Name: Type, Length: 809, dtype: object

# DataFrame apply() 메서드

In [27]:
# Series와 마찬가지로 DataFrame 값에 함수를 적용하고 
# 싶을 때 apply() 메서드 활용(map 함수와 유사)
# Series와 달리 axis를 통해서 행 단위, 열 단위 적용 여부를 선택할 수 있다.

# DataFrame.apply(func, axis = 0, raw = False, result_type = None,
#                 args = (), **kwargs)

# axis가 0 or 'index'인 경우 행마다 함수를 적용
# axis가 1 or 'columns'인 경우 열마다 함수를 적용

In [28]:
# 아래 예제어서는 np.sqrt()를 적용
# np.sqrt()는 제곱근 계산
# np.sqrt()는 각 요소모다 적용되는 함수 (universal function, ufunc)로
# 이 경우 np.sqrt(df)와 동일한 결과를 가져온다.

df = pd.DataFrame([[4, 9]] * 3, columns = ['A', 'B'])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [29]:
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [30]:
np.sqrt(df) # 위와 동일한 결과

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [31]:
# 차원 축소 함수인 sum()의 활용
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [32]:
df.apply(np.sum, axis = 'index')

A    12
B    27
dtype: int64

In [33]:
df.apply(np.sum, axis = "rows")
# axis = 0, axis = "index", axis = "rows" 모두 동일한 결과

A    12
B    27
dtype: int64

In [34]:
# 함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과를
# 얻을 수 있다. 함수의 return이 row마다 리스트를 반환하면
# 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과가 나온다.

df # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [35]:
df.apply(lambda x : [1, 2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [36]:
df.apply(lambda x : [1, 2], axis = 1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

## result_type = 'expand'

In [37]:
# result_type = 'expand'를 인수로 전달하면
# 리스트를 하나의 값으로 보지 않고 리스트 요소마다
# column으로 인식하도록 확장

df.apply(lambda x : [1, 2], axis = 1, result_type = 'expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


In [38]:
# Series를 return하는 함수를 사용하면 result_type = 'expand'과
# 비슷한 결과를 얻는다.

df.apply(lambda x : pd.Series([1, 2], index = ["foo", "bar"]), axis = 1)
# 이 때 Series의 index label은 column label이 된다.

Unnamed: 0,foo,bar
0,1,2
1,1,2
2,1,2


## result_type = 'broadcast'

In [39]:
# result_type = 'broadcast'를 인수로 전달하면 동일한 shape의 결과 보장
# 함수로부터 반환하는 게 리스트인지 스칼라인지에 상관없이 axis 방향으로
# broadcast한다.
# 결과의 column은 본래의 column label을 유지

df # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [40]:
df.apply(lambda x : [1, 2], axis = 1, result_type = 'broadcast')
# 기존 shape와 함수 return된 값의 shape 크기가 동일해야 broadcasting 가능

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [41]:
# df.apply(lambda x : [1, 2, 3], axis = 1, result_type = 'broadcast')
# return되는 값이 기존 shape로 broadcast할 수 없는 shape이면 ValueError 발생

# 기존의 shape      : 3 × 2
# 함수 return shape :     3


# 기존의 shape와 함수 return된 값의 shape 크기가 다르고, 둘 중 하나가 1이 아니다
# → broadcasting 불가능

### DataFrame apply() 메서드 예제

In [42]:
df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [43]:
df3.apply(lambda x: x.max() - x.min())
# column마다의 최대값과 최소값의 차이를 계산

A    3
B    2
C    4
dtype: int64

In [44]:
df3.apply(lambda x: x.max() - x.min(), axis = 1)
# row에 대하여 적용하고 싶으면 axis = 1 사용

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [45]:
df3.apply(pd.value_counts)
# 각 column에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면
# value_counts 함수를 사용

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [46]:
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [47]:
titanic["adult/child"] = titanic.apply(lambda r : "adult" 
                                       if r.age >= 20
                                       else "child", 
                                       axis = 1)
# 20살을 기준으로 20 이상이면 adult, 미만이라면 child 값 반환
# axis = 1을 통해 행간 연산
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


# DataFrame fillna() 메서드

In [48]:
# fillna() 메서드를 사용하여 NaN 값을 원하는 값으로 바꿀 수 있다.

# DataFrame.fillna(value = None, *, method = None, axis = None,
#                  inplace = False, limit = None, downcast = None)

# 첫 인자로 NaN을 변경하고자 하는 값을 전달

df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [49]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


In [50]:
# fillna() 메서드 value 값으로 column lable을 key로 갖는 딕셔너리를 전달할 수 있다.
# 그럴 경우 column마다 NaN 값ㅇ르 대치하는 값을 각각 다르게 지정할 수 있다.

df # 기존 DateFrame

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [51]:
values = {"A" : 0, "B" : 1, "C" : 2, "D" : 3}
df.fillna(value = values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


In [52]:
# fillna() 메서드에 limit 키워드 인자에 숫자를 전달하여
# 그 숫자만큼 column마다 변경 횟수를 제한 가능
df # 기존 DataFrame

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [53]:
values = {"A" : 0, "B" : 1, "C" : 2, "D" : 3}
df.fillna(value = values, limit = 1)
# column마다 NaN값 1회 변경

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,,3.0,,4.0


In [54]:
# fillna() 메서드에 DataFrame을 value로 전달해서 NaN값 대체 가능
# 단, column label과 row index가 일치하지 않으면 적용하지 못한다.

df2 = pd.DataFrame(np.zeros((3, 4)), columns = list("ABCE"))
df.fillna(df2)
# df2에는 D열이 없고 E열이 존재하므로 공통인 A,B,C 열에 대해서만
# NaN값을 0으로 채운다.
# 그리고 df2의 row index는 2까지밖에 없으므로 df1의 index가 3인 행도
# NaN값이 남아있다.

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,,3.0,,4.0


# DataFrame astype() 메서드

In [55]:
# astype() 메서드로 column의 dtype를 바꾸는 것도 가능

# DataFrame.astype(dtype, copy = True, errors = 'raise')

# 첫 인자로 변경해줄 dtype을 전달하면 된다.
# int32, i4, int64, category, float, float64, f8, object 등이 있다.

In [56]:
d = {'col1' : [1, 2], 'col2' : [3, 4]}
df = pd.DataFrame(d)
df.dtypes

col1    int64
col2    int64
dtype: object

In [57]:
df.astype('int32').dtypes # int64 → int32

col1    int32
col2    int32
dtype: object

In [58]:
# dtype을 dictionary로 전달해서 해당 column만 형변환
df.astype({'col1' : 'int32'}).dtypes

col1    int32
col2    int64
dtype: object

# DataFrame 실수 값을 카테고리 값으로 변환

In [59]:
# 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때
# 아래 명령어 사용

# cut : 하한값, 상한값을 갖는 리스트를 bins 키워드 인수에 전달
#    - x = 1차원 형태의 배열 형태가 온다.
#    - bins = int, 스칼라를 요소로 갖는 시퀀스가 온다.

# pandas.cut(x, bins, right = True, labels = None, retbins = False,
#            precision = 3, include_lowest = False, duplicate = 'raise',
#            orderd = True)


# qcut : 개수가 똑같은 구간으로 나누는 경우(분위수)
#    - x = 1d ndarray 혹은 Series
#    - q = int 혹은 분위수를 나타내는 1. 이하의 실수를 요소로 갖는 리스트
#          (e.g. [0, .25, .5, .75, 1.])

# pandas.qcut(x, q, labels = None, retbins = False, precision = 3,
#             duplicates = 'raise')

In [60]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

# cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다.
# bins 인수는 카테고리를 나누는 기준값이 된다.
# 영역을 넘는 값은 NaN 처리

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
cats = pd.cut(ages, bins, labels = labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [61]:
# ages에서 0과 101은 bins 범위 밖이므로 NaN,
# 각 구간에 있는 숫자들은 label로 삽입
# (단, 경계에 있는 숫자까지가 앞 구간에 속한다.)

In [62]:
type(cats)
# cut 명령이 반환하는 값은 Categorical 클래스 객체이다.

pandas.core.arrays.categorical.Categorical

In [63]:
cats.categories
# Categories속성(attribute)으로 label 문자열 조회

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [64]:
cats.codes
# codes 속성(attribute)으로 정수로 인코딩한 카테고리 값을 가진다.

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [65]:
df4 = pd.DataFrame(ages, columns = ["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [66]:
df4.dtypes
# age_cat column 값은 문자열이 아닌 category다.

ages          int64
age_cat    category
dtype: object

In [67]:
df4["age_cat"].astype(str) + df4["ages"].astype(str)
# 두 컬럼을 str dtype으로 변경해서 이어붙임

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       장년37
6       장년31
7       중년61
8     미성년자20
9       장년41
10      장년32
11    nan101
dtype: object

In [68]:
data = np.random.randn(1000) 
# 평균 0, 표준편차 1의 가우시안 정규분포를 1000개의 구간으로 나눔
cats = pd.qcut(data, 4, labels = ["Q1", "Q2", "Q3", "Q4"])
cats

['Q2', 'Q4', 'Q2', 'Q4', 'Q3', ..., 'Q4', 'Q1', 'Q3', 'Q1', 'Q3']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [69]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64