In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

# DataFrame 단일 값 추출 at, iat

## .at(레이블로 인덱싱)

In [2]:
nba = pd.read_csv("C:/python/datas/nba.csv", index_col = "Name")
nba.nlargest(1, columns = ["Salary"])

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Stephen Curry,Golden State Warriors,PG,3/14/88,40231758


In [3]:
%%timeit
# %%timeit는 jupyter 매직 메서드
# 코드를 실행하고 걸리는 평균 시간 측정
"""
단일 값에만 접근할 때는 at을 쓰는게 좋음
"""

nba.at["Stephen Curry", "Birthday"]

3.29 µs ± 134 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [4]:
%%timeit
nba.loc["Stephen Curry", "Birthday"]

6.03 µs ± 54.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [5]:
# %%timeit를 통해 100,000회 반복한 평균 실행시간이 도출된 것을 알 수 잏다.
# at이 loc에 비해 빠른 것을 알 수 있다.

## .iat(정수 값으로 인덱싱)

In [6]:
%%timeit
nba.iat[263, 1]

9.19 µs ± 38.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [7]:
%%timeit
nba.iloc[263, 1]

13.2 µs ± 437 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [8]:
# %%timeit를 통해 100,000회 반복한 평균 실행시간이 도출된 것을 알 수 있다.
# iat이 iloc에 비해 빠른 것을 알 수 있다.

"""
데이터 프레임 단일 값 추출에는 at, iat를 쓰는 것이 좋다
"""

'\n데이터 프레임 단일 값 추출에는 at, iat를 쓰는 것이 좋다\n'

# Series에 loc, iloc, at, iat

In [9]:
# 동작속도는 DataFrame과 동일하게 at, iat이 loc, iloc보다 빠르다.
#loc, at은 label index 값을 활용해서 인덱싱합니다. 
#iloc, iat은 Series의 index(정수) 값으로 인덱싱을 하면 됩니다.

nba.Salary.loc["Damian Lillard"]

29802321

In [10]:
nba.Salary.at["Damian Lillard"]

29802321

In [11]:
nba.Salary.iloc[234]

2033160

In [12]:
nba.Salary.iat[234]

2033160

# DataFrame columns 값 변경하기

In [13]:
"""
# columns 속성에 리스트 값으로 재할당하면 columns 변경이 가능
"""

nba.columns

Index(['Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [14]:
nba.columns

Index(['Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [15]:
nba.columns = ['Team', 'Position', 'Date of Birth', 'Pay']

In [16]:
nba.head(1)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697


In [17]:
# rename()메서드를 활용해서 column명을 변경할 수 있다.

In [18]:
"""# rename()메서드를 활용해서 column명을 변경할 수 있다."""

# columns 키워드 인수에 딕셔너리 형태로 전달
# key값은 기존 컬럼명, value값은 변경 후 컬럼명 입력

#여러 개의 columns의 이름을 변경할 때는 rename() 메서드의 columns 키워드 인수에 전달할 딕셔너리에 
#요소를 여럿 입력하면 됩니다.

# rename은 기본적으로 inplace 키워드 인수 값이 False이므로,
# 재할당하거나 inplace = True로 메서드를 호출해야 변경 가능

nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"})
nba.head(2) # inplace = True를 안 한 상태
#True를 안할 경우, 바뀌지 않는다

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [19]:
# nba = nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"})
# inplace가 키워드 인수로 없는 경우도 많으므로 재할당 권장!!

In [20]:
nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"}, 
           inplace = True)
nba.head(2)

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


### Column 순서 바꾸기 #진명님

In [21]:
""" 배열 꼴로 컬럼명 순서를 새로 입력하면 컬럼 단위로 순서가 바뀐다."""

nba2 = nba[["Team", "Position", "Salary", "Birthday"]]
nba2.head(2)

Unnamed: 0_level_0,Team,Position,Salary,Birthday
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1445697,9/26/96
Christian Wood,Detroit Pistons,PF,1645357,9/27/95


# DataFrame index 값 변경하기

In [22]:
# Birthday → Date of Birth, Salary → Pay로 다시 컬럼명 변경 #진명님
nba.rename(columns = {"Birthday" : "Date of Birth", "Salary" : "Pay"}, 
           inplace = True)
nba.head(2)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [23]:
# rename() 메서드를 활용해서 index값 변경 가능
# index 키워드 인수에 딕셔너리 형태로 전달
# key값은 기존 row index, value값은 변경 후 row index

nba.loc["Giannis Antetokounmpo"]

Team             Milwaukee Bucks
Position                      PF
Date of Birth            12/6/94
Pay                     25842697
Name: Giannis Antetokounmpo, dtype: object

In [24]:
nba = nba.rename(index = {"Giannis Antetokounmpo" : "Greek Freak"})

In [25]:
nba.loc["Greek Freak"]

Team             Milwaukee Bucks
Position                      PF
Date of Birth            12/6/94
Pay                     25842697
Name: Greek Freak, dtype: object

### 연습 문제

In [26]:
#연습 문제

#nfl.csv 파일에는 National Football League의 선수 데이터를 갖고 있습니다. 
#이 파일을 읽어서 DataFrame으로 가져와보세요.

#- 해당 csv 파일은 Name, Team, Position, Birthday, Salary의 열을 갖습니다.
#- Birthday 열은 날짜/시간 형태의 값으로 불러와야 합니다.
#- Name 열은 index로 사용합니다

In [27]:
nfl_path = 'C:/python/datas/nfl.csv'
nfl = pd.read_csv(nfl_path, index_col = ["Name"], parse_dates = ["Birthday"])
nfl

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tremon Smith,Philadelphia Eagles,RB,1996-07-20,570000
Shawn Williams,Cincinnati Bengals,SS,1991-05-13,3500000
Adam Butler,New England Patriots,DT,1994-04-12,645000
Derek Wolfe,Denver Broncos,DE,1990-02-24,8000000
Jake Ryan,Jacksonville Jaguars,OLB,1992-02-27,1000000
...,...,...,...,...
Bashaud Breeland,Kansas City Chiefs,CB,1992-01-30,805000
Craig James,Philadelphia Eagles,CB,1996-04-29,570000
Jonotthan Harrison,New York Jets,C,1991-08-25,1500000
Chuma Edoga,New York Jets,OT,1997-05-25,495000


In [28]:
nfl = pd.read_csv("C:/python/datas/nfl.csv",
                  index_col = "Name",
                  parse_dates = ["Birthday"]
                 )
nfl    

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tremon Smith,Philadelphia Eagles,RB,1996-07-20,570000
Shawn Williams,Cincinnati Bengals,SS,1991-05-13,3500000
Adam Butler,New England Patriots,DT,1994-04-12,645000
Derek Wolfe,Denver Broncos,DE,1990-02-24,8000000
Jake Ryan,Jacksonville Jaguars,OLB,1992-02-27,1000000
...,...,...,...,...
Bashaud Breeland,Kansas City Chiefs,CB,1992-01-30,805000
Craig James,Philadelphia Eagles,CB,1996-04-29,570000
Jonotthan Harrison,New York Jets,C,1991-08-25,1500000
Chuma Edoga,New York Jets,OT,1997-05-25,495000


In [29]:
#연습 문제2
#nfl 데이터셋에서 팀당 몇 명의 선수가 소속되어 있는지 확인해보세요.

In [30]:
nfl.Team.value_counts()

New York Jets           58
Kansas City Chiefs      56
Washington Redskins     56
New Orleans Saints      55
San Francisco 49Ers     55
Denver Broncos          54
Minnesota Vikings       54
Los Angeles Chargers    54
Seattle Seahawks        53
Dallas Cowboys          53
Buffalo Bills           53
Atlanta Falcons         53
Detroit Lions           53
Chicago Bears           53
Los Angeles Rams        52
New York Giants         52
Philadelphia Eagles     52
Houston Texans          52
Arizona Cardinals       51
Cincinnati Bengals      51
Green Bay Packers       51
Oakland Raiders         51
Jacksonville Jaguars    50
Cleveland Browns        49
Miami Dolphins          49
Indianapolis Colts      49
Carolina Panthers       49
New England Patriots    49
Baltimore Ravens        48
Pittsburgh Steelers     47
Tampa Bay Buccaneers    47
Tennessee Titans        46
Name: Team, dtype: int64

In [31]:
#연습문제3
#가장 높은 연봉을 받는 5명을 조회해보세요.

In [32]:
nfl.Salary.nlargest(5) #salary series로 변환할 경우

Name
Kirk Cousins       27500000
Marcus Mariota     20922000
Jameis Winston     20922000
Derek Carr         19900000
Jimmy Garoppolo    17200000
Name: Salary, dtype: int64

In [33]:
nfl.nlargest(5,columns = ["Salary"])
#데이터프레임으로 보고 싶을 경우

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kirk Cousins,Minnesota Vikings,QB,1988-08-19,27500000
Marcus Mariota,Tennessee Titans,QB,1993-10-30,20922000
Jameis Winston,Tampa Bay Buccaneers,QB,1994-01-06,20922000
Derek Carr,Oakland Raiders,QB,1991-03-28,19900000
Jimmy Garoppolo,San Francisco 49Ers,QB,1991-11-02,17200000


In [34]:
nfl.sort_values(["Salary"], ascending = False).head(5)
nfl.sort_values(["Salary"], ascending = False)[:5]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kirk Cousins,Minnesota Vikings,QB,1988-08-19,27500000
Jameis Winston,Tampa Bay Buccaneers,QB,1994-01-06,20922000
Marcus Mariota,Tennessee Titans,QB,1993-10-30,20922000
Derek Carr,Oakland Raiders,QB,1991-03-28,19900000
Jimmy Garoppolo,San Francisco 49Ers,QB,1991-11-02,17200000


In [35]:
#연습문제3
#팀마다 연봉을 많이 받는 사람들을 내림차순으로 조회해보세요.

In [36]:
nfl.sort_values(ascending = [True,False], by = ["Team","Salary"])
#by = 컬럼명, ascending -> 1:1로 by를 대응해줌
#팀은 오름차순, 연봉은 내림차순

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chandler Jones,Arizona Cardinals,OLB,1990-02-27,16500000
Patrick Peterson,Arizona Cardinals,CB,1990-07-11,11000000
Larry Fitzgerald,Arizona Cardinals,WR,1983-08-31,11000000
David Johnson,Arizona Cardinals,RB,1991-12-16,5700000
Justin Pugh,Arizona Cardinals,G,1990-08-15,5000000
...,...,...,...,...
Ross Pierschbacher,Washington Redskins,C,1995-05-05,495000
Kelvin Harmon,Washington Redskins,WR,1996-12-15,495000
Wes Martin,Washington Redskins,G,1996-05-09,495000
Jimmy Moreland,Washington Redskins,CB,1995-08-26,495000


In [37]:
nfl.sort_values(ascending = False, by = ["Team","Salary"])
#by = 컬럼명, ascending -> 1:1로 by를 대응해줌
#둘 다 내림차순

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Brandon Scherff,Washington Redskins,G,1991-12-26,12525000
Josh Norman,Washington Redskins,CB,1987-12-15,11000000
Ryan Kerrigan,Washington Redskins,OLB,1988-08-16,10500000
Aaron Colvin,Washington Redskins,CB,1991-10-02,7500000
Vernon Davis,Washington Redskins,TE,1984-01-31,4750000
...,...,...,...,...
Miles Brown,Arizona Cardinals,NT,1997-09-04,495000
Byron Murphy,Arizona Cardinals,CB,1998-01-18,495000
Kyler Murray,Arizona Cardinals,QB,1997-08-07,495000
Michael Dogbe,Arizona Cardinals,DE,1996-05-05,495000


In [38]:
nfl.sort_values(by = ["Team","Salary"])
#by = 컬럼명, ascending -> 1:1로 by를 대응해줌
#ascendin = True는 생략 가능
#둘 다 오름차순

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Deionte Thompson,Arizona Cardinals,SS,1997-02-11,495000
Joshua Miles,Arizona Cardinals,OT,1996-01-04,495000
Keesean Johnson,Arizona Cardinals,WR,1996-10-09,495000
Jalen Thompson,Arizona Cardinals,SS,1998-07-18,495000
Miles Brown,Arizona Cardinals,NT,1997-09-04,495000
...,...,...,...,...
Morgan Moses,Washington Redskins,OT,1991-03-03,4750000
Aaron Colvin,Washington Redskins,CB,1991-10-02,7500000
Ryan Kerrigan,Washington Redskins,OLB,1988-08-16,10500000
Josh Norman,Washington Redskins,CB,1987-12-15,11000000


# Series apply() 메서드

In [39]:
#시퀀스 -> map(func,시퀀스)
#series에 비슷하게 적용
#함수 호출 ->함수명()
#함수객체 -> 함수명 -> """() 안써도 됌!"""

In [40]:
# apply() 메서드는 Series 객체의 값에 대해 한 번씩 함수를
# 호출하고 함수 호출의 반환 값으로 구성된 새로운 Series 객체 반환

# Series.apply(func, convert_dtype = True, args = (), **kwargs)

# apply() 메서드의 첫 인자 값은 함수 객체(소괄호 없이)를 넘겨주면 필수값

In [41]:
#pokemon.csv 파일을 다시 Series로 불러와봅시다. 
#Series 객체의 값 -> ‘/’를 구분자로 2개의 타입을 갖는 값임을 볼 수 있음

In [42]:
pokemons = pd.read_csv("C:/python/datas/pokemon.csv",
                       index_col = ["Pokemon"]).squeeze()
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [43]:
# 타임 값을 받아와서 
#타입이 2개이면 Multi, 타입이 1개이면 Single을 반환하는 함수

def single_or_multi(type): #define 변수-snake_case(parameter)
    if "/" in type:        #if 조건문
        return "Multi"     #/가 있는 경우 multi / multi를 만날 경우 빠져나감
    return "Single"        #/가 없는 경우 이 코드 실행 

pokemons.apply(single_or_multi) #데이터 프레임.apply(변수명)
#첫번째 인자인 func에 함수 객체를 전달하면 됩니다.
#series로 반환

Pokemon
Bulbasaur       Multi
Ivysaur         Multi
Venusaur        Multi
Charmander     Single
Charmeleon     Single
                ...  
Stakataka       Multi
Blacephalon     Multi
Zeraora        Single
Meltan         Single
Melmetal       Single
Name: Type, Length: 809, dtype: object

In [44]:
#연습문제
#타입이 2개인 포켓몬의 수와 타입이 1개인 포켓몬의 수를 각각 구해보세요.

In [45]:
pokemons.apply(single_or_multi).value_counts()

Multi     405
Single    404
Name: Type, dtype: int64

# DataFrame apply() 메서드

In [46]:
# DataFrame apply() 메서드

# Series와 마찬가지로 DataFrame 값에 함수를 적용하고 
# 싶을 때 apply() 메서드 활용(map 함수와 유사)
# Series와 달리 axis를 통해서 행 단위, 열 단위 적용 여부를 선택할 수 있다.

In [47]:
# DataFrame.apply(func, axis = 0, raw = False, result_type = None,
#                 args = (), **kwargs)

# axis가 0 or 'index'인 경우 행마다 함수를 적용
# axis가 1 or 'columns'인 경우 열마다 함수를 적용
"""
# axis의 값에 따라 값이 축소되는 방향이 달라서 서로 결과가 다름
"""

'\n# axis의 값에 따라 값이 축소되는 방향이 달라서 서로 결과가 다름\n'

In [48]:
# 아래 예제어서는 np.sqrt()를 적용
# np.sqrt()는 제곱근 계산
# np.sqrt()는 각 요소모다 적용되는 함수 (universal function, ufunc)로
# 이 경우 np.sqrt(df)와 동일한 결과를 가져온다.

df = pd.DataFrame([[4, 9]] * 3, columns = ['A', 'B'])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [49]:
df.apply(np.sqrt) #sqrt - 제곱근을 구해주는 numpy의 객체
                         #univalsal function의 하나

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [50]:
np.sqrt(df) # 위와 동일한 결과

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [51]:
# 이번 예제에서는 차원 축소 함수인 sum() 활용

In [52]:
# 차원 축소 함수인 sum()의 활용
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [53]:
df.apply(np.sum, axis = 'index')

A    12
B    27
dtype: int64

In [54]:
df.apply(np.sum, axis = "rows")
# axis = 0, axis = "index", axis = "rows" 모두 동일한 결과

A    12
B    27
dtype: int64

In [55]:
# 함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과를
# 얻을 수 있다. 함수의 return이 row마다 리스트를 반환하면
# 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과가 나온다.

df # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [56]:
df.apply(lambda x : [1, 2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [57]:
df.apply(lambda x : [1, 2], axis = 1) #하나하나의 요소

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

In [58]:
"""# result_type = 'expand'를 인수로 전달하면"""
# 리스트를 하나의 값으로 보지 않고 리스트 요소마다
# column으로 인식하도록 확장

df.apply(lambda x : [1, 2], axis = 1, result_type = 'expand') #컬럼 단위로 확장

#index,column지정X, 값만 줌

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


In [59]:
# Series를 return하는 함수를 사용하면 result_type = 'expand'과
# 비슷한 결과를 얻는다.

df.apply(lambda x : pd.Series([1, 2], index = ["foo", "bar"]), axis = 1)
# 이 때 Series의 index label은 column label이 된다.

Unnamed: 0,foo,bar
0,1,2
1,1,2
2,1,2


In [60]:
#broadcasting 이용한 예제

In [61]:
df.apply(lambda x : [1, 2], axis = 1, result_type = 'broadcast')
# 기존 shape와 함수 return된 값의 shape 크기가 동일해야 broadcasting 가능
#데이터 통합

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [62]:
## result_type = 'broadcast'

# result_type = 'broadcast'를 인수로 전달하면 동일한 shape의 결과 보장
# 함수로부터 반환하는 게 리스트인지 스칼라인지에 상관없이 axis 방향으로
# broadcast한다.
# 결과의 column은 본래의 column label을 유지

df # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [63]:
df.apply(lambda x : [1, 2], axis = 1, result_type = 'broadcast')
# 기존 shape와 함수 return된 값의 shape 크기가 동일해야 broadcasting 가능

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [64]:
"""df.apply(lambda x : [1, 2, 3], axis = 1, result_type = 'broadcast')"""
# return되는 값이 기존 shape로 broadcast할 수 없는 shape이면 ValueError 발생

# 기존의 shape      : 3 × 2
# 함수 return shape :     3


# 기존의 shape와 함수 return된 값의 shape 크기가 다르고, 둘 중 하나가 1이 아니다
# → broadcasting 불가능

"df.apply(lambda x : [1, 2, 3], axis = 1, result_type = 'broadcast')"

In [65]:
### DataFrame apply() 메서드 예제

df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [66]:
df3.apply(lambda x: x.max() - x.min()) 
#axis가 적혀있지는 않지만 행간 연산을 해준 것임
# column마다의 최대값과 최소값의 차이를 계산
#lambda = def와 같은 것, x는 출력, x 뒤는 함수가 어떻게 작동할지에 대한 정의부

A    3
B    2
C    4
dtype: int64

In [67]:
df3.apply(lambda x: x.max() - x.min(), axis = 1)
#열간 연산을 하고 싶을 경우
# row에 대하여 적용하고 싶으면 axis = 1 사용

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [68]:
df3.apply(pd.value_counts) # nan값이 있을 경우
# 각 column에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면
# value_counts 함수를 사용

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [69]:
#타이타닉 예제

In [70]:
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [71]:
#다음과 같이 타이타닉호의 승객 중 나이 20살을 기준으로 
#성인(adult)과 미성년자(child)를 구별하는 label column을 만들 수 있습니다.

In [72]:
titanic ["adult/child"] = titanic.apply(lambda r : "adult" if r.age >= 20 else "child" , axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


In [73]:
titanic["adult/child"] = titanic.apply(lambda r : "adult" 
                                       #lambda r expression -> #r - 매개변수, 바뀌도 됨 / expression반환
                                       if r.age >= 20
                                       else "child", 
                                       axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


In [74]:
#연습 문제

In [75]:
#타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category1 열을 만들어보세요. 
#category1 카테고리는 다음과 같이 정의됩니다.
#(1) 20살이 넘으면 성별을 그대로 사용합니다.
#(2) 20살 미만이면 성별에 관계없이 “child”라고 합니다.

In [76]:
titanic["category1"] = titanic.apply(lambda x :x.sex #sex가 x의 컬럼,1:1 매치됨
                                     if x.age >= 20
                                     else "child",
                                     axis = 1)

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


In [77]:
def cate1(titanic):
    if titanic['age'] >= 20:
        return titanic['sex']
    return 'child'

titanic['category1'] = titanic.apply(cate1, axis=1)

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


# DataFrame fillna() 메서드

In [78]:
#fillna() 메서드를 사용하여 NaN 값을 원하는 값으로 바꿀 수 있다.

#DataFrame.Fillna(value = None,*,method = None, axis = None,
#                 inplace = False, limit = none,downcast = none)

#첫 인자로 NaN을 변경하고자 하는 값을 전달

#fill Na/NaN values using the specified method

In [79]:
#fillna() 메서드를 활용하여 NaN 값을 0으로 변경하는 예제

In [80]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [81]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


In [82]:
#타입에 따라 다르게 적용하고 싶다면?

In [83]:
# fillna() 메서드 value 값으로 column lable을 key로 갖는 딕셔너리를 전달할 수 있다.
# 그럴 경우 column마다 NaN 값으로 대치하는 값을 각각 다르게 지정할 수 있다.

df # 기존 DateFrame

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [84]:
values = {"A" : 0, "B" : 1, "C" : 2, "D" : 3}
df.fillna(value = values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


In [85]:
# fillna() 메서드에 limit 키워드 인자에 숫자를 전달하여
# 그 숫자만큼 column마다 변경 횟수를 제한 가능

values = {"A" : 0, "B" : 1, "C" : 2, "D" : 3}
df.fillna(value = values, limit = 1)
# column마다 NaN값 1회 변경

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,,3.0,,4.0


In [86]:
# fillna() 메서드에 DataFrame을 value로 전달해서 NaN값 대체 가능
# 단, column label과 row index가 일치하지 않으면 적용하지 못한다.

df2 = pd.DataFrame(np.zeros((3, 4)), columns = list("ABCE"))
df.fillna(df2)
# df2에는 D열이 없고 E열이 존재하므로 공통인 A,B,C 열에 대해서만
# NaN값을 0으로 채운다.
#df2를 통해 df를 채우는데, 이에 있어서 공통된 인덱스의 열만 채워줄 수 있다

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,,3.0,,4.0


In [87]:
#연습문제
#타이타닉호의 승객 중 나이를 명시하지 않은 고객은 
#나이를 명시한 고객의 평균 나이 값이 되도록 titanic DataFrame을 고쳐보세요.

In [88]:
index_age_nan = titanic[titanic['age'].isna()].index
print(index_age_nan)

Int64Index([  5,  17,  19,  26,  28,  29,  31,  32,  36,  42,
            ...
            832, 837, 839, 846, 849, 859, 863, 868, 878, 888],
           dtype='int64', length=177)


In [89]:
titanic.fillna({'age' : round(titanic['age'].mean(),1)}, inplace = True)

In [90]:
titanic.iloc[index_age_nan]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
5,0,3,male,29.7,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
17,1,2,male,29.7,0,0,13.0000,S,Second,man,True,,Southampton,yes,True,child,child
19,1,3,female,29.7,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True,child,child
26,0,3,male,29.7,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True,child,child
28,1,3,female,29.7,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True,child,child
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,29.7,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True,child,child
863,0,3,female,29.7,8,2,69.5500,S,Third,woman,False,,Southampton,no,False,child,child
868,0,3,male,29.7,0,0,9.5000,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,29.7,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child


# DataFrame astype() 메서드

In [91]:
# astype() 메서드로 column의 dtype를 바꾸는 것도 가능

# DataFrame.astype(dtype, copy = True, errors = 'raise')

# 첫 인자로 변경해줄 dtype을 전달하면 된다.
# int32, i4, int64, category, float, float64, f8, object 등이 있다.

d = {'col1' : [1, 2], 'col2' : [3, 4]}
df = pd.DataFrame(d)
df.dtypes

col1    int64
col2    int64
dtype: object

In [92]:
#dtype이 모두 int64인 DataFrame에 대해 astype(‘int32’)를 호출해서 모든 column의 dtype을 형변환 시켰습니다.

df.astype('int32').dtypes # int64 → int32

col1    int32
col2    int32
dtype: object

In [93]:
# dtype을 dictionary로 전달해서 해당 column만 형변환
#col1을 key로 변환할 dtype을 value로 하는 dict 객체를 인수로 전달해 col1만 dtype을 변경하였습니다.

df.astype({'col1' : 'int32'}).dtypes

col1    int32
col2    int64
dtype: object

In [94]:
#연습문제
#employee.csv는 
#직원의 이름(First Name), 성별(Gender), 입사일(Start Date), 연봉(Salary), 관리자 여부(Mgmt), 팀(Team)의 
#열을 갖습니다.
#- employees 변수에 위 csv 파일을 불러와서 DataFrame 객체로 만들어 할당합니다.
#- Start Date는 날짜/시간 형태로 값을 불러옵니다.

In [95]:
employees = pd.read_csv("C:/python/datas/employees.csv", parse_dates = ["Start Date"])
employees

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


In [96]:
#연습문제2
#employees의 데이터를 보면 Mgmt의 데이터 타입이 Object인 것을 확인할 수 있습니다. 
#Mgmt의 고유한 값들이 무엇이 있는지 확인하고 어떤 처리를 하면 좋을지 생각해보고 적용해보세요.

In [97]:
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        933 non-null    object        
 5   Team        957 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 47.0+ KB


In [98]:
employees.Mgmt.value_counts()

True     468
False    465
Name: Mgmt, dtype: int64

In [99]:
employees.Mgmt = employees.Mgmt.astype(bool)
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    object        
dtypes: bool(1), datetime64[ns](1), float64(1), object(3)
memory usage: 40.2+ KB


In [100]:
#연습 문제3

In [101]:
#employees의 데이터에서 Salary의 결측치가 2개 존재합니다. 이 2개의 nan 값을 0으로 변경해봅시다. 
#또 변경 Salary의 값이 소수점 값이 있는지 검토하고 없다면 int형으로 변경해봅시다.

In [102]:
employees.Salary.isna().sum() #결측치 확인

2

In [103]:
employees.Salary.fillna(0) #0으로 변경

0            0.0
1        61933.0
2       130590.0
3       138705.0
4       101004.0
          ...   
996      42392.0
997      96914.0
998      60500.0
999     129949.0
1000         0.0
Name: Salary, Length: 1001, dtype: float64

In [104]:
#소수점 값이 있는지 검토
employees.Salary = employees.Salary.fillna(0)
sum((employees.Salary - employees.Salary.astype(int))>0)

0

In [105]:
employees.Salary = employees.Salary.astype(int) #int 로 변경
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      1001 non-null   int32         
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    object        
dtypes: bool(1), datetime64[ns](1), int32(1), object(3)
memory usage: 36.3+ KB


In [106]:
#연습문제4
#employees의 데이터에서 컬럼마다 고유한 값의 숫자가 얼마나 되는지 확인해보세요. 
#그리고 그 중 범주형(category)으로 만들면 좋을 컬럼이 어떤 것이 있는지 고민해보고 적용해보세요.

In [107]:
employees.nunique()

First Name    200
Gender          2
Start Date    971
Salary        995
Mgmt            2
Team           10
dtype: int64

In [108]:
employees = employees.astype({'Gender' : 'category',
                 'Team' : 'category'})
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    category      
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      1001 non-null   int32         
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    category      
dtypes: bool(1), category(2), datetime64[ns](1), int32(1), object(1)
memory usage: 23.1+ KB


In [109]:
#연습문제5
#타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category2 column을 만들어보세요. 
#category2 카테고리는 다음과 같이 정의됩니다.
#(1) 성별을 나타내는 문자열 male 또는 female로 시작합니다.
#(2) 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 옵니다.
#(3) 예를 들어 27살 남성은 male27.0 값이 됩니다.

In [110]:
titanic["category2"] = titanic.sex + titanic.age.astype(str)

titanic[['age','category2']]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,29.7,female29.7
889,26.0,male26.0


In [137]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [140]:
titanic["category2"] = titanic.apply(lambda x :x.sex + str(x.age), axis=1) # default axis=0
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19.0
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,femalenan
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26.0


In [111]:
# DataFrame 실수 값을 카테고리 값으로 변환

# 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때
# 아래 명령어 사용

# cut : 하한값, 상한값을 갖는 리스트를 bins 키워드 인수에 전달
#    - x = 1차원 형태의 배열 형태가 온다.
#    - bins = int, 스칼라를 요소로 갖는 시퀀스가 온다.

# pandas.cut(x, bins, right = True, labels = None, retbins = False,
#            precision = 3, include_lowest = False, duplicate = 'raise',
#            orderd = True)


# qcut : 개수가 똑같은 구간으로 나누는 경우(분위수)
#    - x = 1d ndarray 혹은 Series
#    - q = int 혹은 분위수를 나타내는 1. 이하의 실수를 요소로 갖는 리스트
#          (e.g. [0, .25, .5, .75, 1.])

# pandas.qcut(x, q, labels = None, retbins = False, precision = 3,
#             duplicates = 'raise')

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

# cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다.
# bins 인수는 카테고리를 나누는 기준값이 된다.
# 영역을 넘는 값은 NaN 처리

In [112]:
bins = [1, 20, 30, 50, 70, 100] #구간을 리스트 형태로 담음 하상하상 만들어 범주를 붙임
labels = ["미성년자", "청년", "장년", "중년", "노년"] #범주가 되는 리스트
cats = pd.cut(ages, bins, labels = labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [113]:
# ages에서 0과 101은 bins 범위 밖이므로 NaN,
# 각 구간에 있는 숫자들은 label로 삽입
# (단, 경계에 있는 숫자까지가 앞 구간에 속한다.)

In [114]:
type(cats)
# cut 명령이 반환하는 값은 Categorical 클래스 객체이다.

pandas.core.arrays.categorical.Categorical

In [115]:
cats.categories
# Categories속성(attribute)으로 label 문자열 조회

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [116]:
cats.codes
# codes 속성(attribute)으로 정수로 인코딩한 카테고리 값을 가진다.

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [141]:
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [117]:
df4 = pd.DataFrame(ages, columns = ["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [118]:
df4.dtypes
# age_cat column 값은 문자열이 아닌 category다.

ages          int64
age_cat    category
dtype: object

In [119]:
df4["age_cat"].astype(str) + df4["ages"].astype(str)
# 두 컬럼을 str dtype으로 변경해서 이어붙임

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       장년37
6       장년31
7       중년61
8     미성년자20
9       장년41
10      장년32
11    nan101
dtype: object

In [120]:
#qcut 사분위수
#위에 bins였던 자리를 4로 바꿈

In [121]:
data = np.random.randn(1000) 
# 평균 0, 표준편차 1의 가우시안 정규분포를 1000개의 구간으로 나눔
cats = pd.qcut(data, 4, labels = ["Q1", "Q2", "Q3", "Q4"])
cats

['Q3', 'Q1', 'Q1', 'Q3', 'Q3', ..., 'Q1', 'Q1', 'Q4', 'Q3', 'Q4']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [122]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

In [123]:
cats = pd.qcut(data, 5, labels = ["Q1", "Q2", "Q3", "Q4","Q5"])
cats

['Q4', 'Q2', 'Q1', 'Q3', 'Q4', ..., 'Q1', 'Q1', 'Q5', 'Q4', 'Q4']
Length: 1000
Categories (5, object): ['Q1' < 'Q2' < 'Q3' < 'Q4' < 'Q5']

In [124]:
pd.value_counts(cats)

Q1    200
Q2    200
Q3    200
Q4    200
Q5    200
dtype: int64

In [125]:
#연습문제

In [126]:
#타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘장년’, ‘중년’, ‘노년’ 나이 그룹으로나눕니다.
#그리고 각 나이 그룹의 승객 비율을 구합니다. 비율의 전체 합은 1이 되어야 합니다.

In [130]:
import seaborn as sns

In [148]:
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [149]:
titanic.age

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [132]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]

In [167]:
titanic["person"] = pd.cut(titanic.age, bins, labels = labels)

In [156]:
person = person.value_counts()

In [157]:
person.sum()

700

In [158]:
person_rate = person/person.sum()

In [159]:
person_rate

장년      0.344286
청년      0.328571
미성년자    0.235714
중년      0.084286
노년      0.007143
Name: age, dtype: float64

In [None]:
person.value_counts(normalize=True)

장년      0.344286
청년      0.328571
미성년자    0.235714
중년      0.084286
노년      0.007143
Name: age, dtype: float64

In [171]:
person

장년      241
청년      230
미성년자    165
중년       59
노년        5
Name: age, dtype: int64

In [160]:
#연습문제3

In [None]:
person = pd.DataFrame(age, columns = ["ages"])
titanic["age_t"] = pd.cut(df4.ages, bins, labels = labels)
df4

person = pd.cut(titanic.age, bins, labels = labels)
person

In [172]:
titanic.person

0        청년
1        장년
2        청년
3        장년
4        장년
       ... 
886      청년
887    미성년자
888     NaN
889      청년
890      장년
Name: person, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [None]:
titanic

In [176]:
titanic["성별"] = titanic.apply(lambda x: "남성" if x.sex == "male" else "여성", axis=1)
titanic["성별"]

0      남성
1      여성
2      여성
3      여성
4      남성
       ..
886    남성
887    여성
888    여성
889    남성
890    남성
Name: 성별, Length: 891, dtype: object

In [177]:
titanic["category3"] = titanic.apply(lambda x :x.person + x.성별 
                                     if x.age >= 20
                                     else "미성년자",
                                     axis = 1)

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category3,person,성별
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,청년남성,청년,남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,장년여성,장년,여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,청년여성,청년,여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,장년여성,장년,여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,장년남성,장년,남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,청년남성,청년,남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,미성년자,미성년자,여성
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,미성년자,,여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,청년남성,청년,남성
