In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
# DataFrame 단일 값 추출 at, iat

## .at(레이블로 인덱싱)

nba = pd.read_csv("C:/python/datas/nba.csv", index_col = "Name")
nba.nlargest(1, columns = ["Salary"])

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Stephen Curry,Golden State Warriors,PG,3/14/88,40231758


In [3]:
%%timeit
# %%timeit는 jupyter 매직 메서드
# 코드를 실행하고 걸리는 평균 시간 측정

nba.at["Stephen Curry", "Birthday"]

3.17 µs ± 11.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [4]:
%%timeit
nba.loc["Stephen Curry", "Birthday"]

5.93 µs ± 59.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [5]:
# %%timeit를 통해 100,000회 반복한 평균 실행시간이 도출된 것을 알 수 있다.
# at이 loc에 비해 빠른 것을 알 수 있다.

In [6]:
## .iat(정수 값으로 인덱싱)

In [7]:
%%timeit
nba.iat[263, 1]

9.27 µs ± 239 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [8]:
%%timeit
nba.iloc[263, 1]

12.5 µs ± 167 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [9]:
# %%timeit를 통해 100,000회 반복한 평균 실행시간이 도출된 것을 알 수 있다.
# iat이 iloc에 비해 빠른 것을 알 수 있다.

In [10]:
# Series loc, iloc, at, iat

# 동작속도는 DataFrame과 동일하게 at, iat이 loc, iloc보다 빠르다.

nba.Salary.loc["Damian Lillard"]

29802321

In [11]:
nba.Salary.at["Damian Lillard"]

29802321

In [12]:
nba.Salary.iloc[234]

2033160

In [13]:
nba.Salary.iat[234]

2033160

In [14]:
# DataFrame columns 값 변경하기

# columns 속성에 리스트 값으로 재할당하면 columns 변경이 가능
nba.columns

Index(['Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [15]:
nba.columns = ['Team', 'Position', 'Date of Birth', 'Pay']

In [16]:
nba.head(1)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697


In [17]:
# rename()메서드를 활용해서 column명을 변경할 수 있다.
# columns 키워드 인수에 딕셔너리 형태로 전달
# key값은 기존 컬럼명, value값은 변경 후 컬럼명 입력

# rename은 기본적으로 inplace 키워드 인수 값이 False이므로,
# 재할당하거나 inplace = True로 메서드를 호출해야 변경 가능

nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"})
nba.head(2) # inplace = True를 안 한 상태

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [18]:
nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"}, 
           inplace = True)
nba.head(2)

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [19]:
## Column 순서 바꾸기

# 배열 꼴로 컬럼명 순서를 새로 입력하면 컬럼 단위로 순서가 바뀐다.
nba2 = nba[["Team", "Position", "Salary", "Birthday"]]
nba2.head(2)

Unnamed: 0_level_0,Team,Position,Salary,Birthday
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1445697,9/26/96
Christian Wood,Detroit Pistons,PF,1645357,9/27/95


In [20]:
# DataFrame index 값 변경하기

# Birthday → Date of Birth, Salary → Pay로 다시 컬럼명 변경
nba.rename(columns = {"Birthday" : "Date of Birth", "Salary" : "Pay"}, 
           inplace = True)
nba.head(2)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,9/26/96,1445697
Christian Wood,Detroit Pistons,PF,9/27/95,1645357


In [21]:
# rename() 메서드를 활용해서 index값 변경 가능
# index 키워드 인수에 딕셔너리 형태로 전달
# key값은 기존 row index, value값은 변경 후 row index

nba.loc["Giannis Antetokounmpo"]

Team             Milwaukee Bucks
Position                      PF
Date of Birth            12/6/94
Pay                     25842697
Name: Giannis Antetokounmpo, dtype: object

In [22]:
nba = nba.rename(index = {"Giannis Antetokounmpo" : "Greek Freak"})

In [23]:
nba.loc["Greek Freak"]

Team             Milwaukee Bucks
Position                      PF
Date of Birth            12/6/94
Pay                     25842697
Name: Greek Freak, dtype: object

In [24]:
# nba = nba.rename(columns = {"Date of Birth" : "Birthday", "Pay" : "Salary"})
# inplace가 키워드 인수로 없는 경우도 많으므로 재할당 권장!!

In [25]:
nfl = pd.read_csv("C:/python/datas/nfl.csv",
                  index_col = ["Name"],
                  parse_dates = ["Birthday"]
                 )
nfl    

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tremon Smith,Philadelphia Eagles,RB,1996-07-20,570000
Shawn Williams,Cincinnati Bengals,SS,1991-05-13,3500000
Adam Butler,New England Patriots,DT,1994-04-12,645000
Derek Wolfe,Denver Broncos,DE,1990-02-24,8000000
Jake Ryan,Jacksonville Jaguars,OLB,1992-02-27,1000000
...,...,...,...,...
Bashaud Breeland,Kansas City Chiefs,CB,1992-01-30,805000
Craig James,Philadelphia Eagles,CB,1996-04-29,570000
Jonotthan Harrison,New York Jets,C,1991-08-25,1500000
Chuma Edoga,New York Jets,OT,1997-05-25,495000


In [26]:
nfl.Team.value_counts()   # 시리즈에 대해 밸류카운츠 씀

New York Jets           58
Kansas City Chiefs      56
Washington Redskins     56
New Orleans Saints      55
San Francisco 49Ers     55
Denver Broncos          54
Minnesota Vikings       54
Los Angeles Chargers    54
Seattle Seahawks        53
Dallas Cowboys          53
Buffalo Bills           53
Atlanta Falcons         53
Detroit Lions           53
Chicago Bears           53
Los Angeles Rams        52
New York Giants         52
Philadelphia Eagles     52
Houston Texans          52
Arizona Cardinals       51
Cincinnati Bengals      51
Green Bay Packers       51
Oakland Raiders         51
Jacksonville Jaguars    50
Cleveland Browns        49
Miami Dolphins          49
Indianapolis Colts      49
Carolina Panthers       49
New England Patriots    49
Baltimore Ravens        48
Pittsburgh Steelers     47
Tampa Bay Buccaneers    47
Tennessee Titans        46
Name: Team, dtype: int64

In [27]:
nfl.nlargest(5, columns = ["Salary"])

# nfl.sort_values(["Salary"], ascending = False).head(5)
# nfl.sort_values(["Salary"], ascending = False)[:5]
# 다 같은 결과를 보여주는데 접근 방식이 다를 뿐이에요

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kirk Cousins,Minnesota Vikings,QB,1988-08-19,27500000
Marcus Mariota,Tennessee Titans,QB,1993-10-30,20922000
Jameis Winston,Tampa Bay Buccaneers,QB,1994-01-06,20922000
Derek Carr,Oakland Raiders,QB,1991-03-28,19900000
Jimmy Garoppolo,San Francisco 49Ers,QB,1991-11-02,17200000


In [28]:
nfl.sort_values(by = ["Team", "Salary"], ascending =  False)

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Brandon Scherff,Washington Redskins,G,1991-12-26,12525000
Josh Norman,Washington Redskins,CB,1987-12-15,11000000
Ryan Kerrigan,Washington Redskins,OLB,1988-08-16,10500000
Aaron Colvin,Washington Redskins,CB,1991-10-02,7500000
Vernon Davis,Washington Redskins,TE,1984-01-31,4750000
...,...,...,...,...
Miles Brown,Arizona Cardinals,NT,1997-09-04,495000
Byron Murphy,Arizona Cardinals,CB,1998-01-18,495000
Kyler Murray,Arizona Cardinals,QB,1997-08-07,495000
Michael Dogbe,Arizona Cardinals,DE,1996-05-05,495000


In [29]:
# Series apply() 메서드

# apply() 메서드는 Series 객체의 값에 대해 한 번씩 함수를
# 호출하고 함수 호출의 반환 값으로 구성된 새로운 Series 객체 반환

# Series.apply(func, convert_dtype = True, args = (), **kwargs)

# apply() 메서드의 첫 인자 값은 함수 객체(소괄호 없이)를 넘겨주면 필수값

pokemons = pd.read_csv("C:/python/datas/pokemon.csv",
                       index_col = ["Pokemon"]).squeeze()
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [30]:
# 타입이 2개이면 Multi, 타입이 1개이면 Single을 반환하는 함수

def single_or_multi(type):        # single_or_multi snake타입으로 작성.
    if "/" in type:                #(쌤이 임의로 붙인 이름임)
        return "Multi"
    return "Single"

pokemons.apply(single_or_multi)

Pokemon
Bulbasaur       Multi
Ivysaur         Multi
Venusaur        Multi
Charmander     Single
Charmeleon     Single
                ...  
Stakataka       Multi
Blacephalon     Multi
Zeraora        Single
Meltan         Single
Melmetal       Single
Name: Type, Length: 809, dtype: object

In [31]:
pokemons.apply(single_or_multi).value_counts()

Multi     405
Single    404
Name: Type, dtype: int64

In [32]:
# DataFrame apply() 메서드

# Series와 마찬가지로 DataFrame 값에 함수를 적용하고 
# 싶을 때 apply() 메서드 활용(map 함수와 유사)
# Series와 달리 axis를 통해서 행 단위, 열 단위 적용 여부를 선택할 수 있다.

# DataFrame.apply(func, axis = 0, raw = False, result_type = None,
#                 args = (), **kwargs)

# axis가 0 or 'index'인 경우 행마다 함수를 적용
# axis가 1 or 'columns'인 경우 열마다 함수를 적용

# 아래 예제어서는 np.sqrt()를 적용
# np.sqrt()는 제곱근 계산
# np.sqrt()는 각 요소모다 적용되는 함수 (universal function, ufunc)로
# 이 경우 np.sqrt(df)와 동일한 결과를 가져온다.

df = pd.DataFrame([[4, 9]] * 3, columns = ['A', 'B'])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [33]:
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [34]:
np.sqrt(df) # 위와 동일한 결과

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [35]:
# 차원 축소 함수인 sum()의 활용 
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [36]:
df.apply(np.sum, axis = 'index') 

A    12
B    27
dtype: int64

In [37]:
df.apply(np.sum, axis = "rows")
# axis = 0, axis = "index", axis = "rows" 모두 동일한 결과

A    12
B    27
dtype: int64

In [38]:
# 함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과를
# 얻을 수 있다. 함수의 return이 row마다 리스트를 반환하면
# 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과가 나온다.

df # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [39]:
df.apply(lambda x : [1, 2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [40]:
df.apply(lambda x : [1, 2], axis = 1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

In [41]:
# result_type = 'expand'를 인수로 전달하면
# 리스트를 하나의 값으로 보지 않고 리스트 요소마다
# column으로 인식하도록 확장

df.apply(lambda x : [1, 2], axis = 1, result_type = 'expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


In [42]:
# Series를 return하는 함수를 사용하면 result_type = 'expand'과
# 비슷한 결과를 얻는다.

df.apply(lambda x : pd.Series([1, 2], index = ["foo", "bar"]), axis = 1)
# 이 때 Series의 index label은 column label이 된다.


# 시퀀스 타입에서 map을 사용했듯이 apply 통해서 각 요소마다....

Unnamed: 0,foo,bar
0,1,2
1,1,2
2,1,2


In [43]:
## result_type = 'broadcast'

# result_type = 'broadcast'를 인수로 전달하면 동일한 shape의 결과 보장
# 함수로부터 반환하는 게 리스트인지 스칼라인지에 상관없이 axis 방향으로
# broadcast한다.
# 결과의 column은 본래의 column label을 유지

df # 기존의 DataFrame

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [44]:
df.apply(lambda x : [1, 2], axis = 1, result_type = 'broadcast')
# 기존 shape와 함수 return된 값의 shape 크기가 동일해야 broadcasting 가능

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [45]:
# df.apply(lambda x : [1, 2, 3], axis = 1, result_type = 'broadcast')

# return되는 값이 기존 shape로 broadcast할 수 없는 shape이면 ValueError 발생

# 기존의 shape      : 3 × 2
# 함수 return shape :     3


# 기존의 shape와 함수 return된 값의 shape 크기가 다르고, 둘 중 하나가 1이 아니다
# → broadcasting 불가능

In [46]:
### DataFrame apply() 메서드 예제

df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [47]:
df3.apply(lambda x: x.max() - x.min())
# column마다의 최대값과 최소값의 차이를 계산

A    3
B    2
C    4
dtype: int64

In [48]:
df3.apply(lambda x: x.max() - x.min(), axis = 1)
# row에 대하여 적용하고 싶으면 axis = 1 사용

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [49]:
df3.apply(pd.value_counts)
# 각 column에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면
# value_counts 함수를 사용

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [50]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [51]:
titanic["adult/child"] = titanic.apply(lambda r : "adult" 
                                       if r.age >= 20
                                       else "child", 
                                       axis = 1)
titanic.tail()

# if와 else 사이에 조건식이 와야 한다.
# lambda 매개변수 아무거나. 여기서는 r을 사용함.
# lambda r: if condi else
# def dldldl(r):
       #if r.age>+20:
         # return "adult" 등등 의 식을 저 위의 식으로 표현한 것

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


In [52]:
titanic["category1"] = titanic.apply(lambda a : a.sex
                                     if a.age >= 20
                                     else "child",
                                     axis = 1)
                         # Pandas는 2차원까지 있으니까
                         # Series는 1차원, DataFrame은 2차원..
                      # 그래서 axis = 0 아니면 1이니까 0 넣어보고 안되면 1 넣으면 됨
titanic.tail()

# a.sex and a.age 열을 불러오는 것. 
# 이것을 a["sex"], a["age"]라고 써도(parameter에 대한 인덱싱) 무방. 표현방식의 차이

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


In [53]:
# DataFrame fillna() 메서드

# fillna() 메서드를 사용하여 NaN 값을 원하는 값으로 바꿀 수 있다.

# DataFrame.fillna(value = None, *, method = None, axis = None,
#                  inplace = False, limit = None, downcast = None)

# 첫 인자로 NaN을 변경하고자 하는 값을 전달

df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [54]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


In [55]:
# fillna() 메서드 value 값으로 column lable을 key로 갖는 딕셔너리를 전달할 수 있다.
# 그럴 경우 column마다 NaN 값ㅇ르 대치하는 값을 각각 다르게 지정할 수 있다.

# fillna() 결측치(NaN)를 채워주는 함수
df # 기존 DateFrame

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [56]:
values = {"A" : 0, "B" : 1, "C" : 2, "D" : 3}
df.fillna(value = values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


In [57]:
# fillna() 메서드에 limit 키워드 인자에 숫자를 전달하여
# 그 숫자만큼 column마다 변경 횟수를 제한 가능

values = {"A" : 0, "B" : 1, "C" : 2, "D" : 3}
df.fillna(value = values, limit = 1)
# column마다 NaN값 1회 변경

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,,3.0,,4.0


In [58]:
# fillna() 메서드에 DataFrame을 value로 전달해서 NaN값 대체 가능
# 단, column label과 row index가 일치하지 않으면 적용하지 못한다.

df2 = pd.DataFrame(np.zeros((3, 4)), columns = list("ABCE"))
df.fillna(df2)
# df2에는 D열이 없고 E열이 존재하므로 공통인(겹치는) A,B,C 열에 대해서만
# NaN값을 0으로 채운다.

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,,3.0,,4.0


In [59]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
adult/child    891
category1      891
dtype: int64

In [60]:
titanic[titanic["age"].isna()]

# isnull() == isna() 같다!!!! NaN 값

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True,child,child
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True,child,child
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True,child,child
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True,child,child
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True,child,child
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False,child,child
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child


In [61]:
a = titanic[titanic["age"].isna()].index
print(a)

Int64Index([  5,  17,  19,  26,  28,  29,  31,  32,  36,  42,
            ...
            832, 837, 839, 846, 849, 859, 863, 868, 878, 888],
           dtype='int64', length=177)


In [62]:
titanic.age = titanic["age"].fillna(titanic["age"].mean()).round()

In [63]:
titanic.iloc[a]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
5,0,3,male,30.0,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
17,1,2,male,30.0,0,0,13.0000,S,Second,man,True,,Southampton,yes,True,child,child
19,1,3,female,30.0,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True,child,child
26,0,3,male,30.0,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True,child,child
28,1,3,female,30.0,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True,child,child
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,30.0,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True,child,child
863,0,3,female,30.0,8,2,69.5500,S,Third,woman,False,,Southampton,no,False,child,child
868,0,3,male,30.0,0,0,9.5000,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,30.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child


In [64]:
# DataFrame astype() 메서드

# astype() 메서드로 column의 dtype를 바꾸는 것도 가능

# DataFrame.astype(dtype, copy = True, errors = 'raise')

# 첫 인자로 변경해줄 dtype을 전달하면 된다.
# int32, i4, int64, category, float, float64, f8, object 등이 있다.

d = {'col1' : [1, 2], 'col2' : [3, 4]}
df = pd.DataFrame(d)
df.dtypes

col1    int64
col2    int64
dtype: object

In [65]:
df.astype('int32').dtypes # int64 → int32

col1    int32
col2    int32
dtype: object

In [66]:
# dtype을 dictionary로 전달해서 해당 column만 형변환
df.astype({'col1' : 'int32'}).dtypes

col1    int32
col2    int64
dtype: object

In [67]:
employees = pd.read_csv("C:/python/datas/employees.csv",
                  parse_dates = ["Start Date"])
employees

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


In [68]:
employees.info()

# 실행 후 아해 4번 보고 아 Mgmt가 True False 값을 갖는구나 bool type 쓰면 좋겠다!

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        933 non-null    object        
 5   Team        957 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 47.0+ KB


In [69]:
employees.Mgmt.value_counts()

# employees["Mgmt"] 로 써도 별 차이가 없다. 편한걸로 쓰기.

True     468
False    465
Name: Mgmt, dtype: int64

In [70]:
employees.Mgmt = employees.Mgmt.astype(bool)
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    object        
dtypes: bool(1), datetime64[ns](1), float64(1), object(3)
memory usage: 40.2+ KB


In [73]:
employees.Salary = employees.Salary.fillna(0)

In [74]:
sum((employees.Salary - employees.Salary.astype("int"))>0)

0

In [75]:
employees.Salary = employees.Salary.astype("int")
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      1001 non-null   int32         
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    object        
dtypes: bool(1), datetime64[ns](1), int32(1), object(3)
memory usage: 36.3+ KB


In [None]:
# 연습문제
# employees의 데이터에서 컬럼마다 고유한 값의 숫자가 얼마나 되는지 확인해보세요.
# 그리고 그 중 범주형(category)으로 만들면 좋을 컬럼이 어떤 것이 있는지 고민해보고
# 적용해보세요.

In [76]:
employees.nunique()   # nunique() 고유한 값 출력

First Name    200
Gender          2
Start Date    971
Salary        995
Mgmt            2
Team           10
dtype: int64

In [77]:
employees.Gender.value_counts()

Female    431
Male      423
Name: Gender, dtype: int64

In [78]:
employees.Team.value_counts()

IT              106
Finance         102
Business Dev    101
Marketing        98
Product          95
Sales            94
Engineering      92
HR               91
Distribution     90
Legal            88
Name: Team, dtype: int64

In [79]:
employees.Gender = employees.Gender.astype("category")
employees.Team = employees.Team.astype("category")

In [81]:
employees.info()

# info()메소드를 통해서 통 데이터 건수와 데이터 타입, Null건수를  알 수 있음.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    category      
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      1001 non-null   int32         
 4   Mgmt        1001 non-null   bool          
 5   Team        957 non-null    category      
dtypes: bool(1), category(2), datetime64[ns](1), int32(1), object(1)
memory usage: 23.1+ KB


In [87]:
titanic["category2"] = titanic.sex + titanic.age.astype(str)

In [88]:
titanic[["age", "category2"]]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,30.0,female30.0
889,26.0,male26.0


In [89]:
# DataFrame 실수 값을 카테고리 값으로 변환

# 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때
# 아래 명령어 사용

# cut : 하한값, 상한값을 갖는 리스트를 bins 키워드 인수에 전달
#    - x = 1차원 형태의 배열 형태가 온다.
#    - bins = int, 스칼라를 요소로 갖는 시퀀스가 온다.

# pandas.cut(x, bins, right = True, labels = None, retbins = False,
#            precision = 3, include_lowest = False, duplicate = 'raise',
#            orderd = True)


# qcut : 개수가 똑같은 구간으로 나누는 경우(분위수)
#    - x = 1d ndarray 혹은 Series
#    - q = int 혹은 분위수를 나타내는 1. 이하의 실수를 요소로 갖는 리스트
#          (e.g. [0, .25, .5, .75, 1.])

# pandas.qcut(x, q, labels = None, retbins = False, precision = 3,
#             duplicates = 'raise')

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

# cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다.
# bins 인수는 카테고리를 나누는 기준값이 된다.
# 영역을 넘는 값은 NaN 처리

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
cats = pd.cut(ages, bins, labels = labels) 
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [90]:
# ages에서 0과 101은 bins 범위 밖이므로 NaN,
# 각 구간에 있는 숫자들은 label로 삽입
# (단, 경계에 있는 숫자까지가 앞 구간에 속한다.)

In [91]:
type(cats)
# cut 명령이 반환하는 값은 Categorical 클래스 객체이다.

pandas.core.arrays.categorical.Categorical

In [92]:
cats.categories
# Categories속성(attribute)으로 label 문자열 조회

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [93]:
cats.codes
# codes 속성(attribute)으로 정수로 인코딩한 카테고리 값을 가진다.

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [94]:
df4 = pd.DataFrame(ages, columns = ["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4

# 수치형 데이터를 레이블을 달아서 범주형으로 변경해준다.

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [95]:
df4.dtypes
# age_cat column 값은 문자열이 아닌 category다.

ages          int64
age_cat    category
dtype: object

In [96]:
df4["age_cat"].astype(str) + df4["ages"].astype(str)
# 두 컬럼을 str dtype으로 변경해서 이어붙임

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       장년37
6       장년31
7       중년61
8     미성년자20
9       장년41
10      장년32
11    nan101
dtype: object

In [97]:
data = np.random.randn(1000) 
# 평균 0, 표준편차 1의 가우시안 정규분포를 1000개의 구간으로 나눔
cats = pd.qcut(data, 4, labels = ["Q1", "Q2", "Q3", "Q4"])
cats

['Q3', 'Q1', 'Q2', 'Q2', 'Q4', ..., 'Q2', 'Q2', 'Q2', 'Q4', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [98]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

In [101]:
# titanic.value_counts("age", normalize = True)
# 정규화된 값을 반환

In [102]:
# 진명님 풀이
# 타이타닉호 승객을 '미성년자', '청년', '장년', '노년'
# 나이 그룹으로 나눈 후 각 그룹의 승객 비율 계산

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
titanic_age = pd.cut(titanic.age, bins, labels = labels)
titanic_age

0        청년
1        장년
2        청년
3        장년
4        장년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      장년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [105]:
titanic_age_df = pd.DataFrame(titanic_age.value_counts())
         # 데이터프레임화를 시킴
    
titanic_age_df.columns = ["연령층"]
         # age를 "연령층"으로 컬럼명 변경
    
titanic_age_df["연령비율"] = [round(i / titanic_age.count(), 2) for i in 
                      titanic_age.value_counts()]

In [106]:
titanic_age_df

Unnamed: 0,연령층,연령비율
청년,408,0.47
장년,239,0.27
미성년자,166,0.19
중년,60,0.07
노년,4,0.0


In [107]:
# 기영 풀이
titanic_cats = pd.cut(titanic.age, bins, labels=labels)
titanic_cats.value_counts(normalize=True)

청년      0.465222
장년      0.272520
미성년자    0.189282
중년      0.068415
노년      0.004561
Name: age, dtype: float64

In [118]:
# category3 정의
# (1) 20살 미만이면 성별에 관계없이 "미성년자?
# (2) 20살 이상이면 나이에 따라 '청년', '장년', '중년', '노년'을 구분하고
#     그 뒤에 성별을 나타내는 '남성', '여성'을 붙인다.

bins2 = [1,19, 30, 50, 70, 100]
labels2 = ["미성년자", "청년", "장년", "중년", "노년"]

In [119]:
titanic_age2 = pd.cut(titanic.age, bins2, labels = labels2)

In [120]:
titanic["category3"] = titanic_age2.astype(str) + ["남성" if _ == "male" else "여성" for _ in titanic.sex]
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22.0,청년남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0,장년여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0,청년여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0,장년여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35.0,장년남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27.0,청년남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19.0,미성년자여성
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female30.0,청년여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26.0,청년남성
