In [1]:
import pandas as pd
import numpy as np

In [3]:
data_url = "https://people.sc.fsu.edu/~jburkardt/data/csv/example.csv"  # data url
df_data = pd.read_csv(data_url, sep="\s+", header=None)  # csv 타입 데이터 로드, separate 는 빈공간으로 지정하고, col 은 없음
# read_csv : csv 타입의 데이터 읽음 // sep : data 를 나누는 기준 (regex 로 선별) // header : 첫 row 에 col 이름들이 들어가 있는가 ?

In [4]:
# 처음 다섯줄 출력
df_data.head()

Unnamed: 0,0
0,"TOK,UPDATE,DATE,SHOT,TIME,AUXHEAT,PHASE,STATE,..."
1,"JET,20031201,20001006,53521,1.000E+01,NBIC,HSE..."


In [5]:
# 결과물을 보면 알겠지만, 모든 데이터들은 numpy 의 ndarray 이다.
df_data.values

array([['TOK,UPDATE,DATE,SHOT,TIME,AUXHEAT,PHASE,STATE,PGASA,PGASZ,BGASA,BGASZ,BGASA2,BGASZ2,PIMPA,PIMPZ,PELLET,RGEO,RMAG,AMIN,SEPLIM,XPLIM,KAPPA,DELTA,INDENT,AREA,VOL,CONFIG,IGRADB,WALMAT,DIVMAT,LIMMAT,EVAP,BT,IP,VSURF,Q95,BEPMHD,BETMHD,BEPDIA,NEL,DNELDT,ZEFF,PRAD,POHM,ENBI,PINJ,BSOURCE,PINJ2,BSOURCE2,COCTR,PNBI,ECHFREQ,ECHMODE,ECHLOC,PECH,ICFREQ,ICSCHEME,ICANTEN,PICRH,LHFREQ,LHNPAR,PLH,IBWFREQ,PIBW,TE0,TI0,WFANI,WFICRH,MEFF,ISEQ,WTH,WTOT,DWTOT,PL,PLTH,TAUTOT,TAUTH'],
       ['JET,20031201,20001006,53521,1.000E+01,NBIC,HSELM,TRANS,2.000E+00,1.000E+00,2,1,0,0,1.658E+01,8.152E+00,NONE,2.888E+00,3.047E+00,9.807E-01,2.924E-02,7.304E-02,1.572E+00,1.781E-01,0.000E+00,4.572E+00,8.161E+01,LSN,1,IN/C,BE,C/BE,BE,3.598E+00,2.000E+06,1.013E-01,6.001E+00,1.053E+00,9.252E-01,1.128E+00,3.106E+19,3.106E+19,6.612E+00,4.515E+06,5.122E+04,1.000E+05,1.466E+07,771706,0.000E+00,652114,1.000E+00,1.420E+07,-9.999E-09,NONE,NONE,0.000E+00,5.100E+07,HMIN,MONOPOLE,4.027E+06,3.700E+09,1.840E+00,2.000E+06,-9.999E-

In [6]:
""" Series """
# Column Vector 를 표현하는 object
# numpy.ndarray 의 서브 클래스이다.
# index 타입을 핸들링 할 수 있다.
# example_obj = pd.Series(data)
# data 에는 list, dict 값 모두 들어갈 수 있다. (만약 dict 를 넣을 땐, 앞에는 index 값, 뒤에는 value 값이 삽입된다.)

list_data = [1, 2, 3, 4, 5]
example_obj = pd.Series(data=list_data)
example_obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [7]:
list_data = [1, 2, 3, 4, 5]
list_name = ["a", "b", "c", "d", "e"]
example_obj = pd.Series(data=list_data, index=list_name)  # index= 를 통해 index 의 이름을 지정할 수 있다.
example_obj

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [8]:
# data index 에 접근하기
example_obj["a"]

1

In [9]:
# data index 에 값 할당하기
example_obj["a"] = 9
example_obj

a    9
b    2
c    3
d    4
e    5
dtype: int64

In [10]:
# value 값만 따로 추출
example_obj.values

array([9, 2, 3, 4, 5], dtype=int64)

In [11]:
# index 값만 따로 추출
example_obj.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [12]:
# data 에 대한 정보를 저장
example_obj.name = "number"  # value 값에 대한 정보
example_obj.index.name = "alphabet"  # index 에 대한 정보
example_obj

alphabet
a    9
b    2
c    3
d    4
e    5
Name: number, dtype: int64

In [13]:
""" Dataframe """
# Data table 전체를 포함하는 Object
# numpy 의 서브클래스이기 떄문에 numpy 의 함수들을 사용할 수 있다.
# numpy 의 array 와 유사하다. 
# 각각의 col 은 서로 다른 타입을 가진다.
# Matrix 로 가정을 하며, 따라서 당연히 row 와 col 의 값이 존재하고 접근할 수 있다.
# Size mutable 로 변경 가능하다. (insert 및 delete 로 size 가 유동적으로 변한다.)

# 아래와 같이 dict 로 넣어줄 수 있지만, 보통 csv 파일로 관리한다.
raw_data = {"first_name": ["Jason", "Molly", "Tina", "Jake", "Amy"],
            "last_name": ["Miller", "Jacobson", "Ali", "Milner", "Cooze"],
            "age": [42, 52, 36, 24, 73],
            "city": ["San Francisco", "Baltimore", "Miami", "Douglas", "Boston"]}

df = pd.DataFrame(data=raw_data, columns=["first_name", "last_name", "age", "city"])
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boston


In [14]:
# col 을 선택하여 추출할 수 있다.
df = pd.DataFrame(data=raw_data, columns=["age", "city"])
df

Unnamed: 0,age,city
0,42,San Francisco
1,52,Baltimore
2,36,Miami
3,24,Douglas
4,73,Boston


In [15]:
# 새로운 col 추가 (value 는 NaN 이 된다.)
df = pd.DataFrame(data=raw_data, columns=["first_name", "last_name", "age", "city", "debt"])
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,
4,Amy,Cooze,73,Boston,


In [16]:
# col 선택 후 series 추출 (== df.first_name)
df["first_name"]

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [17]:
# loc 을 통해 해당 위치의 데이터를 추출할 수 있고, (index 의 위치를 실제 value 값을 기준으로 절대적으로 잡는다.)
# iloc 을 통해 해당 index 의 데이터를 추출할 수 있다. (index 의 위치를 '처음' 을 기준으로 상대적으로 잡는다.)

df.loc[1]  # 해당하는 index location 의 모든 데이터를 추출

first_name        Molly
last_name      Jacobson
age                  52
city          Baltimore
debt                NaN
Name: 1, dtype: object

In [18]:
# 해당하는 index position 의 모든 데이터를 추출
df["age"].iloc[1:]

# df["age"] 는 series 가 추출되지만,
# df["age"].iloc[1:] 는 series 내의 index 를 찾아 추출한다

1    52
2    36
3    24
4    73
Name: age, dtype: int64

In [19]:
# loc 과 iloc 을 구분해보자
s = pd.Series(data=np.nan, index=[49, 48, 47, 46, 45, 1, 2, 3, 4, 5])
s

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
dtype: float64

In [20]:
# 실제 index 값이 3 인 부분까지 추출한다
s.loc[:3]

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
dtype: float64

In [21]:
# 처음부터 index 3 까지 추출한다
s.iloc[:3]

49   NaN
48   NaN
47   NaN
dtype: float64

In [22]:
# col 에 새로운 데이터를 할당
df["debt"] = df["age"] > 40  # df 에서 age 값이 40이 넘어가면 debt 의 value 가 True 가 된다.
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,True
1,Molly,Jacobson,52,Baltimore,True
2,Tina,Ali,36,Miami,False
3,Jake,Milner,24,Douglas,False
4,Amy,Cooze,73,Boston,True


In [23]:
# data frame 의 transpose
df.T

Unnamed: 0,0,1,2,3,4
first_name,Jason,Molly,Tina,Jake,Amy
last_name,Miller,Jacobson,Ali,Milner,Cooze
age,42,52,36,24,73
city,San Francisco,Baltimore,Miami,Douglas,Boston
debt,True,True,False,False,True


In [24]:
# data frame 에서의 값 출력
df.values

array([['Jason', 'Miller', 42, 'San Francisco', True],
       ['Molly', 'Jacobson', 52, 'Baltimore', True],
       ['Tina', 'Ali', 36, 'Miami', False],
       ['Jake', 'Milner', 24, 'Douglas', False],
       ['Amy', 'Cooze', 73, 'Boston', True]], dtype=object)

In [25]:
# data frame -> csv 형식으로 변환
df.to_csv()

',first_name,last_name,age,city,debt\n0,Jason,Miller,42,San Francisco,True\n1,Molly,Jacobson,52,Baltimore,True\n2,Tina,Ali,36,Miami,False\n3,Jake,Milner,24,Douglas,False\n4,Amy,Cooze,73,Boston,True\n'

In [26]:
# col 을 삭제 (del)
del df["debt"]
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boston


In [27]:
""" Selection & Drop """
# Selection : data 를 가져옴
# Drop : date 를 없앰 (del 과는 달리 row 단위로 데이터를 없앤다.)
# (!! Pandas 는 데이터를 쉽게 못 지운다. 반드시 drop(~, inplace=True) 를 붙여줘야 한다 !! )

# << Selection >>
# head(n) 으로 n 개의 데이터를 추출할 수 있다.
# 하나의 col 을 추출할 경우는, series 객체를 추출하게 된다.
df["first_name"].head(3)

0    Jason
1    Molly
2     Tina
Name: first_name, dtype: object

In [28]:
# 여러개의 col 을 추출할 경우는, data frame 객체를 추출하게 된다.
df[["first_name", "last_name", "age"]].head(3)  # df[[cols]] 임을 기억하자

Unnamed: 0,first_name,last_name,age
0,Jason,Miller,42
1,Molly,Jacobson,52
2,Tina,Ali,36


In [29]:
# col 이름 없이 index 번호로만 추출했을 경우는, row 를 기준으로 data 를 추출하게 된다.
df[:3]

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami


In [30]:
# col 이름과 index 번호를 동시에 사용하여 추출했을 경우는, 해당 col 만 추출하게 된다.
df[["last_name", "city"]][:3]

Unnamed: 0,last_name,city
0,Miller,San Francisco
1,Jacobson,Baltimore
2,Ali,Miami


In [31]:
# 해당 series 를 따로 추출해서 row index 를 기준으로 다시 추출할 수 있다.
age = df["age"]
age[:3]

0    42
1    52
2    36
Name: age, dtype: int64

In [32]:
age[[0, 1, 2]]

0    42
1    52
2    36
Name: age, dtype: int64

In [33]:
# Boolean index 도 가능하다
age[age < 45]

0    42
2    36
3    24
Name: age, dtype: int64

In [34]:
# 원래 data frame 에는 개별적인 index 가 존재한다.
# 하지만 df.index = df["col"] 을 통해 고유한 index 를 변경할 수 있다 !
df2 = df.copy()
df2.index = df2["age"]
del df2["age"]  # age col 이 그대로 남아있기 때문에 del 을 해줘야 한다.
df2

Unnamed: 0_level_0,first_name,last_name,city
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
42,Jason,Miller,San Francisco
52,Molly,Jacobson,Baltimore
36,Tina,Ali,Miami
24,Jake,Milner,Douglas
73,Amy,Cooze,Boston


In [35]:
# col name 과 index number 를 통해 데이터 추출
df[["first_name", "age"]][:2]

Unnamed: 0,first_name,age
0,Jason,42
1,Molly,52


In [36]:
# index name 과 col name 을 통해 데이터 추출 (순서 바뀌면 안됨)
df.loc[[0, 1], ["first_name", "age"]]

Unnamed: 0,first_name,age
0,Jason,42
1,Molly,52


In [37]:
# index number 와 col number 를 통해 데이터 추출 (순서 바뀌면 안됨)
df.iloc[:3, :2]

Unnamed: 0,first_name,last_name
0,Jason,Miller
1,Molly,Jacobson
2,Tina,Ali


In [38]:
# index 재설정
df.index = list(range(3, 8))
df

Unnamed: 0,first_name,last_name,age,city
3,Jason,Miller,42,San Francisco
4,Molly,Jacobson,52,Baltimore
5,Tina,Ali,36,Miami
6,Jake,Milner,24,Douglas
7,Amy,Cooze,73,Boston


In [39]:
df2 = df.copy()

# << Drop >>
# index 번호로 drop 가능함
# drop 이 반영되게 하려면 drop(inplace=True) 옵션을 붙일 것 !
df2.drop(5, inplace=True)
df2

Unnamed: 0,first_name,last_name,age,city
3,Jason,Miller,42,San Francisco
4,Molly,Jacobson,52,Baltimore
6,Jake,Milner,24,Douglas
7,Amy,Cooze,73,Boston


In [40]:
# 한 개 이상의 데이터를 drop 하고 싶을 땐 list 로 묶는다.
df2.drop([3, 4], inplace=True)
df2

Unnamed: 0,first_name,last_name,age,city
6,Jake,Milner,24,Douglas
7,Amy,Cooze,73,Boston


In [41]:
# 원하는 col 을 지울 수 있다. (반드시 axis 를 넣어줘야 하며, 2차원일 경우 axis=1 이다.)
df2.drop("last_name", axis=1, inplace=True)
df2

Unnamed: 0,first_name,age,city
6,Jake,24,Douglas
7,Amy,73,Boston


In [42]:
""" Dataframe Operations """
# (Operation type : add, sub, div, mul)

# << Series Operation >>
# index 기준으로 연산 수행
# 겹치는 index 가 없을 경우 NaN 값으로 반환
s1 = pd.Series(range(1, 6), index=list("abcde"))
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [43]:
s2 = pd.Series(range(5, 11), index=list("bcedef"))
s2

b     5
c     6
e     7
d     8
e     9
f    10
dtype: int64

In [44]:
s1.add(s2)

a     NaN
b     7.0
c     9.0
d    12.0
e    12.0
e    14.0
f     NaN
dtype: float64

In [45]:
s1 + s2

a     NaN
b     7.0
c     9.0
d    12.0
e    12.0
e    14.0
f     NaN
dtype: float64

In [46]:
# << Dataframe Operation >>
# dataframe 은 col 과 index 를 모두 고려
# fill_value=k 의 인자를 넣어줌으로써 NaN 일 경우의 값 설정 가능

df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list("abc"))
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [47]:
df2 = pd.DataFrame(np.arange(16).reshape(4, 4), columns=list("abcd"))
df2

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [48]:
df1 + df2

Unnamed: 0,a,b,c,d
0,0.0,2.0,4.0,
1,7.0,9.0,11.0,
2,14.0,16.0,18.0,
3,,,,


In [49]:
# 아래와 같이 fall_value 인자 넣을 수 있음
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d
0,0.0,2.0,4.0,3.0
1,7.0,9.0,11.0,7.0
2,14.0,16.0,18.0,11.0
3,12.0,13.0,14.0,15.0


In [50]:
# series + dataframe 의 경우 col 을 기준으로 broadcasting 이 발생함
df = pd.DataFrame(np.arange(16).reshape(4, 4), columns=list("abcd"))
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [51]:
s = pd.Series(np.arange(10, 14), index=list("abcd"))
s

a    10
b    11
c    12
d    13
dtype: int32

In [52]:
df.add(s)

Unnamed: 0,a,b,c,d
0,10,12,14,16
1,14,16,18,20
2,18,20,22,24
3,22,24,26,28


In [53]:
# axis 를 인자로 넣으면, axis 를 기준으로 broadcasting 이 발생한다.
s2 = pd.Series(np.arange(10, 14))
df.add(s2, axis=0)

Unnamed: 0,a,b,c,d
0,10,11,12,13
1,15,16,17,18
2,20,21,22,23
3,25,26,27,28


In [54]:
""" Lambda, Map, Apply """
# pandas 에서 굉장히 실용적임

# << map for series >>
# pandas 의 series type 의 데이터에도 map 함수 사용 가능
# function 대신 dict, sequence 자료형 등으로 대체 가능
s1 = pd.Series(np.arange(10))
s1.map(lambda x: x**2).head(5)

0     0
1     1
2     4
3     9
4    16
dtype: int64

In [55]:
# dict 타입을 이용하여 map 을 사용하면, 해당 index 의 값을 바꿔준다. (유용하게 데이터 변환 가능)
z = {1: "A", 2: "B", 3: "C"}
s1.map(z)

0    NaN
1      A
2      B
3      C
4    NaN
5    NaN
6    NaN
7    NaN
8    NaN
9    NaN
dtype: object

In [56]:
# size 가 같다면, 같은 위치의 값들끼리 효율적으로 값을 바꿀 수 있다.
s2 = pd.Series(np.arange(10, 20))
s1.map(s2)

0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int32

In [62]:
# < 예제 >
data_url = "https://raw.githubusercontent.com/rstudio/Intro/master/data/wages.csv"
df = pd.read_csv(data_url)
df.head()


Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,male,white,16,49
1,96396.988643,66.23,female,white,16,62
2,48710.666947,63.77,female,white,16,33
3,80478.096153,63.22,female,other,16,95
4,82089.345498,63.08,female,white,17,43


In [66]:
# 데이터를 중복되지 않도록 나열한다
df["sex"].unique()

array(['male', 'female'], dtype=object)

In [67]:
# map 을 사용하여 데이터를 효율적으로 변환할 수 있다.
df["sex_code"] = df["sex"].map({"male": 0, "female": 1})
df.head()

Unnamed: 0,earn,height,sex,race,ed,age,sex_code
0,79571.299011,73.89,male,white,16,49,0
1,96396.988643,66.23,female,white,16,62,1
2,48710.666947,63.77,female,white,16,33,1
3,80478.096153,63.22,female,other,16,95,1
4,82089.345498,63.08,female,white,17,43,1


In [68]:
# 혹은 동일 col 내의 값 자체를 바꿀 수 있다.
df.drop(columns=["sex_code"], inplace=True)
df["sex"].replace({"male": 0, "female": 1}, inplace=True)
df.head()

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,0,white,16,49
1,96396.988643,66.23,1,white,16,62
2,48710.666947,63.77,1,white,16,33
3,80478.096153,63.22,1,other,16,95
4,82089.345498,63.08,1,white,17,43


In [69]:
# 혹은 list 두개로 'col 이름' 과 '값' 을 지정할 수 있다.
df["sex"].replace([0, 1], ["male", "female"], inplace=True)
df.head()

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,male,white,16,49
1,96396.988643,66.23,female,white,16,62
2,48710.666947,63.77,female,white,16,33
3,80478.096153,63.22,female,other,16,95
4,82089.345498,63.08,female,white,17,43


In [70]:
# << apply for dataframe >>
# map 과 달리, series 전체 col 에 해당 함수를 적용시킨다
# series 데이터로 입력받아 handling 가능하다
# 내장 연산 함수를 사용할 때도 똑같은 효과를 거둘 수 있음
# mean, std 등 사용 가능
# scalar 값 이외에 series 값의 반환도 가능함

df_info = df[["earn", "height", "age"]]
df_info.head()

Unnamed: 0,earn,height,age
0,79571.299011,73.89,49
1,96396.988643,66.23,62
2,48710.666947,63.77,33
3,80478.096153,63.22,95
4,82089.345498,63.08,43


In [71]:
# 각 col 별로 결과값 반환
f = lambda x: x.max() - x.min()  # max, min 이 있다는 것은 sequence 이다. 즉, series 가 통째로 들어간다
df_info.apply(f)

earn      318047.708444
height        19.870000
age           73.000000
dtype: float64

In [72]:
# 내장 연산 함수를 사용할 때도 똑같은 효과를 거둘 수 있음
df_info.sum()

earn      4.474344e+07
height    9.183125e+04
age       6.250800e+04
dtype: float64

In [73]:
# 위의 결과와 동일하다.
df_info.apply(sum)

earn      4.474344e+07
height    9.183125e+04
age       6.250800e+04
dtype: float64

In [74]:
# scalar 값 이외에 series 값의 반환도 가능함
def f(x):
    return pd.Series([x.max(), x.min()], index=["max", "min"])


df_info.apply(f)

Unnamed: 0,earn,height,age
max,317949.127955,77.21,95
min,-98.580489,57.34,22


In [75]:
# << applymap for dataframe >>
# series 단위가 아닌 전체 element 단위로 함수를 적용함 (기본 map 은 series 데이터의 element 하나하나에 적용한다)
# series 단위에 apply 를 적용시킬 때와 같은 효과

f = lambda x : -x
df_info.applymap(f).head(5)

Unnamed: 0,earn,height,age
0,-79571.299011,-73.89,-49
1,-96396.988643,-66.23,-62
2,-48710.666947,-63.77,-33
3,-80478.096153,-63.22,-95
4,-82089.345498,-63.08,-43


In [76]:
# series 단위에 apply 를 적용했을 경우와 같은 경우
df_info["earn"].apply(f).head(5)

0   -79571.299011
1   -96396.988643
2   -48710.666947
3   -80478.096153
4   -82089.345498
Name: earn, dtype: float64

In [77]:
""" Pandas Built-in Functions"""
# pandas 에는 다양한 built-in function 들이 존재한다

# << describe >>
# numeric type 데이터의 요약 정보를 보여줌
df.describe()

Unnamed: 0,earn,height,ed,age
count,1379.0,1379.0,1379.0,1379.0
mean,32446.292622,66.59264,13.354605,45.328499
std,31257.070006,3.818108,2.438741,15.789715
min,-98.580489,57.34,3.0,22.0
25%,10538.790721,63.72,12.0,33.0
50%,26877.870178,66.05,13.0,42.0
75%,44506.215336,69.315,15.0,55.0
max,317949.127955,77.21,18.0,95.0


In [78]:
# << unique >>
# series data 의 유일한 값을 list 로 반환함
# category 형 데이터가 몇 개 인지 모를 경우 유용하다.

df["earn"].unique()

array([79571.29901102, 96396.98864331, 48710.66694739, ...,
       13710.67131164, 95426.01441029,  9575.46185684])

In [79]:
# 유일한 인종의 값 list
df["race"].unique()

array(['white', 'other', 'hispanic', 'black'], dtype=object)

In [80]:
# dict 타입으로 indexing
np.array(dict(enumerate(df["race"].unique())))

array({0: 'white', 1: 'other', 2: 'hispanic', 3: 'black'}, dtype=object)

In [81]:
np.array(list(enumerate(df["race"].unique())))[:, 0]

array(['0', '1', '2', '3'], dtype='<U11')

In [82]:
list(map(int, np.array(list(enumerate(df["race"].unique())))[:, 0].tolist()))  # == value

[0, 1, 2, 3]

In [83]:
np.array(list(enumerate(df["race"].unique())), dtype=str)[:, 1].tolist()  # == key

['white', 'other', 'hispanic', 'black']

In [84]:
# label index 값과 label 값 각각 추출
value = list(map(int, np.array(list(enumerate(df["race"].unique())))[:, 0].tolist()))
key = np.array(list(enumerate(df["race"].unique())), dtype=str)[:, 1].tolist()

value, key

([0, 1, 2, 3], ['white', 'other', 'hispanic', 'black'])

In [85]:
# << sum >
# 기본적인 col 또는 row 값의 연산을 지원
# axis 를 기준으로 값을 추출할 수 있다.
df.sum(axis=0)

earn                                            4.47434e+07
height                                              91831.3
sex       malefemalefemalefemalefemalefemalefemalemalema...
race      whitewhitewhiteotherwhitewhitewhitewhitehispan...
ed                                                    18416
age                                                   62508
dtype: object

In [86]:
df.head().sum(axis=1)

0    79710.189011
1    96541.218643
2    48823.436947
3    80652.316153
4    82212.425498
dtype: float64

In [87]:
# << isnull >>
# col 또는 row 값의 NaN (null) 값의 index 를 반환함
df.head().isnull  # 여기선 존재하지 않는다.

<bound method DataFrame.isnull of            earn  height     sex   race  ed  age
0  79571.299011   73.89    male  white  16   49
1  96396.988643   66.23  female  white  16   62
2  48710.666947   63.77  female  white  16   33
3  80478.096153   63.22  female  other  16   95
4  82089.345498   63.08  female  white  17   43>

In [88]:
# << sort_values >>
# col 값을 기준으로 데이터를 sorting
# ascending 인자를 통해 오름차순, 내림차순 구분 가능하다

df.sort_values(["age", "earn"], ascending=True).head(10)

Unnamed: 0,earn,height,sex,race,ed,age
1038,-56.321979,67.81,male,hispanic,10,22
800,-27.876819,72.29,male,white,12,22
963,-25.65526,68.9,male,white,12,22
1105,988.56507,64.71,female,white,12,22
801,1000.221504,64.09,female,white,12,22
862,1002.023843,66.59,female,white,12,22
933,1007.994941,68.26,female,white,12,22
988,1578.542814,64.53,male,white,12,22
522,1955.168187,69.87,female,black,12,22
765,2581.870402,64.79,female,white,12,22


In [89]:
# << correlation & covariance >>
# 상관계수와 공분산을 구하는 함수
# corr, cov, corrwith

df["age"].corr(df["earn"])

0.07400349177836056

In [90]:
df["age"].cov(df["earn"])

36523.69921040889

In [91]:
df.corrwith(df["earn"])

earn      1.000000
height    0.291600
ed        0.350374
age       0.074003
dtype: float64

In [92]:
df.corr()

Unnamed: 0,earn,height,ed,age
earn,1.0,0.2916,0.350374,0.074003
height,0.2916,1.0,0.114047,-0.133727
ed,0.350374,0.114047,1.0,-0.129802
age,0.074003,-0.133727,-0.129802,1.0
