In [23]:
import numpy as np
import pandas as pd
import random
## 간단하게 Series를 하나 생성해보자
np.random.seed(1)
s = pd.Series(np.random.randint(1,5,(6,)),
             index=[["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                    ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]])
print(s)
# 총무처만 추출하려면?
s["총무처"]
# 관리처와 정보전산처를 추출해보자 => fancy indexing
s[["관리처","정보전산처"]] 
# 1차 인덱스와 2차인덱스를 이용해서 데이터를 추출해보자
# 총무처에 재무팀 인원은 몇명? => tuple을 이용해야함! ()
# s[("총무처","재무팀")]  # s[("1차 index","2차 index")]
# s["총무처","재무팀"] tuple 생략가능 
# s["관리처","정보전산처"] 하지만 1차 인덱스 두개는 에러
# s["총무처",:]
# s[("총무처",:)]  문법 에러 발생 ()를 생략해서 사용해야함.

총무처    인력개발팀    2
관리처    건축팀      4
정보전산처  개발팀      1
총무처    재무팀      1
관리처    안전팀      4
정보전산처  운영팀      2
dtype: int32


인력개발팀    2
재무팀      1
dtype: int32

In [22]:
## DataFrame의 다중인덱스
import numpy as np
import pandas as pd

np.random.seed(100)

df = pd.DataFrame(np.random.randint(1,5,(6,5)),
                  index = [["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                           ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]],
                  columns = [["아시아","유럽","아시아","유럽","아시아"],
                             ["한국","독일","일본","프랑스","중국"]])
# display(df)
## 정렬해보자
new_df = df.sort_index(axis=0)     #행 방향으로 sort
new_df = new_df.sort_index(axis=1) #col 방향으로 sort
display(new_df)

# 유럽지역만 추출 => DataFrame
new_df["유럽"]
# 아시아지역에서 한국만 추출
df["아시아","한국"] # Series로 리턴
# 지역에 상관없이 총무처만 추출
new_df.loc["총무처"]
# 총무처에 재무팀만 추출하려면
new_df.loc[("총무처","재무팀")]
# 아시아 지역 중국의 정보전산처 개발팀 인원은 몇명?
new_df.loc[("정보전산처","개발팀"),("아시아","중국")]

Unnamed: 0_level_0,Unnamed: 1_level_0,아시아,아시아,아시아,유럽,유럽
Unnamed: 0_level_1,Unnamed: 1_level_1,일본,중국,한국,독일,프랑스
관리처,건축팀,3,1,4,1,3
관리처,안전팀,1,1,1,4,3
정보전산처,개발팀,3,3,3,2,3
정보전산처,운영팀,2,3,4,2,3
총무처,인력개발팀,4,4,1,1,4
총무처,재무팀,1,4,3,2,1


3

In [32]:
# index별로 정렬을 해보자
import numpy as np
import pandas as pd
np.random.seed(100)

df = pd.DataFrame(np.random.randint(1,5,(6,5)),
                  index = [["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                           ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]],
                  columns = [["아시아","유럽","아시아","유럽","아시아"],
                             ["한국","독일","일본","프랑스","중국"]])
df.index.names = ["부처","팀"]
df.columns.names = ["대륙","국가"]
display(df)

# "팀"이름으로 행을 내림차순으로 정렬
df.sort_index(axis=0, level="팀", ascending = False)
df.sort_index(axis=0, level=1, ascending = False) #level=1 : 2차 인덱스를 의미

# 국가별로 컬럼을 오름차순으로 정렬
df.sort_index(axis=1, level="국가", ascending=True)

Unnamed: 0_level_0,대륙,아시아,유럽,아시아,유럽,아시아
Unnamed: 0_level_1,국가,한국,독일,일본,프랑스,중국
부처,팀,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
총무처,인력개발팀,1,1,4,4,4
관리처,건축팀,4,1,3,3,1
정보전산처,개발팀,3,2,3,3,3
총무처,재무팀,3,2,1,1,4
관리처,안전팀,1,4,1,3,1
정보전산처,운영팀,4,2,2,3,3


Unnamed: 0_level_0,대륙,유럽,아시아,아시아,유럽,아시아
Unnamed: 0_level_1,국가,독일,일본,중국,프랑스,한국
부처,팀,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
총무처,인력개발팀,1,4,4,4,1
관리처,건축팀,1,3,1,3,4
정보전산처,개발팀,2,3,3,3,3
총무처,재무팀,2,1,4,1,3
관리처,안전팀,4,1,1,3,1
정보전산처,운영팀,2,2,3,3,4


In [34]:
# Data값을 활용해서 정렬을 해보자
import numpy as np
import pandas as pd
np.random.seed(100)

df = pd.DataFrame(np.random.randint(1,5,(6,5)),
                  index = [["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                           ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]],
                  columns = [["아시아","유럽","아시아","유럽","아시아"],
                             ["한국","독일","일본","프랑스","중국"]])
df.index.names = ["부처","팀"]
df.columns.names = ["대륙","국가"]
display(df)

# 아시아 지역의 한국 직원수를 기준으로 내림차순을 정렬
df.sort_values(by=("아시아","한국"), ascending = False)
# 아시아 지역의 한국 직원수를 기준으로 내림차순 정렬하고 만약 동률이 존재하면 아시아 지역의 일본 직원수를
# 기준으로 오름차순 정렬
df.sort_values(by=[("아시아","한국"),("아시아","일본")],
               ascending = [False,True])


Unnamed: 0_level_0,대륙,아시아,유럽,아시아,유럽,아시아
Unnamed: 0_level_1,국가,한국,독일,일본,프랑스,중국
부처,팀,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
총무처,인력개발팀,1,1,4,4,4
관리처,건축팀,4,1,3,3,1
정보전산처,개발팀,3,2,3,3,3
총무처,재무팀,3,2,1,1,4
관리처,안전팀,1,4,1,3,1
정보전산처,운영팀,4,2,2,3,3


Unnamed: 0_level_0,대륙,아시아,유럽,아시아,유럽,아시아
Unnamed: 0_level_1,국가,한국,독일,일본,프랑스,중국
부처,팀,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
정보전산처,운영팀,4,2,2,3,3
관리처,건축팀,4,1,3,3,1
총무처,재무팀,3,2,1,1,4
정보전산처,개발팀,3,2,3,3,3
관리처,안전팀,1,4,1,3,1
총무처,인력개발팀,1,1,4,4,4


In [51]:
## DataFrame에 대한 sum(), mean()
import numpy as np
import pandas as pd
np.random.seed(100)

df = pd.DataFrame(np.random.randint(1,5,(6,5)),
                  index = [["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                           ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]],
                  columns = [["아시아","유럽","아시아","유럽","아시아"],
                             ["한국","독일","일본","프랑스","중국"]])
df.index.names = ["부처","팀"]
df.columns.names = ["대륙","국가"]
display(df)
# 각도시별 직원수의 합은?
df.sum(axis=0)
# 각 도시 부처별 직원수의 합은?
df.sum(axis=0, level=0)
# 각 도시 팀별 직원수의 합은?
# df.sum(axis=0, level=1)

# 모든 지역의 각 부처-팀별 평균 인원?
df.mean(axis=1)

Unnamed: 0_level_0,대륙,아시아,유럽,아시아,유럽,아시아
Unnamed: 0_level_1,국가,한국,독일,일본,프랑스,중국
부처,팀,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
총무처,인력개발팀,1,1,4,4,4
관리처,건축팀,4,1,3,3,1
정보전산처,개발팀,3,2,3,3,3
총무처,재무팀,3,2,1,1,4
관리처,안전팀,1,4,1,3,1
정보전산처,운영팀,4,2,2,3,3


부처     팀    
총무처    인력개발팀    2.8
관리처    건축팀      2.4
정보전산처  개발팀      2.8
총무처    재무팀      2.2
관리처    안전팀      2.0
정보전산처  운영팀      2.8
dtype: float64

In [56]:
# col <=> index로 변경해보자
import numpy as np
import pandas as pd

df = pd.DataFrame({ "이름" : ["홍길동","김연아","아이유","김길동","신사임당"],
                    "성적" : [1.5,4.4,4.5,2.3,4.0],
                    "학과" : ["컴퓨터","철학","컴퓨터","철학","컴퓨터"],
                    "학년" : [1,2,3,2,2]})
display(df)
# col <=> index로 변경해보자 : set_index(), reset_index() 함수
new_df = df.set_index(["학과","학년"])
display(new_df)
origin_df = new_df.reset_index()
display(origin_df)

Unnamed: 0,이름,성적,학과,학년
0,홍길동,1.5,컴퓨터,1
1,김연아,4.4,철학,2
2,아이유,4.5,컴퓨터,3
3,김길동,2.3,철학,2
4,신사임당,4.0,컴퓨터,2


Unnamed: 0_level_0,Unnamed: 1_level_0,이름,성적
학과,학년,Unnamed: 2_level_1,Unnamed: 3_level_1
컴퓨터,1,홍길동,1.5
철학,2,김연아,4.4
컴퓨터,3,아이유,4.5
철학,2,김길동,2.3
컴퓨터,2,신사임당,4.0


Unnamed: 0,학과,학년,이름,성적
0,컴퓨터,1,홍길동,1.5
1,철학,2,김연아,4.4
2,컴퓨터,3,아이유,4.5
3,철학,2,김길동,2.3
4,컴퓨터,2,신사임당,4.0


In [60]:
# col <=> index로 변경해보자
import numpy as np
import pandas as pd

np.random.seed(1)

df = pd.DataFrame(np.random.randint(1,5,(2,3)),
                  index = ["서울","부산"],
                  columns =  ["마케팅","개발","운영"])
display(df)
new_df = df.stack() # col을 index의 최하위 index로 생성
display(new_df)
origin_df = new_df.unstack(level=1)
display(origin_df)

Unnamed: 0,마케팅,개발,운영
서울,2,4,1
부산,1,4,2


서울  마케팅    2
    개발     4
    운영     1
부산  마케팅    1
    개발     4
    운영     2
dtype: int32

Unnamed: 0,마케팅,개발,운영
서울,2,4,1
부산,1,4,2


In [70]:
# 중복행 제거(추출)
import numpy as np
import pandas as pd

df = pd.DataFrame({ "k1" : ["one"]*3 + ["two"]*4,
                    "k2" : [1,1,2,3,3,4,4]})
display(df)
df.duplicated()  # MASK를 만들어 줌

df.loc[df.duplicated(),:]  # 중복되는 항들이 추출
df.loc[~df.duplicated(),:] # 중복이 아닌값들 추출
df.drop_duplicates()       # 중복항을 모두 제거해줌

## 우리가 사용할 데이터를 정제할 때 중복항을 제거

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [83]:
## DataFrame의 grouping
import numpy as np
import pandas as pd

df = pd.DataFrame({ "이름" : ["홍길동","김연아","아이유","김길동","신사임당"],
                    "성적" : [1.5,4.4,4.5,2.3,4.0],
                    "학과" : ["컴퓨터","철학","컴퓨터","철학","컴퓨터"],
                    "학년" : [1,2,3,2,2]})
display(df)

# 학과를 기준으로 Grouping 해보자
dept = df["성적"].groupby(df["학과"])
dept.mean()

# 학과와 학년을 기준으로 성적을 grouping
dept = df["성적"].groupby([df["학과"],df["학년"]])
dept.mean().unstack()

############################################# Pandas 끝!! ##############################################
#################################### MPG data set 활용해보자 ############################################


Unnamed: 0,이름,성적,학과,학년
0,홍길동,1.5,컴퓨터,1
1,김연아,4.4,철학,2
2,아이유,4.5,컴퓨터,3
3,김길동,2.3,철학,2
4,신사임당,4.0,컴퓨터,2


학년,1,2,3
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
철학,,3.35,
컴퓨터,1.5,4.0,4.5


In [69]:
import numpy as np
import pandas as pd

df = pd.read_csv("./data/mpg.csv")
df.columns.values[0] = "Index"
display(df.head(10))
df.drop("Index",axis=1, inplace=True)
df

Unnamed: 0,Index,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,1,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,2,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,3,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,4,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,5,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
5,6,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact
6,7,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact
7,8,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact
8,9,audi,a4 quattro,1.8,1999,4,auto(l5),4,16,25,p,compact
9,10,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [109]:
# 1. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 
# hwy(고속도로 연비)가 평균적으로 더 높은지 확인하세요.
df1 = df[df["displ"] <=4]
df2 = df[df["displ"] >=5]
hwy1 = df1["hwy"].mean()
hwy2 = df2["hwy"].mean()

print("배기량이 4이하인 자동차의 연비 : {} , 배기량이 5이상인 자동차의 연비 : {}".format(hwy1,hwy2))

배기량이 4이하인 자동차의 연비 : 25.96319018404908 , 배기량이 5이상인 자동차의 연비 : 18.07894736842105


pandas.core.frame.DataFrame

In [71]:
# 2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 한다. "audi"와 "toyota" 
# 중 어느 manufacturer(제조회사)의 cty(도시 연비)가 평균적으로 더 높은지 확인하세요.
df1 = df[df["manufacturer"] == "audi"]
df2 = df[df["manufacturer"] == "toyota"]

cty1 = df1["cty"].mean()
cty2 = df2["cty"].mean()

print("audi의 도시연비 : {}, toyota의 도시연비 : {}".format(cty1,cty2))

audi의 도시연비 : 17.61111111111111, toyota의 도시연비 : 18.529411764705884


In [72]:
# 3. "chevrolet", "ford", "honda" 자동차의 고속도로 연비 평균을 알아보려고 한다. 
# 이 회사들의 데이터를 추출한 후 hwy(고속도로 연비) 전체 평균을 구하세요.
from pandas import DataFrame
df1 = df[df["manufacturer"] == "chevrolet"]
df2 = df[df["manufacturer"] == "ford"]
df3 = df[df["manufacturer"] == "honda"]

df4 = pd.concat([df1,df2,df3])

hwy = df4["hwy"].mean()

print("세 회사의 평균 고속도로 연비 : {}".format(hwy))

세 회사의 평균 고속도로 연비 : 22.50943396226415


In [122]:
df1 = df[df["manufacturer"].isin(["chevrolet","ford","honda"])]
df1["hwy"].mean()

22.50943396226415

In [73]:
# 4. "audi"에서 생산한 자동차 중에 어떤 자동차 모델의 hwy(고속도로 연비)가 
# 높은지 알아보려고 한다. "audi"에서 생산한 자동차 중 hwy가 1~5위에 해당하는 
# 자동차의 데이터를 출력하세요.
df1 = df[df["manufacturer"] == "audi"]

df1.sort_values(by="hwy", ascending = False).head(5)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


In [132]:
# 5. mpg 데이터는 연비를 나타내는 변수가 2개입니다. 두 변수를 각각 활용하는 대신 
# 하나의 통합 연비 변수를 만들어 사용하려 합니다. 평균 연비 변수는 
# 두 연비(고속도로와 도시)의 평균을 이용합니다. 회사별로 "suv" 자동차의 
# 평균 연비를 구한후 내림차순으로 정렬한 후 1~5위까지 데이터를 출력하세요.
df["avg"] = (df["cty"] + df["hwy"])/2 # 새로운 col생성
# display(df)
dept = df["class"].groupby(df["manufacturer"])
df1 = df[df["class"]=="suv"]

dept = df1["avg"].groupby(df["manufacturer"])
pd.DataFrame(dept.mean()).sort_values(by="avg",ascending=False).head(5)

Unnamed: 0_level_0,avg
manufacturer,Unnamed: 1_level_1
subaru,21.916667
toyota,16.3125
nissan,15.875
mercury,15.625
jeep,15.5625


In [95]:
# 6. mpg 데이터의 class는 "suv", "compact" 등 자동차의 특징에 따라 일곱 종류로 
# 분류한 변수입니다. 어떤 차종의 도시 연비가 높은지 비교하려 합니다.
# class별 cty 평균을 구하고 cty 평균이 높은 순으로 정렬해 출력하세요.
dept = df["cty"].groupby([df["class"]])
pd.DataFrame(dept.mean()).sort_values(by="cty", ascending=False)

Unnamed: 0_level_0,cty
class,Unnamed: 1_level_1
subcompact,20.371429
compact,20.12766
midsize,18.756098
minivan,15.818182
2seater,15.4
suv,13.5
pickup,13.0


In [97]:
# 7. 어떤 회사 자동차의 hwy(고속도로 연비)가 가장 높은지 알아보려 합니다. 
# hwy(고속도로 연비) 평균이 가장 높은 회사 세 곳을 출력하세요.
dept = df["hwy"].groupby([df["manufacturer"]])
pd.DataFrame(dept.mean()).sort_values(by="hwy", ascending=False).head(3)

Unnamed: 0_level_0,hwy
manufacturer,Unnamed: 1_level_1
honda,32.555556
volkswagen,29.222222
hyundai,26.857143


In [124]:
# 8. 어떤 회사에서 "compact" 차종을 가장 많이 생산하는지 알아보려고 합니다. 
# 각 회사별 "compact" 차종 수를 내림차순으로 정렬해 출력하세요.
df1 = df[df["class"]=="compact"]
df1

df2 = df1.groupby("manufacturer").count()
pd.DataFrame(df2["model"]).sort_values(by="model",ascending=False)

Unnamed: 0_level_0,model
manufacturer,Unnamed: 1_level_1
audi,15
volkswagen,14
toyota,12
subaru,4
nissan,2
