- 데이터셋이 분석에 적합하지 않은 형태(데이터 유형 오류, 누락된 값, 대소문자, 행추출은 용이하지만 전체 집계가 어려운 형식으로 값을 저장하는 등)
- 재구성: 기존 형태에서 얻어내기 어려운 정보를 얻을 수 있도록 데이터셋을 다른 형태로 변환하는 것.
- 데이터 분석의 80%는 데이터 재구성.

# 넓은 데이터와 좁은 데이터
- 데이터셋에 값을 추가할 때 데이터셋이 확장되는 방향에 따라 나뉨
  - 좁은 데이터셋(narrow dataset), 긴 데이터셋(long dataset), 높은 데이터셋(tall dataset): 값을 추가할수록 세로로 확장, 높이가 증가
  - 넓은 데이터셋(wide dataset): 값을 추가할수록 가로로 확장, 너비가 증가  

In [1]:
import pandas as pd
city_data = {
    "Weekday": ["Monday", "Tuesday"],
    "Miami": [100, 65],
    "New York": [65, 70]
}
pd.DataFrame(city_data)

Unnamed: 0,Weekday,Miami,New York
0,Monday,100,65
1,Tuesday,65,70


In [2]:
city_data_plus = {
    "Weekday": ["Monday", "Tuesday"],
    "Miami": [100, 65],
    "New York": [65, 70],
    "Chicago": [50, 58],
    "San Francisco": [60, 62]
}
pd.DataFrame(city_data_plus)

Unnamed: 0,Weekday,Miami,New York,Chicago,San Francisco
0,Monday,100,65,50,60
1,Tuesday,65,70,58,62


- 넓은 데이터셋
  - 변수(측정 결과에 다라 달라지는 값): 요일, 기온, **도시**
  - 나머지 변수들과 달리 **도시**변수는 2개 이상의 열에 동일한 변수를 저장
    - Miami, New York 헤더는 열이 저장하는 데이터의 유형을 나타내지 않음.
    - 데이터셋이 도시의 종류를 열 헤더에 저장->도시 변수는 눈에 띄지 않음.
  - 이 테이블을 넓은 데이터셋으로 변환하면 각 열이 값의 유형을 나타내도록 만들 수 있음(수평으로 확장됨)
  - 수평으로 확장되는 넓은 데이터셋은 전체 그림을 볼 때 유용
  - 단점: 열을 추가할수록 작업하기가 어려워짐. **데이터셋의 구조가 유연하지 않음**

In [3]:
city_data_narrow = {
    "Weekday": ["Monday", "Monday", "Tuesday", "Tuesday"],
    "City": ["Miami", "NewYork", "Miami", "New York"],
    "Temperature": [100, 65, 105, 70]
}
pd.DataFrame(city_data_narrow)

Unnamed: 0,Weekday,City,Temperature
0,Monday,Miami,100
1,Monday,NewYork,65
2,Tuesday,Miami,105
3,Tuesday,New York,70


In [4]:
city_data_narrow_plus = {
    "Weekday": ["Monday", "Monday","Monday", "Monday", "Tuesday", "Tuesday", "Tuesday", "Tuesday"],
    "City": ["Miami", "NewYork", "Chicago", "San Francisco", "Miami", "New York", "Chicago", "San Francisco"],
    "Temperature": [100, 65, 50, 60, 105, 70, 58, 62]
}
pd.DataFrame(city_data_narrow_plus)

Unnamed: 0,Weekday,City,Temperature
0,Monday,Miami,100
1,Monday,NewYork,65
2,Monday,Chicago,50
3,Monday,San Francisco,60
4,Tuesday,Miami,105
5,Tuesday,New York,70
6,Tuesday,Chicago,58
7,Tuesday,San Francisco,62


- 좁은 데이터셋
  - 기존 데이터를 조작하고 새로운 레코드를 추가하기 쉬움
  - 행 추가 -> 데이터가 길어짐
  - 데이터를 시각적으로 파악하기 어려움; 평균을 계산하는 등의 작업은 쉬움. **데이터셋의 구조가 유연**

# DataFrame에서 피벗 테이블 생성

In [5]:
import pandas as pd
pd.read_csv("sales_by_employee.csv").head()

Unnamed: 0,Date,Name,Customer,Revenue,Expenses
0,1/1/20,Oscar,Logistics XYZ,5250,531
1,1/1/20,Oscar,Money Corp.,4406,661
2,1/2/20,Oscar,PaperMaven,8661,1401
3,1/3/20,Oscar,PaperGenius,7075,906
4,1/4/20,Oscar,Paper Pound,2524,1767


In [6]:
sales = pd.read_csv("sales_by_employee.csv", parse_dates = ["Date"])
sales.tail()

Unnamed: 0,Date,Name,Customer,Revenue,Expenses
21,2020-01-01,Creed,Money Corp.,4430,548
22,2020-01-02,Creed,Average Paper Co.,8026,1906
23,2020-01-02,Creed,Average Paper Co.,5188,1768
24,2020-01-04,Creed,PaperMaven,3144,1314
25,2020-01-05,Creed,Money Corp.,938,1053


## pivot_table 메서드
- 피벗 테이블: 열의 값을 집계(여러 값을 요약하는 계산), 다른 열의 값을 사용하여 결과를 그룹화
- Q. (같은 날짜에 여러 거래를 성사 후 마감했을 때) 날짜별 수익을 합산하고 각 영업사원이 총계에 기여한 금액을 확인
- 피벗 테이블의 생성 과정
  1. 값을 집계할 열을 선택
  2. 열에 적용할 집계 연산 선택
  3. 값이 집계된 데이터를 범주로 그룹화할 열 선택
  4. 그룹을 행 축, 열 축 또는 두 축 모두에 배치할지 결정
- DataFrame에서 pivot_table 메서드 호출 가능
  - index 매개변수: 피벗 테이블의 인덱스 레이블을 구성할 열을 지정

In [7]:
#인덱스열의 고유한 값별로 평균을 계산한 pivot table을 반환
sales.pivot_table(index = "Date", values = ["Expenses", "Revenue"],)

Unnamed: 0_level_0,Expenses,Revenue
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,637.5,4293.5
2020-01-02,1244.4,7303.0
2020-01-03,1313.666667,4865.833333
2020-01-04,1450.6,3948.0
2020-01-05,1196.25,4834.75


In [8]:
#aggfunc 매개변수: 집계 함수(기본 인수: mean)
sales.pivot_table(index = "Date", values = ["Expenses", "Revenue"], aggfunc = "mean")

Unnamed: 0_level_0,Expenses,Revenue
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,637.5,4293.5
2020-01-02,1244.4,7303.0
2020-01-03,1313.666667,4865.833333
2020-01-04,1450.6,3948.0
2020-01-05,1196.25,4834.75


In [9]:
sales.pivot_table(index = "Date", values = ["Expenses", "Revenue"], aggfunc = "sum")

Unnamed: 0_level_0,Expenses,Revenue
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,3825,25761
2020-01-02,6222,36515
2020-01-03,7882,29195
2020-01-04,7253,19740
2020-01-05,4785,19339


In [10]:
#values 매개변수: 판다스가 집계할 DataFrame의 열을 지정(열의 list[str],str)
sales.pivot_table(
    index = "Date", values = "Revenue", aggfunc = "sum"
)

Unnamed: 0_level_0,Revenue
Date,Unnamed: 1_level_1
2020-01-01,25761
2020-01-02,36515
2020-01-03,29195
2020-01-04,19740
2020-01-05,19339


In [11]:
#columns 매개변수: 특정 열의 고유값을 피벗 테이블의 열 헤더로 지정
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = "Revenue",
    aggfunc = "sum"
)

Name,Creed,Dwight,Jim,Michael,Oscar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-01,4430.0,2639.0,1864.0,7172.0,9656.0
2020-01-02,13214.0,,8278.0,6362.0,8661.0
2020-01-03,,11912.0,4226.0,5982.0,7075.0
2020-01-04,3144.0,,6155.0,7917.0,2524.0
2020-01-05,938.0,7771.0,,7837.0,2793.0


In [12]:
#fill_value 매개변수: 모든 피벗 테이블의 NaN을 특정 값으로 대체 가능
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = "Revenue",
    aggfunc = "sum",
    fill_value = 0
)

Name,Creed,Dwight,Jim,Michael,Oscar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-01,4430,2639,1864,7172,9656
2020-01-02,13214,0,8278,6362,8661
2020-01-03,0,11912,4226,5982,7075
2020-01-04,3144,0,6155,7917,2524
2020-01-05,938,7771,0,7837,2793


In [13]:
#margins 매개변수: 각 행과 열에 대한 합계를 구하는지 여부
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = "Revenue",
    aggfunc = "sum",
    fill_value = 0,
    margins = True
)
#문자열이 날짜와 텍스트 값을 모두 나타낼 수 있는 유일한 데이터 유형->Date열의 데이터 유형의 변환

Name,Creed,Dwight,Jim,Michael,Oscar,All
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-01 00:00:00,4430,2639,1864,7172,9656,25761
2020-01-02 00:00:00,13214,0,8278,6362,8661,36515
2020-01-03 00:00:00,0,11912,4226,5982,7075,29195
2020-01-04 00:00:00,3144,0,6155,7917,2524,19740
2020-01-05 00:00:00,938,7771,0,7837,2793,19339
All,21726,22322,20523,35270,30709,130550


In [14]:
#margins_name 매개변수: 소계 레이블을 사용자 정의
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = "Revenue",
    aggfunc = "sum",
    fill_value = 0,
    margins = True,
    margins_name = "Total"
)

Name,Creed,Dwight,Jim,Michael,Oscar,Total
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-01 00:00:00,4430,2639,1864,7172,9656,25761
2020-01-02 00:00:00,13214,0,8278,6362,8661,36515
2020-01-03 00:00:00,0,11912,4226,5982,7075,29195
2020-01-04 00:00:00,3144,0,6155,7917,2524,19740
2020-01-05 00:00:00,938,7771,0,7837,2793,19339
Total,21726,22322,20523,35270,30709,130550


## 피벗 테이블의 추가 기능

In [15]:
#aggfunc 매개변수-count: index와 columns로 설정한 열의 조합에 대한 행 개수
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = "Revenue",
    aggfunc = "count"
)

Name,Creed,Dwight,Jim,Michael,Oscar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-01,1.0,1.0,1.0,1.0,2.0
2020-01-02,2.0,,1.0,1.0,1.0
2020-01-03,,3.0,1.0,1.0,1.0
2020-01-04,1.0,,2.0,1.0,1.0
2020-01-05,1.0,1.0,,1.0,1.0


- aggfunc 매개변수의 추가 옵션:
  - max: 그룹에서 가장 큰 값
  - min: 그룹에서 가장 작은 값
  - std: 그룹에 있는 값의 표준 편차
  - median: 그룹에 있는 값의 중앙값
  - size: 그룹에 있는 값의 개수(=count)

In [16]:
#aggfunc 매개변수-집계 함수 리스트를 전달
#열 축에 MultiIndex를 만들고 가장 바깥쪽 레벨에 집계를 전달
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = "Revenue",
    aggfunc = ["sum", "count"],
    fill_value = 0
)

Unnamed: 0_level_0,sum,sum,sum,sum,sum,count,count,count,count,count
Name,Creed,Dwight,Jim,Michael,Oscar,Creed,Dwight,Jim,Michael,Oscar
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2020-01-01,4430,2639,1864,7172,9656,1,1,1,1,2
2020-01-02,13214,0,8278,6362,8661,2,0,1,1,1
2020-01-03,0,11912,4226,5982,7075,0,3,1,1,1
2020-01-04,3144,0,6155,7917,2524,1,0,2,1,1
2020-01-05,938,7771,0,7837,2793,1,1,0,1,1


In [17]:
#aggfunc 매개변수-딕셔너리를 전달, 열별로 서로 다른 집계 적용 가능
#키를 사용하여 DataFrame열을 식별, 값을 사용하여 집계를 설정
sales.pivot_table(
    index = "Date",
    columns = "Name",
    values = ["Revenue", "Expenses"],
    fill_value = 0,
    aggfunc = { "Revenue":"min", "Expenses":"min"}
)

Unnamed: 0_level_0,Expenses,Expenses,Expenses,Expenses,Expenses,Revenue,Revenue,Revenue,Revenue,Revenue
Name,Creed,Dwight,Jim,Michael,Oscar,Creed,Dwight,Jim,Michael,Oscar
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2020-01-01,548,368,1305,412,531,4430,2639,1864,7172,4406
2020-01-02,1768,0,462,685,1401,5188,0,8278,6362,8661
2020-01-03,0,758,1923,1772,906,0,2703,4226,5982,7075
2020-01-04,1314,0,426,1857,1767,3144,0,2287,7917,2524
2020-01-05,1053,1475,0,1633,624,938,7771,0,7837,2793


In [20]:
#index 매개변수에 열 리스트를 전달, 단일 축에 여러 그룹을 쌓을 수 있음
#n레벨 MultiIndex가 있는 DataFrame을 반환
sales.pivot_table(
    index = ["Name", "Date"], values = "Revenue", aggfunc = "sum"
).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Revenue
Name,Date,Unnamed: 2_level_1
Creed,2020-01-01,4430
Creed,2020-01-02,13214
Creed,2020-01-04,3144
Creed,2020-01-05,938
Dwight,2020-01-01,2639
Dwight,2020-01-03,11912
Dwight,2020-01-05,7771
Jim,2020-01-01,1864
Jim,2020-01-02,8278
Jim,2020-01-03,4226


In [21]:
sales.pivot_table(
    index = ["Date", "Name"], values = "Revenue", aggfunc = "sum"
).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Revenue
Date,Name,Unnamed: 2_level_1
2020-01-01,Creed,4430
2020-01-01,Dwight,2639
2020-01-01,Jim,1864
2020-01-01,Michael,7172
2020-01-01,Oscar,9656
2020-01-02,Creed,13214
2020-01-02,Jim,8278
2020-01-02,Michael,6362
2020-01-02,Oscar,8661
2020-01-03,Dwight,11912


# 인덱스 레벨 스택과 언스택

In [22]:
sales.head()

Unnamed: 0,Date,Name,Customer,Revenue,Expenses
0,2020-01-01,Oscar,Logistics XYZ,5250,531
1,2020-01-01,Oscar,Money Corp.,4406,661
2,2020-01-02,Oscar,PaperMaven,8661,1401
3,2020-01-03,Oscar,PaperGenius,7075,906
4,2020-01-04,Oscar,Paper Pound,2524,1767


In [23]:
#sales을 피벗하여 이름과 날짜별로 수익 총합을 구성
by_name_and_date = sales.pivot_table(
    index = "Name",
    columns = "Date",
    values = "Revenue",
    aggfunc = "sum"
)

by_name_and_date.head(2)

Date,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Creed,4430.0,13214.0,,3144.0,938.0
Dwight,2639.0,,11912.0,,7771.0


In [25]:
#stack 메서드: 인덱스 레벨을 열 축에서 행 축으로 이동
#값의 열이 하나만 남기 때문에 Series로 반환
#NaN값을 버릴 수 있음
by_name_and_date.stack().head(7)

Name    Date      
Creed   2020-01-01     4430.0
        2020-01-02    13214.0
        2020-01-04     3144.0
        2020-01-05      938.0
Dwight  2020-01-01     2639.0
        2020-01-03    11912.0
        2020-01-05     7771.0
dtype: float64

In [26]:
#unstack 메서드: 인덱스 레벨을 행 축에서 열 축으로 이동
sales_by_customer = sales.pivot_table(
    index = ["Customer", "Name"],
    values = "Revenue",
    aggfunc = "sum"
)

sales_by_customer.unstack()

Unnamed: 0_level_0,Revenue,Revenue,Revenue,Revenue,Revenue
Name,Creed,Dwight,Jim,Michael,Oscar
Customer,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Average Paper Co.,13214.0,,2287.0,,
Best Paper Co.,,2703.0,,15754.0,
Logistics XYZ,,9209.0,,7172.0,5250.0
Money Corp.,5368.0,,8278.0,,4406.0
Paper Pound,,7771.0,4226.0,,5317.0
PaperGenius,,2639.0,1864.0,12344.0,7075.0
PaperMaven,3144.0,,3868.0,,8661.0


# 데이터셋 피벗 해제
- 집계된 데이터 컬렉션을 집계되지 않은 컬렉션으로 나누는 방법
- DataFrame에 넓은 형식과 좁은 형식을 적용 -> 파악하는 방법
  - 한 행의 값을 탐색
  - 해당 값이 열 헤더가 설명하는 변수의 단일 측정값인지(좁은 데이터셋) 각 셀을 대상으로 확인

In [27]:
sales.head(1)

Unnamed: 0,Date,Name,Customer,Revenue,Expenses
0,2020-01-01,Oscar,Logistics XYZ,5250,531


- 유연성과 가독성 중 하나를 선택
  - 단일 범주 열의 필드로 나타내는 경우, n개의 변수가 고유하고 구분되어 있기 때문에 실질적인 이점이 없음

In [30]:
video_game_sales = pd.read_csv("video_game_sales.csv")
video_game_sales.head()

Unnamed: 0,Name,NA,EU,JP,Other
0,Wii Sports,41.49,29.02,3.77,8.46
1,Super Mario Bros.,29.08,3.58,6.81,0.77
2,Mario Kart Wii,15.85,12.88,3.79,3.31
3,Wii Sports Resort,15.75,11.01,3.28,2.96
4,Pokemon Red/Pokemon Blue,11.27,8.89,10.22,1.0


In [31]:
video_game_sales.head(1)

Unnamed: 0,Name,NA,EU,JP,Other
0,Wii Sports,41.49,29.02,3.77,8.46


- NA는 열 전체에 걸쳐 값이 달라지는 변수가 아님(단일 측정값이 아님)
  - 넓은 데이터셋으로 변환(4개의 열은 동일한 데이터 요소를 저장->공통 범주로 여러 열 헤더를 그룹화)
  - 형식 변환 = 피벗 해제(데이터의 집계 요약 형식->각 열이 하나의 가변 정보 조각을 저장하는 형식)
- melt 메서드로  피벗 해제(melting): 넓은 데이터셋을 좁은 데이터셋으로 변환하는 과정
  - id_vars 매개변수: 식별자 열(넓은 데이터셋이 데이터를 집계하는 열)을 설정
  - value_vars 매개변수: 판다스 값이 피벗 해제되어 새 열에 저장될 열을 설정

In [35]:
video_game_sales.melt(id_vars = 'Name', value_vars = "NA").head()

Unnamed: 0,Name,variable,value
0,Wii Sports,,41.49
1,Super Mario Bros.,,29.08
2,Mario Kart Wii,,15.85
3,Wii Sports Resort,,15.75
4,Pokemon Red/Pokemon Blue,,11.27


In [36]:
regional_sales_columns = ["NA", "EU", "JP", "Other"]
video_game_sales.melt(
    id_vars = "Name", value_vars = regional_sales_columns
)

Unnamed: 0,Name,variable,value
0,Wii Sports,,41.49
1,Super Mario Bros.,,29.08
2,Mario Kart Wii,,15.85
3,Wii Sports Resort,,15.75
4,Pokemon Red/Pokemon Blue,,11.27
...,...,...,...
66259,Woody Woodpecker in Crazy Castle 5,Other,0.00
66260,Men in Black II: Alien Escape,Other,0.00
66261,SCORE International Baja 1000: The Official Game,Other,0.00
66262,Know How 2,Other,0.00


In [37]:
video_game_sales_by_region = video_game_sales.melt(
    id_vars = "Name",
    value_vars = regional_sales_columns,
    var_name = "Region",
    value_name = "Sales"
)
video_game_sales_by_region.head()

Unnamed: 0,Name,Region,Sales
0,Wii Sports,,41.49
1,Super Mario Bros.,,29.08
2,Mario Kart Wii,,15.85
3,Wii Sports Resort,,15.75
4,Pokemon Red/Pokemon Blue,,11.27


In [39]:
#좁은 데이터는 넓은 데이터보다 집계가 쉬움
video_game_sales_by_region.pivot_table(
    index = "Name", values = "Sales", aggfunc = "sum"
).head()

Unnamed: 0_level_0,Sales
Name,Unnamed: 1_level_1
'98 Koshien,0.4
.hack//G.U. Vol.1//Rebirth,0.17
.hack//G.U. Vol.2//Reminisce,0.23
.hack//G.U. Vol.3//Redemption,0.17
.hack//Infection Part 1,1.26


# 값의 목록 확장
- 데이터셋이 동일한 셀에 여러 값을 저장하는 경우, 각 행이 하나의 값을 저장하도록 데이터 클러스터를 분할

In [47]:
recipes = pd.read_csv("recipes.csv")
recipes

Unnamed: 0,Recipe,Ingredients
0,Cashew Crusted Chicken,"Apricot preserves, Dijon mustard, curry powder..."
1,Tomato Basil Salmon,"Salmon filets, basil, tomato, olive oil, Parme..."
2,Parmesan Cheese Chicken,"Bread crumbs, Parmesan cheese, Italian seasoni..."


In [48]:
recipes["Ingredients"].str.split(",")

0    [Apricot preserves,  Dijon mustard,  curry pow...
1    [Salmon filets,  basil,  tomato,  olive oil,  ...
2    [Bread crumbs,  Parmesan cheese,  Italian seas...
Name: Ingredients, dtype: object

In [49]:
recipes["Ingredients"] = recipes["Ingredients"].str.split(",")
recipes

Unnamed: 0,Recipe,Ingredients
0,Cashew Crusted Chicken,"[Apricot preserves, Dijon mustard, curry pow..."
1,Tomato Basil Salmon,"[Salmon filets, basil, tomato, olive oil, ..."
2,Parmesan Cheese Chicken,"[Bread crumbs, Parmesan cheese, Italian seas..."


In [50]:
#explode 메서드: 각 리스트 요소를 별도의 행으로 생성
recipes.explode("Ingredients")

Unnamed: 0,Recipe,Ingredients
0,Cashew Crusted Chicken,Apricot preserves
0,Cashew Crusted Chicken,Dijon mustard
0,Cashew Crusted Chicken,curry powder
0,Cashew Crusted Chicken,chicken breasts
0,Cashew Crusted Chicken,cashews
1,Tomato Basil Salmon,Salmon filets
1,Tomato Basil Salmon,basil
1,Tomato Basil Salmon,tomato
1,Tomato Basil Salmon,olive oil
1,Tomato Basil Salmon,Parmesan cheese


# 코딩 챌린지

In [52]:
cars = pd.read_csv("used_cars.csv")
cars.head()

Unnamed: 0,Manufacturer,Year,Fuel,Transmission,Price
0,Acura,2012,Gas,Automatic,10299
1,Jaguar,2011,Gas,Automatic,9500
2,Honda,2004,Gas,Automatic,3995
3,Chevrolet,2016,Gas,Automatic,41988
4,Kia,2015,Gas,Automatic,12995


In [53]:
min_wage = pd.read_csv("minimum_wage.csv")
min_wage.head()

Unnamed: 0,State,2010,2011,2012,2013,2014,2015,2016,2017
0,Alabama,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Alaska,8.9,8.63,8.45,8.33,8.2,9.24,10.17,10.01
2,Arizona,8.33,8.18,8.34,8.38,8.36,8.5,8.4,10.22
3,Arkansas,7.18,6.96,6.82,6.72,6.61,7.92,8.35,8.68
4,California,9.19,8.91,8.72,8.6,9.52,9.51,10.43,10.22


In [54]:
#1. cars에서 가격의 합계를 집계(행 축에서 연료 유형별로 결과를 그룹화)
cars.pivot_table(
    values = "Price", index = "Fuel", aggfunc = "sum"
)

Unnamed: 0_level_0,Price
Fuel,Unnamed: 1_level_1
Diesel,986177143
Electric,18502957
Gas,86203853926
Hybrid,44926064
Other,242096286


In [57]:
#2. cars에서 자동차의 개수를 집계
#인덱스 축-제조업체별, 열 축-변속기 유형 그룹화, 행과 열 모두에 대한 소계 표시
cars.pivot_table(
    values = "Price",
    index = "Manufacturer", 
    columns = "Transmission", 
    aggfunc = "sum",
    margins = True
).tail()

Transmission,Automatic,Manual,Other,All
Manufacturer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tesla,9009328.0,,2074084.0,11083412
Toyota,10760240000.0,13604960.0,44256223.0,10818103436
Volkswagen,76032410.0,9779196.0,3152553.0,88964155
Volvo,3196789000.0,2255175.0,875974.0,3199919654
All,79320130000.0,6958609000.0,542413330.0,86821152898


In [63]:
#3. cars에서 자동차의 평균 가격을 집계
#인덱스 축에 연도 및 연료 유형별로 결과를 그룹화
#열 축에 변속기 유형을 그룹화
report = cars.pivot_table(
    index = ["Year", "Fuel"],
    columns = "Transmission",
    values = "Price",
    aggfunc = "mean"
)
report

Unnamed: 0_level_0,Transmission,Automatic,Manual,Other
Year,Fuel,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000,Diesel,11326.176962,14010.164021,11075.000000
2000,Electric,1500.000000,,
2000,Gas,4314.675996,6226.140327,3203.538462
2000,Hybrid,2600.000000,2400.000000,
2000,Other,16014.918919,11361.952381,12984.642857
...,...,...,...,...
2020,Diesel,63272.595930,1.000000,1234.000000
2020,Electric,8015.166667,2200.000000,20247.500000
2020,Gas,34925.857933,36007.270833,20971.045455
2020,Hybrid,35753.200000,,1234.000000


In [64]:
#4. 위의 결과에서 열 축에서 행 축으로 변속기 유형을 옮기기
report.stack()

Year  Fuel      Transmission
2000  Diesel    Automatic       11326.176962
                Manual          14010.164021
                Other           11075.000000
      Electric  Automatic        1500.000000
      Gas       Automatic        4314.675996
                                    ...     
2020  Gas       Other           20971.045455
      Hybrid    Automatic       35753.200000
                Other            1234.000000
      Other     Automatic       22210.306452
                Other            2725.925926
Length: 274, dtype: float64

In [67]:
#5. min_wage를 넓은 형식에서 좁은 형식으로 변환
year_columns = [
    "2010", "2011", "2012", "2013",
    "2014", "2015", "2016", "2017"
]
min_wage.melt(id_vars = "State", value_vars = year_columns, var_name = "Year", value_name = "Wage")

Unnamed: 0,State,Year,Wage
0,Alabama,2010,0.00
1,Alaska,2010,8.90
2,Arizona,2010,8.33
3,Arkansas,2010,7.18
4,California,2010,9.19
...,...,...,...
435,Virginia,2017,7.41
436,Washington,2017,11.24
437,West Virginia,2017,8.94
438,Wisconsin,2017,7.41


- melt 메서드: 판다스는 기본적으로 id_vars 매개변수에 전달한 열을 제외한 다른 모든 열의 데이터를 피벗 해제