In [32]:
import pandas as pd

#### Sales Records 샘플
- csv 폴더 안에 있는 "Sales Records.csv" 파일을 로드
- 데이터프레임의 정보 확인
- 특정 컬럼 제거: Order ID, Total Revenue, Total Cost, Total Profit, Order Priority
- 컬럼의 이름 변경: 대륙, 국가, 상품종류, 채널, 주문일자, 방송일자, 판매개수, 단가, 원가
- 대륙, 국가를 기준으로 데이터를 오름차순으로 정렬
- 기존의 인덱스는 제거하고, 인덱스를 재지정 (초기화)
- 새로운 파생변수 생성
    - 총단가: 판매개수 * 단가
    - 총원가: 판매개수 * 원가
    - 총이윤: 총단가 - 총원가

In [33]:
sales=pd.read_csv("csv/Sales Records.csv")

In [34]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Region          10000 non-null  object 
 1   Country         10000 non-null  object 
 2   Item Type       10000 non-null  object 
 3   Sales Channel   10000 non-null  object 
 4   Order Priority  10000 non-null  object 
 5   Order Date      10000 non-null  object 
 6   Order ID        10000 non-null  int64  
 7   Ship Date       10000 non-null  object 
 8   Units Sold      10000 non-null  int64  
 9   Unit Price      10000 non-null  float64
 10  Unit Cost       10000 non-null  float64
 11  Total Revenue   10000 non-null  float64
 12  Total Cost      10000 non-null  float64
 13  Total Profit    10000 non-null  float64
dtypes: float64(5), int64(2), object(7)
memory usage: 1.1+ MB


In [35]:
sales.drop(["Order ID", "Total Revenue", "Total Cost", "Total Profit", "Order Priority"], axis=1, inplace=True)

In [36]:
sales.columns=["대륙", "국가", "상품종류", "채널", "주문일자", "방송일자", "판매개수", "단가", "원가"]
# 컬럼의 이름 변경
# case1 변수에 데이터를 대입: 컬럼 전체를 변경할 때 사용
# case2 rename(): 특정한 값만 변경할 때 사용
# sales.rename(["Region":"대륙"], axis=1, inplace=True)

In [37]:
sales.head(1)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,방송일자,판매개수,단가,원가
0,Sub-Saharan Africa,Chad,Office Supplies,Online,1/27/2011,2/12/2011,4484,651.21,524.96


In [38]:
sales.sort_values(["대륙","국가"], inplace=True)

In [39]:
sales.reset_index(drop=True, inplace=True)

In [40]:
sales["총단가"]=sales["판매개수"]*sales["단가"]
sales["총원가"]=sales["판매개수"]*sales["원가"]
sales["총이윤"]=sales["총단가"]-sales["총원가"]

In [41]:
sales.head()

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,방송일자,판매개수,단가,원가,총단가,총원가,총이윤
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,1/13/2017,9420,81.73,56.67,769896.6,533831.4,236065.2
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,9/11/2010,577,437.2,263.33,252264.4,151941.41,100322.99
2,Asia,Bangladesh,Vegetables,Offline,4/28/2014,5/5/2014,34,154.06,90.93,5238.04,3091.62,2146.42
3,Asia,Bangladesh,Cereal,Offline,6/22/2010,6/28/2010,9768,205.7,117.11,2009277.6,1143930.48,865347.12
4,Asia,Bangladesh,Office Supplies,Online,3/20/2013,4/11/2013,7731,651.21,524.96,5034504.51,4058465.76,976038.75


In [42]:
# for문 활용 가능
# 총원가 데이터를 대입할 빈 리스트 생성
data=[]

# sales의 인덱스 수 만큼 반복 실행하는 반복문 생성
for i in range (0, len(sales)):
    res = sales.loc[i,"원가"] * sales.loc[i,"판매개수"]
    data.append(res)

print(data)

[np.float64(533831.4), np.float64(151941.41), np.float64(3091.6200000000003), np.float64(1143930.48), np.float64(4058465.7600000002), np.float64(1859900.54), np.float64(315143.01), np.float64(566109.74), np.float64(209984.0), np.float64(561856.4700000001), np.float64(67140.48), np.float64(2763914.4000000004), np.float64(28370.160000000003), np.float64(1039626.84), np.float64(4933.96), np.float64(5192904.32), np.float64(3610066.31), np.float64(7874.96), np.float64(358551.09), np.float64(532509.6), np.float64(2927731.32), np.float64(3226777.12), np.float64(843709.32), np.float64(1164658.95), np.float64(568312.5), np.float64(187192.32), np.float64(1156344.14), np.float64(175506.99000000002), np.float64(1121913.8), np.float64(1582086.64), np.float64(4627388.32), np.float64(46564.68), np.float64(225505.28000000003), np.float64(4698749.0), np.float64(153323.52000000002), np.float64(682611.51), np.float64(138462.24), np.float64(499708.37), np.float64(1545.8100000000002), np.float64(585589.200

In [43]:
sales["총원가"]=data

In [44]:
# while문 활용 가능
# 컬럼에 들어갈 빈 리스트 생성
data2=[]

# 시작값 지정
i=0

# 무한반복문
while True:
    try:
        res2=sales.loc[i,"총단가"]-sales.loc[i,"총원가"]
        data2.append(res2)
        i+=1
    except:
        # 위 코드의 에러 발생 시 -> 반복문 종료
        break

In [45]:
sales["총이윤"]=data2

#### 데이터프레임 그룹화
- groupby([그룹화 진행할 컬럼의 명])
    - 출력은 groupby data라는 형태로 텍스트 한줄이 출력된다.
- 그룹화 연산
    - 그룹화된 데이터들을 연산하여 새로운 데이터프레임 생성
- 그룹화 선택
    - 그룹회된 데이터들 중에 특정 데이터프레임 출력

In [46]:
sales["단가"]

0        81.73
1       437.20
2       154.06
3       205.70
4       651.21
         ...  
9995    109.28
9996    255.28
9997    109.28
9998      9.33
9999    205.70
Name: 단가, Length: 10000, dtype: float64

In [47]:
group_dt=sales[['국가','총이윤']].groupby(['국가']).sum()

In [48]:
# sum() 여부에 따른 출력값 확인
group_dt.head()

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Afghanistan,22977020.06
Albania,19583969.7
Algeria,22125886.64
Andorra,16653936.87
Angola,19596150.58


In [49]:
# gropup_dt에서 총이윤 sum을 기준으로 내림차순 정렬
group_dt.sort_values(["총이윤"], ascending=False)

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90


In [50]:
# 그룹화 연산 2개 이상 사용
group_dt2=sales[["국가","총이윤"]].groupby(["국가"]).agg(["sum", "mean"])

In [51]:
group_dt2.head()

Unnamed: 0_level_0,총이윤,총이윤
Unnamed: 0_level_1,sum,mean
국가,Unnamed: 1_level_2,Unnamed: 2_level_2
Afghanistan,22977020.06,389441.017966
Albania,19583969.7,356072.176364
Algeria,22125886.64,433840.91451
Andorra,16653936.87,320268.016731
Angola,19596150.58,362891.677407


In [52]:
# group_dt2에서 South Korea의 총이윤의 합계값 출력 
group_dt2.loc["South Korea", ("총이윤","sum")]

np.float64(23893933.75)

In [53]:
group_dt2["총이윤"]["sum"]["South Korea"]

np.float64(23893933.75)

In [54]:
group_dt2.iloc[[20]]
# iloc -> 위치를 기반으로 찾기
# [] 과 [[]] 출력값이 다름

Unnamed: 0_level_0,총이윤,총이윤
Unnamed: 0_level_1,sum,mean
국가,Unnamed: 1_level_2,Unnamed: 2_level_2
Brunei,21198560.2,451033.195745


#### 데이터프레임의 재구조화
- pivot_table()
    - 기존 데이터프레임의 데이터를 기준으로 새로운 데이터프레임을 생성
    - 인덱스와 컬럼, 사용할 데이터를 데이터프레임에서 선택하여 구조를 재구성한다.

In [29]:
import pandas as pd
sales=pd.read_csv("csv/Sales Records.csv")

In [57]:
pd.pivot_table(
    sales,
    index=["대륙","국가"],
    columns="채널",
    values="총이윤",
    aggfunc=["sum","mean"]
)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,채널,Offline,Online,Offline,Online
대륙,국가,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Asia,Bangladesh,9952040.14,18140680.63,355430.005000,518305.160857
Asia,Bhutan,13144241.51,10689527.73,469437.196786,381768.847500
Asia,Brunei,8761013.35,12437546.85,417191.111905,478367.186538
Asia,Cambodia,9695262.62,14048900.27,387810.504800,342656.104146
Asia,China,13468823.66,11239192.06,498845.320741,416266.372593
...,...,...,...,...,...
Sub-Saharan Africa,The Gambia,11579401.05,6739474.10,526336.411364,306339.731818
Sub-Saharan Africa,Togo,10918610.28,9107925.90,341206.571250,364317.036000
Sub-Saharan Africa,Uganda,12002629.58,13938025.73,500109.565833,449613.733226
Sub-Saharan Africa,Zambia,11247814.98,12389638.02,468658.957500,344156.611667


In [60]:
# groupby()에서 그룹화된 데이터프레임을 출력
group_dt3=sales[["대륙","총이윤"]].groupby("대륙")

In [63]:
group_dt3.get_group("Asia")

Unnamed: 0,대륙,총이윤
0,Asia,236065.20
1,Asia,100322.99
2,Asia,2146.42
3,Asia,865347.12
4,Asia,976038.75
...,...,...
1464,Asia,980452.93
1465,Asia,463211.25
1466,Asia,330387.20
1467,Asia,39845.40


In [68]:
group_dt4=sales[["국가","총이윤"]].groupby("국가").sum()

In [69]:
group_dt4

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Afghanistan,22977020.06
Albania,19583969.70
Algeria,22125886.64
Andorra,16653936.87
Angola,19596150.58
...,...
Vatican City,16978429.04
Vietnam,23415377.02
Yemen,16666875.07
Zambia,23637453.00


In [72]:
group_dt4.sort_values(["총이윤"], ascending=False, inplace=True)

In [73]:
group_dt4

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90


In [75]:
group_dt4.iloc[0].name

'Kiribati'

In [76]:
# 반복문을 이용하여 South Korea의 위치 찾기
# 국가는 index로 되어 있다.

for i in range (0, len(group_dt4)):
    if group_dt4.iloc[i].name == "South Korea":
        print(i)

47


In [78]:
# while문

i=0

while True:
    try:
        if group_dt4.iloc[i].name == "South Korea":
            print(i)
            break
        i+=1
    except:
        break

47


In [79]:
# Dataframe에 index는 list 형태
grdt4_index=list(group_dt4.index)

In [81]:
grdt4_index.index("South Korea")

47

In [85]:
group_dt4.reset_index(inplace=True)

In [89]:
group_dt4.loc[group_dt4["국가"]=="South Korea"]

Unnamed: 0,국가,총이윤
47,South Korea,23893933.75


In [90]:
group_dt5=sales[["국가","총이윤"]].groupby("국가").sum()

In [92]:
# 특정 컬럼을 기준으로 랭킹을 확인하는 함수
# rank(): 오름차순으로 랭킹 생성
# 내림차순으로 변경
group_dt5["랭킹"]=group_dt5["총이윤"].rank(ascending=False)

In [93]:
group_dt5.loc["South Korea"]

총이윤    23893933.75
랭킹           48.00
Name: South Korea, dtype: float64

In [94]:
group_dt5

Unnamed: 0_level_0,총이윤,랭킹
국가,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,22977020.06,67.0
Albania,19583969.70,124.0
Algeria,22125886.64,80.0
Andorra,16653936.87,167.0
Angola,19596150.58,123.0
...,...,...
Vatican City,16978429.04,160.0
Vietnam,23415377.02,54.0
Yemen,16666875.07,166.0
Zambia,23637453.00,53.0
