In [1]:
import pandas as pd

### Sales Records 샘플
- csv 폴더 안에 있는 'Sales Records.csv' 파일을 로드
- 데이터프레임의 정보를 확인
- 특정 컬럼을 제거 ('Order ID', 'Total Revenue', 'Total Cost', 'Total Profit', 'Order Priority')
- 컬럼의 이름을 변경 ['대륙','국가','상품종류','채널','주문일자','발송일자','판매개수','단가','원가']
- 대륙, 국가를 기준으로 데이터를 오름차순 정렬
- 기존의 인덱스는 제거하고 인덱스를 재지정
- 새로운 파생변수 생성
    - 총단가: 판매개수*단가
    - 총원가: 판매개수*원가
    - 총이윤: 총단가-총원가 

In [2]:
sales=pd.read_csv('../csv/Sales Records.csv')
# csv 폴더 안에 있는 'Sales Records.csv' 파일을 로드

In [3]:
sales.info()
# 데이터프레임의 정보를 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Region          10000 non-null  object 
 1   Country         10000 non-null  object 
 2   Item Type       10000 non-null  object 
 3   Sales Channel   10000 non-null  object 
 4   Order Priority  10000 non-null  object 
 5   Order Date      10000 non-null  object 
 6   Order ID        10000 non-null  int64  
 7   Ship Date       10000 non-null  object 
 8   Units Sold      10000 non-null  int64  
 9   Unit Price      10000 non-null  float64
 10  Unit Cost       10000 non-null  float64
 11  Total Revenue   10000 non-null  float64
 12  Total Cost      10000 non-null  float64
 13  Total Profit    10000 non-null  float64
dtypes: float64(5), int64(2), object(7)
memory usage: 1.1+ MB


In [4]:
sales.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,12/28/2015,361825549,1/23/2016,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,1/13/2011,141515767,2/1/2011,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,9/11/2012,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,10/27/2015,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06


In [5]:
sales.drop(
    [
        'Order ID', 
        'Total Revenue', 
        'Total Cost', 
        'Total Profit', 
        'Order Priority'
    ], 
    axis=1, 
    inplace=True
)
# 특정 컬럼을 제거 ('Order ID', 'Total Revenue', 'Total Cost', 'Total Profit', 'Order Priority')
# 여러개의 지울 데이터를 묶을 때 [] 권장

In [6]:
sales.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Date,Ship Date,Units Sold,Unit Price,Unit Cost
0,Sub-Saharan Africa,Chad,Office Supplies,Online,1/27/2011,2/12/2011,4484,651.21,524.96
1,Europe,Latvia,Beverages,Online,12/28/2015,1/23/2016,1075,47.45,31.79
2,Middle East and North Africa,Pakistan,Vegetables,Offline,1/13/2011,2/1/2011,6515,154.06,90.93
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,9/11/2012,10/6/2012,7683,668.27,502.54
4,Europe,Czech Republic,Beverages,Online,10/27/2015,12/5/2015,3491,47.45,31.79


In [7]:
sales.columns=[
    '대륙','국가','상품종류','채널','주문일자','발송일자','판매개수','단가','원가'
]
# 컬럼의 이름을 변경 ['대륙','국가','상품종류','채널','주문일자','발송일자','판매개수','단가','원가']
# case1 변수에 데이터를 대입: 컬럼 전체를 변경할 때 사용
# case2 rename() 함수 이용 방법, 특정한 값만 변경할 때 사용
# sales.rename({'Region':'국가'},axis=1,inplace=True)  or  sales.rename({cols[0]:'대륙', cols[1]:'국가'},axis=1,inplace=True)

In [8]:
sales.head()

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가
0,Sub-Saharan Africa,Chad,Office Supplies,Online,1/27/2011,2/12/2011,4484,651.21,524.96
1,Europe,Latvia,Beverages,Online,12/28/2015,1/23/2016,1075,47.45,31.79
2,Middle East and North Africa,Pakistan,Vegetables,Offline,1/13/2011,2/1/2011,6515,154.06,90.93
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,9/11/2012,10/6/2012,7683,668.27,502.54
4,Europe,Czech Republic,Beverages,Online,10/27/2015,12/5/2015,3491,47.45,31.79


In [9]:
sales.sort_values(
    ['대륙','국가'],inplace=True
)
# 대륙, 국가를 기준으로 데이터를 오름차순 정렬

In [10]:
sales.reset_index(drop=True, inplace=True)
# 기존의 인덱스는 제거하고 인덱스를 재지정

In [11]:
sales['총단가']=sales['판매개수']*sales['단가']
sales['총원가']=sales['판매개수']*sales['원가']
sales['총이윤']=sales['총단가']-sales['총원가']
# 새로운 파생변수 생성-> 총단가: 판매개수*단가 / 총원가: 판매개수*원가 / 총이윤: 총단가-총원가

In [12]:
sales

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가,총이윤
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,1/13/2017,9420,81.73,56.67,769896.60,533831.40,236065.20
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,9/11/2010,577,437.20,263.33,252264.40,151941.41,100322.99
2,Asia,Bangladesh,Vegetables,Offline,4/28/2014,5/5/2014,34,154.06,90.93,5238.04,3091.62,2146.42
3,Asia,Bangladesh,Cereal,Offline,6/22/2010,6/28/2010,9768,205.70,117.11,2009277.60,1143930.48,865347.12
4,Asia,Bangladesh,Office Supplies,Online,3/20/2013,4/11/2013,7731,651.21,524.96,5034504.51,4058465.76,976038.75
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,Sub-Saharan Africa,Zimbabwe,Clothes,Offline,11/27/2013,1/9/2014,8431,109.28,35.84,921339.68,302167.04,619172.64
9996,Sub-Saharan Africa,Zimbabwe,Baby Food,Offline,3/11/2013,3/11/2013,9304,255.28,159.42,2375125.12,1483243.68,891881.44
9997,Sub-Saharan Africa,Zimbabwe,Clothes,Offline,6/9/2010,7/20/2010,3235,109.28,35.84,353520.80,115942.40,237578.40
9998,Sub-Saharan Africa,Zimbabwe,Fruits,Offline,11/20/2015,11/27/2015,5904,9.33,6.92,55084.32,40855.68,14228.64


In [None]:
# 총이윤 컬럼의 데이터를 생성
# 컬럼에 들어갈 데이터를 위해 빈 리스트 하나 생성
data2=[]

# 시작값을 지정
i=0

# 무한반복문을 생성
while True:
    try:
        res2=sales.loc[i,'총단가']-sales.loc[i,'총원가']
        data2.append(res2)
        # 시작값을 1 증가시킨다.
        i +=1
    except:
        # 위의 코드가 에러가 발생한다면 -> 반복문을 종료
        break
    
sales['총이윤']=data2

In [None]:
# 총원가 컬럼을 for문을 이용하여 생성하는 방법
# 총원가 데이터를 대입할 빈 리스트를 생성
data=[]

# 만번 반복 실행하는 반복문을 생성
for i in range(0, len(sales),1):
    # i가 의미하는 것은? sales의 인덱스 값 혹은 인덱스 위치
    # print(i)
    # 인덱스가 i인 데이터에서 원가 데이터와 판매개수 데이터를 곱한 값을 data라는 리스트에 추가
    res=sales.loc[i,'원가']*sales.loc[i,'판매개수']
    data.append(res)
    
print(data)

sales['총원가']=data

### 데이터프레임을 그룹화
- groupby( [그룹화할 컬럼의 명] )
    - 출력은 groupby data라는 형태로 텍스트 한줄이 출력된다.
- 그룹화 연산
    - 그룹화된 데이터들을 연산하여 새로운 데이터프레임으로 생성
- 그룹화 선택
    - 그룹화된 데이터들 중에 특정 데이터프레임을 출력

In [17]:
sales[['단가']]

Unnamed: 0,단가
0,81.73
1,437.20
2,154.06
3,205.70
4,651.21
...,...
9995,109.28
9996,255.28
9997,109.28
9998,9.33


In [21]:
group_data=sales[['국가','총이윤']].groupby(['국가']).sum()

In [22]:
# group_data에서 sum을 기준으로 내림차순으로 정렬
group_data.sort_values(['총이윤'], ascending=False)

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90


In [24]:
sales.head(2)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가,총이윤
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,1/13/2017,9420,81.73,56.67,769896.6,533831.4,236065.2
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,9/11/2010,577,437.2,263.33,252264.4,151941.41,100322.99


In [27]:
# 그룹화 연산을 2개 이상 사용 시
group_data2=sales[['국가','총이윤']].groupby(['국가']).agg(['sum','mean'])
# 인덱스의 이름 -> 국가 (컬럼으로 착각하면 안됨)
# 멀티컬럼 -> 총이윤, sum, mean

In [33]:
# group_data2에서 국가 South Korea 의 총 이윤의 합계값을 출력
group_data2.loc['South Korea', ('총이윤','sum')]

23893933.75

In [37]:
group_data2['총이윤']['sum']['South Korea']

23893933.75

In [41]:
group_data2.iloc[[20]]
# iloc -> 위치를 기반으로 찾기

Unnamed: 0_level_0,총이윤,총이윤
Unnamed: 0_level_1,sum,mean
국가,Unnamed: 1_level_2,Unnamed: 2_level_2
Brunei,21198560.2,451033.195745


#### 데이터프레임의 재구조화
- pivot_table()
    - 기존의 데이터프레임의 데이터들을 기준으로 새로운 데이터프레임을 생성
    - 인덱스와 컬럼, 사용할 데이터를 데이터프레임에서 선택하여 구조를 새로 만든다.

In [43]:
pd.pivot_table(
    sales,
    index=['대륙','국가'], 
    columns='채널',
    values='총이윤',
    aggfunc=['sum','mean']
)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,채널,Offline,Online,Offline,Online
대륙,국가,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Asia,Bangladesh,9952040.14,18140680.63,355430.005000,518305.160857
Asia,Bhutan,13144241.51,10689527.73,469437.196786,381768.847500
Asia,Brunei,8761013.35,12437546.85,417191.111905,478367.186538
Asia,Cambodia,9695262.62,14048900.27,387810.504800,342656.104146
Asia,China,13468823.66,11239192.06,498845.320741,416266.372593
...,...,...,...,...,...
Sub-Saharan Africa,The Gambia,11579401.05,6739474.10,526336.411364,306339.731818
Sub-Saharan Africa,Togo,10918610.28,9107925.90,341206.571250,364317.036000
Sub-Saharan Africa,Uganda,12002629.58,13938025.73,500109.565833,449613.733226
Sub-Saharan Africa,Zambia,11247814.98,12389638.02,468658.957500,344156.611667


In [44]:
# groupby()에서 그룹화된 데이터프레임을 출력
group_data3=sales[['대륙','총이윤']].groupby('대륙')

In [45]:
group_data3.get_group('Asia')

Unnamed: 0,대륙,총이윤
0,Asia,236065.20
1,Asia,100322.99
2,Asia,2146.42
3,Asia,865347.12
4,Asia,976038.75
...,...,...
1464,Asia,980452.93
1465,Asia,463211.25
1466,Asia,330387.20
1467,Asia,39845.40


In [47]:
group_data4=sales[['국가','총이윤']].groupby('국가').sum()

In [48]:
group_data4

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Afghanistan,22977020.06
Albania,19583969.70
Algeria,22125886.64
Andorra,16653936.87
Angola,19596150.58
...,...
Vatican City,16978429.04
Vietnam,23415377.02
Yemen,16666875.07
Zambia,23637453.00


In [49]:
group_data4.sort_values('총이윤', ascending=False, inplace=True)

In [50]:
group_data4

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90


In [54]:
group_data4.iloc[0].name

'Kiribati'

In [53]:
# 반복문을 이용하여 South Korea의 위치 찾기
# 국가는 index로 되어있다
for i in range(0,len(group_data4),1):
    # 만약에 group_data.iloc[i]의 name이 South Korea라면?
    if group_data4.iloc[i].name=='South Korea':
        # print(i)
        break
print(i)

47


In [59]:
i=0

while True:
    try:
        if group_data4.iloc[i].name=='Sougt Korea':
            print(i)
            break
        i+=1
    except:
        break
    
# 왜 47이 출력이 안되지?
    

In [60]:
# DataFrame에 index는 list형태
index_list=list(group_data4.index)

In [62]:
index_list.index('South Korea')

47

In [65]:
group_data4.reset_index(inplace=True)

In [66]:
group_data4.loc[
    group_data4['국가']=='South Korea'
]

Unnamed: 0,국가,총이윤
47,South Korea,23893933.75


In [67]:
group_data5=sales[['국가','총이윤']].groupby('국가').sum()

In [71]:
# 특정 컬럼을 기준으로 랭킹을 잡아주는 함수
# rank() -> 오름차순으로 랭킹 생성
# 내림차순으로 변경
group_data5['rank']=group_data5['총이윤'].rank(ascending=False)

In [73]:
group_data5.loc['South Korea']

총이윤     23893933.75
rank          48.00
Name: South Korea, dtype: float64