In [1]:
import pandas as pd

### Sales Records 샘플
- csv 폴더 안에 있는 'Sales Records.csv' 파일을 로드 
- 데이터프레임의 정보를 확인 
- 특정 컬럼을 제거 ('Order ID', 'Total Revenue', 'Total Cost', 'Total Profit', 'Order Priority')
- 컬럼의 이름을 변경 ['대륙', '국가', '상품종류', '채널', '주문일자', '발송일자', '판매개수', '단가', '원가']
- 대륙, 국가를 기준으로 데이터를 오름차순 정렬 
- 기존의 인덱스는 제거하고 인덱스를 재지정
- 새로운 파생변수 생성
    - 총단가 -> 판매개수 * 단가
    - 총원가 -> 판매개수 * 원가
    - 총이윤 -> 총단가 - 총원가

In [2]:
# 외부의 파일을 로드 
# 상위 디렉토리 이동(../) -> csv 디렉토리 이동(csv/) -> Sales Records.csv 
sales = pd.read_csv('../csv/Sales Records.csv')

In [3]:
# 정보를 확인 
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Region          10000 non-null  object 
 1   Country         10000 non-null  object 
 2   Item Type       10000 non-null  object 
 3   Sales Channel   10000 non-null  object 
 4   Order Priority  10000 non-null  object 
 5   Order Date      10000 non-null  object 
 6   Order ID        10000 non-null  int64  
 7   Ship Date       10000 non-null  object 
 8   Units Sold      10000 non-null  int64  
 9   Unit Price      10000 non-null  float64
 10  Unit Cost       10000 non-null  float64
 11  Total Revenue   10000 non-null  float64
 12  Total Cost      10000 non-null  float64
 13  Total Profit    10000 non-null  float64
dtypes: float64(5), int64(2), object(7)
memory usage: 1.1+ MB


In [4]:
sales.head(1)

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0


In [5]:
# 특정 컬럼을 제거 -> Order ID, Order Priority, Total Revenue, Total Cost, Total Profit
# drop()함수를 이용
sales.drop(
    [
        'Order ID', 
        'Order Priority',
        'Total Revenue', 
        'Total Cost', 
        'Total Profit'
    ],
    axis='columns', 
    inplace=True
)

In [6]:
cols = sales.columns

In [7]:
# 컬럼의 이름을 변경 
# case1 -> rename()함수를 이용
sales.rename(
    {
        cols[0] : '대륙', 
        cols[1] : '국가', 
        cols[2] : '상품종류', 
        cols[3] : '채널', 
        cols[4] : '주문일자', 
        cols[5] : '발송일자', 
        cols[6] : '판매개수', 
        cols[7] : '단가', 
        cols[8] : '원가'
    }, 
    axis=1
)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가
0,Sub-Saharan Africa,Chad,Office Supplies,Online,1/27/2011,2/12/2011,4484,651.21,524.96
1,Europe,Latvia,Beverages,Online,12/28/2015,1/23/2016,1075,47.45,31.79
2,Middle East and North Africa,Pakistan,Vegetables,Offline,1/13/2011,2/1/2011,6515,154.06,90.93
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,9/11/2012,10/6/2012,7683,668.27,502.54
4,Europe,Czech Republic,Beverages,Online,10/27/2015,12/5/2015,3491,47.45,31.79
...,...,...,...,...,...,...,...,...,...
9995,Asia,Laos,Beverages,Online,7/15/2014,7/31/2014,8597,47.45,31.79
9996,Europe,Liechtenstein,Cosmetics,Online,10/27/2012,11/1/2012,562,437.20,263.33
9997,Sub-Saharan Africa,Democratic Republic of the Congo,Vegetables,Offline,2/14/2013,3/20/2013,2524,154.06,90.93
9998,Sub-Saharan Africa,South Africa,Meat,Online,2/19/2017,2/22/2017,8706,421.89,364.69


In [8]:
# case2 -> sales 안에 있는 columns라는 변수에 데이터를 대입 (컬럼 전체를 변경할때 사용)
sales.columns = [
    '대륙', '국가', '상품종류', '채널', '주문일자', '발송일자', 
    '판매개수', '단가', '원가'
]

In [9]:
sales.head(1)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가
0,Sub-Saharan Africa,Chad,Office Supplies,Online,1/27/2011,2/12/2011,4484,651.21,524.96


In [10]:
# 대륙, 국가를 기준으로 데이터를 오름차순 정렬 
# sort_values()함수를 사용
sales.sort_values(
    ['대륙', '국가'], inplace=True
)

In [11]:
# 인덱스를 초기화하고 기존의 인덱스는 제거 
# reset_index()함수를 사용
sales.reset_index(drop=True, inplace=True)

In [12]:
# 3개의 파생 변수를 생성 
# 총단가, 총원가, 총이윤
sales['총단가'] = sales['단가'] * sales['판매개수']

In [13]:
# 총원가 컬럼은 for문을 이용하여 생성 
# 총원가 데이터를 대입할 빈 리스트를 생성 
data = []

# 만번(sales의 인덱스의 수) 반복 실행하는 반복문을 생성 
for i in range(0, len(sales), 1):
    # i가 의미하는것은? sales의 인덱스의 값 이거나 위치
    # print(i)
    # 인덱스가 i인 데이터에서 원가 데이터와 판매개수 데이터를 곱한 값을 data라는 리스트에 추가 
    res = sales.loc[i, '원가'] * sales.loc[i, '판매개수']
    data.append(res)

print(data) 

[533831.4, 151941.41, 3091.6200000000003, 1143930.48, 4058465.7600000002, 1859900.54, 315143.01, 566109.74, 209984.0, 561856.4700000001, 67140.48, 2763914.4000000004, 28370.160000000003, 1039626.84, 4933.96, 5192904.32, 3610066.31, 7874.96, 358551.09, 532509.6, 2927731.32, 3226777.12, 843709.32, 1164658.95, 568312.5, 187192.32, 1156344.14, 175506.99000000002, 1121913.8, 1582086.64, 4627388.32, 46564.68, 225505.28000000003, 4698749.0, 153323.52000000002, 682611.51, 138462.24, 499708.37, 1545.8100000000002, 585589.2000000001, 543520.32, 452137.61, 344079.12000000005, 154822.44, 183950.82, 40108.32, 1009606.8599999999, 896545.44, 250141.38, 2732941.7600000002, 901278.5599999999, 4529393.0200000005, 58716.13, 1037845.92, 1676844.6199999999, 2566150.8499999996, 28647.36, 217510.58, 63719.36, 840907.2, 2051018.7200000002, 15782.579999999998, 1074132.92, 167372.80000000002, 4002228.56, 77880.32, 294067.2, 462710.55, 107933.91, 575112.72, 1526605.92, 12421.4, 294533.12000000005, 249016.3200000

In [14]:
sales['총원가'] = data

In [15]:
sales.head(2)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,1/13/2017,9420,81.73,56.67,769896.6,533831.4
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,9/11/2010,577,437.2,263.33,252264.4,151941.41


In [16]:
# 총이윤 컬럼의 데이터를 생성 
# 컬럼에 들어갈 데이터를 위해 빈 리스트 하나 생성 
data2 = []

# 시작값을 지정 
i = 0

# 무한반복문을 생성 
while True:
    try:
        res2 = sales.loc[i, '총단가'] - sales.loc[i, '총원가']
        data2.append(res2)
        # 시작값을 1 증가시킨다. 
        i += 1
    except:
        # 위의 코드가 에러가 발생한다면 -> 반복문을 종료
        break

In [17]:
sales['총이윤'] = data2

In [18]:
sales.head(3)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가,총이윤
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,1/13/2017,9420,81.73,56.67,769896.6,533831.4,236065.2
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,9/11/2010,577,437.2,263.33,252264.4,151941.41,100322.99
2,Asia,Bangladesh,Vegetables,Offline,4/28/2014,5/5/2014,34,154.06,90.93,5238.04,3091.62,2146.42


### 데이터프레임을 그룹화 
- groupby( [그룹화할 컬럼의 명] )
    - 출력은 groupby data라는 형태로 텍스트 한줄이 출력 
- 그룹화 연산 
    - 그룹화된 데이터들을 연산하여 새로운 데이터프레임으로 생성 
- 그룹화 선택 
    - 그룹하된 데이터들 중에 특정 데이터프레임을 출력 

In [19]:
sales[ ['단가'] ]

Unnamed: 0,단가
0,81.73
1,437.20
2,154.06
3,205.70
4,651.21
...,...
9995,109.28
9996,255.28
9997,109.28
9998,9.33


In [20]:
group_data = sales[ ['국가','총이윤'] ].groupby(['국가']).sum()

In [21]:
group_data.head(1)

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Afghanistan,22977020.06


In [22]:
# gorup_data에서 sum을 기준으로 내림차순 정렬 
group_data.sort_values(['총이윤'], ascending=False)

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90


In [23]:
sales.head(2)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가,총이윤
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,1/13/2017,9420,81.73,56.67,769896.6,533831.4,236065.2
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,9/11/2010,577,437.2,263.33,252264.4,151941.41,100322.99


In [24]:
# 그룹화 연산을 2개 이상 사용시 
group_data2 = sales[['국가', '총이윤']].groupby(['국가']).agg(['sum', 'mean'])

In [25]:
# group_data2에서 국가가 South Korea인 총 이윤의 합계값을 출력 
group_data2.loc['South Korea', ('총이윤', 'sum')]

23893933.75

In [26]:
group_data2['총이윤']['sum']['South Korea']

23893933.75

In [27]:
group_data2.iloc[[20]]

Unnamed: 0_level_0,총이윤,총이윤
Unnamed: 0_level_1,sum,mean
국가,Unnamed: 1_level_2,Unnamed: 2_level_2
Brunei,21198560.2,451033.195745


#### 데이터프레임의 재구조화
- pivot_table()
    - 기존의 데이터프레임의 데이터들을 기준으로 새로운 데이터프레임을 생성 
    - 인덱스와 컬럼, 사용할 데이터을 데이터프레임에서 선택하여 구조를 새로 만든다. 

In [28]:
pd.pivot_table(
    sales, 
    index = ['대륙', '국가'], 
    columns= '채널',
    values = '총이윤', 
    aggfunc= ['sum', 'mean']
)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,채널,Offline,Online,Offline,Online
대륙,국가,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Asia,Bangladesh,9952040.14,18140680.63,355430.005000,518305.160857
Asia,Bhutan,13144241.51,10689527.73,469437.196786,381768.847500
Asia,Brunei,8761013.35,12437546.85,417191.111905,478367.186538
Asia,Cambodia,9695262.62,14048900.27,387810.504800,342656.104146
Asia,China,13468823.66,11239192.06,498845.320741,416266.372593
...,...,...,...,...,...
Sub-Saharan Africa,The Gambia,11579401.05,6739474.10,526336.411364,306339.731818
Sub-Saharan Africa,Togo,10918610.28,9107925.90,341206.571250,364317.036000
Sub-Saharan Africa,Uganda,12002629.58,13938025.73,500109.565833,449613.733226
Sub-Saharan Africa,Zambia,11247814.98,12389638.02,468658.957500,344156.611667


In [29]:
# groupby()에서 그룹화된 데이터프레임을 출력 
group_data3 = sales[['대륙', '총이윤']].groupby('대륙')

In [30]:
group_data3.get_group('Asia')

Unnamed: 0,대륙,총이윤
0,Asia,236065.20
1,Asia,100322.99
2,Asia,2146.42
3,Asia,865347.12
4,Asia,976038.75
...,...,...
1464,Asia,980452.93
1465,Asia,463211.25
1466,Asia,330387.20
1467,Asia,39845.40


In [31]:
group_data4 = sales[['국가', '총이윤']].groupby('국가').sum()

In [32]:
group_data4.sort_values('총이윤', ascending=False, inplace=True)

In [33]:
group_data4

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90


In [34]:
group_data4.iloc[2].name

'Grenada'

In [35]:
# 반복문을 이용하여 South Korea의 위치 찾기 
# 국가는 index로 되어있다 
for i in range(0, len(group_data4), 1):
    # 만약에 group_data4.iloc[i]의 name이 South Korea 라면?
    if group_data4.iloc[i].name == 'South Korea':
        print(i)
        # break

print(i)

47
184


In [36]:
i = 0

while True:
    try : 
        if group_data4.iloc[i].name == 'South Korea':
            print(i)
            break
        i += 1
    except:
        break

47


In [37]:
# DataFrame에 index는 list형태
index_list = list(group_data4.index)

In [38]:
index_list.index('South Korea')

47

In [39]:
group_data4.reset_index(inplace=True)

In [44]:
group_data4

Unnamed: 0,국가,총이윤
0,Kiribati,32454798.26
1,Qatar,30861356.79
2,Grenada,30302769.90
3,Taiwan,30044779.98
4,Malawi,29329125.05
...,...,...
180,Cape Verde,14383303.52
181,Italy,14199991.25
182,Malta,14163744.55
183,Mali,13800334.90


In [40]:
group_data4.loc[
    group_data4['국가'] == 'South Korea'
]

Unnamed: 0,국가,총이윤
47,South Korea,23893933.75


In [41]:
group_data5 = sales[['국가', '총이윤']].groupby('국가').sum()

In [42]:
# 특정 컬럼을 기준으로 랭킹을 잡아주는 함수
# rank()
group_data5['rank'] = group_data5['총이윤'].rank(ascending=False)

In [43]:
group_data5.loc['South Korea']

총이윤     23893933.75
rank          48.00
Name: South Korea, dtype: float64

In [45]:
group_data5

Unnamed: 0_level_0,총이윤,rank
국가,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,22977020.06,67.0
Albania,19583969.70,124.0
Algeria,22125886.64,80.0
Andorra,16653936.87,167.0
Angola,19596150.58,123.0
...,...,...
Vatican City,16978429.04,160.0
Vietnam,23415377.02,54.0
Yemen,16666875.07,166.0
Zambia,23637453.00,53.0
