In [1]:
import pandas as pd

### Sales Records 샘플
- csv 폴더 안에 있는 'Sales Records.csv' 파일을 로드 
- 데이터프레임의 정보를 확인 
- 특정 컬럼을 제거 ('Order ID', 'Total Revenue', 'Total Cost', 'Total Profit', 'Order Priority')
- 컬럼의 이름을 변경 ['대륙', '국가', '상품종류', '채널', '주문일자', '발송일자', '판매개수', '단가', '원가']
- 대륙, 국가를 기준으로 데이터를 오름차순 정렬 
- 기존의 인덱스는 제거하고 인덱스를 재지정
- 새로운 파생변수 생성
    - 총단가 -> 판매개수 * 단가
    - 총원가 -> 판매개수 * 원가
    - 총이윤 -> 총단가 - 총원가

In [2]:
# 외부의 파일을 로드 
# 상위 디렉토리 이동(../) -> csv 디렉토리 이동(csv/) -> Sales Records.csv 
sales = pd.read_csv('../csv/Sales Records.csv')

In [3]:
# 정보를 확인 
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Region          10000 non-null  object 
 1   Country         10000 non-null  object 
 2   Item Type       10000 non-null  object 
 3   Sales Channel   10000 non-null  object 
 4   Order Priority  10000 non-null  object 
 5   Order Date      10000 non-null  object 
 6   Order ID        10000 non-null  int64  
 7   Ship Date       10000 non-null  object 
 8   Units Sold      10000 non-null  int64  
 9   Unit Price      10000 non-null  float64
 10  Unit Cost       10000 non-null  float64
 11  Total Revenue   10000 non-null  float64
 12  Total Cost      10000 non-null  float64
 13  Total Profit    10000 non-null  float64
dtypes: float64(5), int64(2), object(7)
memory usage: 1.1+ MB


In [5]:
sales.head(1)

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0


In [12]:
# 특정 컬럼을 제거 -> Order ID, Order Priority, Total Revenue, Total Cost, Total Profit
# drop()함수를 이용
sales.drop(
    [
        'Order ID', 
        'Order Priority',
        'Total Revenue', 
        'Total Cost', 
        'Total Profit'
    ],
    axis='columns', 
    inplace=True
)

In [14]:
cols = sales.columns

In [None]:
# 컬럼의 이름을 변경 
# case1 -> rename()함수를 이용
sales.rename(
    {
        cols[0] : '대륙', 
        cols[1] : '국가', 
        cols[2] : '상품종류', 
        cols[3] : '채널', 
        cols[4] : '주문일자', 
        cols[5] : '발송일자', 
        cols[6] : '판매개수', 
        cols[7] : '단가', 
        cols[8] : '원가'
    }, 
    axis=1
)

In [17]:
# case2 -> sales 안에 있는 columns라는 변수에 데이터를 대입 (컬럼 전체를 변경할때 사용)
sales.columns = [
    '대륙', '국가', '상품종류', '채널', '주문일자', '발송일자', 
    '판매개수', '단가', '원가'
]

In [18]:
sales.head(1)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가
0,Sub-Saharan Africa,Chad,Office Supplies,Online,1/27/2011,2/12/2011,4484,651.21,524.96


In [25]:
# 대륙, 국가를 기준으로 데이터를 오름차순 정렬 
# sort_values()함수를 사용
sales.sort_values(
    ['대륙', '국가'], inplace=True
)

In [28]:
# 인덱스를 초기화하고 기존의 인덱스는 제거 
# reset_index()함수를 사용
sales.reset_index(drop=True, inplace=True)

In [32]:
# 3개의 파생 변수를 생성 
# 총단가, 총원가, 총이윤
sales['총단가'] = sales['단가'] * sales['판매개수']

In [34]:
# 총원가 컬럼은 for문을 이용하여 생성 
# 총원가 데이터를 대입할 빈 리스트를 생성 
data = []

# 만번(sales의 인덱스의 수) 반복 실행하는 반복문을 생성 
for i in range(0, len(sales), 1):
    # i가 의미하는것은? sales의 인덱스의 값 이거나 위치
    # print(i)
    # 인덱스가 i인 데이터에서 원가 데이터와 판매개수 데이터를 곱한 값을 data라는 리스트에 추가 
    res = sales.loc[i, '원가'] * sales.loc[i, '판매개수']
    data.append(res)

print(data) 

[4698749.0, 682611.51, 138462.24, 225505.28000000003, 209984.0, 153323.52000000002, 46564.68, 1582086.64, 561856.4700000001, 4627388.32, 566109.74, 452137.61, 499708.37, 585589.2000000001, 543520.32, 1545.8100000000002, 67140.48, 3226777.12, 5192904.32, 843709.32, 3610066.31, 7874.96, 358551.09, 532509.6, 2927731.32, 175506.99000000002, 2763914.4000000004, 1121913.8, 187192.32, 4933.96, 1164658.95, 568312.5, 1039626.84, 28370.160000000003, 1156344.14, 250141.38, 896545.44, 1859900.54, 151941.41, 2732941.7600000002, 40108.32, 63719.36, 840907.2, 183950.82, 3091.6200000000003, 1009606.8599999999, 901278.5599999999, 28647.36, 1037845.92, 4529393.0200000005, 2566150.8499999996, 1676844.6199999999, 217510.58, 344079.12000000005, 315143.01, 2051018.7200000002, 15782.579999999998, 533831.4, 1074132.92, 58716.13, 4058465.7600000002, 154822.44, 1143930.48, 580045.83, 815369.31, 294533.12000000005, 31624.4, 193607.68000000002, 711800.04, 44855.44, 1246983.24, 17812.480000000003, 53429.32, 249016

In [35]:
sales['총원가'] = data

In [36]:
sales.head(2)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가
0,Asia,Bangladesh,Household,Offline,6/3/2013,7/20/2013,9350,668.27,502.54,6248324.5,4698749.0
1,Asia,Bangladesh,Vegetables,Offline,9/18/2013,10/9/2013,7507,154.06,90.93,1156528.42,682611.51


In [38]:
# 총이윤 컬럼의 데이터를 생성 
# 컬럼에 들어갈 데이터를 위해 빈 리스트 하나 생성 
data2 = []

# 시작값을 지정 
i = 0

# 무한반복문을 생성 
while True:
    try:
        res2 = sales.loc[i, '총단가'] - sales.loc[i, '총원가']
        data2.append(res2)
        # 시작값을 1 증가시킨다. 
        i += 1
    except:
        # 위의 코드가 에러가 발생한다면 -> 반복문을 종료
        break

In [40]:
sales['총이윤'] = data2

In [41]:
sales.head(3)

Unnamed: 0,대륙,국가,상품종류,채널,주문일자,발송일자,판매개수,단가,원가,총단가,총원가,총이윤
0,Asia,Bangladesh,Household,Offline,6/3/2013,7/20/2013,9350,668.27,502.54,6248324.5,4698749.0,1549575.5
1,Asia,Bangladesh,Vegetables,Offline,9/18/2013,10/9/2013,7507,154.06,90.93,1156528.42,682611.51,473916.91
2,Asia,Bangladesh,Snacks,Offline,10/17/2011,11/23/2011,1421,152.58,97.44,216816.18,138462.24,78353.94


### 데이터프레임을 그룹화 
- groupby( [그룹화할 컬럼의 명] )
    - 출력은 groupby data라는 형태로 텍스트 한줄이 출력 
- 그룹화 연산 
    - 그룹화된 데이터들을 연산하여 새로운 데이터프레임으로 생성 
- 그룹화 선택 
    - 그룹하된 데이터들 중에 특정 데이터프레임을 출력 

In [47]:
sales[ ['단가'] ]

Unnamed: 0,단가
0,668.27
1,154.06
2,152.58
3,109.28
4,651.21
...,...
9995,9.33
9996,437.20
9997,9.33
9998,437.20


In [51]:
group_data = sales[ ['국가','총이윤'] ].groupby(['국가']).sum()

In [52]:
group_data.head(1)

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Afghanistan,22977020.06


In [53]:
# gorup_data에서 sum을 기준으로 내림차순 정렬 
group_data.sort_values(['총이윤'], ascending=False)

Unnamed: 0_level_0,총이윤
국가,Unnamed: 1_level_1
Kiribati,32454798.26
Qatar,30861356.79
Grenada,30302769.90
Taiwan,30044779.98
Malawi,29329125.05
...,...
Cape Verde,14383303.52
Italy,14199991.25
Malta,14163744.55
Mali,13800334.90
