In [None]:
import pandas as pd

### csv 파일 로드 데이터를 튜닝
1. csv 폴더에 있는 sales records.csv 파일 로드 
2. 'Order ID', 'Total Revenue', 'Total Cost', 'Total Profit' 컬럼을 삭제
3. 컬럼의 이름 변경 ['권역', '국가', '상품종류', '채널', '우선순위', '주문일자', '발송일자', '판매단위'  , '단가', '원가']
4. 권역, 국가를 기준으로 오름차순 정렬
5. index의 값을 초기화하고 기존의 인덱스는 삭제

In [None]:
## 1. Sales Records.csv 파일 로드
## 파일은 상위로 이동, csv 폴더로 이동, Sales Records.csv파일
sales = pd.read_csv("../csv/Sales Records.csv")
sales_df = sales

In [None]:
## 2. 4개의 컬럼을 삭제
## 컬럼 하나만 삭제
sales.drop(["Order ID"], axis=1, inplace=True)


In [None]:
## 컬럼 3개를 삭제
sales.drop(['Total Revenue', 'Total Cost', 'Total Profit'], axis='columns', 
            inplace=True)

In [None]:
## 컬럼의 이름을 변경
sales.columns = ["권역", "국가", "상품종류", "채널", "우선순위", "주문일자", 
                "발송일자", "판매단위", "단가", "원가"]

In [None]:
sales.head(1)

In [None]:
# 권역, 국가를 기준으로 오름차순 정렬
sales.sort_values(["권역", "국가"], inplace=True)

In [None]:
## 인덱스를 초기화, 기존의 인덱스는 삭제
sales.reset_index(drop=True, inplace=True)

In [None]:
sales.head()

In [None]:
## reset_index() 안에 drop은 기본값이 false
## drop 매개변수의 인자 값이 True가 되면 기존의 인덱스를 삭제하고 
## index를 초기화 한다. 
sales.sort_values(["국가"]).reset_index(drop=True)

In [None]:
### 단가 컬럼의 float 형태의 데이터를 반올림 -> int의 형태로 변경
# 반올림 함수 round(n)
# n의 값은 소수점의 자릿수
# sales["단가"].round(0) # 데이터의 형태는 스리즈 values들의 데이터 형태는 float
# 데이터의 타입을 변경 함수
# astype("int")

sales["단가"] = sales["단가"].round(0).astype("int")

In [None]:
sales.head()

In [None]:
## 원가 컬럼의 데이터를 반올림을 하지 않고 int 타입으로 변경
sales["원가"] = sales["원가"].astype("int")

1. 새로운 파생변수 (총 단가, 총 원가, 총 이윤) 생성
2. 총 단가 = 단가 * 판매단위
3. 총 원가 = 원가 * 판매단위
4. 총 이윤 = 총 단가 - 총 원가

In [None]:
# sales["총 단가"]
sales["단가"] * sales["판매단위"]

In [None]:
sales_csv = pd.read_csv("../csv/Sales Records.csv")
sales_csv

In [None]:
sales["총 단가"] = sales["단가"] * sales["판매단위"]
sales["총 원가"] = sales["원가"] * sales["판매단위"]
# sales["총 이윤"] = sales["총 단가"] - sales["총 원가"]
sales["총 이윤"] = (sales["단가"] - sales["원가"]) * sales["판매단위"]

In [None]:
sales.head()

In [None]:
## loc[] 
## 특정 행이나 특정 열을 추출할때 사용
## loc[행의 위치, 열의 위치]

## sales 데이터에서 인덱스가 11부터 마지막까지 ( = 인덱스를 0부터 10까지는 삭제)
sales.loc[11:] 

In [None]:
sales.loc[11:, "권역":"발송일자"]

In [36]:
sales.head()

Unnamed: 0,권역,국가,상품종류,채널,우선순위,주문일자,발송일자,판매단위,단가,원가,총 단가,총 원가,총 이윤
0,Asia,Bangladesh,Personal Care,Online,L,12/11/2016,1/13/2017,9420,82,56,772440,527520,244920
1,Asia,Bangladesh,Cosmetics,Offline,M,7/29/2010,9/11/2010,577,437,263,252149,151751,100398
2,Asia,Bangladesh,Vegetables,Offline,C,4/28/2014,5/5/2014,34,154,90,5236,3060,2176
3,Asia,Bangladesh,Cereal,Offline,L,6/22/2010,6/28/2010,9768,206,117,2012208,1142856,869352
4,Asia,Bangladesh,Office Supplies,Online,H,3/20/2013,4/11/2013,7731,651,524,5032881,4051044,981837


In [37]:
## 해당하는 컬럼의 데이터를 그룹화하여 카운트 체크
sales["채널"].value_counts()

Online     5061
Offline    4939
Name: 채널, dtype: int64

In [40]:
## 국가별로 그룹화 하여 총 이윤의 합계를 구한 다음
## 가장 이윤이 높은 나라의 top 10을 구하시오


## 1. 국가 별로 그룹화
## 2. 총 이윤의 합계 -> 데이터프레임
## 3. 총 이윤을 가지고 내림차순 정렬
## 4. 상위 10개를 출력

# 그룹화 함수 -> groupby(기준이되는 컬럼)
test = sales.groupby("국가").sum()

In [None]:
test[["총 이윤"]]

In [45]:
## 총 이윤을 기준으로 내림차순 정렬
## sort_values() -> 기본 값은 오름차순 정렬
## 내림차순 정렬로 변경하려면 함수의 매개변수 ascending = 
# True 오름차순 (기본값), False 내림차순
test.sort_values(["총 이윤"], ascending=False).head(10)

Unnamed: 0_level_0,판매단위,단가,원가,총 단가,총 원가,총 이윤
국가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kiribati,356731,19559,13372,99042827,66419928,32622899
Qatar,328663,15442,10385,91493775,60469525,31024250
Grenada,355886,17503,12345,107296964,76794549,30502415
Taiwan,380647,18062,13132,113049887,82799819,30250068
Malawi,336182,18184,12679,97028184,67514985,29513199
Botswana,371019,17526,12151,96688333,67454758,29233575
Bangladesh,330991,17448,12179,97392404,69103817,28288587
Lithuania,367622,17790,12247,91386154,63112357,28273797
Burundi,336252,18340,12661,85695785,57612047,28083738
Ireland,317430,16062,11189,86622429,58642502,27979927
