In [2]:
import pandas as pd
import matplotlib.pyplot as plt

## 상대경로 / 절대경로
1. 절대경로
    * 절대적인 주소
    * 환경에 상관없이 고정된 위치를 표현
    * ex) "C:\Users\82104\OneDrive\바탕 화면\My Python", "http://www.google.com"
2. 상대경로
    * 상대적인 주소
    * 현재 작업중인 디렉토리에서 상위, 하위 이동
    * './' : 현재 작업중인 디렉토리
    * '../' : 상위 디렉토리
    * './폴더명/ : 하위폴더

In [3]:
sales_df = pd.read_csv("../csv/csv/Sales Records (1).csv")
sales_df.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,12/28/2015,361825549,1/23/2016,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,1/13/2011,141515767,2/1/2011,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,9/11/2012,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,10/27/2015,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06


In [4]:
## 결측치를 체크를 하는 함수.
## .isna() 함수를 사용하면 결측치 값은 True, 결측치가 아니면 False
## .isna().sum() 함수를 이용하면 결측치의 개수를 확인 가능(True = 1, False = 0)
sales_df.isna().sum()

Region            0
Country           0
Item Type         0
Sales Channel     0
Order Priority    0
Order Date        0
Order ID          0
Ship Date         0
Units Sold        0
Unit Price        0
Unit Cost         0
Total Revenue     0
Total Cost        0
Total Profit      0
dtype: int64

In [5]:
## 통계 요약 정보를 확인하는 함수
## describe() 함수를 사용하면 데이터의 개수, 
## 평균, 표준편차, 최소값, 최대값, 1사분위, 중앙값, 3사분위 값을 확인이 가능
## 데이터가 숫자형태인 데이터에만 적용
sales_df.describe()

Unnamed: 0,Order ID,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,549871900.0,5002.8559,268.143139,188.806639,1333355.0,938265.8,395089.3
std,260783500.0,2873.246454,217.944092,176.445907,1465026.0,1145914.0,377555.0
min,100089200.0,2.0,9.33,6.92,167.94,124.56,43.38
25%,321806700.0,2530.75,109.28,56.67,288551.1,164785.5,98329.14
50%,548566300.0,4962.0,205.7,117.11,800051.2,481605.8,289099.0
75%,775998100.0,7472.0,437.2,364.69,1819143.0,1183822.0,566422.7
max,999934200.0,10000.0,668.27,524.96,6680027.0,5241726.0,1738178.0


In [6]:
## 컬럼의 이름을 변경을 하는 방법
## 데이터프레임명.columns = [변경할 컬럼의 이름]
sales_df.columns = ['권역','국가','상품종류','판매채널','우선순위','주문일자',
                    "주문ID",'발송일자','판매단위','단가','원가','총수익','총비용','총이윤']
sales_df.head()

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,12/28/2015,361825549,1/23/2016,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,1/13/2011,141515767,2/1/2011,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,9/11/2012,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,10/27/2015,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06


In [7]:
## 컬럼의 데이터형태를 datetime 형태로 변경하는 함수.
## pandas에 내장된 함수 : to_datetime(데이터프레임[컬럼명], format=데이터의 형태)
sales_df['주문일자'] = pd.to_datetime(sales_df['주문일자'], format="%m/%d/%Y")
sales_df.head(1)

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0


In [8]:
## 데이터의 정렬 방식 변경을 하는 함수(기본값은 오름차순 정렬)
## sort_values([컬럼명])
sales_df.sort_values('판매단위')    ## 오름차순 정렬
sales_df.sort_values('국가', ascending=False)  
## ascending 속성은 False 내림차순 True 오름차순(기본값)

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
1936,Sub-Saharan Africa,Togo,Cosmetics,Offline,H,2011-08-01,989858567,8/4/2011,2,437.20,263.33,874.40,526.66,347.74
4215,Europe,Russia,Baby Food,Offline,L,2012-09-15,638786590,10/14/2012,2,255.28,159.42,510.56,318.84,191.72
4380,Asia,Turkmenistan,Beverages,Online,M,2015-10-19,187147653,11/8/2015,4,47.45,31.79,189.80,127.16,62.64
4029,Sub-Saharan Africa,Mauritius,Cereal,Offline,C,2012-08-29,949949443,9/26/2012,5,205.70,117.11,1028.50,585.55,442.95
3721,Middle East and North Africa,Azerbaijan,Baby Food,Offline,L,2013-11-27,953497684,11/29/2013,8,255.28,159.42,2042.24,1275.36,766.88
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128,Asia,Sri Lanka,Vegetables,Offline,H,2012-06-10,985127580,6/13/2012,9997,154.06,90.93,1540137.82,909027.21,631110.61
3124,Asia,Laos,Cosmetics,Online,L,2015-11-23,431603753,12/27/2015,9997,437.20,263.33,4370688.40,2632510.01,1738178.39
2674,Sub-Saharan Africa,Chad,Snacks,Offline,H,2012-08-02,284166371,8/31/2012,9999,152.58,97.44,1525647.42,974302.56,551344.86
4102,Europe,Norway,Meat,Offline,H,2012-05-24,396290433,5/27/2012,10000,421.89,364.69,4218900.00,3646900.00,572000.00


In [9]:
# 데이터정렬의 기준이 여러개 인 경우
sales_df.sort_values(['국가','판매단위'])

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
400,Middle East and North Africa,Afghanistan,Household,Offline,M,2011-03-25,440761888,4/1/2011,92,668.27,502.54,61480.84,46233.68,15247.16
6342,Middle East and North Africa,Afghanistan,Personal Care,Online,L,2017-05-05,854282987,5/11/2017,175,81.73,56.67,14302.75,9917.25,4385.50
8062,Middle East and North Africa,Afghanistan,Household,Offline,L,2011-07-07,974112927,7/19/2011,517,668.27,502.54,345495.59,259813.18,85682.41
460,Middle East and North Africa,Afghanistan,Cosmetics,Offline,L,2011-10-21,873209512,11/19/2011,954,437.20,263.33,417088.80,251216.82,165871.98
2453,Middle East and North Africa,Afghanistan,Vegetables,Online,H,2015-10-26,636931788,12/10/2015,1125,154.06,90.93,173317.50,102296.25,71021.25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6602,Sub-Saharan Africa,Zimbabwe,Meat,Online,H,2011-09-13,793859899,9/25/2011,9640,421.89,364.69,4067019.60,3515611.60,551408.00
8080,Sub-Saharan Africa,Zimbabwe,Fruits,Offline,C,2012-12-29,486245286,2/5/2013,9640,9.33,6.92,89941.20,66708.80,23232.40
4358,Sub-Saharan Africa,Zimbabwe,Fruits,Online,L,2011-07-12,368275296,7/26/2011,9699,9.33,6.92,90491.67,67117.08,23374.59
3459,Sub-Saharan Africa,Zimbabwe,Snacks,Online,M,2010-11-26,633683097,1/3/2011,9765,152.58,97.44,1489943.70,951501.60,538442.10


In [10]:
## 데이터프레임에서 인덱스나 컬럼을 삭제하는 함수
## drop(특정 값을 지정, axis=n) -> n은 축의 방향 : 0 = 행 / 1 = 열

## 특정 컬럼을 삭제
sales_df.drop(['발송일자'], axis=1)

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,4484,651.21,524.96,2920025.64,2353920.64,566105.00
1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,1075,47.45,31.79,51008.75,34174.25,16834.50
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,6515,154.06,90.93,1003700.90,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,3491,47.45,31.79,165647.95,110978.89,54669.06
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,Asia,Laos,Beverages,Online,H,2014-07-15,199342048,8597,47.45,31.79,407927.65,273298.63,134629.02
9996,Europe,Liechtenstein,Cosmetics,Online,C,2012-10-27,763044106,562,437.20,263.33,245706.40,147991.46,97714.94
9997,Sub-Saharan Africa,Democratic Republic of the Congo,Vegetables,Offline,M,2013-02-14,848579967,2524,154.06,90.93,388847.44,229507.32,159340.12
9998,Sub-Saharan Africa,South Africa,Meat,Online,L,2017-02-19,298185956,8706,421.89,364.69,3672974.34,3174991.14,497983.20


In [11]:
## 특정 행을 삭제
sales_df.drop([1], axis=0)

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.00
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,2/1/2011,6515,154.06,90.93,1003700.90,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06
5,Sub-Saharan Africa,South Africa,Beverages,Offline,H,2012-07-10,482292354,8/21/2012,9880,47.45,31.79,468806.00,314085.20,154720.80
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,Asia,Laos,Beverages,Online,H,2014-07-15,199342048,7/31/2014,8597,47.45,31.79,407927.65,273298.63,134629.02
9996,Europe,Liechtenstein,Cosmetics,Online,C,2012-10-27,763044106,11/1/2012,562,437.20,263.33,245706.40,147991.46,97714.94
9997,Sub-Saharan Africa,Democratic Republic of the Congo,Vegetables,Offline,M,2013-02-14,848579967,3/20/2013,2524,154.06,90.93,388847.44,229507.32,159340.12
9998,Sub-Saharan Africa,South Africa,Meat,Online,L,2017-02-19,298185956,2/22/2017,8706,421.89,364.69,3672974.34,3174991.14,497983.20


In [12]:
## 원본의 데이터를 지금까지 유지하고 출력.
## 원본 데이터를 수정하는 속성이 존재
## inplace = True : 기준이 되는 원본 데이터를 변경. False가 기본값
sales_df.drop(['발송일자'], axis=1, inplace=True)
## 출력값이 나오지 않는 이유는?
## sales_df = sales_df.drop(['발송일자'], axis=1) 동일한 작업밍으로
## 변수에 데이터가 할당되었기 때문에 출력값은 나오지 않는다.

In [13]:
## 인덱스의 초기화 하는 함수
## reset_index(drop = n) -> n이 True면 기존의 인덱스가 삭제,
## False면 기존의 인덱스는 새로운 컬럼으로 추가
## inplace 속성도 가지고 있다.
sales_df.reset_index(drop=False) ## 기존의 인덱스를 새로운 컬럼에 유지
sales_df.reset_index(drop=True) ## 기존의 익덱스를 삭제

Unnamed: 0,index,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,판매단위,단가,원가,총수익,총비용,총이윤
0,0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,4484,651.21,524.96,2920025.64,2353920.64,566105.00
1,1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,1075,47.45,31.79,51008.75,34174.25,16834.50
2,2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,6515,154.06,90.93,1003700.90,592408.95,411291.95
3,3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,3491,47.45,31.79,165647.95,110978.89,54669.06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9995,Asia,Laos,Beverages,Online,H,2014-07-15,199342048,8597,47.45,31.79,407927.65,273298.63,134629.02
9996,9996,Europe,Liechtenstein,Cosmetics,Online,C,2012-10-27,763044106,562,437.20,263.33,245706.40,147991.46,97714.94
9997,9997,Sub-Saharan Africa,Democratic Republic of the Congo,Vegetables,Offline,M,2013-02-14,848579967,2524,154.06,90.93,388847.44,229507.32,159340.12
9998,9998,Sub-Saharan Africa,South Africa,Meat,Online,L,2017-02-19,298185956,8706,421.89,364.69,3672974.34,3174991.14,497983.20


In [None]:
## 파생변수를 생성하는 방법
## 데이터프레임명[파생변수명] = 연산식
## 총이운 컬럼을 사제하고 다시 연산하여 컬럼을 추가
sales_df.drop('총이윤', axis=1, inplace=True) ##총이윤 컬럼을 삭제하고 원본 데이터에 할당
sales_df['총 이윤'] = sales_df['총수익'] - sales_df['총비용']
sales_df.head(1)

## corona.csv 파일 로드
1. 'createDt'컬럼을 기준으로 오름차순
2. 'Unnamed: 0'컬럼을 삭제
3. 인덱스의 값을 리셋

In [29]:
corona_df = pd.read_csv('../csv/csv/corona.csv')
corona_df.sort_values('createDt', inplace=True)
corona_df.drop('Unnamed: 0', axis=1, inplace=True)
corona_df.reset_index(drop=True, inplace=True)
corona_df.head()

Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate
0,2020-03-10 00:00:00.000,54,7513,51,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308
1,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
2,2020-03-12 00:00:00.000,66,7869,53,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
3,2020-03-13 00:00:00.000,67,7979,54,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
4,2020-03-14 00:00:00.000,72,8086,55,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318


In [30]:
## 결측치 확인
corona_df.isna().sum()

createDt        0
deathCnt        0
decideCnt       0
seq             0
stateDt         0
stateTime       0
updateDt        3
accExamCnt    128
accDefRate    197
dtype: int64

In [31]:
## 새로운 파생변수 생성
## 'decideCnt'의 차이만큼을 일일확진자 컬럼에 추가.
## 같은 컬럼의 값의 차이를 넣어주는 방법 2가지
## shift(),diff()
# shift(n) : n값만큼의 인덱스를 이동하여 그 행의 값을 가지고 오는 부분. 기본값은 1
# diff() : 한 객체내에서 열과 열 / 행과 행의 차이를 출력

corona_df['일일확진자'] = (corona_df['decideCnt'] - corona_df['decideCnt'].shift()).fillna(0)
## 첫행의 값은 NaN 결측치로 출력이 된다.
## 이유는 전의 행의 값이 존재하지 않아서 연산이 불가능하기 때문.
## 연산 후 결측치의 값을 채워주는 함수.
## fillna(값) : 결측치의 값에 채워주는 부분
corona_df.head(2)

Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate,일일확진자
0,2020-03-10 00:00:00.000,54,7513,51,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0.0
1,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,242.0


In [32]:
corona_df['일일사망자'] = corona_df['deathCnt'].diff().fillna(0)
corona_df.head(2)

Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate,일일확진자,일일사망자
0,2020-03-10 00:00:00.000,54,7513,51,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0.0,0.0
1,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,242.0,6.0


In [None]:
## fillna()
# ()안의 숫자형태나 문자형태의 데이터를 넣으면 결측치인 부분이 삽입
# method = ('ffill', 'bfill')
# ffill : 전의 행의 값이 존재하면 그 값으로 결측치를 채워준다.
# bfill : 후의 행의 값이 존재하면 그 값으로 결측치를 채워준다.
corona_df.tail(10)

In [34]:
## corona 데이터는 누적의심자, 누적확진률 컬럼의 결측치가 존재.
## tail 확인했을때 마지막이 값이 조재하지 않는다.
## ffill을 사용해서 전의 행의 값을 가지고와서 결측치를 채워보는 예제
corona_df['accExamCnt'].fillna(method='ffill').tail(10)

810    21518073.0
811    21518073.0
812    21518073.0
813    21518073.0
814    21518073.0
815    21518073.0
816    21518073.0
817    21518073.0
818    21518073.0
819    21518073.0
Name: accExamCnt, dtype: float64

In [35]:
## apply 함수
## 컬럼에 있는 각 원소들에 연산을 해주는 함수.
## lambda 함수
## 표현식을 한줄로 처리하기위해 사용하는 함수

## 외부 함수를 이용하여 apply() 사용할 때
## 데이터프레임[컬럼].apply(외부함수명) : 인자값을 넣지 않는다.
## apply, lambda 함수를 같이 사용하는 경우
## 데이터프레임[컬럼].apply(lambda x : 표현식)

## 누적확진률을 기준으로 1.55보다 높으면 'High' 낮으면 'Low' 값을 가지는 파생변수 'H/L'

## 외부 함수를 이용하여 apply()
def H_and_L(x):
    if x > 1.55:
        return "High"
    else:
        return"Low"
corona_df["H/L"] = corona_df["accDefRate"].apply(H_and_L)

## apply lambda 함수를 같이 사용하는 경우
corona_df['H/L'] = corona_df['accDefRate'].apply(lambda x : "High" if (x > 1.55) else "Low")
corona_df.head(2)

Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate,일일확진자,일일사망자,H/L
0,2020-03-10 00:00:00.000,54,7513,51,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0.0,0.0,High
1,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,242.0,6.0,High


In [36]:
## 컬럼의 값들이 빈도수를 체크하는 함수
## value_counts()
corona_df['H/L'].value_counts()

Low     617
High    203
Name: H/L, dtype: int64

## csv 파일을 4개를 로드
1. transaction_1, transaction_2 데이터프레임을 결합(단순 행 추가 결합)
2. transaction_detail_1, transaction_detail_2 데이터프레임을 결합(행 추가 결합)
3. 1,2번 과정에서 결합된 데이터프레임을 조인 결합

In [37]:
t1 = pd.read_csv('../문제/transaction_1.csv')
t2 = pd.read_csv('../문제/transaction_2.csv')
td1 = pd.read_csv('../문제/transaction_detail_1.csv')
td2 = pd.read_csv('../문제/transaction_detail_2.csv')

In [39]:
## 단순 행 추가하는 결합 사용하는 함수
## concat()
## axis = n : n이 0이면 행 1이면 열 추가 (기본값은 행을 추가)
## 단순하게 행이나 열을 합치는 기능
## 단순하게 결합 index도 그대로 유지. ignore_index 속성을 이용해서 인덱스의 값을 초기화
ts = pd.concat([t1, t2], ignore_index=True)

In [40]:
td = pd.concat([td1,td2],ignore_index=True)

In [41]:
## 조인 결합을 이용해서 두 데이터프레임을 합치는 함수
## merge()
## 특정한 조건을 기준으로 열을 추가해주는 함수
## on 속성은 합쳐질 데이터프레임에 조건을 넣어주는 부분.
## 컬럼의 값들이 같은 경우 열을 추가해준다.
## on 속성에는 컬럼명을 적어주는 부분
## how 속성은 기준이 되는 데이터프레임을 지정
## left, right, inner, outer 값들은 지정할 수 있다.
join_data = pd.merge(ts,td, on='transaction_id', how='left')
## transaction과 transaction_detail 조인결합 기준은 left 조건은 transaction_id값이 같은 경우
join_data

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2
...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1


1. item_master 파일을 로드해서 join_data 조인결합(left 기준은 join_data)

In [43]:
itm = pd.read_csv('../문제/item_master.csv')
join_data_1 = pd.merge(join_data,itm, on='item_id', how='left')
join_data_1.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [44]:
## datetime 형 데이터에서 부분만 추출하는 방법
## payment_date 컬럼의 데이터 형태를 datetime 변경
## 파생변수 payment_month 생성 년과 월만 추출한 데이터를 삽입
## to_datetime()을 사용할 값이 datetime형태의 문자열이라면 format을 생략할 수 있다.
join_data_1['payment_date'] = pd.to_datetime(join_data_1['payment_date'])

## 파생변수 생성
## .dt.strftime() 함수는 datetime형태에서만 사용이 가능
join_data_1['payment_month'] = join_data_1['payment_date'].dt.strftime('%Y%m')

In [45]:
join_data_1.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,payment_month
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,201902


In [46]:
## payment_month을 기준으로 그룹화
## 월별 가격의 합계를 구하는 데이터프레임 출력
## 그룹화 하는 함수
## groupby()
join_data_1.groupby('payment_month').sum()['price']

payment_month
201902    179190000
201903    175375000
201904    176720000
201905    171385000
201906    183395000
201907    188685000
Name: price, dtype: int64

In [None]:
## 그룹화를 다중으로 하려면
join_data_1.groupby(['payment_month','item_name']).sum()['price']

In [48]:
## 그룹화한 데이터에서 합계 만이 아니라 평균, 최소, 최대 값을 같이 출력하는 방법
## sum 합계, mean 평균, min 최소값, max 최대값
## 4개를 동시에 다 보여주려면?
## groupby().agg(['mean','sum','min','max'])
join_data_1.groupby('payment_month').agg(['mean','sum','min','max'])['price']

  join_data_1.groupby('payment_month').agg(['mean','sum','min','max'])['price']


Unnamed: 0_level_0,mean,sum,min,max
payment_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
201902,153943.298969,179190000,50000,750000
201903,148497.03641,175375000,50000,420000
201904,149256.756757,176720000,50000,460000
201905,146482.905983,171385000,50000,675000
201906,152574.875208,183395000,50000,570000
201907,151798.069187,188685000,50000,560000


## drinks.csv 파일 로드
1. 결측치 확인
2. continent 컬럼에 결측치가 존재 결측치의 값을 'OT'로 지정
3. continent별 wine_servings 컬럼의 평균, 최소, 최대, 합계를 출력
4. total_litres_of_pure_alchol 컬럼의 평균보다 높은 continent가 어디인지 출력

In [49]:
dk = pd.read_csv('../문제/drinks.csv')

In [50]:
dk.isna().sum()

country                          0
beer_servings                    0
spirit_servings                  0
wine_servings                    0
total_litres_of_pure_alcohol     0
continent                       23
dtype: int64

In [57]:
dk["continent"] = dk["continent"].fillna('OT')

In [55]:
result = dk.groupby('continent').agg(['mean','min','max','sum'])['spirit_servings']
result

  result = dk.groupby('continent').agg(['mean','min','max','sum'])['spirit_servings']


Unnamed: 0_level_0,mean,min,max,sum
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AF,16.339623,0,152,866
AS,60.840909,0,326,2677
EU,132.555556,0,373,5965
OC,58.4375,0,254,935
OT,165.73913,68,438,3812
SA,114.75,25,302,1377


In [58]:
cm = dk.groupby('continent').mean()['total_litres_of_pure_alcohol']
tm = dk["total_litres_of_pure_alcohol"].mean()
cm = cm[cm >= tm]
cm

continent
EU    8.617778
OT    5.995652
SA    6.308333
Name: total_litres_of_pure_alcohol, dtype: float64

## uriage 데이터 로드
1. item_name 데이터가 대/소문자 문제, 공백 문제 -> 그룹화 X -> 규칙성이 있게 데이터 변환
2. 결측치가 존쟈 -> 결측치의 값을 채워준다.
3. 상품별로 그룹화 확인

In [59]:
## 데이터 로드
uriage_df = pd.read_csv('../문제/uriage.csv')

In [60]:
## item_name 데이터를 대문자 변환
# case 1
uriage_df['item_name'] = uriage_df['item_name'].str.upper()
# case 2
uriage_df['item_name'] = uriage_df['item_name'].apply(lambda x : x.upper())

In [61]:
## item_name 공백을 삭제
# case1
uriage_df['item_name'] = uriage_df['item_name'].str.replace(' ','')
# case 2
uriage_df['item_name'] = uriage_df['item_name'].apply(lambda x : x.replace(' ',''))

# strip() -> 문자열 양 옆의 공백을 삭제
## replace(' ','') -> 공백을 삭제(문자열 사이의 공백도 포함)

In [63]:
uriage_df.isna().sum()

purchase_date      0
item_name          0
item_price       387
customer_name      0
dtype: int64

In [66]:
## item_price 결측치에 item_name으로 그룹화 item_price의 평균 값을 삽입
flg_is_null = uriage_df['item_price'].isna()

## item_price의 값이 결측치인 경우 item_name의 유니크 값(중복 데이터 삭제)
na_list = list(uriage_df.loc[flg_is_null, 'item_name'].unique())

In [69]:
## '~' 연산자 -> bool의 형태를 반전
for i in na_list:
    # (~flg_is_null)&(uriage_df['item_name'] == i) : 결측치가 아니고 item_name의 값이 na_list 값
    price = uriage_df.loc[(~flg_is_null)&(uriage_df['item_name'] == i),
                            "item_price"].mean()    ## item_price 컬럼을 선택해서 그 값의 평균
    ## price 값은 na_list중 하나의 값의 평균 값

    ## (flg_is_null)&(uriage_df['item_name'] == i) : 결측치고, item_name의 값이 na_list 값 중 하나
    uriage_df.loc[(flg_is_null)&(uriage_df['item_name'] == i),
                    'item_price'] = price       ## item_price라는 변수를 삽입

In [71]:
uriage_df.isna().sum()

purchase_date    0
item_name        0
item_price       0
customer_name    0
dtype: int64

In [72]:
uriage_df.loc[uriage_df['item_name'] == '상품A']

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
2,2019-05-11 19:42,상품A,100.0,김유찬
4,2019-04-22 3:09,상품A,100.0,김강현
6,2019-05-18 19:16,상품A,100.0,김재준
9,2019-01-28 10:47,상품A,100.0,김태윤
...,...,...,...,...
2875,2019-06-03 17:33,상품A,100.0,김서진
2886,2019-04-25 17:15,상품A,100.0,김강현
2897,2019-05-20 14:05,상품A,100.0,김지안
2951,2019-05-06 2:24,상품A,100.0,김주혁
