In [1]:
import pandas as pd
import numpy as np

In [2]:
# 결측치
s1 = pd.Series([1, np.nan, 3, 4, 5])
s2 = pd.Series([1, 2, np.nan, 4, 5])
s3 = pd.Series([1, 2, 3, np.nan, 5])

In [None]:
print(s1)
print(s2)
print(s3)

In [4]:
# Series를 합쳐서 DateFrame형태 변환
df = pd.DataFrame({
    'S1' : s1, 
    'S2' : s2, 
    'S3' : s3
})
df

Unnamed: 0,S1,S2,S3
0,1.0,1.0,1.0
1,,2.0,2.0
2,3.0,,3.0
3,4.0,4.0,
4,5.0,5.0,5.0


In [5]:
# 결측치를 체크 isna()
df.isna()

Unnamed: 0,S1,S2,S3
0,False,False,False
1,True,False,False
2,False,True,False
3,False,False,True
4,False,False,False


In [6]:
df.isna().sum()

S1    1
S2    1
S3    1
dtype: int64

In [None]:
# dropna()함수는 결측치가 존재하는 행이나 열을 삭제
# axis = 0은 행을 기준으로 삭제 
# axis = 1은 열을 기준으로 삭제
# rows, columns 사용이 가능

# df.dropna(axis=1)
df.dropna(axis='rows')

In [10]:
df.describe()

Unnamed: 0,S1,S2,S3
count,4.0,4.0,4.0
mean,3.25,3.0,2.75
std,1.707825,1.825742,1.707825
min,1.0,1.0,1.0
25%,2.5,1.75,1.75
50%,3.5,3.0,2.5
75%,4.25,4.25,3.5
max,5.0,5.0,5.0


In [None]:
## 외부의 csv 파일을 데이터프레임으로 로드
sales_df = pd.read_csv("../csv/Sales Records.csv")
sales_df

In [14]:
## 결측치 확인
sales_df.isna().sum()

Region            0
Country           0
Item Type         0
Sales Channel     0
Order Priority    0
Order Date        0
Order ID          0
Ship Date         0
Units Sold        0
Unit Price        0
Unit Cost         0
Total Revenue     0
Total Cost        0
Total Profit      0
dtype: int64

In [15]:
sales_df.describe()

Unnamed: 0,Order ID,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,549871900.0,5002.8559,268.143139,188.806639,1333355.0,938265.8,395089.3
std,260783500.0,2873.246454,217.944092,176.445907,1465026.0,1145914.0,377555.0
min,100089200.0,2.0,9.33,6.92,167.94,124.56,43.38
25%,321806700.0,2530.75,109.28,56.67,288551.1,164785.5,98329.14
50%,548566300.0,4962.0,205.7,117.11,800051.2,481605.8,289099.0
75%,775998100.0,7472.0,437.2,364.69,1819143.0,1183822.0,566422.7
max,999934200.0,10000.0,668.27,524.96,6680027.0,5241726.0,1738178.0


In [17]:
## 원본 데이터를 유지 
## 새로운 변수에 데이터를 복사해서 데이터를 수정
# 데이터를 수정하는 과정에서 실수가 난 경우에 원본데이터를 그래도 다시 복사해서 작업

sales_df_copy = sales_df.copy()

In [18]:
sales_df_copy.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,12/28/2015,361825549,1/23/2016,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,1/13/2011,141515767,2/1/2011,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,9/11/2012,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,10/27/2015,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06


In [20]:
sales_df_copy['Order Date'] = \
pd.to_datetime(sales_df_copy['Order Date'], format='%m/%d/%Y')

In [21]:
sales_df_copy['Order Date']

0      2011-01-27
1      2015-12-28
2      2011-01-13
3      2012-09-11
4      2015-10-27
          ...    
9995   2014-07-15
9996   2012-10-27
9997   2013-02-14
9998   2017-02-19
9999   2016-04-12
Name: Order Date, Length: 10000, dtype: datetime64[ns]

In [22]:
# Ship Date 컬럼의 데이터를 datetime으로 형태를 변경
sales_df_copy['Ship Date'] = \
    pd.to_datetime(sales_df_copy['Ship Date'], format="%m/%d/%Y")

In [23]:
sales_df_copy['Ship Date']

0      2011-02-12
1      2016-01-23
2      2011-02-01
3      2012-10-06
4      2015-12-05
          ...    
9995   2014-07-31
9996   2012-11-01
9997   2013-03-20
9998   2017-02-22
9999   2016-04-16
Name: Ship Date, Length: 10000, dtype: datetime64[ns]

In [26]:
## 컬럼의 이름을 변경
sales_df_copy.columns = ['권역', "국가", "상품종류", "판매채널", "우선순위",
"주문일자", "주문ID", "발송일자", "판매단위", "단가", "원가", "총수익", "총비용", 
"총이윤"]
sales_df_copy.head()

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2011-02-12,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,2016-01-23,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,2011-02-01,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,2012-10-06,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,2015-12-05,3491,47.45,31.79,165647.95,110978.89,54669.06


In [29]:
## 반올림 기능을 가진 함수 round(n)
## round(n) : n의 값은 소수점 자리수 
a = 3.66666
a.__round__(2)

3.67

In [32]:
sales_df_copy["원가"] = sales_df_copy["원가"].round(0).astype('int')

In [33]:
sales_df_copy.head()

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2011-02-12,4484,651.21,525,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,2016-01-23,1075,47.45,32,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,2011-02-01,6515,154.06,91,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,2012-10-06,7683,668.27,503,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,2015-12-05,3491,47.45,32,165647.95,110978.89,54669.06


In [35]:
## 단가라는 컬럼을 버림으로 해서 int형을 변경
## astype('int')
sales_df_copy["단가"] =  sales_df_copy["단가"].astype('int')

In [36]:
sales_df_copy.head()

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2011-02-12,4484,651,525,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,2016-01-23,1075,47,32,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,2011-02-01,6515,154,91,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,2012-10-06,7683,668,503,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,2015-12-05,3491,47,32,165647.95,110978.89,54669.06


In [46]:
## 총수익, 총비용, 총이윤 3개의 컬럼의 값들은 반올림(1자리의 수에서 반올림)하여 int형을 데이터로 변경
sales_df_copy[['총수익', '총비용', '총이윤']] = \
    sales_df_copy[['총수익',"총비용", "총이윤"]].round(-1).astype('int')


In [47]:
sales_df_copy.head()

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2011-02-12,4484,651,525,2920030,2353920,566100
1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,2016-01-23,1075,47,32,51010,34170,16830
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,2011-02-01,6515,154,91,1003700,592410,411290
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,2012-10-06,7683,668,503,5134320,3861010,1273300
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,2015-12-05,3491,47,32,165650,110980,54670


In [50]:
## loc[] 함수 
## 특정 행이나 특정 열을 추출할때 사용하는 함수
## loc[행의수, 열의수 아니면 열의 이름]
## 열만 지정을 하고 싶은 경우 loc[:, 열의 수 아니면 열의 이름]

sales_df_copy.loc[1:3, "단가":"총수익"]

Unnamed: 0,단가,원가,총수익
1,47,32,51010
2,154,91,1003700
3,668,503,5134320


In [51]:
sales_df_copy.loc[:, "단가":"총수익"]


Unnamed: 0,단가,원가,총수익
0,651,525,2920030
1,47,32,51010
2,154,91,1003700
3,668,503,5134320
4,47,32,165650
...,...,...,...
9995,47,32,407930
9996,437,263,245710
9997,154,91,388850
9998,421,365,3672970


In [52]:
## 해당하는 컬럼의 데이터의 개수 
## 해당하는 컬럼의 데이터를 그룹화하여 카운트

sales_df_copy["판매채널"].value_counts()

Online     5061
Offline    4939
Name: 판매채널, dtype: int64

In [None]:
## 그룹화
## groupby(컬럼의 이름) 컬럼의 데이터가 같은 값들끼리 그룹화하여 표시

sales_df_copy.groupby(["국가"]).mean()["총이윤"]

In [64]:
sales_df_copy.groupby(["국가"]).get_group('United Kingdom')

KeyError: ('United Kingdom', 'Chad')

In [None]:
## 데이터프레임의 정렬
## sort_values()는 기본적으로 오름차순 정렬
## sort_values(기준이 되는 컬럼의 이름, 옵션)
## 옵션 ascending = bool
## True : 오름차순 정렬(기본값), False = 내림차순 정렬
sales_df_copy.sort_values("주문일자")

In [None]:
## sales_df_copy 발송일자를 기준으로 내림차순 정렬
sales_df_copy.sort_values("발송일자", ascending=False)

In [None]:
sales_df_copy.head()

In [None]:
## 권역, 국가를 기준으로 오름차순 정렬
sales_df_copy.sort_values(["권역", "국가"])

In [65]:
## 컬럼이나 인덱스 삭제

sales_df_copy.head()

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,2011-01-27,292494523,2011-02-12,4484,651,525,2920030,2353920,566100
1,Europe,Latvia,Beverages,Online,C,2015-12-28,361825549,2016-01-23,1075,47,32,51010,34170,16830
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,2011-01-13,141515767,2011-02-01,6515,154,91,1003700,592410,411290
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,2012-09-11,500364005,2012-10-06,7683,668,503,5134320,3861010,1273300
4,Europe,Czech Republic,Beverages,Online,C,2015-10-27,127481591,2015-12-05,3491,47,32,165650,110980,54670


In [67]:
## 주문ID 컬럼 삭제
## axis 속성은 통하여 인덱스를 삭제할지 컬럼을 삭제할지 지정
## inplace 속성은 기준이 되는 데이터를 수정 할지 지정
sales_df_copy.drop(["주문ID"], axis='columns', inplace=True)

In [None]:
sales_df_copy.head()

In [70]:
## 인덱스의 값이 0인 행을 삭제
sales_df_copy = sales_df_copy.drop([0], axis="rows")

1. sales_df을 copy()
2. Region, Country 기준으로 오름차순 정렬
3. Order Priority 컬럼을 삭제
4. 2,3번 과정은 원본 데이터(copy한 데이터)를 수정
5. 인덱스를 재지정 

In [78]:
# 데이터를 복사
sales = sales_df.copy()
sales.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,12/28/2015,361825549,1/23/2016,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,1/13/2011,141515767,2/1/2011,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,9/11/2012,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,10/27/2015,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06


In [79]:
sales.sort_values(["Region", "Country"], ascending=True, inplace=True)
sales.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
36,Asia,Bangladesh,Personal Care,Online,L,12/11/2016,246147668,1/13/2017,9420,81.73,56.67,769896.6,533831.4,236065.2
246,Asia,Bangladesh,Cosmetics,Offline,M,7/29/2010,897369992,9/11/2010,577,437.2,263.33,252264.4,151941.41,100322.99
446,Asia,Bangladesh,Vegetables,Offline,C,4/28/2014,338031995,5/5/2014,34,154.06,90.93,5238.04,3091.62,2146.42
569,Asia,Bangladesh,Cereal,Offline,L,6/22/2010,202657687,6/28/2010,9768,205.7,117.11,2009277.6,1143930.48,865347.12
576,Asia,Bangladesh,Office Supplies,Online,H,3/20/2013,793718278,4/11/2013,7731,651.21,524.96,5034504.51,4058465.76,976038.75


In [None]:
# 컬럼을 삭제
sales.drop(["Order Priority"], axis="columns", inplace=True)
sales.head()

In [83]:
# 인덱스의 값을 재지정
# sales.reset_index().drop(['index'], axis="columns")
sales.reset_index(drop=True, inplace=True)

### 파생변수 생성
1. 원가, 단가, 판매단위 값을 기준으로
2. 총수익, 총비용, 총이윤 새로운 컬럼을 생성
3. 총수익 = 단가 * 판매단위
4. 총비용 = 원가 * 판매단위
5. 총이윤 = 총수익 - 총비용

In [None]:
## 새로운 컬럼을 추가 하는 방법
## 데이터프레임명[새로운 컬럼의 이름] = 컬럼에 들어갈 값(Series, list)
## 단가 컬럼 * 판매단위 컬럼
sales["총수익"] = sales["Unit Price"] * sales["Units Sold"]
sales.head()

In [87]:
## 총비용, 총이윤 생성
sales["총비용"] = sales["Unit Cost"] * sales["Units Sold"]
sales["총이윤"] = sales["총수익"] - sales["총비용"]
sales.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit,총수익,총비용,총이윤
0,Asia,Bangladesh,Personal Care,Online,12/11/2016,246147668,1/13/2017,9420,81.73,56.67,769896.6,533831.4,236065.2,769896.6,533831.4,236065.2
1,Asia,Bangladesh,Cosmetics,Offline,7/29/2010,897369992,9/11/2010,577,437.2,263.33,252264.4,151941.41,100322.99,252264.4,151941.41,100322.99
2,Asia,Bangladesh,Vegetables,Offline,4/28/2014,338031995,5/5/2014,34,154.06,90.93,5238.04,3091.62,2146.42,5238.04,3091.62,2146.42
3,Asia,Bangladesh,Cereal,Offline,6/22/2010,202657687,6/28/2010,9768,205.7,117.11,2009277.6,1143930.48,865347.12,2009277.6,1143930.48,865347.12
4,Asia,Bangladesh,Office Supplies,Online,3/20/2013,793718278,4/11/2013,7731,651.21,524.96,5034504.51,4058465.76,976038.75,5034504.51,4058465.76,976038.75


### pandas 연습문제
1. corona.csv 로드 데이터프레임화
2. 데이터를 복사해서 새로운 변수
3. 결측치가 존재하는지 1차적 확인
4. 컬럼의 이름 변경 -> 등록일시, 사망자, 확진자, 게시글번호, 기준일, 기준시간, 수정일시, 누적의심자, 누적확진률
5. 결측치가 존재하는 컬럼을 삭제
6. 등록일시를 기준으로 오름차순 정렬
7. 인덱스의 값을 재지정 (기존의 인덱스 값은 삭제)
8. 등록일시 데이터의 형태를 datetime 변경

In [97]:
test = pd.read_csv("corona.csv")
test.drop(["Unnamed: 0"], axis="columns", inplace=True)

In [98]:
corona = test.copy()

In [None]:
corona.isna().sum()

In [101]:
## 컬럼의 이름 변경
corona.columns = ["등록일시", "사망자", "확진자", "게시글번호", "기준일", 
"기준시간", "수정일시", "누적의심자", "누적확진률"]

In [102]:
# 결측치가 존재하는 컬럼을 삭제
corona.dropna(axis="columns", inplace=True)

In [None]:
corona.head()

In [104]:
# 등록일시를 기준으로 오름차순 정렬
corona.sort_values(["등록일시"], inplace=True)

In [105]:
# 인덱스의 값을 재지정(기존의 인덱스는 삭제)
corona.reset_index(drop=True, inplace=True)

In [111]:
corona.head()

Unnamed: 0,등록일시,사망자,확진자,게시글번호,기준일,기준시간
0,2020-03-10,54,7513,51,20200310,00:00
1,2020-03-11,60,7755,52,20200311,00:00
2,2020-03-12,66,7869,53,20200312,00:00
3,2020-03-13,67,7979,54,20200313,00:00
4,2020-03-14,72,8086,55,20200314,00:00


In [107]:
# 등록일시 데이터 datetime 변경
corona["등록일시"] = pd.to_datetime(corona["등록일시"], \
    format="%Y-%m-%d %H:%M:%S")

In [None]:
corona["등록일시"]

In [None]:
## 일일 확진자의 수

### shift()
1. shift(n) -> n을 공란으로 두게 되면 기본값이 1
2. n 값만큼 인덱스를 이동하여 그 행의 값을 가지게 된다.

### diff()
1. 한 객체 내에서 열과 열 / 행과 행 차이를 출력

In [None]:
# shift() 함수를 이용하는 방법
corona["확진자"] - corona["확진자"].shift()

In [None]:
## diff()
corona["확진자"].diff()

In [113]:
## 일일확진자, 일일사망자라는 컬럼을 추가
corona["일일확진자"] = corona["확진자"] - corona["확진자"].shift()
corona["일일사망자"] = corona["사망자"].diff()
corona.head()

Unnamed: 0,등록일시,사망자,확진자,게시글번호,기준일,기준시간,일일확진자,일일사망자
0,2020-03-10,54,7513,51,20200310,00:00,,
1,2020-03-11,60,7755,52,20200311,00:00,242.0,6.0
2,2020-03-12,66,7869,53,20200312,00:00,114.0,6.0
3,2020-03-13,67,7979,54,20200313,00:00,110.0,1.0
4,2020-03-14,72,8086,55,20200314,00:00,107.0,5.0
