### 경로 ( 상대경로 / 절대경로 )
> 절대경로
- 절대적인 주소
- 환경에 상관없이 고정된 위치를 표현
- ex) "http://www.google.com", "c:\users\document"
> 상대경로
- 상대적인 주소
- 환경에 따라서 주소가 바뀌는 구조 
- 현재 작업중인 디렉토리에서 상위, 하위, 현재
- ex) 
    - 현재 디렉토리 : ./
    - 상위 디렉토리 : ../
    - 하위 디렉토리 : ./폴더명/
    - 상위에서 상위 디렉토리 : ../../

In [2]:
import pandas as pd 
import matplotlib.pyplot as plt

In [3]:
# 상위 폴더에 있는 csv 폴더에서 sales records.csv 파일을 로드
# pandas read_csv(경로, 인코딩) 함수를 이용하여 csv 파일 로드
df = pd.read_csv("../csv/Sales Records.csv", encoding="UTF-8")
df.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0
1,Europe,Latvia,Beverages,Online,C,12/28/2015,361825549,1/23/2016,1075,47.45,31.79,51008.75,34174.25,16834.5
2,Middle East and North Africa,Pakistan,Vegetables,Offline,C,1/13/2011,141515767,2/1/2011,6515,154.06,90.93,1003700.9,592408.95,411291.95
3,Sub-Saharan Africa,Democratic Republic of the Congo,Household,Online,C,9/11/2012,500364005,10/6/2012,7683,668.27,502.54,5134318.41,3861014.82,1273303.59
4,Europe,Czech Republic,Beverages,Online,C,10/27/2015,127481591,12/5/2015,3491,47.45,31.79,165647.95,110978.89,54669.06


In [5]:
# 결측치면 True 결측치가 아니면 False 출력을 해주는 함수
# 결측치의 여부를 판단하는 함수는 -> isna()
# 결측치의 개수를 파악하기위해서는? -> isna().sum()
# 여기에서 개수가 파악이 되는 이유는 -> True : 1, False : 0
df.isna().sum()

Region            0
Country           0
Item Type         0
Sales Channel     0
Order Priority    0
Order Date        0
Order ID          0
Ship Date         0
Units Sold        0
Unit Price        0
Unit Cost         0
Total Revenue     0
Total Cost        0
Total Profit      0
dtype: int64

In [6]:
# 데이터프레임에 통계 요약 정보 출력 -> describe()
# 데이터의 개수, 평균값, 표준편차, 최솟값, 최대값, 1사분위, 중앙값, 3사분위 값을 확인이 가능
# 데이터의 형태가 숫자의 형태여야 출력
df.describe()

Unnamed: 0,Order ID,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,549871900.0,5002.8559,268.143139,188.806639,1333355.0,938265.8,395089.3
std,260783500.0,2873.246454,217.944092,176.445907,1465026.0,1145914.0,377555.0
min,100089200.0,2.0,9.33,6.92,167.94,124.56,43.38
25%,321806700.0,2530.75,109.28,56.67,288551.1,164785.5,98329.14
50%,548566300.0,4962.0,205.7,117.11,800051.2,481605.8,289099.0
75%,775998100.0,7472.0,437.2,364.69,1819143.0,1183822.0,566422.7
max,999934200.0,10000.0,668.27,524.96,6680027.0,5241726.0,1738178.0


In [8]:
# 데이터의 컬럼의 이름을 변경하는 방법
# 데이터프레임명.columns -> 데이터프레임 컬럼을 리스트의 형태로 출력
# 이 값을 변경을 시켜주면 컬럼의 이름이 변경
# 주의할점. -> 컬럼의 개수를 정확하게 입력을 해야된다. 
df.columns = ["권역", "국가", "상품종류", "판매채널", "우선순위", "주문일자", 
            "주문ID", "발송일자", "판매단위", "단가", "원가", "총수익", "총비용", 
            "총이윤"]
df.head(1)

Unnamed: 0,권역,국가,상품종류,판매채널,우선순위,주문일자,주문ID,발송일자,판매단위,단가,원가,총수익,총비용,총이윤
0,Sub-Saharan Africa,Chad,Office Supplies,Online,L,1/27/2011,292494523,2/12/2011,4484,651.21,524.96,2920025.64,2353920.64,566105.0


In [10]:
# datetime 데이터를 변경
# pandas에 내장되어있는 to_datetime()
# to_datetime(데이터의 값, format="데이터의 구조")
# 주문일자 datetime 형태로 변경
df["주문일자"] = pd.to_datetime(df["주문일자"], format="%m/%d/%Y")
df["주문일자"]

0      2011-01-27
1      2015-12-28
2      2011-01-13
3      2012-09-11
4      2015-10-27
          ...    
9995   2014-07-15
9996   2012-10-27
9997   2013-02-14
9998   2017-02-19
9999   2016-04-12
Name: 주문일자, Length: 10000, dtype: datetime64[ns]

In [None]:
# 데이터프레임의 정렬 ( 오름차순, 내림차순 )
# sort_values(정렬을 변경할 컬럼의 이름, ascending=bool)
# ascending속성에서 True : 오름차순(기본값), False : 내림차순
# 여러 컬럼을 기준으로 정렬을 변경
# sort_values([컬럼이름1, 컬럼이름2])
df.sort_values("국가")
df.sort_values("국가", ascending=False) 

In [None]:
# 여러 컬럼을 기준으로 정렬
df.sort_values(["국가", "판매단위"])

In [None]:
# 특정 컬럼이나 특정 인덱스를 삭제
# drop(조건, axis=n, inplace=bool)
# 특정 조건에 맞는 행이나 열을 삭제
# axis 속성의 값은 0 : 행 , 1 : 열
# inplace 속성은 True : 기준이 되는 데이터를 수정 
#                False : 기준이 되는 데이터를 수정하지 않는다. (기본값)

# 특정 행을 삭제
df.drop([1], axis=0)

# 특정 열을 삭제
df.drop(["주문일자"], axis=1)

In [None]:
df.drop([1], axis=0, inplace=True)

In [None]:
df = df.drop([2], axis=0)
df

In [None]:
df.drop([3], axis=0)
df

In [None]:
# 인덱스의 값을 초기화
# reset_index(drop = bool)
# drop 속성 True : 기존의 인덱스를 삭제
#           False : 기존의 인덱스를 유지(기본값) - 기존의 인덱스를 컬럼으로 만들어준다. 
df.reset_index()
df.reset_index(drop=True)
# df를 출력하면 인덱스가 변경이 되지 않은 상태
# df의 값을 변경한다는 코드가 존재 X
# 쥬피터 환경에서는 출력이 나온다는 의미는 그냥 확인 작업
# 실제 데이터가 변경이 되는 경우에는 출력 X
df


In [25]:
df.reset_index(drop=True, inplace=True)

In [28]:
# 파생변수 생성
# 데이터프레임명[파생변수명] = 계산식(이 컬럼에 들어갈 데이터의 값)
# 주의할 점 
# 데이터프레임명 = 계산한 데이터 값 --> 데이터프레임 -> 스리즈
df["총 이윤"] = df["총수익"] - df["총비용"] # 총 이윤

In [30]:
# df2 = df.copy()

In [32]:
# df2 = df2["총수익"] - df2["총비용"]

### corona 데이터
1. 데이터 로드 
2. Unnamed: 0 컬럼을 삭제
3. createDt 컬럼을 기준으로 오름차순 정렬
4. 인덱스의 값 리셋 (기존의 인덱스는 삭제)

In [None]:
# 1. 데이터를 로드 
corona = pd.read_csv("../csv/corona.csv")
corona

In [46]:
# 2. Unnamed: 0 컬럼을 삭제
# corona.columns[0]
# case1
# corona.drop([corona.columns[0]], axis=1, inplace=True)
# corona.drop(["Unnamed: 0"], axis=1)
# case2
corona = corona.drop([corona.columns[0]], axis=1)

In [47]:
# 3. createDt 기준으로 오름차순 정렬
corona.sort_values("createDt", inplace=True)

In [48]:
# 4. 인덱스의 값을 초기화 ( 기존의 인덱스 삭제 )
corona = corona.reset_index(drop=True)

### 인덱스를 이동하는 함수
> shift(n)
- 인덱스를 n만큼 이동 
- n = 1 기본값 : 바로 위의 인덱스의 값을 가지고 온다. 
- 바로 아래의 값을 가지고는 오는 방법? : n = -1
### 값의 차이를 출력하는 함수
> diff(periods = n , axis = n)
- 바로 전의 인덱스의 값과의 차이를 출력
- periods 기본값이 1 shift와 마찬가지로 행, 열의 수를 지정
- axis 기본값은 0 , 1이면 컬럼을 이동 

In [None]:
# 새로운 파생변수 
# 일일확진자, 일일사망자 컬럼을 추가 
# 일일확진자 -> decideCnt 컬럼의 차이를 구해서 그 값을 컬럼에 삽입
# 첫번째 인덱스의 값이 NaN이 나오는 이유는?
# 위에 값이 존재하지 않기때문에 계산이 불가능
# NaN 결측치의 값을 채워주는 함수
# fillna(n)
# n의 값으로 NaN을 대체한다. 
print((corona["decideCnt"] - corona["decideCnt"].shift(1)).fillna(0))
corona["일일확진자"] = corona["decideCnt"].diff().fillna(0)

In [None]:
corona.head(1)

In [60]:
## 일일사망자 파생변수 생성
## deathCnt 값의 차이를 삽입
## NaN값은 0으로 대체하여 파생변수 생성
corona["일일사망자"] = (corona["deathCnt"] - corona["deathCnt"].shift(1)).fillna(0)

In [None]:
corona.head(1)

### fillna()
- 결측치를 ()안에 값으로 채워주는 함수
- method 속성 : ffill, bfill
    - ffill : 전의 행의 값이 존재하면 그 값으로 대체한다. 
    - bfill : 후의 행의 값이 존재하면 그 값으로 대체한다. 

In [64]:
# accExamCnt 컬럼에는 결측치 존재
# 해당 컬럼의 결측치의 개수를 확인
# fillna() 함수를 이용하여 데이터를 삽입 
# ffill이라는 method 속성을 사용하여 값을 삽입

corona["accExamCnt"].isna().sum()


128

In [None]:
# 결측치인 부분만 출력
# accExamCnt의 값이 결측치인 데이터만 출력
# loc[인덱스의 조건, 컬럼의 조건]
# 조건을 입력하지 않으면 전체를 출력
# corona.loc[결측치인 부분 조건, ]
# 결측치인 부분 조건 : corona["accExamCnt"].isna()
corona.loc[corona["accExamCnt"].isna(), ]

In [None]:
# 결측치 아닌 부분만 출력
corona.loc[~corona["accExamCnt"].isna(), ]
# ~ 연산자 : 부정
# True -> False, False -> True

In [68]:
# isin() -> ()안에 들어간 값들이 존재하면 True, 아니면 False
import numpy as np

In [71]:
corona["accExamCnt"].isin([np.nan])

0      False
1      False
2      False
3      False
4      False
       ...  
815     True
816     True
817     True
818     True
819     True
Name: accExamCnt, Length: 820, dtype: bool