### 경로 ( 상대경로 / 절대경로 )
> 절대경로
- 절대적인 주소
- 환경에 상관없이 고정된 위치를 표현
- ex) "http://www.google.com", "c:\users\document"
> 상대경로
- 상대적인 주소
- 환경에 따라서 주소가 바뀌는 구조 
- 현재 작업중인 디렉토리에서 상위, 하위, 현재
- ex) 
    - 현재 디렉토리 : ./
    - 상위 디렉토리 : ../
    - 하위 디렉토리 : ./폴더명/
    - 상위에서 상위 디렉토리 : ../../

In [None]:
import pandas as pd 
import matplotlib.pyplot as plt

In [None]:
# 상위 폴더에 있는 csv 폴더에서 sales records.csv 파일을 로드
# pandas read_csv(경로, 인코딩) 함수를 이용하여 csv 파일 로드
df = pd.read_csv("../csv/Sales Records.csv", encoding="UTF-8")
df.head()

In [None]:
# 결측치면 True 결측치가 아니면 False 출력을 해주는 함수
# 결측치의 여부를 판단하는 함수는 -> isna()
# 결측치의 개수를 파악하기위해서는? -> isna().sum()
# 여기에서 개수가 파악이 되는 이유는 -> True : 1, False : 0
df.isna().sum()

In [None]:
# 데이터프레임에 통계 요약 정보 출력 -> describe()
# 데이터의 개수, 평균값, 표준편차, 최솟값, 최대값, 1사분위, 중앙값, 3사분위 값을 확인이 가능
# 데이터의 형태가 숫자의 형태여야 출력
df.describe()

In [None]:
# 데이터의 컬럼의 이름을 변경하는 방법
# 데이터프레임명.columns -> 데이터프레임 컬럼을 리스트의 형태로 출력
# 이 값을 변경을 시켜주면 컬럼의 이름이 변경
# 주의할점. -> 컬럼의 개수를 정확하게 입력을 해야된다. 
df.columns = ["권역", "국가", "상품종류", "판매채널", "우선순위", "주문일자", 
            "주문ID", "발송일자", "판매단위", "단가", "원가", "총수익", "총비용", 
            "총이윤"]
df.head(1)

In [None]:
# datetime 데이터를 변경
# pandas에 내장되어있는 to_datetime()
# to_datetime(데이터의 값, format="데이터의 구조")
# 주문일자 datetime 형태로 변경
df["주문일자"] = pd.to_datetime(df["주문일자"], format="%m/%d/%Y")
df["주문일자"]

In [None]:
# 데이터프레임의 정렬 ( 오름차순, 내림차순 )
# sort_values(정렬을 변경할 컬럼의 이름, ascending=bool)
# ascending속성에서 True : 오름차순(기본값), False : 내림차순
# 여러 컬럼을 기준으로 정렬을 변경
# sort_values([컬럼이름1, 컬럼이름2])
df.sort_values("국가")
df.sort_values("국가", ascending=False) 

In [None]:
# 여러 컬럼을 기준으로 정렬
df.sort_values(["국가", "판매단위"])

In [None]:
# 특정 컬럼이나 특정 인덱스를 삭제
# drop(조건, axis=n, inplace=bool)
# 특정 조건에 맞는 행이나 열을 삭제
# axis 속성의 값은 0 : 행 , 1 : 열
# inplace 속성은 True : 기준이 되는 데이터를 수정 
#                False : 기준이 되는 데이터를 수정하지 않는다. (기본값)

# 특정 행을 삭제
df.drop([1], axis=0)

# 특정 열을 삭제
df.drop(["주문일자"], axis=1)

In [None]:
df.drop([1], axis=0, inplace=True)

In [None]:
df = df.drop([2], axis=0)
df

In [None]:
df.drop([3], axis=0)
df

In [None]:
# 인덱스의 값을 초기화
# reset_index(drop = bool)
# drop 속성 True : 기존의 인덱스를 삭제
#           False : 기존의 인덱스를 유지(기본값) - 기존의 인덱스를 컬럼으로 만들어준다. 
df.reset_index()
df.reset_index(drop=True)
# df를 출력하면 인덱스가 변경이 되지 않은 상태
# df의 값을 변경한다는 코드가 존재 X
# 쥬피터 환경에서는 출력이 나온다는 의미는 그냥 확인 작업
# 실제 데이터가 변경이 되는 경우에는 출력 X
df


In [None]:
df.reset_index(drop=True, inplace=True)

In [None]:
# 파생변수 생성
# 데이터프레임명[파생변수명] = 계산식(이 컬럼에 들어갈 데이터의 값)
# 주의할 점 
# 데이터프레임명 = 계산한 데이터 값 --> 데이터프레임 -> 스리즈
df["총 이윤"] = df["총수익"] - df["총비용"] # 총 이윤

In [None]:
df

In [None]:
# df2 = df.copy()

In [None]:
# df2 = df2["총수익"] - df2["총비용"]

### corona 데이터
1. 데이터 로드 
2. Unnamed: 0 컬럼을 삭제
3. createDt 컬럼을 기준으로 오름차순 정렬
4. 인덱스의 값 리셋 (기존의 인덱스는 삭제)

In [None]:
# 1. 데이터를 로드 
corona = pd.read_csv("../csv/corona.csv")
corona

In [None]:
# 2. Unnamed: 0 컬럼을 삭제
# corona.columns[0]
# case1
# corona.drop([corona.columns[0]], axis=1, inplace=True)
# corona.drop(["Unnamed: 0"], axis=1)
# case2
corona = corona.drop([corona.columns[0]], axis=1)

In [None]:
# 3. createDt 기준으로 오름차순 정렬
corona.sort_values("createDt", inplace=True)

In [None]:
# 4. 인덱스의 값을 초기화 ( 기존의 인덱스 삭제 )
corona = corona.reset_index(drop=True)

### 인덱스를 이동하는 함수
> shift(n)
- 인덱스를 n만큼 이동 
- n = 1 기본값 : 바로 위의 인덱스의 값을 가지고 온다. 
- 바로 아래의 값을 가지고는 오는 방법? : n = -1
### 값의 차이를 출력하는 함수
> diff(periods = n , axis = n)
- 바로 전의 인덱스의 값과의 차이를 출력
- periods 기본값이 1 shift와 마찬가지로 행, 열의 수를 지정
- axis 기본값은 0 , 1이면 컬럼을 이동 

In [None]:
# 새로운 파생변수 
# 일일확진자, 일일사망자 컬럼을 추가 
# 일일확진자 -> decideCnt 컬럼의 차이를 구해서 그 값을 컬럼에 삽입
# 첫번째 인덱스의 값이 NaN이 나오는 이유는?
# 위에 값이 존재하지 않기때문에 계산이 불가능
# NaN 결측치의 값을 채워주는 함수
# fillna(n)
# n의 값으로 NaN을 대체한다. 
print((corona["decideCnt"] - corona["decideCnt"].shift(1)).fillna(0))
corona["일일확진자"] = corona["decideCnt"].diff().fillna(0)

In [None]:
corona.head(1)

In [None]:
## 일일사망자 파생변수 생성
## deathCnt 값의 차이를 삽입
## NaN값은 0으로 대체하여 파생변수 생성
corona["일일사망자"] = (corona["deathCnt"] - corona["deathCnt"].shift(1)).fillna(0)

In [None]:
corona.head(1)

### fillna()
- 결측치를 ()안에 값으로 채워주는 함수
- method 속성 : ffill, bfill
    - ffill : 전의 행의 값이 존재하면 그 값으로 대체한다. 
    - bfill : 후의 행의 값이 존재하면 그 값으로 대체한다. 

In [None]:
# accExamCnt 컬럼에는 결측치 존재
# 해당 컬럼의 결측치의 개수를 확인
# fillna() 함수를 이용하여 데이터를 삽입 
# ffill이라는 method 속성을 사용하여 값을 삽입

corona["accExamCnt"].isna().sum()


In [None]:
# 결측치인 부분만 출력
# accExamCnt의 값이 결측치인 데이터만 출력
# loc[인덱스의 조건, 컬럼의 조건]
# 조건을 입력하지 않으면 전체를 출력
# corona.loc[결측치인 부분 조건, ]
# 결측치인 부분 조건 : corona["accExamCnt"].isna()
corona.loc[corona["accExamCnt"].isna(), ]

In [None]:
# 결측치 아닌 부분만 출력
corona.loc[~corona["accExamCnt"].isna(), ]
# ~ 연산자 : 부정
# True -> False, False -> True

In [None]:
# isin() -> ()안에 들어간 값들이 존재하면 True, 아니면 False
import numpy as np

In [None]:
# isin([특정값, 특정값2]) 리스트 안에 있는 값들이 포함되어있으면 True 아니면 False

corona["accExamCnt"].isin([np.nan, np.inf, -np.inf])
corona.loc[corona["accExamCnt"].isin([np.nan, np.inf, -np.inf]), ]

In [None]:
## ffill을 전의 데이터를 가지고와서 값을 삽입
## bfill은 데이터가 삽입이 되지 않는다. 이유는?
## 후의 데이터의 값을 채워주는 기능. 후의 데이터중에 결측치가 아닌 값이 존재X
## 결과적으로 NaN으로 채워진다.
corona["accExamCnt"].fillna(method='bfill')

> apply() 
- 데이터프레임에 각 항목들의 데이터를 변환 시켜주는 함수
- 표의 형태의 각 셀의 값.-> apply(연산)->연산 안에 각 셀의 값을 넣어서 변환
> lambda()
- 함수를 선언과 동시에 호출을 하는 기능


In [None]:
## 일반함수를 선언하고 apply()이용하여 
## 파생변수 생성
## corona데이터에서 accDefRate 컬럼의 값이 1.55보다 크면 High, 
## 작거나 같으면 Low의 값이 들어가는 H/L 파생변수를 생성
def change(x):
    if x > 1.55:
        return "High"
    else:
        return "Low"

corona["H/L"] = corona["accDefRate"].apply(change)

In [None]:
## 위와 같은 과정을 일반 함수가 아닌 lambda함수를 이용하여 
## 파생변수 생성

corona["H/L"] = corona["accDefRate"].apply(lambda x : "High" if (x > 1.55) else "Low")

In [None]:
corona.head(1)

In [None]:
## 새로운 파생 변수의 데이터의 빈도수를 체크하는 함수
## value_counts()
corona["H/L"].value_counts()

### 데이터의 결합
> concat()
- axis속성 0, 1 행을 결합, 열을 결합 지정(기본값은 행을 추가)
- 단순하게 데이터를 결합
> merge()
- 특정한 조건을 기준으로 하여 데이터를 결합
- on 속성에서 합쳐질 데이터프레임의 조건을 넣어주는 부분
- 조건에 맞는 컬럼의 값을 넣어준다. 
- how 속성 left : 왼쪽에 있는 데이터프레임을 기준, right : 오른쪽에 있는 데이터프레임을 기준, inneer : 두 데이터프레임의 교집합, outer : 두 데이터프레임의 합집합
- how는 기준이 되는 데이터프레임을 지정 

In [None]:
## tran_1, tran_2 두 데이터프레임을 유니언 결합
## tran_d_1, tran_d_2 두 데이터프레임을 유니언 결합
## 두 과정에서 나온 데이터프레임을 left를 기준으로 join 결합 
tran_1 = pd.read_csv("../csv/tran_1.csv")
tran_2 = pd.read_csv("../csv/tran_2.csv")
tran_d_1 = pd.read_csv("../csv/tran_d_1.csv")
tran_d_2= pd.read_csv("../csv/tran_d_2.csv")

In [None]:
tran = pd.concat([tran_1, tran_2])
tran_d = pd.concat([tran_d_1, tran_d_2])

In [None]:
total_tran = pd.merge(tran, tran_d, on="transaction_id", how='left')

In [None]:
total_tran.head(2)

In [None]:
## 1.00e+10 지수 표현식 없애기 
pd.options.display.float_format = '{:.5f}'.format

## 되돌리기
pd.reset_option('display.float_format')

In [None]:
## datetime형태의 데이터에서 일부만 추출하는 방법
## payment_date 컬럼의 데이터를 datetime 형으로 변경
## payment_month 새로운 파생변수 생성
## 이 파생변수에 년-월 삽입
total_tran["payment_date"] = pd.to_datetime(total_tran["payment_date"])

In [None]:
## 새로운 파생변수 생성
total_tran["payment_month"] = total_tran["payment_date"].dt.strftime('%Y-%m')

### 그룹화 
> groupby()
- 특정한 컬럼을 지정을 해서 데이터들이 같은 값들을 그룹화
- 그룹화된 데이터들의 평균이나 합계 최대, 최소 값, 표준편차 와 같은 통계량을 생성할 수 있다. 

In [None]:
# payment_month 컬럼을 기준으로 그룹화 
# 월별 price의 평균
total_tran.groupby("payment_month").mean()[['price']]

In [None]:
total_tran["price"]  # 데이터의 형태는 스리즈 리턴
total_tran[["price"]] # 데이터의 형태가 데이터프레임 리턴

In [None]:
total_tran

In [None]:
# 다중 그룹화
total_tran.groupby(["payment_month", "item_id"]).mean()[["price"]]

In [None]:
## 다중 그룹화 
## payment_month, item_id 다중 그룹화를 한 뒤
## price의 합계, 평균, 최대, 최소 값을 구하시오.
total_tran.groupby(["payment_month", "item_id"]).agg(
    ['sum', 'mean', 'min', 'max'])["price"]

### 예제 
1. drinks.csv 파일 로드 
2. 결측치를 확인 
3. continent 컬럼에 결측치 존재 -> 결측치를 'OT'로 변경
4. continent 별 wine_servings 컬럼의 평균, 최소, 최대 값을 출력
5. total_litres_of_pure_alcohol 컬럼에서 전체 값의 평균보다 continent별 평균이 더 높은 지역은 어디인지 출력 

In [None]:
# 파일 로드
drinks = pd.read_csv("../csv/drinks.csv")
drinks.head(1)

In [None]:
# 결측치가 존재하는지 확인
drinks.isna().sum()

In [None]:
# continent에 있는 결측치의 값을 'OT'로 변경
drinks["continent"] = drinks["continent"].fillna('OT')

In [None]:
# continent별 와인의 소비량 평균 최소 최대 값을 출력
drinks.groupby("continent").agg(['mean', 'min', 'max'])["wine_servings"]

In [None]:
# total_litres_of_pure_alcohol 데이터의 전체 평균 값보다 
# continent별 평균의 값이 큰 지역을 출력


total_mean = drinks["total_litres_of_pure_alcohol"].mean()

In [None]:
# continent별 전체 술 소비량의 평균 값을 변수 삽입
continent_mean = drinks.groupby("continent").mean()\
    [["total_litres_of_pure_alcohol"]]

In [None]:
# 데이터가 스리즈인 경우
continent_mean[continent_mean >= total_mean]

# 데이터가 데이터프레임인 경우
continent_mean.loc[
    continent_mean["total_litres_of_pure_alcohol"] >= total_mean, ]

In [None]:
## uriage.csv 로드 
uriage = pd.read_csv("../csv/uriage.csv")
uriage

In [None]:
# item_name이라는 컬럼의 값이 공백 존재, 대소문자 구분 X
# 공백이 존재하는데 공백을 제거 
# strip() : 컨텐츠의 양쪽 공백을 삭제 , rstrip()/lstrip()
# strip()에서는 글자 간 사이의 공백 삭제X
# 공백이라는 부분을 아무것도 없는 형태로 대체 ( " " -> "" )
# 이런 상황에서는 어떤 함수를 사용하는가? 뭔가 대체를 한다?
# replace()
# replace(변경이될문자열, 변경할문자열)
#item_name 공백을 전부 삭제

# case1 
uriage["item_name"] = uriage["item_name"].str.replace(" ", "")


In [None]:
#대 소문자 부분을 통일
# item_name이라는 데이터는 전부 소문자로 변경
# 대문자로 변경을 하는 함수 : upper()
# 소문자로 변경을 하는 함수 : lower()
uriage["item_name"] = uriage["item_name"].str.lower()

In [None]:
## 공백제거, 소문자로 변경을 하는 두번의 작업을 
## apply() 함수를 이용하여 한번에 처리 
test = "a b c d e f"

test.replace(" ", "")

test.upper()


In [None]:
def change(x):
    # x값 -> 컬럼에 있는 데이터 1개씩
    # item_name에 있는 데이터 형태-> string
    result = x.replace(" ", "").lower()
    # result = result.lower()
    return result

uriage["item_name"].apply(change)

In [None]:
uriage["item_name"].apply(lambda x : x.replace(" ", "").lower())

In [None]:
import matplotlib.pyplot as plt

In [None]:
y= [1,2,3,4]
plt.plot(y)
plt.show()

In [None]:
y = [13, 62, 43, 66]
plt.plot(range(len(y)), y)
plt.show()

In [None]:
x = np.linspace(-5, 5, 101)
x

In [None]:
y = (1 / np.sqrt(2 * np.pi)) * np.exp(-x ** 2 / 2)
y

In [None]:
plt.figure(figsize=(10, 6)) # 그래프 사이즈를 변경
plt.plot(x, y)
plt.xlabel("X") #x축 라벨
plt.ylabel("Y") #y축 라벨
plt.grid()      #그래프에 격자표시
plt.title("Nomal Distribution without scipy") #그래프의 제목
plt.legend(["N(0,1)"]) #그래프의 범례 추가
plt.show()

In [None]:
pip install scipy

In [None]:
import scipy.stats as stats

In [None]:
x = np.linspace(-5, 5 , 101)
y1 = stats.norm(0,1).pdf(x)
y2 = stats.norm(0,2).pdf(x)
y3 = stats.norm(0,3).pdf(x)
y4 = stats.norm(0,4).pdf(x)


In [None]:
plt.figure(figsize=(6, 4))
plt.plot(x, y1)
plt.plot(x, y2)
plt.plot(x, y3)
plt.plot(x, y4)
plt.show()

### 예제
1. csv폴더 안에 있는 num_3폴더에 csv들을 로드
2. uselog데이터를 제외한 3개의 데이터프레임을 join 결합
3. 2019년 01월 01일 이후의 데이터를 출력

In [None]:
campaign = pd.read_csv("../csv/num_3/campaign_master.csv")
class_master = pd.read_csv("../csv/num_3/class_master.csv")
customer = pd.read_csv("../csv/num_3/customer_master.csv")
use = pd.read_csv("../csv/num_3/use_log.csv")

In [None]:
campaign

In [None]:
class_master

In [None]:
customer

In [166]:
customer_join = pd.merge(customer, class_master, on="class", how="left")
customer_join = pd.merge(customer_join, campaign, on='campaign_id', how="left")
customer_join.head(2)

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0,0_종일,10500,2_일반
1,PL270116,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,0_종일,10500,2_일반


In [168]:
customer_join["start_date"] = pd.to_datetime(customer_join["start_date"])

In [None]:
customer_join[customer_join["start_date"] >= pd.to_datetime("2019-01-01")]