In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns 

# 커널을 구성하다보면 에러는 아니지만, 빨간색 네모 박스 warning이 뜨는 경우가 많다. 
# 그런 보기 싫은 부분들을 제거해주겠다.
# import warnings
# warnings.filterwarnings('ignore')

# os 패키지를 통해 현재 디렉토리 위치를 변경하고, read_csv를 더 편리하게 할 수 있음
import os
os.getcwd() # 현재 디렉토리 파악
# os.chdir(r"______") # 불러오고 싶은 파일이 위치한 주소를 ___에 입력

# 다른 노트북 작성할 때도 이 셀만 떼서 사용 가능하다.
import platform                

# 웬만하면 해주는 것이 좋다.
from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin': #맥os 사용자의 경우에
    plt.style.use('seaborn-darkgrid') 
    rc('font', family = 'AppleGothic')
    
elif platform.system() == 'Windows':#윈도우 사용자의 경우에
    path = 'c:/Windows/Fonts/malgun.ttf'
    font_name = font_manager.FontProperties(fname=path).get_name()
    plt.style.use('seaborn-v0_8-whitegrid') # https://python-graph-gallery.com/199-matplotlib-style-sheets/
    rc('font', family=font_name)
    
# tqdm
from tqdm.notebook import tqdm

In [4]:
data_path = 'c:/reposit/data/dacon/데이크루 6기/'

## 1. 물류유통량 예측

In [5]:
df = pd.read_csv(data_path + '물류 유통량 예측 경진대회/train.csv')
df.shape

(31684, 5)

In [6]:
df.head(3)

Unnamed: 0,index,송하인_격자공간고유번호,수하인_격자공간고유번호,물품_카테고리,운송장_건수
0,0,5011000595017300,2871000192069300,음반,3
1,1,4148000690043300,5011000264024400,문화컨텐츠,3
2,2,5011000078068400,1120000007005400,농산물,3


In [8]:
# 결측치 확인
df.isnull().sum().to_frame('nan')

Unnamed: 0,nan
index,0
송하인_격자공간고유번호,0
수하인_격자공간고유번호,0
물품_카테고리,0
운송장_건수,0


In [9]:
# 물품 카테고리 데이터 수 확인
df['물품_카테고리'].nunique()

100

In [10]:
# 물품 카테고리 데이터 확인
df['물품_카테고리'].unique()

array(['음반', '문화컨텐츠', '농산물', '기타식품', '수산', '아우터', '신발', '건강식품', '음료',
       '가공식품', '스킨케어', '축산', '헤어케어', '기저귀/물티슈', '의료용품', '기타디지털/가전', '상의',
       '건강용품', '바디케어', '기타스포츠/레저', '출산/유아동의류', '반려동물', '완구/매트', '과자',
       '생활용품', '하의', '문구/사무용품', '선케어', '다이어트식품', '기타패션의류', '냉동/간편조리식품',
       '네일케어', '서재/사무용가구', '선글라스/안경테', '기타화장품/미용', '등산', '모니터', '주방용품',
       '색조메이크업', '침구세트', '침구단품', '인테리어소품', '양말/스타킹', '클렌징', '공구', '이미용가전',
       'PC', '커튼/블라인드', '헤어스타일링', '주방가구', 'DIY자재/용품', '헤어액세서리', '김치',
       '위생/건강용품', '침실가구', '가방', '주방가전', '낚시', '재활운동용품', '자동차용품', '뷰티소품',
       '주얼리', '골프', 'PC주변기기', '수납/정리용품', '음향가전', '잠옷', '패션소품', '언더웨어',
       '원피스/점프슈트', '스포츠잡화', '수납가구', '취미용품', '아웃도어가구', '계절가전', '홈데코', '캠핑',
       '남성화장품', '분유/이유식/아기간식', '베이스메이크업', '헬스', '향수', '모자', '카페트/러그',
       '구강위생용품', '눈관리용품', '기타출산/육아', '기타패션잡화', '기능성', '반찬', '욕실용품',
       '스마트디바이스액세서리', '게임기/타이틀', '생활가전', '유아가구', '출산/유아동잡화', '세탁용품',
       '태블릿PC/노트북액세서리', '스마트디바이스', '지갑'], dtype=object)

+ 카테고리를 묶어서 확인해 볼 수도?
+ 예측 문제

## 2. 병원 개폐업

In [12]:
df = pd.read_csv(data_path + '병원 개폐업/train.csv')
df.shape

(301, 58)

In [13]:
df.head(3)

Unnamed: 0,inst_id,OC,sido,sgg,openDate,bedCount,instkind,revenue1,salescost1,sga1,...,debt2,liquidLiabilities2,shortLoan2,NCLiabilities2,longLoan2,netAsset2,surplus2,employee1,employee2,ownerChange
0,1,open,choongnam,73,20071228,175.0,nursing_hospital,4217530000.0,0.0,3961135000.0,...,758993742.0,222876855.0,0.0,536116887.0,390000000.0,2619290000.0,1271224000.0,62.0,64.0,same
1,3,open,gyeongnam,32,19970401,410.0,general_hospital,,,,...,,,,,,,,801.0,813.0,same
2,4,open,gyeonggi,89,20161228,468.0,nursing_hospital,1004522000.0,515483669.0,447219700.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,234.0,1.0,same


In [16]:
# target 확인
df.OC.nunique(), df.OC.unique()

(2, array(['open', ' close'], dtype=object))

+ 분류 문제

## 3. 신용카드 사기 거래 탐지

In [17]:
df = pd.read_csv(data_path + '신용카드 사기 거래 탐지/train.csv')
df.shape

(26457, 20)

In [18]:
df.head(3)

Unnamed: 0,index,gender,car,reality,child_num,income_total,income_type,edu_type,family_type,house_type,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,work_phone,phone,email,occyp_type,family_size,begin_month,credit
0,0,F,N,N,0,202500.0,Commercial associate,Higher education,Married,Municipal apartment,-13899,-4709,1,0,0,0,,2.0,-6.0,1.0
1,1,F,N,Y,1,247500.0,Commercial associate,Secondary / secondary special,Civil marriage,House / apartment,-11380,-1540,1,0,0,1,Laborers,3.0,-5.0,1.0
2,2,M,Y,Y,0,450000.0,Working,Higher education,Married,House / apartment,-19087,-4434,1,0,1,0,Managers,2.0,-22.0,2.0


In [19]:
# 결측치 확인
df.isnull().sum().to_frame('nan')

Unnamed: 0,nan
index,0
gender,0
car,0
reality,0
child_num,0
income_total,0
income_type,0
edu_type,0
family_type,0
house_type,0


In [20]:
# target 확인
df.reality.unique()

array(['N', 'Y'], dtype=object)

In [21]:
# target 데이터 분포
df.reality.value_counts()

Y    17830
N     8627
Name: reality, dtype: int64