### Merge Files (파일 병합, 파일 합치기)

In [None]:
# ▶폴더 안의 모든 하위 파일 복사해서 하나의 폴더로 합치기
import os
import shutil

#폴더 안에 있는 모든 하위 파일(서브폴더의 파일 포함)을 읽어 리스트로 반환. 반복문과 재귀 함수를 이용해서 하위 폴더의 파일까지 모두 접근
def read_all_file(path):
    output = os.listdir(path)
    file_list = []

    for i in output:
        if os.path.isdir(path+"/"+i): 
            file_list.extend(read_all_file(path+"/"+i)) 
        elif os.path.isfile(path+"/"+i):
            file_list.append(path+"/"+i)

    return file_list

#폴더 내의 모든 하위 파일들을 새로운 경로로 복사
def copy_all_file(file_list, new_path):
    for src_path in file_list:
        file = src_path.split("/")[-1]
        shutil.copyfile(src_path, new_path+"/"+file)
        print("파일 {} 작업 완료".format(file)) # 작업한 파일명 출력
                
# 폴더 안의 모든 하위 파일들(서브 폴더의 파일 포함)을 복사해서 또다른 하나의 폴더로 합친다. 
# src_path에는 기존 폴더의 경로를 적어주고, new_path에는 파일들을 옮길 새로운 폴더 경로를 적어준다. 

start_time = time.time() # 작업 시작 시간 

src_path = "C:/test" # 기존 폴더 경로
new_path = "C:/test_merge" # 옮길 폴더 경로

file_list = read_all_file(src_path)
copy_all_file(file_list, new_path)

print("=" * 40)
print("러닝 타임 : {}".format(time.time() - start_time)) # 총 소요시간 계산


# ▶ 특정 Directory 아래의 파일을 하나의 파일로 병합해야 하는 경우
import glob, os

# 파일 불러오기
# 1. glob
# file_list = glob.glob('/', '*txt')
# 2. glob & os
# file_list = glob.glob(os.path.join('/', '*txt'))

with open('/merge.txt', 'w') as outfile:
    for filename in sorted(file_list):
        with open(filename) as file:
            for line in file:
                outfile.write(line)

또는

with open('/merge.txt', 'w') as outfile:
    for filename in sorted(file_list):
        with open(filename) as file:        
            outfile.write(file.read())

# ▶여러 파일을 하나의 파일로 병합해야 하는 경우
# 파일 리스트
filenames = ['file0.txt', 'file1.txt', 'file2.txt', ...]

with open('merge.txt', 'w') as outfile:
    for filename in filenames:
        with open(filename) as file:
            for line in file:
                outfile.write(line)
또는

with open('merge.txt', 'w') as outfile:
    for filename in filenames:
        with open(filename) as file:
            outfile.write(file.read())
            
            
# ▶ 폴더내 모든 엑셀파일의 시트 모두 합치기           
import pandas as pd
import os
import openpyxl

url = "C://엑셀투파이썬//" #파일이 담긴 폴더의 경로명
files = os.listdir(url) # 위 폴더의 모든 파일을 리스트로
df = pd.DataFrame([])
for j in files:
    sheet = openpyxl.load_workbook(url + j).sheetnames
    for i in sheet:
        df1 = pd.read_excel(url + j, sheet_name=i)
        df1["날짜"] = i #시트이름을 날짜열로 만들기
        df1["지점"] = j.split(".")[0] #파일이름을 확장자제거해서 지점열로 만들기
        df = pd.concat([df, df1])

df.to_clipboard(index=False)
df.to_excel("2.xlsx", index=False)

### 파일 열기, 저장

In [None]:
# ▶파일 읽기
file = r"C:\Users\ASIA-19\Desktop\화물차사고\최종데이터\통합데이터.xlsx"
df = pd.read_excel(file, sheet_name="Sheet1")

# ▶파일 저장
raw_data.to_excel(excel_writer='sample.xlsx') #엑셀로 저장
raw_data.to_excel(excel_writer='C:/Users/pmw72/test/sample.xlsx') #절대경로로 저장

In [None]:
df.describe() 
df.info()
df.hea()

### 결측치

In [None]:
# ▶ DataFrame 중복 row 제거
df.duplicated() # 중복 여부 boolean 형태로 반환
df.drop_duplicates() # 행 내용이 동일한 경우 제거
df.drop_duplicates(['col1'], keep='last') # col1기준 중복값중 마지막만 남겨둠

In [None]:
# ▶nan값 확인
df.isnull().sum()

In [None]:
# ▶nan값과 미분류, 기타불명를 기타불명으로 대체
df['피해운전자 연령'].replace([None],[44],inplace=True)
df['피해운전자 연령'].replace(['미분류'],[44],inplace=True)
df['피해운전자 연령'] = df['피해운전자 연령'].replace({'세': ''}, regex = True).astype(int)
df['피해운전자 연령'].mean() # median()

### 컬럼 자료의 빈도수

In [None]:
from collections import Counter as cc
cnt = cc(df['피해운전자 차종'])
cnt.most_common()[:3]
[('승용', 8735),
 ('화물', 2187),
 ('승합', 409)]

In [None]:
# ▶나이를 연령대로 변환
df.loc[(df['가해운전자 연령'] > 0) & (df['가해운전자 연령'] <= 19), "가해연령대"] = 10
plt.show()

### 시리즈를 데이터 프레임으로 전환하여 문자열 분리

In [None]:
df['시군구'] = df['시군구'].astype('str')
df1 = pd.DataFrame(df['시군구'].str.split().tolist(), columns = 'a b c d'.split())
df['시군구'] = df1['a']
시군구 : 경기도 용인시 기흥구 하갈동 -> 경기도
    df['사고일시'] = df['사고일시'].astype('str')
df1 = pd.DataFrame(df['사고일시'].str.split().tolist(), columns = 'a b c d'.split())
df['사고일'] = df1['a']+df1['b']+df1['c']
df['사고일'] = df['사고일'].replace({'년': '-', '월': '-','일': ''}, regex = True)
사고일시 : 2019년 1월 1일 11시 ->  2019-01-01

### 한글 깨짐 방지

In [None]:
import matplotlib
import matplotlib.font_manager as fm
# fm._rebuild()
fm.get_fontconfig_fonts()
font_location = 'C:/Users/ASIA-19/NanumGothic.ttf' # 폰트 파일 이름, 디렉토리 주의
font_name = fm.FontProperties(fname=font_location).get_name()
matplotlib.rc('font', family=font_name)

### 그래프 

In [None]:
# ▶막대 그래프 
plt.figure(figsize=(15,10))
plt.subplot(3,3,1)
sns.countplot(df['요일'])
plt.title('요일')
plt.subplot(3,3,2)
sns.distplot(df['사고시']) 
plt.xticks(rotation=30)

# ▶원 그래프
plt.figure(figsize=(15,10))
plt.subplot(3,3,1)
plt.pie(df['가해운전자 상해정도'].value_counts(),labels=df['가해운전자 상해정도'].unique())
plt.title('가해운전자 상해정도')

# ▶요일 + 차종 별 사망자 수 분포
sns.barplot(x='요일', y='사망자수', hue='가해운전자 차종', data=df)

In [None]:
# ▶ 히트맵
plt.subplots(figsize=(15,15))
sns.heatmap(df2.corr(method='pearson'), annot=True, linewidths=2)
plt.xticks(rotation=25)
# print(df.corr(method='pearson'))

# ▶ 모든 변수 조합에 관한 Scatter plot
df_pair = df[['사망자수','가해연령대', '사고시']]
# plt.style.use(['dark_background'])
sns.pairplot(df_pair)
plt.show()

In [None]:
# ▶ 사용하지 않을 Categorical 변수는 리스트에서 제외
df2 = df.drop( ['사고번호','사고일'], axis='columns')