## 파이썬 문법에 의한 데이터 입출력

* 'data.csv' 파일을 읽기 모드로 오픈, 라인은 \n로 구분, 파일을 구분한 후 오픈파일을 filereader로 명칭
* f = open("data.csv", "r", newline="\n")
    * f.close()
* 파일을 열고 읽고 닫는 역할을 한문장으로 표현한 예
* with open("data.csv", "r", newline="\n") as filereader:

    

In [134]:
# "data.csv" : open하여 읽어올 파일의 이름
# "r" : 파일 오픈 형식 - r: readmode, w: writemode
# "\n" : 라인 및 데이터 단위(리스트에 저장될 각 요소)를 구분할 기호
# filereader : 읽어온 데티러(리스트 데이터)가 저장되는 변수 이름
# with 다음 행부터 파일이 닫히는 곳까지 들여쓰기를 하여, 파일이 닫히기전까지 실행되는 작업들을 기술합니다.
with open("data.csv", "r", newline="\n") as filereader:
    header = filereader.readline() # 읽어온 파일의 내용 중에 한줄 read
    header_list = header.split(",")
    print(header_list)
    
    # 쓰기위한 파일 오픈
    with open("output_data.csv", "w", newline="\n") as filewriter:
        # csv 파일은 각 데이터가 ","로 구분되어 있는 형식
        # 따라서 리스트의 각 사이에 ","를 넣고 하나의 문자데이터로 만들고 출력
        filewriter.write(",".join(map(str, header_list)) + "\n")
        # map(str, header_list) : 리스트의 각 요소를 모두 문자형식으로 변환
        # ",".join(${listName}) -> 리스트의 각 요소사이에 ","를 넣어 하나의 문자열로 생성
        # 리스트 요소 사이로 ","가 포함되는 형식의 변환입니다.
        for row in filereader: # 읽어온 파일의 내용(리스트)을 반복문에 적용
            print(row) # 구분자 포함한 문자열
            row = row.strip() # 양옆 공백 제거
            row_list = row.split(",") # 열별 분할
            filewriter.write(",".join(map(str, row_list)) + "\n") # ,로 나뉘어진 리스트를 문자형으로 변경하고 +"\n"을 통하여 한칸 개행

['Supplier Name', 'Invoice Number', 'Part Number', 'Cost', 'Purchase Date\r\n']
Supplier X,001-1001,2341,$500.00,2014-01-20

Supplier X,001-1001,2341,$500.00,2014-01-20

Supplier X,001-1001,5467,$750.00,2014-01-20

Supplier X,001-1001,5467,$750.00,2014-01-20

Supplier Y,50-9501,7009,$250.00,2014-01-30

Supplier Y,50-9501,7009,$250.00,2014-01-30

Supplier Y,50-9501,6650,$125.00,2014-02-03

Supplier Y,50-9501,6650,$125.00,2014-02-03

Supplier Z,920-4804,3321,$615.00,2014-02-03

Supplier Z,920-4804,3321,$615.00,2014-10-14

Supplier Z,920-4804,3321,$615.00,2014-02-17

Supplier Z,920-4804,3321,$615.00,2014-02-24



In [135]:
import pandas as pd

data_frame = pd.read_csv("data.csv")
# read_csv로 읽혀져온 데이터는 DataFrame형식으로 저장됩니다.
# 행 인덱스는 0부터 행갯수 만큼 생성, 컬럼명은 파일에 있는 헤더이름으로 설정
print(data_frame)
data_frame.to_csv("output_bypandas.csv", index=False)

   Supplier Name Invoice Number  Part Number     Cost Purchase Date
0     Supplier X       001-1001         2341  $500.00    2014-01-20
1     Supplier X       001-1001         2341  $500.00    2014-01-20
2     Supplier X       001-1001         5467  $750.00    2014-01-20
3     Supplier X       001-1001         5467  $750.00    2014-01-20
4     Supplier Y        50-9501         7009  $250.00    2014-01-30
5     Supplier Y        50-9501         7009  $250.00    2014-01-30
6     Supplier Y        50-9501         6650  $125.00    2014-02-03
7     Supplier Y        50-9501         6650  $125.00    2014-02-03
8     Supplier Z       920-4804         3321  $615.00    2014-02-03
9     Supplier Z       920-4804         3321  $615.00    2014-10-14
10    Supplier Z       920-4804         3321  $615.00    2014-02-17
11    Supplier Z       920-4804         3321  $615.00    2014-02-24


### 파이썬 기본 문법으로 필터링

In [136]:
# 서플라이어가 Z이거나 코스트가 600이상인 데이터만 추출
import csv # 파이썬의 csv파일 전용 모듈을 import
with open("data.csv", "r", newline="\n") as csv_in_file:
    with open("out.csv", "w", newline="\n") as csv_out_file:
        # 읽기 핸들러를 filereader 변수에 저장
        filereader = csv.reader(csv_in_file)
        
        # 쓰기 핸들러를 filewriter 변수에 저장
        filewriter = csv.writer(csv_out_file)
        
        # 파일 읽기 핸들러를 이용하여 다음 라인(현재로는 첫줄) read
        header = next(filereader)
        # ','로 구분된 데이터를 읽어 왔으므로 별도 가공없이 csv에 출력
        # csv모듈의 기능을 이용하여 데이터를 읽으면, 이전 예제의 split이 적용된 리스트를 리턴합니다.
        filewriter.writerow(header)
        print(header)
        
        # 읽어온 데이터들을 반복실행문에 적용하여 라인단위로 처리합니다.
        for row in filereader:
            
            # 첫열의 데이터를 문자열로 변경하고, 양옆의 공백을 제거한 값을 보관
            supplier = str(row[0]).strip()
            
            # 양옆에 있을 수 있는 '$'를 제거하고, 천단위 구분 기호를 빈칸으로 대체(삭제)한 후 cost라는 변수에 저장
            cost = str(row[3]).strip('$').replace(',', '')
            
            if (supplier == "Supplier Z") or (float(cost) > 600.0):
                filewriter.writerow(row)
                print(row)

['Supplier Name', 'Invoice Number', 'Part Number', 'Cost', 'Purchase Date']
['Supplier X', '001-1001', '5467', '$750.00', '2014-01-20']
['Supplier X', '001-1001', '5467', '$750.00', '2014-01-20']
['Supplier Z', '920-4804', '3321', '$615.00', '2014-02-03']
['Supplier Z', '920-4804', '3321', '$615.00', '2014-10-14']
['Supplier Z', '920-4804', '3321', '$615.00', '2014-02-17']
['Supplier Z', '920-4804', '3321', '$615.00', '2014-02-24']


### pandas 를 이용한 필터링

In [137]:
# 서플라이어가 Z이거나 코스트가 600이상인 데이터만 추출
import pandas as pd
date_frame = pd.read_csv("data.csv")
# 판다스의 read_csv로 읽어온 파일의 내용은 자동으로 판다스에서 제공하는 data_frame형식으로 읽어옵니다.
# index(0부터 시작하는 정수)가 생기고, columns로 파일의 첫라인(열제목)이 사용됩니다. -> 열제목 자동설정되므로, 별도로 신경쓰지않아도 됨.
# print(date_frame)
# print(data_frame['Cost'].str.strip('$'))
# print(data_frame['Cost'].str.strip('$').astype(float))
# data_frame['Cost']의 값을 문자로 : .str
# 위 결과에서 양옆에 있을지 모를 '$' 제거: .strip('$')
# 위 결과값을 다시 float형으로 변경 : .astype(float)

# 열하나에 필요한 가공을 한 뒤 그 데이터를 다시 열이름으로 지목한 데이터로 대체
date_frame['Cost'] = date_frame['Cost'].str.strip('$').astype(float)
# 조건에 맞는 데이터를 필터링합니다. .loc사용

# 문자열.contains('A') : 해당 문자열에 'A'가 포함되어있다면 True리턴
# print(date_frame.loc[date_frame['Supplier Name'].str.contains('Z')])

# data_frame['Cost'] > 600.0 : 해당 컬럼 값 600이상 True 리턴
# print(date_frame.loc[date_frame['Cost'] > 600.0])
# 필터링 연산시 True 리턴된 행만 필터링

# data_frame.loc[:, :] 행과 열 동시 필터링
# 열의 값으로 행을 필터링하고, 열은 모든열 대상
# 필터링한 데이터프레임 구조데이터를 condition변수에 저장
condition = date_frame.loc[(date_frame['Supplier Name'].str.contains('Z')) | (date_frame['Cost'] > 600.0), :]

print(condition)
condition.to_csv("out2.csv", index=False)

   Supplier Name Invoice Number  Part Number   Cost Purchase Date
2     Supplier X       001-1001         5467  750.0    2014-01-20
3     Supplier X       001-1001         5467  750.0    2014-01-20
8     Supplier Z       920-4804         3321  615.0    2014-02-03
9     Supplier Z       920-4804         3321  615.0    2014-10-14
10    Supplier Z       920-4804         3321  615.0    2014-02-17
11    Supplier Z       920-4804         3321  615.0    2014-02-24


#### 연습문제
- 아래 리스트에 담겨있는 날짜에 해당하는 데이터만 필터링하여 out3.csv로 저장하세요
- 파이썬 문법을 이용

In [138]:
import csv

important_dates = ['2014-01-20', '2014-01-30']

with open("data.csv", "r", newline="\n") as csv_in_file:
    with open("out3.csv", "w", newline="\n") as csv_out_file:
        filereader = csv.reader(csv_in_file)
        filewriter = csv.writer(csv_out_file)
        header = next(filereader)
        filewriter.writerow(header)
        print(header)
        for row in filereader:
            if row[4] in important_dates:
                filewriter.writerow(row)
                print(row)

['Supplier Name', 'Invoice Number', 'Part Number', 'Cost', 'Purchase Date']
['Supplier X', '001-1001', '2341', '$500.00', '2014-01-20']
['Supplier X', '001-1001', '2341', '$500.00', '2014-01-20']
['Supplier X', '001-1001', '5467', '$750.00', '2014-01-20']
['Supplier X', '001-1001', '5467', '$750.00', '2014-01-20']
['Supplier Y', '50-9501', '7009', '$250.00', '2014-01-30']
['Supplier Y', '50-9501', '7009', '$250.00', '2014-01-30']


### 리스트에 담겨있는 특정 날짜들에 해당하는 행만 추출 - pandas

In [139]:
import pandas as pd
data_framet = pd.read_csv("data.csv")
important_dates = ['2014-01-20', '2014-01-30']
# .isin() : 파이썬의 in처럼 괄호안의 내용중 하나가 포함되었는지 체크하는 함수
# .loc안의 조건 : data_frame['Purchase Date']값이
# .isin(important_dates)로 체크해서 있는 값인지 검사
condition = data_frame.loc[data_frame['Purchase Date'].isin(important_dates), :]
condition.to_csv("out3bypandas.csv", index=False)
print(condition)

  Supplier Name Invoice Number  Part Number     Cost Purchase Date
0    Supplier X       001-1001         2341  $500.00    2014-01-20
1    Supplier X       001-1001         2341  $500.00    2014-01-20
2    Supplier X       001-1001         5467  $750.00    2014-01-20
3    Supplier X       001-1001         5467  $750.00    2014-01-20
4    Supplier Y        50-9501         7009  $250.00    2014-01-30
5    Supplier Y        50-9501         7009  $250.00    2014-01-30


### 정규표현식의 매칭 결과로 필터링 - 파이썬 문법

In [140]:
# invoice Number가 '001-'로 시작하는 행을 필터링

In [141]:
import csv
import re

pattern = re.compile(r'(?P<my_pattern>^001-.*)', re.I)

with open("data.csv", "r", newline="\n") as csv_in_file:
    with open("out4.csv", "w", newline="\n") as csv_out_file:
        filereader = csv.reader(csv_in_file)
        filewriter = csv.writer(csv_out_file)
        header = next(filereader)
        filewriter.writerow(header)
        print(header)
        for row in filereader:
            if pattern.match(row[1]):
                filewriter.writerow(row)
                print(row)

['Supplier Name', 'Invoice Number', 'Part Number', 'Cost', 'Purchase Date']
['Supplier X', '001-1001', '2341', '$500.00', '2014-01-20']
['Supplier X', '001-1001', '2341', '$500.00', '2014-01-20']
['Supplier X', '001-1001', '5467', '$750.00', '2014-01-20']
['Supplier X', '001-1001', '5467', '$750.00', '2014-01-20']


#### 정규표현식의 매칭 결과로 필터링 - pandas 활용

In [142]:
import pandas as pd
data_frame = pd.read_csv("data.csv")
condition = data_frame.loc[data_frame['Invoice Number'].str.startswith('001-'), :]
condition.to_csv("out4bypandas.csv", index=False)
print(condition)

  Supplier Name Invoice Number  Part Number     Cost Purchase Date
0    Supplier X       001-1001         2341  $500.00    2014-01-20
1    Supplier X       001-1001         2341  $500.00    2014-01-20
2    Supplier X       001-1001         5467  $750.00    2014-01-20
3    Supplier X       001-1001         5467  $750.00    2014-01-20


#### 열제목이 아닌 열번호를 이용한 필터링 - 파이썬 문법

In [143]:
# 열번호를 선택하여 파일 출력 & 화면출력
import csv
my_columns = [0, 2, 4]
with open('data.csv', 'r', newline='') as csv_in_file:
    with open('out5.csv', 'w', newline='') as csv_out_file:
        filereader = csv.reader(csv_in_file)
        filewriter = csv.writer(csv_out_file)
        
        # 열 제목 중에서 0, 2, 4번째 데이터를 선택해야하므로, next로 읽지 않고 모두 반복문 안에서 읽습니다.
        # 0, 2, 4열의 데이터만 모아 하나의 행으로 만들고, 이를 출력하기 위한 리스트를 먼저 생성
        for row_list in filereader:
            # 한 행에 대해 0, 2, 4열의 데이터만 모아서 하나의 리스트에 넣고,
            # 이를 출력하기 위한 리스트를 먼저 생성합니다.
            output_row_list = []
            # 열번호 리스트가 갖고있는 열번호들로 반복실행합니다.
            for i in my_columns:
                # 한 행에서 해당 컬럼에 해당하는 것들만 output_row_list에 append
                output_row_list.append(row[i])
            # 모여진 한 행의 리스트들을 화면과 파일에 출력
            filewriter.writerow(output_row_list)
            print(output_row_list)

['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']
['Supplier Z', '3321', '2014-02-24']


#### 열제목이 아닌 열번호를 이용한 필터링 - pandas

In [146]:
# 열번호로 열을 필터링 - 판다스
import pandas as pd
data_frame = pd.read_csv('data.csv')
print(data_frame) # full
# .iloc 인덱스번호, 열번호로만 필터링하기 위해 제공되는 기능
condition = data_frame.iloc[:, [0, 2, 4]]
condition.to_csv("out5bypandas.csv", index=False)
print(condition) # [0, 2, 4]

   Supplier Name Invoice Number  Part Number     Cost Purchase Date
0     Supplier X       001-1001         2341  $500.00    2014-01-20
1     Supplier X       001-1001         2341  $500.00    2014-01-20
2     Supplier X       001-1001         5467  $750.00    2014-01-20
3     Supplier X       001-1001         5467  $750.00    2014-01-20
4     Supplier Y        50-9501         7009  $250.00    2014-01-30
5     Supplier Y        50-9501         7009  $250.00    2014-01-30
6     Supplier Y        50-9501         6650  $125.00    2014-02-03
7     Supplier Y        50-9501         6650  $125.00    2014-02-03
8     Supplier Z       920-4804         3321  $615.00    2014-02-03
9     Supplier Z       920-4804         3321  $615.00    2014-10-14
10    Supplier Z       920-4804         3321  $615.00    2014-02-17
11    Supplier Z       920-4804         3321  $615.00    2014-02-24
   Supplier Name  Part Number Purchase Date
0     Supplier X         2341    2014-01-20
1     Supplier X         234