# 데이터 파일 입출력 (I/O)

## 한글이 포함된 파일을 다루기 위한 몇 가지 사전지식

- 인코딩 (encoding)
  - 문자나 기호 등 사람이 입력한 값을 컴퓨터가 이해할 수 있는 신호로 바꾸는 것
  - 문자 인코딩 혹은 텍스트 인코딩이라고도 부름

- [ASCII (American Standard Code for Information Interchange)](https://ko.wikipedia.org/wiki/ASCII)
  - 영문 알파벳을 위한 대표적인 문자 인코딩 방식
  - 33개의 출력 불가능한 제어 문자들과 95개의 출력 가능한 문자 등 총128개 코드로 구성
  - 1963년 초판 발행


- [유니코드](https://ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C)
 - 전 세계 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준
  - [한글 자모를 위한 유니코드](https://en.wikipedia.org/wiki/Hangul_Jamo_%28Unicode_block%29)

- [UTF-8](https://ko.wikipedia.org/wiki/UTF-8)
  - Universal Coded Character Set + Transformation Format – 8-bit의 약자
  - 유니코드 한 문자를 나타내기 위해 1바이트에서 4바이트까지 사용하는 유니코드 표현 방식의 하나

- [(참고) 유니코드와 UTF-8 간단히 이해하기](https://jeongdowon.medium.com/unicode%EC%99%80-utf-8-%EA%B0%84%EB%8B%A8%ED%9E%88-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-b6aa3f7edf96) 

- CSV (comma-separated values)

<img src = "https://www.mathworks.com/help/simulink/ug/sdi_import_csv_multiple_time.png">

# 데이터 가져오기 (input)

## 로컬 파일 업로드하기 (1)

In [4]:
import pandas as pd

In [5]:
from google.colab import files
myfile = files.upload() 

#실행 후 왼쪽 파일 카테고리 확인 (파일 자동으로 안뜰 경우 '파일 새로고침' 모양의 아이콘 클릭)

In [None]:
# csv 파일 - read_csv()

df = pd.read_csv("/content/고랭지 배추 수확량.csv")

df 

In [None]:
#만약 한글 깨진다면 (1) - encoding 설정

df = pd.read_csv("/content/고랭지 배추 수확량.csv", 
                 encoding = "utf-8")
df 

In [None]:
#대표적인 한글 encoding 설정 예시

#파일이 어떤 설정으로 저장되어 있는지 모를 경우 방식을 각각 개별적으로 시도

encoding = 'utf-8'
encoding = 'CP949'
encoding = 'euc-kr'

In [None]:
#만약 한글 깨진다면 (2) - 헤더 재설정 (헤더의 한글이 깨질 경우만)

df11 = pd.read_csv("/content/고랭지 배추 수확량.csv", 
                 skiprows = [0,0], 
                 header = None, 
                 names = ['날짜', '일일', '누적'])

df11

In [None]:
#만약 한글 깨진다면 (3) - csv 파일 자체를 utf-8로 다시 저장

In [None]:
# Excel - read_excel()

df_excel = pd.read_excel("/content/고랭지 배추 수확량.xlsx",  
                         sheet_name = '2023')

In [None]:
df_excel.head()

In [None]:
df_excel.keys() #칼럼명

## 로컬 파일 업로드하기 (2)

- 왼쪽 파일 카테고리에서 우클릭한 다음 직접 업로드 하기

## Google Drive에 저장한 데이터 바로 불러오기

In [7]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
%ls drive/MyDrive/test1 #폴더 접근해서 저장된 파일들 확인

In [None]:
# CSV file

df2 = pd.read_csv("/content/drive/MyDrive/test1/고랭지 배추 수확량.csv") #copy path
print(df2.head())

In [None]:
# Excel file

df3 = pd.read_excel("/content/drive/MyDrive/test1/고랭지 배추 수확량.xlsx") #copy path 
print(df3.head())

## Google Sheet 데이터 바로 가져오기

In [None]:
from google.colab import auth
auth.authenticate_user()

import gspread
from google.auth import default
creds, _ = default()

gc = gspread.authorize(creds)

In [None]:
#파일 이름 자동 검색
worksheet = gc.open('고랭지 배추 수확량_GoogleSheet').sheet1 

# 리스트로 변환
rows = worksheet.get_all_values()
print(rows)

# 데이터 프레임으로 변환
import pandas as pd
pd.DataFrame(rows)

In [None]:
df_google = pd.DataFrame(rows)
print(df_google)

In [None]:
#헤더 교체
df_google = df_google.rename(columns=df_google.iloc[0]).drop(df_google.index[0]).reset_index(drop=True)
print(df_google)

# 데이터 내보내기 (output)

## Pandas DataFrame을 CSV 파일로 내보내기

> 들여쓴 블록



In [None]:
#무비 데이터

import pandas as pd

movie_dict = {'영화': ['해적','킹덤','오징어게임','괴물'],
              '관객': [850,1200,1900,1300]
             }

movie_df = pd.DataFrame(movie_dict, columns= ['영화', '관객'])

movie_df

In [None]:
#csv 파일로 내보내기
movie_df.to_csv('movie.csv', 
                index = False, 
                header=True, 
                encoding='utf-8-sig') #Mac, Windows #왼쪽 Files 폴더 확인

In [None]:
#Excel 파일로 내보내기 (1)
movie_df.to_excel('movie.xlsx', 
                  index = False, 
                  header=True, 
                  encoding='utf-8-sig') #Mac, Windows #왼쪽 Files 폴더 확인

In [None]:
from google.colab import files

files.download('movie.csv') #로컬 다운로드 폴더 확인

## CSV 파일을 구글 드라이브로 내보내기




In [None]:
from google.colab import drive

drive.mount('/content/drive')

path = '/content/drive/My Drive/test1/movie.csv' #구글 드라이브에서 원하는 폴더와 파일 이름 지정

with open(path, 'w', encoding = 'utf-8-sig') as f:
  movie_df.to_csv(f)

## Excel 파일로 내보내기 (2)

In [None]:
!pip install openpyxl

In [None]:
#Excel 파일 내보내기
movie_df.to_excel("movie2.xlsx", sheet_name="movie")

#실행 후 왼쪽 파일 카테고리 확인