# 5. 파일 저장 및 열기
---
- pandas는 다양한 파일 형식의 데이터를 읽어올 수 있는 기능을 제공한다.
- 자주사용하는 데이터형식은 CSV, Excel, JSON, SQL 등이 있다.

In [16]:
import pandas as pd

data = {
    '고객ID': ['C001', 'C002', 'C003', 'C004', 'C005', 'C006', 'C007', 'C008'],
    '고객명': ['박태근', '이영희', '박지성', '최민아', '정수빈', '윤태영', '한유진', '강민호'],
    '나이': [35, 30, 35, 40, 28, 27, 31, 29],
    '거주도시': ['시흥', '안양', '울산', '창원', '구로', '시흥', '파주', '일산'],
    '주요관심사': ['Electronics', 'fashion', '', 'Fashion', 'Fashion', 'Electronics', '', 'Sports'],
    '최근1년_방문빈도': [75, 85, 95, 92, 82, 88, 68, 98],
    '평균구매액(만원)': [70, 92, 110, 105, 88, 95, 65, 125],
    '고객만족도(점)': [78, 88, 91, 82, 94, 85, 77, 96],
    '재구매의사(점)': [92, 85, 88, 96, 79, 91, 83, 90]
}

df = pd.DataFrame(data)
df

Unnamed: 0,고객ID,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
0,C001,박태근,35,시흥,Electronics,75,70,78,92
1,C002,이영희,30,안양,fashion,85,92,88,85
2,C003,박지성,35,울산,,95,110,91,88
3,C004,최민아,40,창원,Fashion,92,105,82,96
4,C005,정수빈,28,구로,Fashion,82,88,94,79
5,C006,윤태영,27,시흥,Electronics,88,95,85,91
6,C007,한유진,31,파주,,68,65,77,83
7,C008,강민호,29,일산,Sports,98,125,96,90


### CSV 파일로 저장 및 읽기

**CSV파일이란?** 
- CSV(Comma Separated Values)는 각 항목을 쉼표(,)로 구분해서 저장하는 텍스트 파일 형식
- 일반적으로 엑셀과 같은 스프레드시트 데이터를 저장할 때 자주 사용
-  확장자는 .csv

**CSV 파일 저장 (`to_csv()`)**
- CSV 파일을 저장할 때는 `to_csv()` 메서드를 사용한다.

In [17]:

df.to_csv('data/customers.csv')


In [18]:
# 엑셀에서도 안깨지도록 utf-8-sig 인코딩 방식 사용
df.to_csv('data/customers2.csv', encoding='utf-8-sig')

기본 인덱스를 포함하지 않고 저장하기

In [19]:
df.to_csv('data/customers3.csv', encoding='utf-8-sig', index=False)

**구분자를 변경하여 저장하기**
- sep 속성을 사용하여 구분자를 변경하여 저장 할 수 있다.
- 이땐 콤마로 구분되지 않았기때문에 txt파일로 저장한다.

In [20]:
df.to_csv('data/customers_tab.txt', sep='\t') 

**CSV 파일 읽기 (`read_csv()`)**
- CSV 파일을 읽어올 때는 `read_csv()` 함수를 사용한다.

In [21]:
df = pd.read_csv('data/customers3.csv')
df.head() # 데이터 상위 5개만 출력

Unnamed: 0,고객ID,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
0,C001,박태근,35,시흥,Electronics,75,70,78,92
1,C002,이영희,30,안양,fashion,85,92,88,85
2,C003,박지성,35,울산,,95,110,91,88
3,C004,최민아,40,창원,Fashion,92,105,82,96
4,C005,정수빈,28,구로,Fashion,82,88,94,79


구분자가 변경된 데이터는 구분자를 지정해서 파싱 할 수 있다.

In [22]:
df = pd.read_csv('data/customers_tab.txt', sep='\t')
df.head() # 데이터 상위 5개만 출력

Unnamed: 0.1,Unnamed: 0,고객ID,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
0,0,C001,박태근,35,시흥,Electronics,75,70,78,92
1,1,C002,이영희,30,안양,fashion,85,92,88,85
2,2,C003,박지성,35,울산,,95,110,91,88
3,3,C004,최민아,40,창원,Fashion,92,105,82,96
4,4,C005,정수빈,28,구로,Fashion,82,88,94,79


특정 열을 인덱스로 지정해서 가지고오기

In [23]:
df = pd.read_csv('data/customers3.csv', index_col='고객ID')

df

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75,70,78,92
C002,이영희,30,안양,fashion,85,92,88,85
C003,박지성,35,울산,,95,110,91,88
C004,최민아,40,창원,Fashion,92,105,82,96
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91
C007,한유진,31,파주,,68,65,77,83
C008,강민호,29,일산,Sports,98,125,96,90


### Excel 파일로 저장 및 읽기
**Excel 파일 저장 (`to_excel()`)**
- Excel 파일을 읽어올 때는 `to_excel()` 메서드를 사용한다.

> 🐻 주의할점
> - 엑셀파일을 저장하거나 읽어올때 pandas 내부적으로 openpyxl 라이브러리를 사용한다.
> - 따라서 라이브러리가 설치되어있어야 정상적으로 엑셀파일을 읽고 저장 할 수 있다.

In [24]:
%pip install openpyxl

Note: you may need to restart the kernel to use updated packages.


In [25]:
df.to_excel('data/customers.xlsx')

- 마찬가지로 인덱스를 포함하지 않을 수 있고
- 데이터를 저장할 Excel Sheet의 이름을 지정 할 수 있다.

In [31]:
df.to_excel('data/customers2.xlsx', index=False, sheet_name='고객정보')

**Excel 파일 읽기 (`read_excel()`)**
- Excel 파일을 읽어올 때는 `read_excel()` 메서드를 사용한다.


In [32]:
df = pd.read_excel('data/customers2.xlsx', index_col='고객명')

df

Unnamed: 0_level_0,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
박태근,35,시흥,Electronics,75,70,78,92
이영희,30,안양,fashion,85,92,88,85
박지성,35,울산,,95,110,91,88
최민아,40,창원,Fashion,92,105,82,96
정수빈,28,구로,Fashion,82,88,94,79
윤태영,27,시흥,Electronics,88,95,85,91
한유진,31,파주,,68,65,77,83
강민호,29,일산,Sports,98,125,96,90


- sheet_name 옵션으로 지정한 시트의 데이터를 가지고 올 수 있다.

In [42]:
# 엑셀열고 test 시트의 만들기
df = pd.read_excel('data/customers2.xlsx', index_col='고객명', sheet_name='test')

df

Unnamed: 0_level_0,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
테스트,35,시흥,Electronics,75,70,78,92
이영희,30,안양,fashion,85,92,88,85
박지성,35,울산,,95,110,91,88
최민아,40,창원,Fashion,92,105,82,96
정수빈,28,구로,Fashion,82,88,94,79
윤태영,27,시흥,Electronics,88,95,85,91
한유진,31,파주,,68,65,77,83
강민호,29,일산,Sports,98,125,96,90


### 필요한 데이터만 읽어오기

**고객명, 나이, 거주도시, 주요관심사만 필요하다면?**

In [34]:
df = pd.read_excel('data/customers2.xlsx', usecols=['고객명', '나이', '거주도시', '주요관심사'])
df

Unnamed: 0,고객명,나이,거주도시,주요관심사
0,박태근,35,시흥,Electronics
1,이영희,30,안양,fashion
2,박지성,35,울산,
3,최민아,40,창원,Fashion
4,정수빈,28,구로,Fashion
5,윤태영,27,시흥,Electronics
6,한유진,31,파주,
7,강민호,29,일산,Sports


**엑셀에 제목줄이 있다면??**

In [43]:
# 엑셀파일에서 최상단에 제목줄넣기

# 엑셀열고 test 시트의 만들기
df = pd.read_excel('data/customers2.xlsx', sheet_name='test', header=1)

df

Unnamed: 0,테스트,35,시흥,Electronics,75,70,78,92
0,이영희,30,안양,fashion,85,92,88,85
1,박지성,35,울산,,95,110,91,88
2,최민아,40,창원,Fashion,92,105,82,96
3,정수빈,28,구로,Fashion,82,88,94,79
4,윤태영,27,시흥,Electronics,88,95,85,91
5,한유진,31,파주,,68,65,77,83
6,강민호,29,일산,Sports,98,125,96,90
