# ⬛ 데이터 입출력

## ⬛ 1. csv 파일 적재

- pd.read_csv()
    - 컬럼명이 존재하는 데이터
    - 컬럼명이 없는 데이터
    - 구분자 설정

In [1]:
# 팬더스 import

import pandas as pd

In [2]:
# 🔴 data/ex1.csv 파일 읽기(컬럼명이 존재하는 csv 파일)

## 🔸 read_csv 기본동작 : 첫 행 데이터 ==> 컬럼으로 사용

data = pd.read_csv('data/ex1.csv')

print(type(data))

data

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
# 🔴 data/ex2.csv 읽기( 컬럼명이 없는 csv 파일)

## 🔸 (문제) 그냥 읽으면? => 데이터도 컬럼으로 읽어버림

data2 = pd.read_csv('data/ex2.csv')
data2

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [4]:
## 🔸 (해결) read_csv : header=None을 주면, 컬럼이 없는 csv를 정상적으로 읽어올 수 있음

data2 = pd.read_csv('data/ex2.csv', header=None)
data2

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
# 🔴 컬럼명 부여하기

data2.columns = list('abcde')
data2

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [14]:
# 🔴 data/ex3.csv 읽기

## 🔸 기본 구분자 "," => 셀을 하나하나 나누는 단위

## 🔸 (문제)콤마가 아닌 다른 것으로 나열되어 있는 경우(공백이나 탭, || 등의 문자)

data3 = pd.read_csv('data/ex3.csv')
print(data3)
print(data3.shape)

               A         B         C
0  aaa -0.264438 -1.026059 -0.619500
1  bbb  0.927272  0.302904 -0.032399
2  ccc -0.264273 -0.386314 -0.217601
3  ddd -0.871858 -0.348382  1.100491
(4, 1)


In [15]:
## 🔸 (해결? NO) sep = "다른 구분자"로 처리 가능

data4 = pd.read_csv('data/ex3.csv', sep="\t")
print(data4)
print(data4.shape)

               A         B         C
0  aaa -0.264438 -1.026059 -0.619500
1  bbb  0.927272  0.302904 -0.032399
2  ccc -0.264273 -0.386314 -0.217601
3  ddd -0.871858 -0.348382  1.100491
(4, 1)


In [18]:
## 🔸 (해결? YES) 구분자 ","  &  " " & "\t"  & "/" & "\" ==> \s+로 처리해야 함.
data4 = pd.read_csv('data/ex3.csv', sep="\s+")
print(data4.shape)
data4

(4, 3)


Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [20]:
# 🔴 data/ex4.csv 읽기 ( 주석이 포함된 파일 읽기 )

## 🔸 파라미터1 : skiprows = [생략할 로우인덱스 번호]
pd.read_csv('data/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [21]:
## 🔸 파라미터2 : comment = '주석기호'(주석 앞에 붙인 기호, 현재 문서는 #이 붙음)
pd.read_csv('data/ex4.csv', comment="#")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## ⬛ 2. 엑셀 파일 읽기

- 기본적으로 첫번째 시트에 있는 데이터를 읽어와서 데이터 프레임으로 저장
- 모든 시트를 읽기 위해서는 sheetname 인자를 None으로 설정
    - 모든 시트의 데이터를 읽어서 사전 형태로 저장
    - key = 시트의 이름, value = 각 시트에 있는 데이터들을 저장한 데이터 프레임
- 특정 시트만 읽기 위해서는 sheetname 인자에 '시트명' 설정

### ◾ ex6.xlsx 파일

<img src="img/엑셀파일예제.jpg" alt="csv파일예제" style="width:600px;"/>

In [25]:
# 🔴 파일 읽기 (첫 번째 시트 읽어옴, 디폴트)

pd.read_excel('data/ex6.xlsx')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [26]:
# 🔴 두 번째 시트 읽기 : sheet_name = '시트명'

pd.read_excel('data/ex6.xlsx', sheet_name='시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [28]:
# 🔴 모든 시트 다 읽어오기

## 🔸 sheet_name 파라미터 설정 ; None

data = pd.read_excel('data/ex6.xlsx', sheet_name=None)
data

{'시트1':    a   b
 0  1   2
 1  5   6
 2  9  10,
 '시트2':     c   d message
 0   3   4   hello
 1   7   8   world
 2  11  12     foo}

In [29]:
## 🔸 딕셔너리라서 keys()와 values()를 사용 가능

data.keys()

dict_keys(['시트1', '시트2'])

In [30]:
data.values()

dict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])

In [34]:
## 🔸 하나씩 볼 수 있음

data['시트1']

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [35]:
data['시트2']

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [36]:
## 🔸 파이썬 특성상 ==> 시트1, 시트2의 데이터를 data1, data2 변수에 한 번에 저장하기
### 우 변의 데이터가 두 개면, 좌 변의 데이터 두 개에 따로 받을 수 있음

data1, data2 = data.values()

In [37]:
data1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [38]:
data2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo
