# Pandas Data Loading 판다스 데이터 적재

## 1. `*.csv`file reading

- `pd.read_csv()`

    1. 컬럼명이 존재하는 데이터
    
    2. 컬럼명이 없는 데이터
    
    3. 구분자 설정
    
    4. 주석(comment)이 있는 data

In [1]:
import pandas as pd

- 절대경로

    - An absolute path is defined as the specifying the location of a file or directory from the root directory(/).
    
- 상대경로

    - Relative path is defined as the path related to the present working directly(pwd).   
    It starts at your current directory and never starts with a / .

In [10]:
# 1. columns name이 존재하는 data
# data: ex1.csv파일 읽기(column name이 존재하는 data)
# `pd.read_csv(path)` 기본 동작: 첫 row data를 columns로 사용

ex1_data = pd.read_csv('data/ex1.csv')

ex1_data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [16]:
# 2. columns name이 없는 data
# data: ex2.csv 읽기 (columns name이 존재하지 않는 data)
# `pd.reas_csv(path): option `header=None` > 첫 row data를 columns로 사용하지 않음

ex2_data = pd.read_csv('data/ex2.csv', header=None)
ex2_data

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [17]:
ex2_default_data = pd.read_csv('data/ex2.csv')
ex2_default_data

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [21]:
# columns name: a, b, c, d, e > ex2_data 입력

ex2_data.columns = list("abcde")

ex2_data

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [22]:
# 3. 구분자(separator) 설정
# data: ex3.csv
# default separator: ,(comma)
# `pd.read_csv(path)` > option `sep="sep"`

ex3_data = pd.read_csv('data/ex3.csv')

ex3_data

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [24]:
# ,(comma)가 아닌 '문자'(=)를 구분자로 사용하는 data 처리
# 구분자: `,`, ` `, `\t`, `/` : white space > `\s+`: 정규표현식으로 처리 가능
pd.read_csv('data\ex3.csv', sep="\s+")

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [25]:
# 4. 주석이 포함된 data
# data: ex4.csv > 주석이 포함된 파일
# option1: `skiprows=[주석처리(무시) 할 row index들]`

pd.read_csv('data/ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [26]:
pd.read_csv('data/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [27]:
# option2: `comment='주석 기호'` > 주석 유도시 사용한 주석 시작기호 입력

pd.read_csv('data/ex4.csv', comment='#')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## 2. `*.xlsx` file reading

- 기본적으로 첫번째 시트에 있는 데이터를 읽어와서 데이터프레임으로 저장
- 모든 시트를 읽기 위해서는 sheetname 인자를 None으로 설정
    - 모든 시트의 데이터를 읽어서 사전 형태로 저장
    - key = 시트의 이름, value = 각 시트에 있는 데이터들을 저장한 데이터프레임
- 특정 시트만 읽기 위해서는 sheetname 인자에 '시트명' 설정


### 2.1. 여러 시트 읽기

- `ex6.xlsx` file

<img src="img/엑셀파일예제.jpg" alt="csv파일예제" style="width: 600px;"/>

In [28]:
# 파일 default 읽기 > 첫 번째 sheet만 읽어 옴

pd.read_excel('data/ex6.xlsx')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [29]:
# 두 번째 sheet 읽기: option param `sheet_name='sheet name'`

pd.read_excel('data/ex6.xlsx', sheet_name='시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [31]:
# 모든 sheet reading
# option param: `sheet_name=None`

ex6_data = pd.read_excel('data/ex6.xlsx', sheet_name=None)

ex6_data

{'시트1':    a   b
 0  1   2
 1  5   6
 2  9  10,
 '시트2':     c   d message
 0   3   4   hello
 1   7   8   world
 2  11  12     foo}

In [32]:
# 읽어 온 data_type=dict

print(type(ex6_data))

print(ex6_data.keys())

print(ex6_data.values())

<class 'dict'>
dict_keys(['시트1', '시트2'])
dict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])


In [35]:
# '시트1', '시트2'의 data를 각각 변수에 저장하기
sheet1, sheet2 = ex6_data.values()

sheet1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [36]:
sheet2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo
