# Pandas Data Loading 판다스 데이터 적재

## 1. `*.csv` file reading

- `pd.read_csv('file path')`

    1. columns name이 존재하는 data
    
    2. columns name이 없는 data
    
    3. separator 설정
    
    4. 주석(comment)이 있는 data

In [4]:
import pandas as pd

- 절대경로(Absolute path)

    - An absolute path is defined as the specifying the location of a file or directory from the root directory(/).
    
- 상대경로(Relative path)

    - Relative path is defined as the path related to the present working directly(pwd).   
    It starts at your current directory and never starts with a / .

### 1.1. columns name이 존재하는 data

- `pd.reas_csv('file path') 기본 동작: 첫 row data를 columns로 사용

In [3]:
ex1_data = pd.read_csv('data/ex1.csv')

ex1_data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


<br>

### 1.2. columns name이 없는 data

- `pd.read_csv()`: optinal parameter `header=None`: 첫 row data를 columns로 사용 X

In [5]:
ex2_data = pd.read_csv('data/ex2.csv', header=None)

ex2_data

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


<br>

- columns name 'a', 'b', 'c', 'd', 'e' 부여

In [6]:
ex2_data.columns = list('abcde')

ex2_data

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


<br>

### 1.3. 구분자(separator) 설정

- default separator: `,`(comma)

- `pd.read_csv('file path')`: optional parameter `sep='separator'`: 구분자 설정

In [7]:
ex3_data = pd.read_csv('data/ex3.csv')

print(ex3_data.shape)
ex3_data

(4, 1)


Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


<br>

- default separator `,`(comma)가 아닌 문자를 separator로 data 처리

- `,`, ` `, `\t`, `\`, `/`: white space > 전부 `\s+` 정규표현식으로 처리 가능

In [8]:
ex3_new = pd.read_csv('data/ex3.csv', sep='\s+')

ex3_new

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


<br>

### 1.4. 주석(comment)이 포함된 data

- optional parameter

    1. `skiprows`
    
    2. `comment`

In [10]:
pd.read_csv('data/ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


<br>

- optional parameter: `skiprows=[skip할 row index 번호 list]`

In [12]:
pd.read_csv('data/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


<br>

- optional parameter: `comment='comment symbol'`

In [13]:
pd.read_csv('data/ex4.csv', comment='#')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## 2. `*.xlsx` file reading

- `pd.read_excel('file path')

- Basic Logic: first sheet에 있는 data를 읽어와서 `DataFrame`으로 저장

- To read all of sheets, optional parameter `sheet_name=None` setting

    - all of sheets를 읽어서 `dict`의 형식으로 저장

    - `key`: sheet의 이름, `value`: 각 sheet에 있는 data들을 저장한 `DataFrame`
    
- To read specific sheet, `sheet_name='sheet_name'` setting

### 2.1. 여러 시트 읽기

- `ex6.xlsx` file

<img src="img/엑셀파일예제.jpg" alt="csv파일예제" style="width: 600px;"/>

In [28]:
# 파일 default 읽기 > 첫 번째 sheet만 읽어 옴

pd.read_excel('data/ex6.xlsx')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [29]:
# 두 번째 sheet 읽기: option param `sheet_name='sheet name'`

pd.read_excel('data/ex6.xlsx', sheet_name='시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [31]:
# 모든 sheet reading
# option param: `sheet_name=None`

ex6_data = pd.read_excel('data/ex6.xlsx', sheet_name=None)

ex6_data

{'시트1':    a   b
 0  1   2
 1  5   6
 2  9  10,
 '시트2':     c   d message
 0   3   4   hello
 1   7   8   world
 2  11  12     foo}

In [32]:
# 읽어 온 data_type=dict

print(type(ex6_data))

print(ex6_data.keys())

print(ex6_data.values())

<class 'dict'>
dict_keys(['시트1', '시트2'])
dict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])


In [35]:
# '시트1', '시트2'의 data를 각각 변수에 저장하기
sheet1, sheet2 = ex6_data.values()

sheet1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [36]:
sheet2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [46]:
pd.DataFrame(sheet1.merge(sheet2, axis=1))

TypeError: merge() got an unexpected keyword argument 'axis'