# Table Dataset
테이블 형태 데이터는 Pandas 패키지로 다양한 형식의 파일을 Pandas 자료구조로 읽거나 Pandas 자료구조로 작성된 데이터를 저장할 수 있다.

In [1]:
import pandas as pd

## Data Collection
$\bullet$ Series<br>
$~$ 1차원 데이터(list, tuple, set 등)를 담은 열벡터이다.<br>
```python
pd.Series(COLLECTION, name)               
o name='COL'                              column명을 'COL'로 설정
```
$\bullet$ DataFrame<br>
$~$ 2차원 데이터(dictionary, 행렬 등)을 담은 자료구조이다.
```python
pd.DataFrame(COLLECTION, index, columns)  
o index=['IDX1','IDX2',  …]              index명을 list로 선언된 값들로 설정
o columns=['COL1','COL2',  …]            column명을 list로 선언된 값들로 설정
```

In [2]:
# DataFrame의 데이터를 Dictionary로 전달할 경우 Key는 column명, Value는 Series가 된다.
import numpy as np
from random import seed, sample
seed(2021)
purchase = pd.DataFrame({'cust': sample(list(range(1000, 5000)), 10)+[4515]+sample(list(range(1000, 5000)), 4),
                         'gender': [1,3,2,2,4,3,1,4,3,4,2,2,4,3,1],
                         'product1':['가공식품']*4+['전자기기','여성신발','여성의류','화장품','화장품']+['가공식품']*3
                                    +['냉장고','TV','골프'],
                         'product2':['라면','라면','과자','과자', '노트북','구두','원피스','아이크림','립스틱',
                                     '라면','과자','과자','냉장고','TV_68','골프공'],
                         'amount':[1000,5000,1200,1200,2180000,143000,np.nan,32800,47000,2980,1200,3600,np.nan,3895000,30000],
                         'cnt':[1,1,1,2,1,1,1,1,2,1,1,3,1,1,5]})
purchase

Unnamed: 0,cust,gender,product1,product2,amount,cnt
0,4425,1,가공식품,라면,1000.0,1
1,2655,3,가공식품,라면,5000.0,1
2,4515,2,가공식품,과자,1200.0,1
3,3579,2,가공식품,과자,1200.0,2
4,3228,4,전자기기,노트북,2180000.0,1
5,2133,3,여성신발,구두,143000.0,1
6,2013,1,여성의류,원피스,,1
7,4599,4,화장품,아이크림,32800.0,1
8,3601,3,화장품,립스틱,47000.0,2
9,1141,4,가공식품,라면,2980.0,1


In [3]:
# DataFrame의 데이터를 list나 np.array로 전달할 경우 각 원소는 하나의 행이 된다.
cust = pd.DataFrame([[4515, 11, 20, '과자', 1],
                     [2013, 8, 23, '티셔츠', 1],
                     [4599, 2, 14, '아이크림', 1],
                     [3579, 4, 18, '과자', 1],
                     [4425, 12, 15, '라면', 1]], columns=['cust','birth_m', 'birth_d','product2','cnt'])
cust

Unnamed: 0,cust,birth_m,birth_d,product2,cnt
0,4515,11,20,과자,1
1,2013,8,23,티셔츠,1
2,4599,2,14,아이크림,1
3,3579,4,18,과자,1
4,4425,12,15,라면,1


In [4]:
# 선언된 DataFrame의 열을 추가할 수 있다. 단, 선언된 Series에는 아래와 같은 방법으로는 열을 추가할 수 없다. 
purchase['branch'] = pd.Series(['서울특별시','서울','서울','부산','경기','부산광역시','인천','경기',
                                  '인천광역시','서울','서울','서울','서울','부산광역시','부산광역시'])
purchase[['live','live_branch']] = pd.DataFrame([['서울_특별시',0],['서울_특별시',1],['서울_특별시',1],['서울_특별시',1],
                                                 ['경기_도',1],['부산_광역시',0],['경기_도',0],['경기_도',1],
                                                 ['서울_특별시',0],['서울_특별시',1],['서울_특별시',1],['서울_특별시',0],
                                                 ['부산_광역시',0],['부산_광역시',1],['부산_광역시',1]])
purchase

Unnamed: 0,cust,gender,product1,product2,amount,cnt,branch,live,live_branch
0,4425,1,가공식품,라면,1000.0,1,서울특별시,서울_특별시,0
1,2655,3,가공식품,라면,5000.0,1,서울,서울_특별시,1
2,4515,2,가공식품,과자,1200.0,1,서울,서울_특별시,1
3,3579,2,가공식품,과자,1200.0,2,부산,서울_특별시,1
4,3228,4,전자기기,노트북,2180000.0,1,경기,경기_도,1
5,2133,3,여성신발,구두,143000.0,1,부산광역시,부산_광역시,0
6,2013,1,여성의류,원피스,,1,인천,경기_도,0
7,4599,4,화장품,아이크림,32800.0,1,경기,경기_도,1
8,3601,3,화장품,립스틱,47000.0,2,인천광역시,서울_특별시,0
9,1141,4,가공식품,라면,2980.0,1,서울,서울_특별시,1


In [5]:
# 날짜형 Series는 pd.date_range로 쉽게 생성할 수 있다.
purchase['date'] = sample(pd.date_range('20210101','20211231', freq='D').tolist(), 15)
purchase

Unnamed: 0,cust,gender,product1,product2,amount,cnt,branch,live,live_branch,date
0,4425,1,가공식품,라면,1000.0,1,서울특별시,서울_특별시,0,2021-02-02
1,2655,3,가공식품,라면,5000.0,1,서울,서울_특별시,1,2021-06-10
2,4515,2,가공식품,과자,1200.0,1,서울,서울_특별시,1,2021-05-19
3,3579,2,가공식품,과자,1200.0,2,부산,서울_특별시,1,2021-06-01
4,3228,4,전자기기,노트북,2180000.0,1,경기,경기_도,1,2021-09-01
5,2133,3,여성신발,구두,143000.0,1,부산광역시,부산_광역시,0,2021-02-09
6,2013,1,여성의류,원피스,,1,인천,경기_도,0,2021-03-24
7,4599,4,화장품,아이크림,32800.0,1,경기,경기_도,1,2021-03-26
8,3601,3,화장품,립스틱,47000.0,2,인천광역시,서울_특별시,0,2021-01-28
9,1141,4,가공식품,라면,2980.0,1,서울,서울_특별시,1,2021-02-23


In [6]:
# 비어있는 DataFrame를 만들 수 있으며 주로 Feature Generation에서 특정 조건 만족 시 값을 입력받고 저장하는데 사용한다.
pd.DataFrame(index=[1,3,5], columns=['c1','c2'])

Unnamed: 0,c1,c2
1,,
3,,
5,,


## CSV
- File In

```python
pd.read_csv('PATH/FILENAME.csv', index_col, header, usecols, dtype, parse_dates, encoding)
o index_col='COL'                                COL열을 index로 설정            
o header='N'                                     N번째 행을 column명으로 사용
o usecols=['COL1', 'COL2', …]                   list로 선언된 열들만 불러오기                                          
o dtype={'COL1':'TYPE1', 'COL2':'TYPE2', …}     dict의 Key인 column의 dtype을 Value로 설정                             
o parse_dates=['COL1', 'COL2',  …]              list로 선언된 열들을 datetime64로 불러오기                             
o encoding='cp949'|'utf-8                        한글 데이터를 읽어오기
```
- File Out

```python
DATAFRAME.to_csv('PATH/FILENAME.csv', index, encoding)                                                 
o index=False                                    index명은 저장하지 않기                                               
o encoding='cp949'|'utf-8                        한글 데이터로 저장하기
```

## Excel
- File In

```python
pd.read_excel('PATH/FILENAME.xlsx'|'PATH/FILENAME.xls', index_col, header, usecols, dtype, parse_dates)
o index_col='COL'                                COL열을 index로 설정                           
o header='N'                                     N번째 행을 column명으로 사용
o usecols=['COL1', 'COL2', …]                   list로 선언된 열들만 불러오기                                          
o dtype={'COL1':'TYPE1', 'COL2':'TYPE2', …}     dict의 Key인 column의 dtype을 Value로 설정                             
o parse_dates=['COL1', 'COL2',  …]              list로 선언된 열들을 datetime64로 불러오기           
```
- File Out

```python
DATAFRAME.to_excel('PATH/FILENAME.xlsx'|'PATH/FILENAME.xls', index, encoding)
o index=False                                    index명은 저장하지 않기                                               
o encoding='cp949'|'utf-8                        한글 데이터로 저장하기
```  

In [7]:
# ExcelWriter를 사용해 sheet별로 데이터셋을 저장할 수 있다.
writer = pd.ExcelWriter('example/marketing.xlsx')
purchase.to_excel(writer, index=False, sheet_name= '구매내역')
cust.to_excel(writer, index=False, sheet_name= '고객정보')
writer.save()

In [8]:
# 시트별로 데이터셋이 작성된 excel 파일은 sheet_name으로 각각 읽어와야 한다.
purchase = pd.read_excel('example/marketing.xlsx', sheet_name=0)
purchase

Unnamed: 0,cust,gender,product1,product2,amount,cnt,branch,live,live_branch,date
0,4425,1,가공식품,라면,1000.0,1,서울특별시,서울_특별시,0,2021-02-02
1,2655,3,가공식품,라면,5000.0,1,서울,서울_특별시,1,2021-06-10
2,4515,2,가공식품,과자,1200.0,1,서울,서울_특별시,1,2021-05-19
3,3579,2,가공식품,과자,1200.0,2,부산,서울_특별시,1,2021-06-01
4,3228,4,전자기기,노트북,2180000.0,1,경기,경기_도,1,2021-09-01
5,2133,3,여성신발,구두,143000.0,1,부산광역시,부산_광역시,0,2021-02-09
6,2013,1,여성의류,원피스,,1,인천,경기_도,0,2021-03-24
7,4599,4,화장품,아이크림,32800.0,1,경기,경기_도,1,2021-03-26
8,3601,3,화장품,립스틱,47000.0,2,인천광역시,서울_특별시,0,2021-01-28
9,1141,4,가공식품,라면,2980.0,1,서울,서울_특별시,1,2021-02-23


## Parquet
데이터 압축과 해제에 유용하며 특정 언어에 종속되지 않는 파일로 빅데이터 관리에 강점을 갖는 파일 형식이다.
- File In

```python
pd.read_parquet('PATH/FILENAME.pqt', engine, columns)
o engine='pyarrow'                               다양한 dtype으로 구성되거나 encoding된 데이터셋을 읽기 위해 설정
  engine='fastparquet'                           간단한 데이터셋을 읽기 위해 설정
o columns=['COL1', 'COL2', …]                   list로 선언된 열들만 불러오기
```
- File Out

```python
DATAFRAME.to_parquet('PATH/FILENAME.pqt', engine, index)
o engine='pyarrow'                               다양한 dtype으로 구성되거나 encoding된 데이터셋을 읽기 위해 설정
  engine='fastparquet'                           간단한 데이터셋을 읽기 위해 설정
o index=False                                    index명은 저장하지 않기     
```

## Text
간혹 데이터셋이 txt 파일로 제공되는 경우가 있는데 이 경우는 pandas로 데이터셋을 읽되 저장은 csv, excel 등의 형식으로 저장해야 한다.
- File In

```python
pd.read_table('PATH/FILENAME.txt', index_col, header, usecols, dtype, parse_dates, encoding)
o index_col='COL'                                COL열을 index로 설정            
o header='N'                                     N번째 행을 column명으로 사용
o usecols=['COL1', 'COL2', …]                   list로 선언된 열들만 불러오기                                          
o dtype={'COL1':'TYPE1', 'COL2':'TYPE2', …}     dict의 Key인 column의 dtype을 Value로 설정                             
o parse_dates=['COL1', 'COL2',  …]              list로 선언된 열들을 datetime64로 불러오기                             
o encoding='cp949'|'utf-8                        한글 데이터를 읽어오기
```

## Tidy Attribute & Method
File을 제대로 읽어오고 적합한 dtype과 깔끔한 index/column명을 갖추는 등의 작업이 수행되어야 전처리 작업이 바르게 수행될 수 있다.<br>
또한 전처리 작업 중 의도하지 않은 변경은 없는지 파악하고
속성 변경, Data Cleansing 중 정렬, 제거로 인한 무분별한 index 수정 등 깔끔하게 작업해야 한다.

#### $\blacktriangleright$ Attribute

| Attribute | Explanation  |
|:-------|:-------------|
| SERIES\|DATAFRAME.shape &ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;  | SERIES\|DATAFRAME의 행, 열개수를 tuple로 반환한다. |
| SERIES\|DATAFRAME.index  | SERIES\|DATAFRAME의 index명을 반환한다.  |
| SERIES.name  | Series의 column명을 반환한다.  |
| DATAFRAME.columns  | DATAFRAME의 column명을 반환한다.  |
| SERIES.dtype | SERIES의 type을 출력한다. 이때, Pandas에서 문자열을 '0bject'로 간주해 '0'로 출력한다. |
| DATAFRAME.dtypes | DATAFRAME의 열별 type을 출력한다. 이때, Pandas에서 문자열을 '0bject'로 간주해 '0'로 출력한다. &ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp;&ensp; |
| COLLECTION.values | Pandas Collection이나 Attribute 반환값인 COLLECTION을 np.ndarray로 변환한다. |

$~~~~$※ index와 name|columns Attribute로 index명, column명 다시 지정할 수 있고 이때 모든 index명, column명을 다시 지정해야 한다.<br>
$~~~~~~~$ rename Method를 사용할 경우 일부 column명만 변경할 수 있으며 Method Chaining으로 다른 작업을 이어할 수 있다.
```python
   DATAFRAME.rename(columns={'COLUMN1':'NEW1', 'COLUMN2':'NEW2' …}, inplace=True)
   SERIES.rename(name='NEW', inplace=True) 
```

#### $\blacktriangleright$ Method
| Method | Explanation  |
|:-------|:-------------|
| SERIES\|DATAFRAME.head(n)  | 상위 n개 행데이터를 출력한다. |
| SERIES\|DATAFRAME.tail(n)  | 하위 n개 행데이터를 출력한다.  |
| SERIES\|DATAFRAME.sample(n\|frac, random_state) | random_state로 난수를 설정해 무작위로 n개의 행데이터 또는 frac($0 <$ frac $< 1$)비율의 행데이터를 추출한다.|
| COLLECTION.tolist() | 1차원 COLLECTION을 list로 변환한다. |
| SERIES\|DATAFRAME.info()  | 데이터 개수, dtypes, 결측치 등의 기본 정보를 출력한다.  |
| SERIES\|DATAFRAME.describe(include)  | 데이터의 대표적인 통계값(빈도, 평균, 분위수 등)을 출력한다.<br>o include='object' &ensp;&ensp;범주형 데이터의 빈도, 고유값, 최빈값과 최빈값의 빈도 출력  |
| SERIES\|DATAFRAME.copy() | SERIES\|DATAFRAME의 가변성을 고려해 데이터는 같으나 독립적인 SERIES\|DATAFRAME을 반환한다. |
| SERIES\|DATAFRAME.reset_index(drop)<br> | SERIES\|DATAFRAME의 index를 열로 생성하고 0부터 1씩 커지는 정수를 index로 부여한다.<br> o drop=True &ensp;&ensp;&ensp;&ensp;&ensp;&ensp; 기존의 index를 열로 생성하지 않고 새로운 index만 부여한다. |
| SERIES.astype('DTYPE')<br>DATAFRAME.astype({'COL1':'DTYPE1',  …}<br><br>        | SERIES의 dtype을 'DTYPE'으로 변경한다.<br> DATAFRAME 내 dictionary의 key에 위치한 column의 dtype을 대응되는 value로 변경한다.<br> ※ 원본에 반영하기 위해선 다시 선언해줘야 한다.

In [9]:
# Pandas가 Numpy 패키지를 기반으로 하기에 np.ndarray로 반환하거나 Numpy로부터 상속되는 Attribute, Method를 사용할 수 있다.
# 1)COLLECTION.values : Pandas 내에서 사용하는 COLLECTION을 np.ndarray로 반환한다.
print(f'{type(purchase.index)} -> {type(purchase.index.values)}')

# 2)SERIES|DATAFRAME.tolist() : SERIES|DATAFRAME을 list로 반환한다.
print(f'{type(purchase.cust)} -> {type(purchase.cust.tolist())}')

<class 'pandas.core.indexes.range.RangeIndex'> -> <class 'numpy.ndarray'>
<class 'pandas.core.series.Series'> -> <class 'list'>


In [10]:
# shape는 indexing하여 행이나 열의 개수만 출력하기도 하며 데이터 상태 확인, 반복문의 종료조건 등으로 활용한다.
print('행의 개수:', purchase.shape[0])
print('열의 개수:', purchase.shape[1])

행의 개수: 15
열의 개수: 10


In [11]:
# Method를 사용할 경우 Method Chaning으로 짧고 간결하게 연이어 작업할 수 있다는 장점이 있다.
# 방법 1) rename Method으로 변경한다.
print('Use Method Chaining:', purchase.rename(columns={'cust':'cust_id','product1':'중분류명','product2':'소분류명'})['중분류명'].dtype)

# 방법 2) tolist Method로 list 반환 후 indexing&slicing하여 변경한다.
purchase.columns = ['cust_id'] + purchase.columns.tolist()[1:-4] + ['중분류명','소분류명'] + purchase.columns.tolist()[-2:]
print('Use Attribute:', purchase.중분류명.dtype)

Use Method Chaining: object
Use Attribute: object


In [12]:
# sample Method로 전체 데이터 중 일부를 데이터 정렬 순서에 국한되지 않고 random하게 볼 수 있다.
# sample Method를 사용해 무작위 표본추출을 수행할 수도 있다.
purchase.sample(frac = 0.3)

Unnamed: 0,cust_id,gender,product1,product2,amount,cnt,중분류명,소분류명,live_branch,date
1,2655,3,가공식품,라면,5000.0,1,서울,서울_특별시,1,2021-06-10
7,4599,4,화장품,아이크림,32800.0,1,경기,경기_도,1,2021-03-26
9,1141,4,가공식품,라면,2980.0,1,서울,서울_특별시,1,2021-02-23
4,3228,4,전자기기,노트북,2180000.0,1,경기,경기_도,1,2021-09-01


In [13]:
# memory_usage='deep'으로 설정되어있어야 object 열의 memory까지 계산된다.
purchase.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   cust_id      15 non-null     int64         
 1   gender       15 non-null     int64         
 2   product1     15 non-null     object        
 3   product2     15 non-null     object        
 4   amount       13 non-null     float64       
 5   cnt          15 non-null     int64         
 6   중분류명         15 non-null     object        
 7   소분류명         15 non-null     object        
 8   live_branch  15 non-null     int64         
 9   date         15 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(4), object(4)
memory usage: 6.0 KB


In [14]:
# percentiles = [P1, P2, ...]로 각 분위수 값을 알 수 있다.
purchase.describe(percentiles = [i for i in np.arange(0.1, 1, 0.1)])

Unnamed: 0,cust_id,gender,amount,cnt,live_branch
count,15.0,15.0,13.0,15.0,15.0
mean,3366.6,2.6,487998.5,1.533333,0.6
std,1112.290481,1.121224,1185055.0,1.125463,0.507093
min,1141.0,1.0,1000.0,1.0,0.0
10%,2061.0,1.0,1200.0,1.0,0.0
20%,2550.6,1.8,1200.0,1.0,0.0
30%,2840.8,2.0,2268.0,1.0,0.0
40%,3112.8,2.0,3476.0,1.0,0.6
50%,3352.0,3.0,5000.0,1.0,1.0
60%,3587.8,3.0,30560.0,1.0,1.0


In [15]:
# 데이터분석을 수행하기 위해선 데이터가 측정척도, 자료 유형에 맞는 dtype을 갖고 있어야 한다.
purchase = purchase.astype({'gender':'category'})     # str,'i','f' ...
print('dtype 변경:', purchase.gender.dtype)

# astype은 column 생성을 위해 일시적으로 사용되기도 한다.
purchase['gender_bool'] = purchase['gender'].astype('i').apply(lambda x: 0 if x%2==0 else 1)

dtype 변경: category


## Text Dataset
텍스트데이터분석을 수행할 데이터는 내용만 제공되곤 한다. Python 내장함수인 open으로 읽고 수집한 데이터는 write으로 저장한다.
- File In

```python
MODE를 읽기가 목적이면 'r', 읽기와 작성이라면 'r+'로 한다.

    with open('PATH/FILENAME.txt', MODE) as f:
        # 파일의 모든 내용을 불러온다.
        f.read()STATEMENTS
        # 위치표시자가 있는 줄을 읽는다.
        f.readline()
        # 문장을 요소로 하여 모든 문장을 list로 반환한다. 
        f.readlines()
```

- File Out

```python
MODE를 작성이라면 'w', 추가작성이면 'a'로 한다.

    with open('PATH/FILENAME.txt', MODE) as f:
        # 'CONTENT'를 작성한다.
        f.write('CONTENT')
        # list의 요소들을 한 문자열로 합쳐 한 줄로 작성한다.
        f.writelines(['CONTENT1', 'CONTENT2', ...])
```

In [16]:
# writelines()의 list의 한 요소를 한 문장으로 작성하고 싶다면 \n을 붙여주어야 한다.
with open('example/text.txt', 'w') as f:
    f.writelines([f'{i}번째 줄 문장입니다. \n' for i in range(1,11)])

In [17]:
# os 패키지로 w 모드 시 기존 파일을 초기화하는 문제를 예방할 수 있다.
import os.path 

if os.path.isfile('example/text.txt'):
    with open('example/text.txt', 'a') as f:
        f.write('추가 문장입니다.')
else:
    with open('example/text.txt', 'w') as f:
        f.write('첫 문장입니다.')    

with open('example/text.txt') as f:
    print(f.read())

1번째 줄 문장입니다. 
2번째 줄 문장입니다. 
3번째 줄 문장입니다. 
4번째 줄 문장입니다. 
5번째 줄 문장입니다. 
6번째 줄 문장입니다. 
7번째 줄 문장입니다. 
8번째 줄 문장입니다. 
9번째 줄 문장입니다. 
10번째 줄 문장입니다. 
추가 문장입니다.


## ※ Pickle
$~~~~$ Binary File로 동시에 여러 변수와 자료구조를 저장할 수 있어 다 하지 못한 작업물을 관리하기 용이하다.
- File In

```python
pickle.dump(VARIABLE, open('PATH/FILENAME.pkl', 'wb'))
```
- File Out

```python
pickle.load(open('PATH/FILENAME.pkl', 'rb'))
```

In [18]:
import pickle

In [19]:
# 여러 변수를 저장한 경우 불러올 때 같은 개수의 변수를 선언해야 한다.
pickle.dump((pd.Timestamp.now(), purchase, cust), open('example/marketing.pkl', 'wb'))

last_revise_date, purchase, cust = pickle.load(open('example/marketing.pkl','rb'))
cust

Unnamed: 0,cust,birth_m,birth_d,product2,cnt
0,4515,11,20,과자,1
1,2013,8,23,티셔츠,1
2,4599,2,14,아이크림,1
3,3579,4,18,과자,1
4,4425,12,15,라면,1
