## CHAPTER1. TEXT,CSV 파일 불러오기 : <span style='background-color: #f1f8ff'><b>pd.read_csv()</b></span>

### csv 파일 불러오기 : read_csv()

In [10]:
import pandas as pd
import numpy as np

In [None]:
csv_test = pd.read_csv('C:/Users/Administrator/Documents/Python/test_csv_file.csv')

### 구분자 '|' 인 text 파일 불러오기 : sep='|'


In [None]:
text_test = pd.read_csv('C:/Users/Administrator/Documents/Python/test_text_file.txt', sep='|')

구분자가 tab이라면 <span style='background-color: #f1f8ff'><b> sep = '\t'</b></span>를 입력

### 파일불러올 때 index 지정해주기: <b>index_col</b>

In [None]:
pd.read_csv('C:/Users/Administrator/Documents/Python/test_text_file.txt', sep='|', index_col=0)
#index_col = 'ID' 로 지정해주어도 된다.

### 변수 이름 (Colnumn, name, header)이 없는 파일 불러올 때 이름 부여하기: <b>names=['x1', 'x2', ... ], header = None </b>

In [None]:
pd.read_csv('C:/Users/Administrator/Documents/Python/text_without_column_name.txt', sep='|', names=['ID', 'A', 'B', 'C', 'D'], header=None, index_col='ID')


### 5. 유니코드 디코드 에러, UnicodeDecodeError: 'utf-8' codec can't decode byte

불러오려는 text, csv 파일의 encoding 설정과 Python encoding 설정이 서로 맞지 않으면 UnicodeDecodeError 가 발생합니다.  한글은 보통 'utf-8' 을 많이 사용하는데요, 만약 아래처럼 'utf-8' 코덱을 decode 할 수 없다고 에러 메시지가 나오는 경우가 있습니다

<span style="color: red">UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte </span>



In [None]:
f = pd.read_csv('directory/file', sep='|'', encoding='CP949')

### 특정 줄은 제외하고 불러오기: <span style='background-color: #f1f8ff'><b> skiprows = [x,x]</b></span>

In [None]:
# skip 1st and 2nd rows (do not read 1, 2 rows)
csv_2 = pd.read_csv("C:/Users/admin/Documents/data/test_csv_file.csv", 
                           skiprows = [1, 2])  

### n 개의 행만 불러오기 :  <span style='background-color: #f1f8ff'><b> nrows = n</b></span>

In [None]:
# read top 3 rows only

csv_3 = pd.read_csv("C:/Users/admin/Documents/data/test_csv_file.csv", 
                    nrows = 3)

### 사용자 정의 결측값 기호
+ 불러오려는 데이터셋 파일에 다양한 모양, 기호의 결측값이 들어있을 수 있습니다.
+ 이때 사용자 정의 결측값 기호를 표기해줌으로써 이들 특정 기호를 pandas가 결측값으로 인식할 수 있도록 해줍니다.
+ 가령  어떤 문서에 숫자형 변수에 결측값이 '??'라는 표시로 입력이 되어있다고 한다면, 이를 pandas DataFrame으로 불러읽어들였을 경우 float나 int로 인식되어 불러오는 것이 아니라 string으로 인식해서 '??'를 결측값이 아니라 문자형으로 불러오게 됩니다.
+ 이럴 경우 '??'를 결측값이라고 인식하라고 알려주는 역할이 <b>na_values = ['??']</b> 옵션입니다. 



In [None]:
df = pd.read_csv('C:/Users/Administrator/Documents/Python/test_text_file.txt', 
                             na_values = ['?', '??', 'N/A', 'NA', 'nan', 'NaN', '-nan', '-NaN', 'null')

### 데이터 유형  설정
+ dtpye 옵션으로 사전형(dictionary)으로 각 칼럼(key) 별 데이터 유형(value)를 짝을 지어서 명시적으로 설정해 줄 수 있습니다. 

In [None]:
df = pd.read_csv('C:/Users/Administrator/Documents/Python/test_text_file.txt',
                            dtype = {"ID": int, 
                                          "LAST_NAME": str, 
                                          "AGE": float}
                            )

## DataFrame을 csv 파일로 내보내기 : df.to_csv()

In [7]:
data = {'ID': ['A1', 'A2', 'A3', 'A4', 'A5'],
        'X1': [1, 2, 3, 4, 5],
         'X2': [3.0, 4.5, 3.2, 4.0, 3.5]}
data_df  = pd.DataFrame(data, index= ['a','b','c','d','e'])
data_df

Unnamed: 0,ID,X1,X2
a,A1,1,3.0
b,A2,2,4.5
c,A3,3,3.2
d,A4,4,4.0
e,A5,5,3.5


결측값(Missing Value)을 csv 파일로 내보낼 때 표기 지정하는 매개변수 설명을 위해서, 제일 마지막 행(row)에 결측값을 추가해보겠습니다.

In [8]:
data_df_2 = data_df.reindex(['a', 'b', 'c', 'd', 'e', 'f'])
data_df_2

Unnamed: 0,ID,X1,X2
a,A1,1.0,3.0
b,A2,2.0,4.5
c,A3,3.0,3.2
d,A4,4.0,4.0
e,A5,5.0,3.5
f,,,


In [None]:
data_df_2.to_csv('C:\\Documents\\Python\\data_df_2.csv', # file path, file name
                 sep=',',   # seperator, delimiter (구분자)
                na_rep='NaN')   # missing data representation (결측값 표기)

```python
header = True (첫번째 줄을 칼럼 이름으로 사용)
columns = 특정 칼럼만 csv 로 쓰기 (내보내기) 할 때 칼럼 이름을 list에 적어줌
index = True (행의 이름 index 도 같이 내보냄. index 내보내기 싫으면 False 명기)
float_format = '%.2f' (예: float8 을 소수점 둘째 자리까지 표기)
encoding = 'utf-8' (on Python 3)
line_terminator = '\n' (엔터로 줄 바꿈)
date_format = None (datetime 객체에 대한 format 설정하지 않음)
````


        

## pd.DataFrame 만들고 Attributes 조회하기

### pands DataFrame 만들기

<b>Data Frame 파라미터</b>
+ (1-1) data : numpy ndarray, dict, DataFrame 등의 data source
+ (1-2) index : 행(row) 이름, 만약 명기하지 않으면 np.arange(n)이 자동으로 할당 됨
+ (1-3) column : 열(column) 이름, 만약 명기하지 않으면 역시 np.arnage(n)이 자동으로 할당 됨
+ (1-4) dtype : 데이터 형태(type), 만약 지정하지 않으면 Python이 자동으로 추정해서 넣어줌
+ (1-5) copy : 입력 데이터를 복사할지 지정. 디폴트는 False 임. (복사할 거 아니면 메모리 관리 차원에서 디폴트인 False 설정 사용하면 됨)


In [12]:
df_1 = pd.DataFrame(data=np.arange(12).reshape(3, 4),
                    index=['r0', 'r1', 'r2'], # Will default to np.arange(n) if no indexing
                    columns=['c0', 'c1', 'c2', 'c3'],
                    dtype='int', # Data type to force, otherwise infer
                    copy=False) # Copy data from inputs
df_1

Unnamed: 0,c0,c1,c2,c3
r0,0,1,2,3
r1,4,5,6,7
r2,8,9,10,11


### DataFrame의 Attributes 조회하기

<span style='background-color: #fff5b1'><b>행과 열의 전치 (transpose)</b></span>

In [13]:
df_1.T

Unnamed: 0,r0,r1,r2
c0,0,4,8
c1,1,5,9
c2,2,6,10
c3,3,7,11


<span style='background-color: #fff5b1'><b>행과 열 이름을 리스트로 반환</b></span>

In [15]:
df_1.axes

[Index(['r0', 'r1', 'r2'], dtype='object'),
 Index(['c0', 'c1', 'c2', 'c3'], dtype='object')]

<span style='background-color: #fff5b1'><b>dtypes: 데이터 형태 반환</b></span>

In [17]:
df_1.dtypes

c0    int32
c1    int32
c2    int32
c3    int32
dtype: object

<span style='background-color: #fff5b1'><b>행과 열의 개수(차원)을 튜플로 반환</b></span>

In [19]:
df_1.shape

(3, 4)

<span style='background-color: #fff5b1'><b>NDFrame의 원소의 개수를 반환</b></span>

In [21]:
df_1.size

12

<span style='background-color: #fff5b1'><b>values: NDFrame의 원소를 numpy형태로 반환</b></span>

In [22]:
 df_1.values

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

## DataFrame의 행 또는 열 데이터 선택해서 가져오기 (DataFrame objects indexing and selection)



In [23]:
df_2 = pd.DataFrame({
    'class_1' : ['a', 'a', 'b', 'b', 'c'],
    'var_1': np.arange(5),
    'var_2': np.random.rand(5)}, index=['r0', 'r1', 'r2', 'r3', 'r4'])
df_2

Unnamed: 0,class_1,var_1,var_2
r0,a,0,0.2456
r1,a,1,0.281207
r2,b,2,0.496406
r3,b,3,0.180524
r4,c,4,0.576114


### 행 기준으로 선택해서 가져오기

In [24]:
df_2.index

Index(['r0', 'r1', 'r2', 'r3', 'r4'], dtype='object')

In [25]:
df_2.iloc[2:]

Unnamed: 0,class_1,var_1,var_2
r2,b,2,0.496406
r3,b,3,0.180524
r4,c,4,0.576114


In [27]:
df_2.iloc[2]

class_1           b
var_1             2
var_2      0.496406
Name: r2, dtype: object

In [30]:
df_2.loc['r2']

class_1           b
var_1             2
var_2      0.496406
Name: r2, dtype: object

In [32]:
df_2.head(2)

Unnamed: 0,class_1,var_1,var_2
r0,a,0,0.2456
r1,a,1,0.281207


In [33]:
df_2.tail(2)

Unnamed: 0,class_1,var_1,var_2
r3,b,3,0.180524
r4,c,4,0.576114


### 열 기준으로 선택해서 가져오기

In [36]:
df_2.columns

Index(['class_1', 'var_1', 'var_2'], dtype='object')

In [37]:
df_2['class_1']

r0    a
r1    a
r2    b
r3    b
r4    c
Name: class_1, dtype: object

두 개 이상의 열을 가져오고 싶을 때는 튜플을 사용!

In [38]:
df_2[['class_1', 'var_1']]

Unnamed: 0,class_1,var_1
r0,a,0
r1,a,1
r2,b,2
r3,b,3
r4,c,4


## DataFrame의 index 재설정(reindex)와 결측값  채우기

In [41]:
idx = ['r0', 'r1', 'r2', 'r3', 'r4']
df_3 = pd.DataFrame({
        'c1': np.arange(5),
        'c2': np.random.randn(5)},
        index=idx)
df_3

Unnamed: 0,c1,c2
r0,0,0.236344
r1,1,0.964089
r2,2,0.019205
r3,3,0.083136
r4,4,-0.177827


### index 재설정하기 : <span style='background-color: #f1f8ff'><b>reindex</b></span>

In [44]:
new_idx= ['r0', 'r1', 'r2', 'r5', 'r6']

In [47]:
df_3.reindex(new_idx)

Unnamed: 0,c1,c2
r0,0.0,0.236344
r1,1.0,0.964089
r2,2.0,0.019205
r5,,
r6,,


### reindex과정에서 생긴 결측값 채우기 :  <span style='background-color: #f1f8ff'><b>fill_value</b></span>

In [48]:
df_3.reindex(new_idx, fill_value = 0)

Unnamed: 0,c1,c2
r0,0,0.236344
r1,1,0.964089
r2,2,0.019205
r5,0,0.0
r6,0,0.0


In [49]:
df_3.reindex(new_idx, fill_value = 'missing')

Unnamed: 0,c1,c2
r0,0,0.236344
r1,1,0.964089
r2,2,0.019205
r5,missing,missing
r6,missing,missing


In [51]:
df_3.reindex(new_idx, fill_value = 'NA')

Unnamed: 0,c1,c2
r0,0.0,0.236344
r1,1.0,0.964089
r2,2.0,0.019205
r5,,
r6,,


### 시계열 데이터 만들기:  <span style='background-color: #f1f8ff'><b>pd.date_range(date, periods, freq)</b></span>

In [53]:
date_idx = pd.date_range('11/27/2016', periods = 5, freq='D')
date_idx

DatetimeIndex(['2016-11-27', '2016-11-28', '2016-11-29', '2016-11-30',
               '2016-12-01'],
              dtype='datetime64[ns]', freq='D')

In [54]:
df_4 = pd.DataFrame({"c1": [10, 20, 30, 40,50]}, index=date_idx)
df_4

Unnamed: 0,c1
2016-11-27,10
2016-11-28,20
2016-11-29,30
2016-11-30,40
2016-12-01,50


위에서 만든 시계열 데이터 DataFrame 의 date 앞/뒤로 reindex 를 사용해서 날짜 몇 개를 새로 추가해보겠습니다.

In [55]:
date_idx_2 = pd.date_range('11/25/2016', periods=10, freq='D')

In [56]:
df_4.reindex(date_idx_2)

Unnamed: 0,c1
2016-11-25,
2016-11-26,
2016-11-27,10.0
2016-11-28,20.0
2016-11-29,30.0
2016-11-30,40.0
2016-12-01,50.0
2016-12-02,
2016-12-03,
2016-12-04,


### 시계열 데이터 reindex 과정에서 생긴 결측값 채우기:  <span style='background-color: #f1f8ff'><b> method = 'ffill','bfill </b></span>

In [57]:
df_4.reindex(date_idx_2, method='ffill')
#ffill을 사용해서 결측값 직전의 값으로 이후 결측값을 채움

Unnamed: 0,c1
2016-11-25,
2016-11-26,
2016-11-27,10.0
2016-11-28,20.0
2016-11-29,30.0
2016-11-30,40.0
2016-12-01,50.0
2016-12-02,50.0
2016-12-03,50.0
2016-12-04,50.0


In [58]:
df_4.reindex(date_idx_2, method='bfill')
#bfill을 사용하면 시간의 뒷 순서의 결측값으로 이전 결측값을 채움

Unnamed: 0,c1
2016-11-25,10.0
2016-11-26,10.0
2016-11-27,10.0
2016-11-28,20.0
2016-11-29,30.0
2016-11-30,40.0
2016-12-01,50.0
2016-12-02,
2016-12-03,
2016-12-04,
