
# Pandas
---
> 파이썬의 데이터 구조 셋은 이미 잘갖추어져 있지만, pandas 모듈은 여기에 두가지 컨테이너인 Series와 DataFrame을 추가한다.
- 시리즈는 레이블이 붙은 1차원 벡터다.
- 프레임은 레이블이 붙은 행과 열로 구성된 테이블이다.
- 프레임의 각 열은 시리즈다. 몇 가지 예외를 제외하면 pandas는 프레임을 시리즈와 유사하게 취급한다
- 프레임과 시리즈는 다음과 같이 다양한 데이터 전처리함수를 가진다.
        - 단순 혹은계층적 인덱싱
        - 결측치 처리
        - 전체 열과 테이블에서 사칙 ,논리 연산
        - 데이터 베이스 - 타입연산 (결합이나 집계 등)
        - 단일 열이나 전체 테이블 시각화
        - 파일에서 데이터 읽고 쓰기


## 시리즈 : 1차원 벡터
---

In [2]:
import pandas as pd

series = pd.Series((2,3,2,6,4,1,2,3,45,1,2,3,4,2,-1,-2,))
print(len(series))
print(series)

16
0      2
1      3
2      2
3      6
4      4
5      1
6      2
7      3
8     45
9      1
10     2
11     3
12     4
13     2
14    -1
15    -2
dtype: int64


## 시리즈의 인덱스는 정수형이 기본값이다.
---

In [3]:
series.index.values

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15],
      dtype=int64)

## 프레임 
---
>레이블이 붙은 행과 열로 구성된 테이블
- 데이터 프레임은 2차원 numpy 배열, 튜플로 구성된 리스트,파이썬 딕셔너리  
  와 또 다른 데이터 프레임으로 생성 가능

In [5]:
import pandas as pd
alco2009 = pd.read_csv('./2020-08/excel/niaaa-report2009.csv',index_col="State")
alco2009.head()

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,1.2,0.22,0.58
Alaska,1.31,0.54,1.16
Arizona,1.19,0.38,0.74
Arkansas,1.07,0.17,0.6
California,1.05,0.55,0.73


## 데이터 모양 바꾸기
---

- reset_index()와 set_index(column) 함수는 기존 인덱스를 떼어 내거나 새로운 인덱스를 만든다  
- 옵셔널 파라미터 inplace = True가 주어미녀 기존 데이터 프레임 자체를 수정한다

In [7]:
alco2009.reset_index().head()

Unnamed: 0,State,Beer,Wine,Spirits
0,Alabama,1.2,0.22,0.58
1,Alaska,1.31,0.54,1.16
2,Arizona,1.19,0.38,0.74
3,Arkansas,1.07,0.17,0.6
4,California,1.05,0.55,0.73


In [8]:
alco2009.reset_index().set_index("Beer").head()

Unnamed: 0_level_0,State,Wine,Spirits
Beer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1.2,Alabama,0.22,0.58
1.31,Alaska,0.54,1.16
1.19,Arizona,0.38,0.74
1.07,Arkansas,0.17,0.6
1.05,California,0.55,0.73


## 재인덱싱 
> 기존 데이터 프레임과 시리즈에서 행이나 열,행과 열을 추려서 새 데이터 프레임이나 시리즈를 생성한다

In [9]:
s_states = [state for state in alco2009.index if state[0]=='S']+["Samoa"]
print(s_states)

drinks = list(alco2009.columns)+['Water']
print(drinks)
nan_alco = alco2009.reindex(s_states, columns = drinks)
nan_alco

['South Carolina', 'South Dakota', 'Samoa']
['Beer', 'Wine', 'Spirits', 'Water']


Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,,


## 스태킹과 피보팅
---
> 열 이름을 계층화 하는 대신 멀티인덱스의 전체 혹은 일부를 평평하게 할 수도 있다.
반대로 인덱스를 계층화 하는 대신 다층으로 구성된 열이름의 전체나 일부를 평평하게 할 수도 있다. 

- stack() 함수는 인덱스의 레벨 개수를 증가시키는 동시에 열 이름의 레벨 개수를 감소 시킨다**
- unstack() 함수는 인덱스 레벨 개수를 낮추고 열 이름의 레벨 개수를 높인다.
- pivot(index,columns,values) 함수는 기존 데이터 프레임을 새로운 데이터 프레임으로 변환.  

 **그 과정에서 index로 넘기는열을 새로운 인덱스로 사용하고 ,columns를 새로운 열 이름 리스로 사용하며 values 에 해당하는 열은 데이터 프레임을 채우는 데이터로 사용한다.**

In [12]:
alco = pd.read_csv("./2020-08/excel/niaaa-report.csv",index_col=["State","Year"])
alco

Unnamed: 0_level_0,Unnamed: 1_level_0,Beer,Wine,Spirits
State,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1977,0.99,0.13,0.84
Alabama,1978,0.98,0.12,0.88
Alabama,1979,0.98,0.12,0.84
Alabama,1980,0.96,0.16,0.74
Alabama,1981,1.00,0.19,0.73
...,...,...,...,...
Wyoming,2005,1.21,0.23,0.97
Wyoming,2006,1.47,0.23,1.05
Wyoming,2007,1.49,0.23,1.10
Wyoming,2008,1.54,0.23,1.12


In [13]:
#스태킹
print(alco)
tall_alco=alco.stack()
print(tall_alco)

              Beer  Wine  Spirits
State   Year                     
Alabama 1977  0.99  0.13     0.84
        1978  0.98  0.12     0.88
        1979  0.98  0.12     0.84
        1980  0.96  0.16     0.74
        1981  1.00  0.19     0.73
...            ...   ...      ...
Wyoming 2005  1.21  0.23     0.97
        2006  1.47  0.23     1.05
        2007  1.49  0.23     1.10
        2008  1.54  0.23     1.12
        2009  1.45  0.22     1.10

[1683 rows x 3 columns]
State    Year         
Alabama  1977  Beer       0.99
               Wine       0.13
               Spirits    0.84
         1978  Beer       0.98
               Wine       0.12
                          ... 
Wyoming  2008  Wine       0.23
               Spirits    1.12
         2009  Beer       1.45
               Wine       0.22
               Spirits    1.10
Length: 5049, dtype: float64


In [14]:
#언스태킹
print(alco.head())
wide_alco = alco.unstack()
print(wide_alco.head())

              Beer  Wine  Spirits
State   Year                     
Alabama 1977  0.99  0.13     0.84
        1978  0.98  0.12     0.88
        1979  0.98  0.12     0.84
        1980  0.96  0.16     0.74
        1981  1.00  0.19     0.73
            Beer                                                        ...  \
Year        1977  1978  1979  1980  1981  1982  1983  1984  1985  1986  ...   
State                                                                   ...   
Alabama     0.99  0.98  0.98  0.96  1.00  1.00  1.01  1.02  1.06  1.09  ...   
Alaska      1.19  1.39  1.50  1.55  1.71  1.75  1.76  1.73  1.68  1.68  ...   
Arizona     1.70  1.77  1.86  1.69  1.78  1.74  1.62  1.57  1.67  1.77  ...   
Arkansas    0.92  0.97  0.93  1.00  1.06  1.03  1.03  1.02  1.03  1.06  ...   
California  1.31  1.36  1.42  1.42  1.43  1.37  1.37  1.38  1.32  1.36  ...   

           Spirits                                                        
Year          2000  2001  2002  2003  2004  2005  2006

In [16]:
#피보팅 pivot(index,columns,values)
alco = pd.read_csv("./2020-08/excel/niaaa-report.csv")

alco.pivot("Year","State","Wine").head()

State,Alabama,Alaska,Arizona,Arkansas,California,Colorado,Connecticut,Delaware,District of Columbia,Florida,...,South Dakota,Tennessee,Texas,Utah,Vermont,Virginia,Washington,West Virginia,Wisconsin,Wyoming
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1977,0.13,0.42,0.34,0.1,0.67,0.36,0.35,0.24,0.89,0.33,...,0.17,0.1,0.14,0.14,0.44,0.21,0.45,0.09,0.27,0.21
1978,0.12,0.45,0.37,0.11,0.68,0.47,0.38,0.25,0.94,0.34,...,0.17,0.11,0.14,0.15,0.47,0.21,0.48,0.09,0.28,0.22
1979,0.12,0.47,0.39,0.1,0.7,0.47,0.4,0.27,0.99,0.37,...,0.17,0.11,0.14,0.16,0.47,0.25,0.48,0.09,0.28,0.22
1980,0.16,0.5,0.36,0.12,0.71,0.47,0.43,0.29,0.99,0.37,...,0.18,0.12,0.22,0.14,0.48,0.25,0.52,0.09,0.31,0.24
1981,0.19,0.57,0.42,0.12,0.72,0.44,0.44,0.32,1.06,0.39,...,0.19,0.13,0.24,0.15,0.5,0.27,0.54,0.14,0.31,0.24


## 데이터 누락 다루기
---
> pandas는 결측치를 numpy.nan 을 사용해서 표기하는데 이는 숫자와 달라 혼동을 피할 수 있다.  
또 pandas는 결측치를 탐지하고 보정하는 함수를 제공한다.

**결측치는 반드시 삭제하거나 맥락에 맞는 다른 값으로 교체해서 보정해야한다.**

### 결측치 삭제 
---
> dropna() 함수는 결측치를 가진 열(axis=0,기본값) 이나 행(axis=1)의 일부 (how="any",기본값)
또는 전체 (how="all")를 삭제하고, '정제된' 데이터 프레임 복사본dmf 반환 한다.

**데이터 프레임의 구조자체를 파괴하지 않는 한 결측치만 제거할 수는 없다..**

In [17]:
nan_alco

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,,


In [18]:
nan_alco.dropna(how="all")

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,


In [19]:
nan_alco.dropna(axis=1,how="all")

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
South Carolina,1.36,0.24,0.77
South Dakota,1.53,0.22,0.88
Samoa,,,


## 결측치 보정
---
> 가장 흔한 보정 방법 두가지는 상수(0,1 등) 와  평균으로 교체하는 것이다.  
우선적으로 insull(),notnull() 함수들을 이용해 어떤 값들이 비어 있는지 파악해야한다.  

In [20]:
sp = nan_alco['Spirits']  #결측 값이 있는 열을 선택
clean= sp.notnull()       #결측 값이 없는 행
sp[-clean]= sp[clean].mean()  #정상적인 값의 평균으로 결측치를 보정한다
nan_alco

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,0.825,


In [21]:
# 상수를 이용해 전체 프레임의 결측치 보정
nan_alco.fillna(0)

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,0.0
South Dakota,1.53,0.22,0.88,0.0
Samoa,0.0,0.0,0.825,0.0


In [22]:
nan_alco.fillna(axis =1,method ="ffill")

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,0.77
South Dakota,1.53,0.22,0.88,0.88
Samoa,,,0.825,0.825


### 데이터 결합
- 일대일 결합 : 왼쪽 데이터 프레임의 각 행이 오른쪽 데이터 프레임의 행과 하나만 매칭
- 일대다 결합 : 왼쪽 데이터 프레임의 각 행이 오른쪽 데이터 프레임의 행과 2개이상 매칭

각 데이터 프레임에서 여러행이 겹칠 때는 다대닫 결합으로 마찬가지로 pandas는 필요한 만큼 행을 복제하고, '빈곳'에는 numpy.nan 을 집어넣는다.

In [23]:
population = pd.read_csv('./2020-08/excel/population.csv',index_col="State")
population.head()

Unnamed: 0_level_0,Population
State,Unnamed: 1_level_1
Alabama,4780131
Alaska,710249
Arizona,6392301
Arkansas,2916025
California,37254522


In [25]:
alco2009.head()

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,1.2,0.22,0.58
Alaska,1.31,0.54,1.16
Arizona,1.19,0.38,0.74
Arkansas,1.07,0.17,0.6
California,1.05,0.55,0.73


In [26]:
df = pd.merge(alco2009.reset_index(),population.reset_index()).set_index("State")
df.head()

Unnamed: 0_level_0,Beer,Wine,Spirits,Population
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1.2,0.22,0.58,4780131
Alaska,1.31,0.54,1.16,710249
Arizona,1.19,0.38,0.74,6392301
Arkansas,1.07,0.17,0.6,2916025
California,1.05,0.55,0.73,37254522


## 데이터 붙이기
> concat() 함수는 수직이나 수평 축을 따라 여러 데이트 프레임을 이어 붙인 새로운 데이터 프레임을 반환.

In [None]:
pd.concat([alco2009,population],axis=1).head() 
#축이 일치하지 않으면 pandas 가 '빈곳'에 결측치가 채워진 행이나 열을 새로 추가한다.

## 중복제거
---
- duplicated([subset]) 함수
    - 각 행의 전체 혹은 일부(subset) 열이 중복됐는지를 의미하는 불시리즈를 반환  
    - 옵셔널 파라미터 keep으로 중복된 항목의 원본을 첫 번째('first')행으로 할지, 마지막('last') 행으로 할지, 중복된 모든 항목을 제거할지(False) 결정 할 수 있다.
- drop_duplicated() 함수
    - 전체나 일부(subset) 중복된 열이 제거된 데이터 프레임이나 시리즈의 복사본을 반환
    - duplicated([subset])  함수와 마찬가지로 옵셔널 파라미터 적용가능
    - 옵셔널 파라미터 inplace = True를 사용해 원본 데이터 프레임에서 중복된 항목 제거가능

## 데이터 정렬하기
- sort_index() 함수는 인덱스로 정렬된 데이터프레임을 반환, ascending 파라미터로 순서 조정 가능
- sort_values() 함수는 값으로 정렬한 데이터 프레임이나 시리즈 반환
    - 데이터 프레임에서 첫 번째 파라미터는 열이나 열 리스트이며, 옵셔널 파라미터 ascending은 불 값이나 불 리스트다.
    - nan_position 파라미터(first 나 last)는 nan을 어디에 저장할지 결정한다.
- rank() 함수는 데이터프레임이나 시리즈 값에서 숫자로 된 순위를 계산한다

In [27]:
population.sort_index().head()

Unnamed: 0_level_0,Population
State,Unnamed: 1_level_1
Alabama,4780131
Alaska,710249
Arizona,6392301
Arkansas,2916025
California,37254522


In [28]:
population.sort_values("Population").head()

Unnamed: 0_level_0,Population
State,Unnamed: 1_level_1
Rhode Island,1052940
New Hampshire,1316461
Maine,1328364
Hawaii,1360301
Idaho,1567650


In [29]:
pop_by_state = population.sort_index()
pop_by_state.rank().head()

Unnamed: 0_level_0,Population
State,Unnamed: 1_level_1
Alabama,28.0
Alaska,43.0
Arizona,36.0
Arkansas,17.0
California,24.0


## 기술 통계
---
> 기술 통계 함수는 시리즈나 데이터 프레임의 각 열에서 sum(), mean(), meadian(), std(), count(), min(), max() 함수의 값을 계산한다.

In [30]:
alco2009.max()

Beer       1.72
Wine       1.00
Spirits    1.82
dtype: float64

In [31]:
alco2009.min(axis=1)

State
Alabama                 0.22
Alaska                  0.54
Arizona                 0.38
Arkansas                0.17
California              0.55
Colorado                0.46
Connecticut             0.59
Delaware                0.57
District of Columbia    1.00
Florida                 0.48
Georgia                 0.25
Hawaii                  0.53
Idaho                   0.70
Illinois                0.39
Indiana                 0.25
Iowa                    0.18
Kansas                  0.14
Kentucky                0.18
Louisiana               0.28
Maine                   0.42
Maryland                0.37
Massachusetts           0.61
Michigan                0.31
Minnesota               0.37
Mississippi             0.11
Missouri                0.30
Montana                 0.45
Nebraska                0.20
Nevada                  0.58
New Hampshire           0.84
New Jersey              0.57
New Mexico              0.32
New York                0.46
North Carolina          0.34
North Da

In [32]:
alco2009.sum()

Beer       63.22
Wine       19.59
Spirits    41.81
dtype: float64

## 고유값, 카운팅, 멤버십
---
>numpy는 배열을 셋으로 취급할 수 있다. pandas도 시리즈를 셋으로 취급할 수 있다.  
- unique()와 value_counts() 함수는 각각 시리즈와 데이터 프레임에서 고유한 값으로 구성 된 배열을 만들고, 각 고유 값의 등장 빈도를 계산한다.  
- 시리즈가 nan 값을 포함한다면 그 역시도 빈도 카운팅에 포함 할 수 있다.
- isin() 함수는 시리즈와 데이터 프레임의 각 아이템이 특정 묶음에 속하는지 여부를 불 형식으로 반환한다

In [33]:
dna='agtatagcgcgtagaccgt'
dna=dna.upper()

dna_as_series = pd.Series(list(dna),name="genes")
dna_as_series.head()

0    A
1    G
2    T
3    A
4    T
Name: genes, dtype: object

In [34]:
print(dna_as_series.unique())
print(dna_as_series.value_counts().sort_index())

['A' 'G' 'T' 'C']
A    5
C    4
G    6
T    4
Name: genes, dtype: int64


In [35]:
valid_nucs= list("ACGT")
dna_as_series.isin(valid_nucs).head()                 

0    True
1    True
2    True
3    True
4    True
Name: genes, dtype: bool

## 데이터 변환하기
---
> 사칙연산차
- pandas 는 사칙 연산자와 numpy 유니버셜 함수를 지원한다

In [36]:
alco = alco.set_index(["State","Year"])
alco['Total'] =alco.Beer+alco.Wine+alco.Spirits
alco.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Beer,Wine,Spirits,Total
State,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Alabama,1977,0.99,0.13,0.84,1.96
Alabama,1978,0.98,0.12,0.88,1.98
Alabama,1979,0.98,0.12,0.84,1.94
Alabama,1980,0.96,0.16,0.74,1.86
Alabama,1981,1.0,0.19,0.73,1.92


## 데이터 집계
---
> 데이터 집계는 데이터를 분리하고 적용하고 결합하는 세 단계로 구성된다
 1. 분리 단계에서는 키(key)를 사용해서 데이터를 여러 덩어리로 분리한다.
 2. 적용 단계에서는 각 덩어리에 집계 함수(sum() 이나 count() 함수 등을) 적용 한다.
 3. 결합 단계에서는 산출한 결과를 새로운 시리즈나 데이터 프레임에 담는다.

집계 함수에는 다음 함수들이 있다.  
count() , sum() , mean() , median(), std(), var(), min(), max(), prod(), first(),last()

In [37]:
alco_noidx = alco.reset_index()
sum_alco = alco_noidx.groupby("Year").sum()
sum_alco.tail()

Unnamed: 0_level_0,Beer,Wine,Spirits,Total
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2005,63.49,18.06,38.89,120.44
2006,64.37,18.66,40.15,123.18
2007,64.67,19.08,40.97,124.72
2008,64.67,19.41,41.59,125.67
2009,63.22,19.59,41.81,124.62


### 매핑 
> 가장 일반적인 형태의 데이터 변환
- map() 함수를 사용해 인자가 1개인 임의의 함수를 선택한 열의 모든 엘리먼트에 적용
- 전달하는 함수는 파이썬 내장 함수나 임포트한 모듈의 함수, 사용자가 정의한 함수 등이 될 수 있다.

In [38]:
# 세글가 약어로 된 주 이름을 만들어 보자

with_state = alco2009.reset_index()
abbrevs = with_state["State"].map(lambda x:x[:3].upper())
abbrevs.head()

0    ALA
1    ALA
2    ARI
3    ARK
4    CAL
Name: State, dtype: object

### 교차 집계
> 교차 집계는 그룹별 빈도를 산출하고 다른 두 카테고리 변수를 표현하는 행과 열로 된 데이터 프레임을 반환한다. 옵셔널 파라미터 margins = True 설정하면 이 함수는 행과 열의 소계도 계산한다.

In [40]:
wine_state = alco2009['Wine']>alco2009['Wine'].mean()
beer_state = alco2009['Beer']>alco2009['Beer'].mean()
pd.crosstab(wine_state,beer_state) 

Beer,False,True
Wine,Unnamed: 1_level_1,Unnamed: 2_level_1
False,14,15
True,12,10


In [41]:
pd.crosstab(wine_state,beer_state,margins=True)

Beer,False,True,All
Wine,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,14,15,29
True,12,10,22
All,26,25,51


# Pandas 의 파일 입출력 다루기

>pandas는 다음 기능을 제공한다
- 자동 인덱싱 및 열 이름 추출
- 데이터 타입 추론, 데이터변환, 결측치 탐지
- 날짜 및 시간 파싱
- 불필요한 데이터 제거(행,각주,주석 건너뛰기 : 천 단위 구분자 처리)
- 데이터 묶기


##### read_csv() 함수는 지정된 파일명이나 파일 핸들에서 데이터 프레임을 읽어온다.
> read_csv()의 옵셔널 파라미터
- sep 또는 delimiter : 열 구분자. 정규표현식도 인자로 처리가능
- header : 열로 사용할 행 넘버. 별도의 열 이름 리스트가 있다면 None을 전달 한다.
- index_col : 인덱스로 사용할 열 이름. False를 전달하면 pandas가 기본 수치형 인덱스 생성
- skiprows : 파일에서 생략해야 할 첫 n번째 행이나 행 넘버 리스트
- thousands : 큰 숫자에서 천 단위 구분을 하는데 사용된 문자
- names : 열 이름 리스트
- na_values : 결측치로서 처리할 문자열이나 문자열 리스트. 