<a href="https://colab.research.google.com/github/Momo227/nlp_practice/blob/Chapter3/Chapter3_3_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**CSV**(comma-separated values) : 値がカンマで区切られたファイル形式。

* Excelなどの表計算ソフトに格納されたデータを描き出せる。
* Pandasで分析する。

Pandasをインポートする際はasを用いて'pd'という名前をつけるのが慣習となっている。

In [6]:
import pandas as pd
pd.read_csv('example.csv', encoding='utf-8')

Unnamed: 0,name,grade
0,高橋,B
1,佐藤,C
2,田中,A


Pandasのメリット

* 特定の列を指定して抽出したい時に、下記のように列名を指定するだけで良い。 

In [7]:
df = pd.read_csv('example.csv', encoding='utf-8')
df['grade']

0    B
1    C
2    A
Name: grade, dtype: object

ヘッダが存在しないファイル(example1.csv)を読み込んだとき

→read_csvのデフォルト引数では一行目をヘッダーとして認識するため、「高橋」と「B」がヘッダーになってしまう。

In [8]:
pd.read_csv('example1.csv', encoding='utf-8')

Unnamed: 0,高橋,B
0,佐藤,C
1,田中,A


この問題を解決するには

・read_csvの引数であるheaderにNoneを指定する。

→このファイルにはヘッダーが存在しないと言うことを伝えることができる。

In [9]:
pd.read_csv('example1.csv', header=None, encoding='utf-8')

Unnamed: 0,0,1
0,高橋,B
1,佐藤,C
2,田中,A


これでは、列名が連番となり分かりやすいと言えない。

→ヘッダーに名前をつけるためにnamesと言う引数を使う。

→ヘッダーに名前をつけて扱えるようになる。

In [10]:
pd.read_csv('example1.csv', names=('name', 'gread'), header=None, encoding='utf-8')

Unnamed: 0,name,gread
0,高橋,B
1,佐藤,C
2,田中,A


**TSV**(tab-separated values) : 値がタブで区切られたファイル形式。

* 一行を半角文字のタブ「\t」で区切り、複数の項目に分割する。
* 空白で見える箇所にタブが1つはいっている。
* PandasでTSV形式のファイルを読み込む場合、
    * reqd_csvメソッドのsep引数にタブ文字(\t)を指定
    * reqd_csvでsepを指定する代わりに、read_tableを使用

しても読み込むことは可能。

In [12]:
pd.read_csv('example.tsv', encoding='utf-8', sep="\t")

Unnamed: 0,name,grade
0,高橋,B
1,佐藤,C
2,田中,A


In [13]:
pd.read_table('example.tsv', encoding='utf-8')

Unnamed: 0,name,grade
0,高橋,B
1,佐藤,C
2,田中,A
