## データの読み込み
### What is CSV?

CSVファイルは、カンマなどの区切り文字を使用して、データを表形式で保存するためのファイル形式です。 
Excelみたいなやつ。

### ライブラリのインポート


In [70]:
import numpy as np
import pandas as pd

### CSVファイルの読み込み

In [71]:
csv_in = "CSV_FILE.csv" # CSVファイルのパスを指定
df = pd.read_csv( 
    csv_in,
    sep=",", # 区切り文字を指定
    header=0, # ヘッダー行を指定
    skiprows=0, # スキップする行数を指定
    comment="#", # コメント行の指定
    encoding="utf-8", # エンコーディングを指定
                      # utf-8-sig, utf-8, shift-jis
)



### データフレーム

In [72]:
print(df.shape) # データフレームの形状を表示
print(df.columns) # 列名を表示
display(df.head()) # 最初の5行を表示
# データフレームの統計情報を表示
display(df.describe()) # 数値データの統計情報を表示
# データフレームの情報を表示
df.info() # データフレームの情報を表示
display(df.dtypes) # 各列のデータ型を表示
display(df.isnull().count()) # 各列の欠損値の数を表示
display(df.index) # データフレームのインデックスを表示
display(df.columns) # データフレームの列名を表示

(3, 4)
Index(['file', 'header1', 'header2', 'header3'], dtype='object')


Unnamed: 0,file,header1,header2,header3
0,data1,value1,value2,value3
1,data2,value4,value5,value6
2,data3,value7,value8,value9


Unnamed: 0,file,header1,header2,header3
count,3,3,3,3
unique,3,3,3,3
top,data1,value1,value2,value3
freq,1,1,1,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   file     3 non-null      object
 1   header1  3 non-null      object
 2   header2  3 non-null      object
 3   header3  3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


file       object
header1    object
header2    object
header3    object
dtype: object

file       3
header1    3
header2    3
header3    3
dtype: int64

RangeIndex(start=0, stop=3, step=1)

Index(['file', 'header1', 'header2', 'header3'], dtype='object')

### 列、行全体の取り出し

In [73]:
header1 = df["header1"] # 列名を指定してデータを取得
print(type(header1)) # データの型を表示
display(header1) # データを表示

<class 'pandas.core.series.Series'>


0    value1
1    value4
2    value7
Name: header1, dtype: object

### 複数列の取り出し

In [74]:
header_multi = df.loc[:, ["header1", "header2"]] # 複数の列を取得
print(type(header_multi)) # データの型を表示
display(header_multi) # データを表示

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,header1,header2
0,value1,value2
1,value4,value5
2,value7,value8


#### スライス
![a](img/slice1.png)
![a](img/slice2.png)
![a](img/slice3.png)
![a](img/slice4.png)

In [75]:
header_multi = df.iloc[:,:] # 列番号を指定してデータを取得
print(type(header_multi)) # データの型を表示
display(header_multi) # データを表示

# Sliceの値を-にすることで、逆順に取得

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,file,header1,header2,header3
0,data1,value1,value2,value3
1,data2,value4,value5,value6
2,data3,value7,value8,value9


### ndarrayのスライス

![a](img/ndslice.png)

In [76]:
a = np.array(
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
    ]
)

print(a)

b1 = a[:2, 1:] # スライスを使用してデータを取得
print(b1) # データを表示

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[2 3]
 [5 6]]
