### Read CSV data on the Internet

`download`関数でサンプルデータファイルをインターネットからダウンロードして，データフレームに読み込む．

In [1]:
download("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", "iris.csv")

"iris.csv"

`isfile`関数でファイルがダウンロードできたことを確認する．

In [2]:
isfile("iris.csv")

true

`readline`関数で1行目を表示する．

In [3]:
readline("iris.csv")

"5.1,3.5,1.4,0.2,Iris-setosa"

`readline`関数による表示で，1行目がカンマで区切られていて，ピリオドは小数点でヘッダ行がないことがわかる．

`CSV.read`関数でデータを読み込み，データフレームを確認する．`CSV.read`関数はCSV形式のファイルを読み込んで，内容をDataFrameに書き込む関数．

In [4]:
using CSV, DataFrames
df = CSV.read("iris.csv", 
              header = ["PetalLength", "PetalWidth", "SepalLength", "SepalWidth", "Class"]);
describe(df)



Unnamed: 0_level_0,variable,mean,min,median,max,nunique,nmissing,eltype
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any,Union…,Int64,Union
1,PetalLength,5.84333,4.3,5.8,7.9,,1,"Union{Missing, Float64}"
2,PetalWidth,3.054,2.0,3.0,4.4,,1,"Union{Missing, Float64}"
3,SepalLength,3.75867,1.0,4.35,6.9,,1,"Union{Missing, Float64}"
4,SepalWidth,1.19867,0.1,1.3,2.5,,1,"Union{Missing, Float64}"
5,Class,,Iris-setosa,,Iris-virginica,3.0,1,"Union{Missing, String}"


データフレームの最後の6行を見てみる．

In [5]:
last(df, 6)

Unnamed: 0_level_0,PetalLength,PetalWidth,SepalLength,SepalWidth,Class
Unnamed: 0_level_1,Float64⍰,Float64⍰,Float64⍰,Float64⍰,String⍰
1,6.7,3.0,5.2,2.3,Iris-virginica
2,6.3,2.5,5.0,1.9,Iris-virginica
3,6.5,3.0,5.2,2.0,Iris-virginica
4,6.2,3.4,5.4,2.3,Iris-virginica
5,5.9,3.0,5.1,1.8,Iris-virginica
6,missing,missing,missing,missing,missing


In [6]:
eltypes(df)

│   caller = top-level scope at In[6]:1
└ @ Core In[6]:1


5-element Array{Union,1}:
 Union{Missing, Float64}
 Union{Missing, Float64}
 Union{Missing, Float64}
 Union{Missing, Float64}
 Union{Missing, String} 

データ中の最後の行には，missingしかない（ファイルの末尾に余計な改行が入っていたため）．

この問題を回避するために，最後の行を切り捨てて，行の型をmissing値を許さない方に変換し，データフレーム中にmissing値がないようにする．

In [7]:
df = disallowmissing!(df[1:end-1, :]);
eltype(df)

Any

データを整理できたので，CSVファイルに書き出す．

In [8]:
CSV.write("iris2.csv", df);