# CSV 파일 입출력

## 필요 패키지

In [39]:
import (
    "encoding/csv"
    "fmt"
    "log"
    "os"
)

## 현재 위치 확인

In [5]:
    dir, err := os.Getwd()

    if err != nil {
        log.Fatal(err)
    }

    fmt.Println(dir)

/mlgo_execercise/Ch01_Gather_And_Organiz_data
46
<nil>


## 파일 열고 닫기

좀 더 자세한 내용은 [여기](https://stackoverflow.com/questions/36111777/golang-how-to-read-a-text-file)

파일로 향하는 포인터를 얻는다.

In [59]:
    // 데이터 셋 파일 열면서 결과와 오류 받기.
    f, err := os.Open("./data/iris.csv")
    if err != nil {
        log.Fatal(err)
    }
    // 모든 작업이 마친 후 열린 파일을 닫히도록 미리 작업을 지연시켜 놓는다.
    // 	defer f.Close()

> defer 를 주석처리한 이유는 아래쪽에서 연결을 쓸 것인데 닫아 버리면 커널이 죽어 버리기 때문이다.

# 내용 읽기

접속을 새 리더객체를 만드는데 사용한 뒤.

`r1 := csv.NewReader(f)`

리더객체를 통해서 실제로 자료를 읽어낸다.

`rawCSVData1, err := r1.ReadAll()`


## 한번에 전부 읽기

In [41]:
    // CSV 열린 접속으로 리더를 만들고
    r1 := csv.NewReader(f)
    // 모두 읽기 시도 후 결과와 오류를 받는다.
    rawCSVData1, err := r1.ReadAll()
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println(rawCSVData1)

[[5.1 3.5 1.4 0.2 Iris-setosa] [4.9 3.0 1.4 0.2 Iris-setosa] [4.7 3.2 1.3 0.2 Iris-setosa] [4.6 3.1 1.5 0.2 Iris-setosa] [5.0 3.6 1.4 0.2 Iris-setosa] [5.4 3.9 1.7 0.4 Iris-setosa] [4.6 3.4 1.4 0.3 Iris-setosa] [5.0 3.4 1.5 0.2 Iris-setosa] [4.4 2.9 1.4 0.2 Iris-setosa] [4.9 3.1 1.5 0.1 Iris-setosa] [5.4 3.7 1.5 0.2 Iris-setosa] [4.8 3.4 1.6 0.2 Iris-setosa] [4.8 3.0 1.4 0.1 Iris-setosa] [4.3 3.0 1.1 0.1 Iris-setosa] [5.8 4.0 1.2 0.2 Iris-setosa] [5.7 4.4 1.5 0.4 Iris-setosa] [5.4 3.9 1.3 0.4 Iris-setosa] [5.1 3.5 1.4 0.3 Iris-setosa] [5.7 3.8 1.7 0.3 Iris-setosa] [5.1 3.8 1.5 0.3 Iris-setosa] [5.4 3.4 1.7 0.2 Iris-setosa] [5.1 3.7 1.5 0.4 Iris-setosa] [4.6 3.6 1.0 0.2 Iris-setosa] [5.1 3.3 1.7 0.5 Iris-setosa] [4.8 3.4 1.9 0.2 Iris-setosa] [5.0 3.0 1.6 0.2 Iris-setosa] [5.0 3.4 1.6 0.4 Iris-setosa] [5.2 3.5 1.5 0.2 Iris-setosa] [5.2 3.4 1.4 0.2 Iris-setosa] [4.7 3.2 1.6 0.2 Iris-setosa] [4.8 3.1 1.6 0.2 Iris-setosa] [5.4 3.4 1.5 0.4 Iris-setosa] [5.2 4.1 1.5 0.1 Iris-setosa] [5.5 4.2 

## 한 줄씩 읽기

추출된 한 줄 값을 자료 묶음(dataset)에 집어 넣으려면 append 를 사용한다.

```
var 자료묶음 타입
자료묶음= append(자료묶음, 추출값)
```

스칼라 for comphrension 같은 고의 for range 로 컬렉션 순회 동작을 할 수 있다.

```
for 인덱스, 값 := range 컬렉션{
    fmt.Println(인덱스,값)
}
```

파일의 끝 오류 검출을 위해 io 패키지 필요

In [17]:
import (
    "io"
)

In [65]:
func main() {

    // 데이터 셋 파일 열면서 결과와 오류 받기.
    f, err := os.Open("./data/iris.csv")
    if err != nil {
        log.Fatal(err)
    }
    // 모든 작업이 마친 후 열린 파일을 닫히도록 미리 작업을 지연시켜 놓는다.
    defer f.Close()
    
    r2 := csv.NewReader(f)
    r2.FieldsPerRecord = -1


    var rawCSVData [][]string


    for {

        // 한 줄을 읽어온다.
        record, err := r2.Read()
        // 그리고 오류가 파일의 끝(End of file)이라면
        if err == io.EOF {
            // 중단!
            break
        }

        // EOF 가 아닌 다른 오류라면 출력하고 계속한다.
        if err != nil {
            log.Println(err)
            continue
        }

        rawCSVData = append(rawCSVData, record)

    }

    for _, record := range rawCSVData {
        fmt.Println(record)
    }
}

main()

[5.1 3.5 1.4 0.2 Iris-setosa]
[4.9 3.0 1.4 0.2 Iris-setosa]
[4.7 3.2 1.3 0.2 Iris-setosa]
[4.6 3.1 1.5 0.2 Iris-setosa]
[5.0 3.6 1.4 0.2 Iris-setosa]
[5.4 3.9 1.7 0.4 Iris-setosa]
[4.6 3.4 1.4 0.3 Iris-setosa]
[5.0 3.4 1.5 0.2 Iris-setosa]
[4.4 2.9 1.4 0.2 Iris-setosa]
[4.9 3.1 1.5 0.1 Iris-setosa]
[5.4 3.7 1.5 0.2 Iris-setosa]
[4.8 3.4 1.6 0.2 Iris-setosa]
[4.8 3.0 1.4 0.1 Iris-setosa]
[4.3 3.0 1.1 0.1 Iris-setosa]
[5.8 4.0 1.2 0.2 Iris-setosa]
[5.7 4.4 1.5 0.4 Iris-setosa]
[5.4 3.9 1.3 0.4 Iris-setosa]
[5.1 3.5 1.4 0.3 Iris-setosa]
[5.7 3.8 1.7 0.3 Iris-setosa]
[5.1 3.8 1.5 0.3 Iris-setosa]
[5.4 3.4 1.7 0.2 Iris-setosa]
[5.1 3.7 1.5 0.4 Iris-setosa]
[4.6 3.6 1.0 0.2 Iris-setosa]
[5.1 3.3 1.7 0.5 Iris-setosa]
[4.8 3.4 1.9 0.2 Iris-setosa]
[5.0 3.0 1.6 0.2 Iris-setosa]
[5.0 3.4 1.6 0.4 Iris-setosa]
[5.2 3.5 1.5 0.2 Iris-setosa]
[5.2 3.4 1.4 0.2 Iris-setosa]
[4.7 3.2 1.6 0.2 Iris-setosa]
[4.8 3.1 1.6 0.2 Iris-setosa]
[5.4 3.4 1.5 0.4 Iris-setosa]
[5.2 4.1 1.5 0.1 Iris-setosa]
[5.5 4.2 1

## 필드 개수 제한 및 유효성 검증

자료를 레코드(줄) 단위로 읽을 때 한 줄에 있어야 할 필드(열)의 개수를 설정할 수 있다.
    
    ```
    // Create a new CSV reader reading from the opened file.
	reader := csv.NewReader(f)

	// 한 행에 5 개의 필드가 있어야 한다고 설정한다.
	// 즉 5개가 있는지 유효성 검증을 할 수 있게 되는 것이다.
	reader.FieldsPerRecord = 5
    ```

다음처럼 원본 자료를 입력한 상태에서 한 필드 당 레코드는 5개여야 한다고 정해보자.

행|자료|예외사항
--|--|--
그외|5.7, 4.4, 1.5, 0.4, Iris-setosa| 4열까지 숫자, 5열 문자
16|5.4, 3.9, 1.|3열만 있고 2열 부족
17|5.4, 3.9, 1.3, 0.4, blah, Iris-setosa| 갑자기 6번째 열이 있음

In [82]:
import (
    "encoding/csv"
    "fmt"
    "io"
    "log"
    "os"
)

func main() {

    // Open the iris dataset file.
    f, err := os.Open("./data/iris_unexpected_fields.csv")
    if err != nil {
        log.Fatal(err)
    }
    defer f.Close()

    reader := csv.NewReader(f)

    // 한 행에 5 개의 필드가 있어야 한다고 설정한다.
    // 즉 5개가 있는지 유효성 검증을 할 수 있게 되는 것이다.
    reader.FieldsPerRecord = 5

    // rawCSVData will hold our successfully parsed rows.
    var rawCSVData [][]string

    // Read in the records one by one.
    for {

        record, err := reader.Read()
        if err == io.EOF {
            break
        }

        // 해석 오류가 있으면 출력하고 계속 진행한다.
        if err != nil {
            log.Println(err)
            continue
        }

        rawCSVData = append(rawCSVData, record)
    }

    fmt.Printf("parsed %d lines successfully\n", len(rawCSVData))
    fmt.Println(rawCSVData)
}

main()

2018/02/28 00:51:33 line 16, column 0: wrong number of fields in line
2018/02/28 00:51:33 line 17, column 0: wrong number of fields in line


parsed 148 lines successfully
[[5.1 3.5 1.4 0.2 Iris-setosa] [4.9 3.0 1.4 0.2 Iris-setosa] [4.7 3.2 1.3 0.2 Iris-setosa] [4.6 3.1 1.5 0.2 Iris-setosa] [5.0 3.6 1.4 0.2 Iris-setosa] [5.4 3.9 1.7 0.4 Iris-setosa] [4.6 3.4 1.4 0.3 Iris-setosa] [5.0 3.4 1.5 0.2 Iris-setosa] [4.4 2.9 1.4 0.2 Iris-setosa] [4.9 3.1 1.5 0.1 Iris-setosa] [5.4 3.7 1.5 0.2 Iris-setosa] [4.8 3.4 1.6 0.2 Iris-setosa] [4.8 3.0 1.4 0.1 Iris-setosa] [4.3 3.0 1.1 0.1 Iris-setosa] [5.8 4.0 1.2 0.2 Iris-setosa] [5.1 3.5 1.4 0.3 Iris-setosa] [5.7 3.8 1.7 0.3 Iris-setosa] [5.1 3.8 1.5 0.3 Iris-setosa] [5.4 3.4 1.7 0.2 Iris-setosa] [5.1 3.7 1.5 0.4 Iris-setosa] [4.6 3.6 1.0 0.2 Iris-setosa] [5.1 3.3 1.7 0.5 Iris-setosa] [4.8 3.4 1.9 0.2 Iris-setosa] [5.0 3.0 1.6 0.2 Iris-setosa] [5.0 3.4 1.6 0.4 Iris-setosa] [5.2 3.5 1.5 0.2 Iris-setosa] [5.2 3.4 1.4 0.2 Iris-setosa] [4.7 3.2 1.6 0.2 Iris-setosa] [4.8 3.1 1.6 0.2 Iris-setosa] [5.4 3.4 1.5 0.4 Iris-setosa] [5.2 4.1 1.5 0.1 Iris-setosa] [5.5 4.2 1.4 0.2 Iris-setosa] [4.9 3.1 

해당 줄에 대한 검증이 잘 되어서 오류가 출력되었다.

## 타입 지정 및 유효성(공백 등)검증

필드 개수 뿐 아니라. 별도의 타입을 지정하고 해당 타입에 맞는 값인지도 검증할 수있다.

레코드에 해당하는 구조체를 만들고 내부 필드를 레코드의 필드 타입으로 맞춘다.

다음처럼 원본 자료를 입력한 상태라고 보자.

행|자료|예외사항
--|--|--
 5|5.0,string,1.4,0.2,Iris-setosa| flaot64 이여야 하는데 문자열 타입
36|5.0,3.2,1.2,string,Iris-setosa| flaot64 이여야 하는데 문자열 타입
52|6.4,3.2,4.5,1.5,| 5열이 비었다. 

In [2]:
import (
    "encoding/csv"
    "fmt"
    "io"
    "log"
    "os"
    "strconv"
)

// CSVRecord 타입은 성공적으로 해석됐을 때의 행의 필드 값을 담는다.
type CSVRecord struct {
    SepalLength float64
    SepalWidth  float64
    PetalLength float64
    PetalWidth  float64
    Species     string
    ParseError  error
}

func main() {

    f, err := os.Open("./data/iris_mixed_types.csv")
    if err != nil {
        log.Fatal(err)
    }
    defer f.Close()

    reader := csv.NewReader(f)

    // 한행에 해당하는 구조체를 여러 개 담을 수 있는 자료묶음 변수를 선언.
    var csvData []CSVRecord

    // 라인은 로깅을 추적하는데 도움을 준다.
    line := 1

    for {

        // 레코드를 읽는다.
        record, err := reader.Read()
        if err == io.EOF {
            break
        }

        // 하나의 레코드를 위한 구조체 변수 선언
        var csvRecord CSVRecord

        // 한행의 한 열씩(인덱스,열값) 꺼내서 순회한다. 
        for idx, value := range record {

            // 인덱스가 4인 필드(5번째 필드)
            if idx == 4 {

                // 빈 문자열인지 확인해서 비어있으면 레코드 오류필드에 
                // 내용을 기록 후 for 문을 건너 뛴다.
                if value == "" {
                    log.Printf("%d 번째 줄 %d 인덱스의 값이 없다.\n", line, idx)
                    csvRecord.ParseError = fmt.Errorf("Empty string value")
                    break
                }

                csvRecord.Species = value
                
                // for 문을 건너 뛴다.
                continue
            }

            // 인덱스가 4가 아닌, 다른 것들(otherwise)에 대해서는 float64 타입으로 값을 해석한다.
            var floatValue float64

            // 만약 값이 플롯으로 해석이 안 되면, 기록을 남기고 해석 루프를 중단한다.
            if floatValue, err = strconv.ParseFloat(value, 64); err != nil {
                log.Printf("%d 줄에 인덱스 %d 타입이 float64가 아니다.\n", line, idx)
                csvRecord.ParseError = fmt.Errorf("Could not parse float")
                break
                // 현재 for 문을 빠져 나가기 때문에 아래 문이 실행이 안된다.
                // 즉, 오류가 나는 행은 값이 빠져있고, 데이터 묶음도 오염되지 않는다.
            }

            // CVSRecord 변수에다가 각각의 해석 값을 저장한다.
            // 인덱스 번호에 맞춰서.
            switch idx {
            case 0:
                csvRecord.SepalLength = floatValue
            case 1:
                csvRecord.SepalWidth = floatValue
            case 2:
                csvRecord.PetalLength = floatValue
            case 3:
                csvRecord.PetalWidth = floatValue
            }
        }

        // 성공적으로 해석된 레코드 하나를 전체 레코드를 담으려고 생성한 슬라이스에 적용한다.
        if csvRecord.ParseError == nil {
            csvData = append(csvData, csvRecord)
        }

        // 줄 숫자세는 카운터를 증가시킨다.
        line++
    }

    // 결과를 출력한다.
    fmt.Printf("successfully parsed %d lines\n", len(csvData))
}
main()

2018/03/02 06:39:49 5 줄에 인덱스 1 타입이 float64가 아니다.
2018/03/02 06:39:49 21 줄에 인덱스 1 타입이 float64가 아니다.
2018/03/02 06:39:49 36 줄에 인덱스 3 타입이 float64가 아니다.
2018/03/02 06:39:49 52 번째 줄 4 인덱스의 값이 없다.
2018/03/02 06:39:49 97 줄에 인덱스 0 타입이 float64가 아니다.
2018/03/02 06:39:49 127 줄에 인덱스 1 타입이 float64가 아니다.
2018/03/02 06:39:49 135 줄에 인덱스 0 타입이 float64가 아니다.


successfully parsed 143 lines


break, continue, goto 작동.

- break : for, switch, select 문을 빠져 나간다.
- continue : for 중간에서 바로 for 시작으로 간다.
- goto : 라벨 지정된 곳으로 이동한다. 

> goto 라벨은 라벨로 가서 라벨을 시작하지만.  
> break 라벨은 라벨로 간 다음 그 라벨 다음 것을 시작한다.

http://golang.site/go/article/8-Go-반복문 참조.

**strconv**로 타입을 변화시키고, 타입 검증도한다.

```
if floatValue, err = strconv.ParseFloat(value, 64); err != nil {
    오류 났을 때 코드
}
```

 주어진 값을 64비트 float 으로 해석을 시도해서 err 가 비어있지 않다면 ....

# 자료 가공하기 

## 데이터프레임으로 CSV 자료 가공하기

자료묶음의 일부 혹은 하위묶음을 선택하고 필터링 하는 표준화된 방법을 제공하는 것이 바로 데이터프레임이고 여기서는 gota 를 사용한다.

lgo 의 경우, 컨테이너에서 

```
go get github.com/kniren/gota/dataframe
```

해준 후 

```
lgo install
```

해줘야 lgo 에서 제대로 인식을 하게 된다.

In [3]:
import (
    "fmt"
    "log"
    "os"
    // > go get github.com/kniren/gota/dataframe
    "github.com/kniren/gota/dataframe"
)


// Open the CSV file.
irisFile, err := os.Open("./data/iris_labeled.csv")
if err != nil {
    log.Fatal(err)
}
defer irisFile.Close()

// CSV 파일로부터 데이터프레임을 생성한다.
// 열의 타입은 유추될(inferred) 것이다.
irisDF := dataframe.ReadCSV(irisFile)

// 건전성 확인 후, stdout 으로 레코드들을 보여준다.
// Gota 가 데이터프레임을 프리티 출력해줄 것이다.
fmt.Println(irisDF)


6:5: could not import github.com/kniren/gota/dataframe (can't find import: "github.com/kniren/gota/dataframe")


## 자료묶음을거르고 하위묶음 선택하기

데이터 프레임 객체 생성 후 필터 만들기

In [3]:
    // CVS 파일 접속 생성
    irisFile, err := os.Open("./data/iris_labeled.csv")
    if err != nil {
        log.Fatal(err)
    }
    defer irisFile.Close()

    // 데이터 프레임워크 객체 생성
    irisDF := dataframe.ReadCSV(irisFile)

    // 데이터 프레임을 위한 필터를 생성
    filter := dataframe.F{
        Colname:    "species", // 필터 적용될 대상 열 이름
        Comparator: "==",      //  필터 연산자
        Comparando: "Iris-versicolor", // 연산 기준값
    }

데이터프레임 객체에다가 필터를 넘겨 주고 출력

In [4]:
    // species 열이 "Iris-versicolor" 를 가진 레코드들만 추려서 보기 위해서
    // 필터를 적용한(거른)다.
    versicolorDF := irisDF.Filter(filter)
    if versicolorDF.Err != nil {
        log.Fatal(versicolorDF.Err)
    }

    // Output the results to standard out.
    fmt.Println(versicolorDF)

[50x5] DataFrame

    sepal_length sepal_width petal_length petal_width species        
 0: 7.000000     3.200000    4.700000     1.400000    Iris-versicolor
 1: 6.400000     3.200000    4.500000     1.500000    Iris-versicolor
 2: 6.900000     3.100000    4.900000     1.500000    Iris-versicolor
 3: 5.500000     2.300000    4.000000     1.300000    Iris-versicolor
 4: 6.500000     2.800000    4.600000     1.500000    Iris-versicolor
 5: 5.700000     2.800000    4.500000     1.300000    Iris-versicolor
 6: 6.300000     3.300000    4.700000     1.600000    Iris-versicolor
 7: 4.900000     2.400000    3.300000     1.000000    Iris-versicolor
 8: 6.600000     2.900000    4.600000     1.300000    Iris-versicolor
 9: 5.200000     2.700000    3.900000     1.400000    Iris-versicolor
    ...          ...         ...          ...         ...            
    <float>      <float>     <float>      <float>     <string>       

929
<nil>


In [8]:
    // 한번 더 필터링 하는 데,
    // sepal_width 와 species 열만 선택한다.
    versicolorDF = irisDF.Filter(filter).
        Select([]string{"sepal_width", "species"})
    fmt.Println(versicolorDF)

[50x2] DataFrame

    sepal_width species        
 0: 3.200000    Iris-versicolor
 1: 3.200000    Iris-versicolor
 2: 3.100000    Iris-versicolor
 3: 2.300000    Iris-versicolor
 4: 2.800000    Iris-versicolor
 5: 2.800000    Iris-versicolor
 6: 3.300000    Iris-versicolor
 7: 2.400000    Iris-versicolor
 8: 2.900000    Iris-versicolor
 9: 2.700000    Iris-versicolor
    ...         ...            
    <float>     <string>       

435
<nil>


In [10]:
    // 한 번 더 필터링 하는 데,
    // sepal_width 와 species 열의 첫 세 레코드(0,4,9)만 선택한다.
    versicolorDF = irisDF.Filter(filter).
        Select([]string{"sepal_width", "species"}).
        Subset([]int{0, 4, 9})
    fmt.Println(versicolorDF)


[3x2] DataFrame

    sepal_width species        
 0: 3.200000    Iris-versicolor
 1: 2.800000    Iris-versicolor
 2: 2.700000    Iris-versicolor
    <float>     <string>       

178
<nil>


In [1]:
fmt.Println(versicolorDF[0])

1:1: undeclared name: fmt
1:13: undeclared name: versicolorDF
