# Dataframe

Dataframe adalah struktur data yang mengorganisir data menjadi tabel 2 dimensi (baris dan kolom), biasanya digunakan untuk menganalisis data. Baris dan kolom disebut juga dengan series.

## Series
Series adalah koleksi data satu dimensi yang dimiliki oleh dataframe. Dalam contoh berikut, kita akan menerapkan series dan dataframe dalam bahasa go menggunakan librari GOTA.  

TODO :
- cantumkan gambar yang menjelaskan relasi dataframe dengan series.
- kenapa memilih GOTA
- cantumkan link repository GOTA


In [116]:
import "github.com/go-gota/gota/series"

%%
s := series.New([]string{"Iris-setosa", "Iris-setosa", "Iris-virginica", "Iris-versicolor"}, series.String, "Species")
fmt.Println(s)

[Iris-setosa Iris-setosa Iris-virginica Iris-versicolor]


## Convert Series ke Dataframe
Series adalah komponen penyusun dataframe, kita bisa membuat suatu dataframe dari beberapa series. Yang perlu diingat adalah ukuran dari series-series pembentuk dataframe harus sama. Jika ukuran series tidak sama, akan terjadi error `"DataFrame error: arguments have different dimensions"`. Perhatikan bahwa series dibentuk dari 1 kolom data, sehingga dalam 1 series bisa diberi nama kolomnya.

In [120]:
import (
    "github.com/go-gota/gota/series"
    "github.com/go-gota/gota/dataframe"
)
%%
// Membuat beberapa series
species := series.New([]string{"Iris-setosa", "Iris-setosa", "Iris-virginica", "Iris-versicolor"}, series.String, "Species")
sepalLength := series.New([]float64{5.1, 4.9, 5.8, 6.3}, series.Float, "Sepal Length")
sepalWidth := series.New([]float64{3.5, 3.0, 2.8, 2.3}, series.Float, "Sepal Width")
petalLength := series.New([]float64{1.4, 1.4, 5.1, 4.4}, series.Float, "Petal Length")
petalWidth := series.New([]float64{0.2, 0.2, 2.4, 1.3}, series.Float, "Petal Width")

// membuat dataframe
df := dataframe.New(
    sepalLength, 
    sepalWidth, 
    petalLength, 
    petalWidth, 
    species,
)
fmt.Println(df)

[4x5] DataFrame

    Sepal Length Sepal Width Petal Length Petal Width Species
 0: 5.100000     3.500000    1.400000     0.200000    Iris-setosa
 1: 4.900000     3.000000    1.400000     0.200000    Iris-setosa
 2: 5.800000     2.800000    5.100000     2.400000    Iris-virginica
 3: 6.300000     2.300000    4.400000     1.300000    Iris-versicolor
    <float>      <float>     <float>      <float>     <string>



## Membuat Dataframe dari Struct
Gota menyediakan fitur untuk mengconvert struct menjadi dataframe. Perhatikan bahwa dalam 1 data struct merupakan 1 baris data. Untuk penamaan field terjadi dalam definisi struct.

In [122]:
import "github.com/go-gota/gota/dataframe"

type Iris struct {
    SepalLength float64
    SepalWidth  float64
    PetalLength float64
    PetalWidth  float64
    Species     string
}

%%
iris := []Iris{
    {5.1, 3.5, 1.4, 0.2, "Iris-setosa"},
    {4.9, 3.0, 1.4, 0.2, "Iris-setosa"},
    {5.8, 2.8, 5.1, 2.4, "Iris-virginica"},
    {6.3, 2.3, 4.4, 1.3, "Iris-versicolor"},
}

df := dataframe.LoadStructs(iris)
fmt.Println(df)

[4x5] DataFrame

    SepalLength SepalWidth PetalLength PetalWidth Species
 0: 5.100000    3.500000   1.400000    0.200000   Iris-setosa
 1: 4.900000    3.000000   1.400000    0.200000   Iris-setosa
 2: 5.800000    2.800000   5.100000    2.400000   Iris-virginica
 3: 6.300000    2.300000   4.400000    1.300000   Iris-versicolor
    <float>     <float>    <float>     <float>    <string>



## Membuat Dataframe dari Record
Gota menyediakan fitur untuk membuat dataframe dari record. Perhatikan bahwa baris pertama dari records akan dijadikan nama field (label).

In [124]:
import "github.com/go-gota/gota/dataframe"

%%
iris := [][]string{
    []string{"Sepal Length", "Sepal Width", "Petal Length", "Petal Width", "Species"},
    []string{"5.1", "3.5", "1.4", "0.2", "Iris-setosa"},
    []string{"4.9", "3.0", "1.4", "0.2", "Iris-setosa"},
    []string{"5.8", "2.8", "5.1", "2.4", "Iris-virginica"},
    []string{"6.3", "2.3", "4.4", "1.3", "Iris-versicolor"},
}

df := dataframe.LoadRecords(iris)
fmt.Println(df)

[4x5] DataFrame

    Sepal Length Sepal Width Petal Length Petal Width Species
 0: 5.100000     3.500000    1.400000     0.200000    Iris-setosa
 1: 4.900000     3.000000    1.400000     0.200000    Iris-setosa
 2: 5.800000     2.800000    5.100000     2.400000    Iris-virginica
 3: 6.300000     2.300000    4.400000     1.300000    Iris-versicolor
    <float>      <float>     <float>      <float>     <string>



## Membuat Dataframe dari File CSV
Gota juga menyediakan fitur untuk membuat dataframe dari sebuah file csv. Dalam contoh ini kita akan menggunakan file iris.csv. 

Todo : 
- cantumkan link untuk file iris.csv

In [125]:
import (
    "github.com/go-gota/gota/dataframe"
    "github.com/go-gota/gota/series"
)

func getDataframe(file string) (dataframe.DataFrame, error) {
    var df dataframe.DataFrame 
    f, err := os.Open(file)
    if err != nil {
        return df, err
    }
    defer f.Close()

    return dataframe.ReadCSV(f), nil
}

In [126]:
%%
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}

fmt.Println(df)

[150x5] DataFrame

    Sepal Length Sepal Width Petal Length Petal Width Species
 0: 5.100000     3.500000    1.400000     0.200000    Iris-setosa
 1: 4.900000     3.000000    1.400000     0.200000    Iris-setosa
 2: 4.700000     3.200000    1.300000     0.200000    Iris-setosa
 3: 4.600000     3.100000    1.500000     0.200000    Iris-setosa
 4: 5.000000     3.600000    1.400000     0.200000    Iris-setosa
 5: 5.400000     3.900000    1.700000     0.400000    Iris-setosa
 6: 4.600000     3.400000    1.400000     0.300000    Iris-setosa
 7: 5.000000     3.400000    1.500000     0.200000    Iris-setosa
 8: 4.400000     2.900000    1.400000     0.200000    Iris-setosa
 9: 4.900000     3.100000    1.500000     0.100000    Iris-setosa
    ...          ...         ...          ...         ...
    <float>      <float>     <float>      <float>     <string>



## Menampilkan Statistik Deskriptif
Gota menyediakan fitur untuk menampilkan statistik deksriptif seperti rata-rata, median, standar deviasi dan lain-lain.

In [127]:
%%
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}
stats := df.Describe()
fmt.Println(stats)

[8x6] DataFrame

    column   Sepal Length Sepal Width Petal Length Petal Width Species
 0: mean     5.843333     3.054000    3.758667     1.198667    -
 1: median   5.800000     3.000000    4.350000     1.300000    -
 2: stddev   0.828066     0.433594    1.764420     0.763161    -
 3: min      4.300000     2.000000    1.000000     0.100000    Iris-setosa
 4: 25%      5.100000     2.800000    1.600000     0.300000    -
 5: 50%      5.800000     3.000000    4.300000     1.300000    -
 6: 75%      6.400000     3.300000    5.100000     1.800000    -
 7: max      7.900000     4.400000    6.900000     2.500000    Iris-virginica
    <string> <float>      <float>     <float>      <float>     <string>



## Query Dataframe

In [128]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}

fmt.Println(df.Dims())
fmt.Println(df.Types())
fmt.Println(df.Names())
fmt.Println(df.Nrow())
fmt.Println(df.Ncol())

150 5
[float float float float string]
[Sepal Length Sepal Width Petal Length Petal Width Species]
150
5


## Query Kolom
Kita bisa 

In [132]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}
col := df.Col("Sepal Length") // Selects a column
fmt.Println(col.IsNaN())
fmt.Println(col.Mean())
fmt.Println(col.Copy())
fmt.Println(col.HasNaN())
fmt.Println(col.Records())

[false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false false]
5.843333333333334
[5.100000 4.900000 4.700000 4.600000 5.000000 5.400000 4.600000 5.000000 4.40000

## Select Kolom

In [136]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}
firstCol := df.Select(0) 
fmt.Println(firstCol)

[150x1] DataFrame

    Sepal Length
 0: 5.100000
 1: 4.900000
 2: 4.700000
 3: 4.600000
 4: 5.000000
 5: 5.400000
 6: 4.600000
 7: 5.000000
 8: 4.400000
 9: 4.900000
    ...
    <float>



In [137]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}
secondCol := df.Select(1)
fmt.Println(secondCol)

[150x1] DataFrame

    Sepal Width
 0: 3.500000
 1: 3.000000
 2: 3.200000
 3: 3.100000
 4: 3.600000
 5: 3.900000
 6: 3.400000
 7: 3.400000
 8: 2.900000
 9: 3.100000
    ...
    <float>



In [138]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}
multiCol := df.Select([]int{0,3})
fmt.Println(multiCol)

[150x2] DataFrame

    Sepal Length Petal Width
 0: 5.100000     0.200000
 1: 4.900000     0.200000
 2: 4.700000     0.200000
 3: 4.600000     0.200000
 4: 5.000000     0.200000
 5: 5.400000     0.400000
 6: 4.600000     0.300000
 7: 5.000000     0.200000
 8: 4.400000     0.200000
 9: 4.900000     0.100000
    ...          ...
    <float>      <float>



In [139]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}

columns := df.Select([]string{"Sepal Length", "Species"})
fmt.Println(columns)

[150x2] DataFrame

    Sepal Length Species
 0: 5.100000     Iris-setosa
 1: 4.900000     Iris-setosa
 2: 4.700000     Iris-setosa
 3: 4.600000     Iris-setosa
 4: 5.000000     Iris-setosa
 5: 5.400000     Iris-setosa
 6: 4.600000     Iris-setosa
 7: 5.000000     Iris-setosa
 8: 4.400000     Iris-setosa
 9: 4.900000     Iris-setosa
    ...          ...
    <float>      <string>



## Select Row

In [140]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}

// This selects the first two rows of the DataFrame
rows := df.Subset([]int{0, 2})
fmt.Println(rows)

[2x5] DataFrame

    Sepal Length Sepal Width Petal Length Petal Width Species
 0: 5.100000     3.500000    1.400000     0.200000    Iris-setosa
 1: 4.700000     3.200000    1.300000     0.200000    Iris-setosa
    <float>      <float>     <float>      <float>     <string>



## Select Field
dataframe mempunyai fungsi Elem(row, col) untuk hal ini.

In [172]:
%%
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}
fmt.Println(df.Elem(0, 0))
fmt.Println(df.Elem(0, 4))

5.100000
Iris-setosa


## Update

### Update 1 baris

In [141]:
%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}

newDf := dataframe.LoadRecords(
    [][]string{
        []string{"Sepal Length", "Sepal Width", "Petal Length", "Petal Width", "Species"},
        []string{"5.2", "3.6", "1.5", "0.3", "Iris-setosa"},
    },
)

updateDf := df.Set(
    []int{0}, 
    newDf, 
)

// Cetak DataFrame yang sudah diperbarui
fmt.Println(updateDf)

[150x5] DataFrame

    Sepal Length Sepal Width Petal Length Petal Width Species
 0: 5.200000     3.600000    1.500000     0.300000    Iris-setosa
 1: 4.900000     3.000000    1.400000     0.200000    Iris-setosa
 2: 4.700000     3.200000    1.300000     0.200000    Iris-setosa
 3: 4.600000     3.100000    1.500000     0.200000    Iris-setosa
 4: 5.000000     3.600000    1.400000     0.200000    Iris-setosa
 5: 5.400000     3.900000    1.700000     0.400000    Iris-setosa
 6: 4.600000     3.400000    1.400000     0.300000    Iris-setosa
 7: 5.000000     3.400000    1.500000     0.200000    Iris-setosa
 8: 4.400000     2.900000    1.400000     0.200000    Iris-setosa
 9: 4.900000     3.100000    1.500000     0.100000    Iris-setosa
    ...          ...         ...          ...         ...
    <float>      <float>     <float>      <float>     <string>



### Update 1 field
Sayangnya saya belum menemukan fungsi di GOTA untuk mengupdate 1 field tertentu. Terpaksa saya membuat fungsi updateField dengan memanfaatkan fungsi Set().  

In [167]:
func updateField(df dataframe.DataFrame, value interface{}, row int, col int) dataframe.DataFrame {
    var newSeries []series.Series
    length := len(df.Names())
    for i := 0; i < length; i++ {
        var locSeries series.Series
        if i == col {
            locSeries = series.New(value, df.Types()[i], df.Names()[i])
        } else {
            locSeries = series.New(df.Elem(row, i), df.Types()[i], df.Names()[i])
        }

        newSeries = append(newSeries, locSeries)
    }

    return df.Set(row,dataframe.New(newSeries...))
}

%% 
df, err := getDataframe("../data/iris.csv")
if err != nil {
    fmt.Println(err)
    return
}

fmt.Println(updateField(df, 5.2, 0, 0))

[150x5] DataFrame

    Sepal Length Sepal Width Petal Length Petal Width Species
 0: 5.200000     3.500000    1.400000     0.200000    Iris-setosa
 1: 4.900000     3.000000    1.400000     0.200000    Iris-setosa
 2: 4.700000     3.200000    1.300000     0.200000    Iris-setosa
 3: 4.600000     3.100000    1.500000     0.200000    Iris-setosa
 4: 5.000000     3.600000    1.400000     0.200000    Iris-setosa
 5: 5.400000     3.900000    1.700000     0.400000    Iris-setosa
 6: 4.600000     3.400000    1.400000     0.300000    Iris-setosa
 7: 5.000000     3.400000    1.500000     0.200000    Iris-setosa
 8: 4.400000     2.900000    1.400000     0.200000    Iris-setosa
 9: 4.900000     3.100000    1.500000     0.100000    Iris-setosa
    ...          ...         ...          ...         ...
    <float>      <float>     <float>      <float>     <string>

