# TRABALHANDO COM ARQUIVOS(ENTRADA E SAIDA) PARTE I

## ARQUIVOS CSV 

A melhor forma de trabalhar com arquivos é salva-los no formato "`CSV`". ***Comma-separated values*** (ou `CSV`) é um formato de arquivo que armazena dados tabelados, cujo grande uso data da época dos mainframes. Por serem bastante simples, arquivos CSV são comuns em todas as plataformas de computador. 
    
O `CSV` é um implementação particular de arquivos de texto separados por um delimitador, que usa a vírgula e a quebra de linha para separar os valores. O formato também usa as aspas em campos no qual são usados os caracteres reservados (vírgula e quebra de linha). Essa robustez no formato torna o `CSV` mais amplo que outros formatos digitais do mesmo segmento. Fonte: wikipedia. 

Forma geral de um arquivo `CSV` na forma de texto:
```julia
   nome_coluna_1, nome_coluna_2
   dado_col_1   , dado_col_2
   dado_col_1   , dado_col_2
```
Uma forma prática de criar arquivos `CSV` é usando uma planilha (excel, calc-libreoffice/openoffice) eletrônicab. Basta preencher os dados nas celulas e depois salvar como CSV.

### MANIPULAÇÃO DE ARQUIVOS CSV

#### Criação de um arquivo CSV pelo editor de texto do JuPyter

Na pagina principal do JuPyter, selecione `New -> Text File` conforme figura abaixo:

<img src="Figuras/novo_arq_txt.png" align="center" width="700">

Digite os dados conforme figura abaixo:
<img src="Figuras/arquivo_csv.png" align="center" width="400">

Julia salva o arquivo no formato `TXT` então basta clicar no  título e alterar o nome para `teste.csv`. Para importar os dados use a sintaxe:
```julia
var_dados = readcsv("nome_arquivo.csv")
```
O comando `readcsv` ja faz a conversão para tipo Float64 e coloca os dados em uma estrutura do tipo `Array`. Caso o arquivo CSV tenha um cabeçalho que defina as colunas, ocorrerá erro quando for manipulá-lo, pois o cabeçalho é do tipo String e portanto deve ser removido. utilize:
```julia
var_dados = readcsv("nome_arquivo.csv")[2:end,:] # Exclui a primeira linha da tabela
```
Dessa forma a primeira linha do arquivo contendo o cabeçalho será ignorada.

In [149]:
tabela_dados = readcsv("teste.csv")

7×2 Array{Float64,2}:
 0.0  0.0
 1.0  1.5
 2.0  1.7
 3.0  1.8
 4.0  1.0
 5.0  1.6
 6.0  1.8

#### Manipulação dos dados em arquivo

In [150]:
# listar o elemento da terceira linha e segunda coluna
tabela_dados[3,2]

1.7

In [151]:
# multiplicar todos os elementos da segunda linha por 100
tabela_dados[:,2]*100

7-element Array{Float64,1}:
   0.0
 150.0
 170.0
 180.0
 100.0
 160.0
 180.0

In [152]:
# gráfico dos dados
using Plots
pyplot()

scatter(tabela_dados[:, 1], tabela_dados[:, 2], label = "pontos")

#### CRIAÇÃO DE UMA ARQUIVO CSV PARTIR DE UMA MATRIZ OU VETOR

Para salvar os dados em um arquivo `CSV` use o comando:
```julia
writecsv("nome_arquivo.csv", dados)
```


In [153]:
# criar duas matrizes do tipo float
f(x, y) = x + x*y + y

matriz_dados_1 = [ f(x , y) for x = 1:5, y = 1:5];   # matriz definida por uma LC

matriz_dados_2 = rand(5, 5);                        # matriz de números tipo float entre 0 e 1



5×5 Array{Float64,2}:
 0.353197   0.519924  0.212848  0.903914   0.482717 
 0.141792   0.980609  0.425655  0.556317   0.656263 
 0.955672   0.482057  0.342568  0.361308   0.0794265
 0.0948206  0.45463   0.251457  0.259361   0.0144769
 0.949777   0.79217   0.353393  0.0315384  0.695987 

In [56]:
# escrever em arquivo
writecsv("matriz_dados_1.csv", matriz_dados_1)
writecsv("matriz_dados_2.csv", matriz_dados_2)

In [57]:
# ler os dados gravados em arquivo
readcsv("matriz_dados_1.csv")

5×5 Array{Float64,2}:
  3.0   5.0   7.0   9.0  11.0
  5.0   8.0  11.0  14.0  17.0
  7.0  11.0  15.0  19.0  23.0
  9.0  14.0  19.0  24.0  29.0
 11.0  17.0  23.0  29.0  35.0

#### Concatenação e Arquivos CSV

É importante que as dimensões sejam compatíveis, ou seja, se for concatenação horizontal o numero de linhas deve ser igual, se for concatenação vertical então será o número de colunas. Sintaxe:

Horizontal (número de linhas iguais):

```julia
writecsv("novo_arquivo.csv", [readcsv("nome_arquivo1.csv")  readcsv("nome_arquivo2.csv")])
ou
writecsv("novo_arquivo.csv", hcat(readcsv("matriz_dados_1.csv") , readcsv("matriz_dados_2.csv")))
```
Vertical (número de colunas iguais):
```julia
writecsv("novo_arquivo.csv", [readcsv("nome_arquivo1.csv") ; readcsv("nome_arquivo2.csv")])
ou:
writecsv("novo_arquivo.csv", vcat(readcsv("matriz_dados_1.csv") , readcsv("matriz_dados_2.csv")))
```

In [58]:
# concatenação Horizontal
writecsv("matriz_dados_conc_hor.csv", [readcsv("matriz_dados_1.csv")  readcsv("matriz_dados_2.csv")])

In [59]:
readcsv("matriz_dados_conc_hor.csv")

5×10 Array{Float64,2}:
  3.0   5.0   7.0   9.0  11.0  0.211847  …  0.764431  0.901615  0.0043205
  5.0   8.0  11.0  14.0  17.0  0.998738     0.84468   0.583447  0.755214 
  7.0  11.0  15.0  19.0  23.0  0.211109     0.915907  0.745366  0.584888 
  9.0  14.0  19.0  24.0  29.0  0.642605     0.844404  0.752329  0.473151 
 11.0  17.0  23.0  29.0  35.0  0.963542     0.471985  0.76312   0.536936 

In [60]:
# concatenação vertical
writecsv("matriz_dados_conc_vert.csv", [readcsv("matriz_dados_1.csv"); readcsv("matriz_dados_2.csv")])

In [61]:
# ler resultado
readcsv("matriz_dados_conc_vert.csv")

10×5 Array{Float64,2}:
  3.0        5.0        7.0        9.0       11.0      
  5.0        8.0       11.0       14.0       17.0      
  7.0       11.0       15.0       19.0       23.0      
  9.0       14.0       19.0       24.0       29.0      
 11.0       17.0       23.0       29.0       35.0      
  0.211847   0.162351   0.764431   0.901615   0.0043205
  0.998738   0.806285   0.84468    0.583447   0.755214 
  0.211109   0.748352   0.915907   0.745366   0.584888 
  0.642605   0.844732   0.844404   0.752329   0.473151 
  0.963542   0.717597   0.471985   0.76312    0.536936 

## DATA FRAMES 

Os dataframes são objetos usados para guardar dados na forma de tabelas. Um data frame possui colunas nomeadas, sendo que todas as colunas possuem a mesma quantidade de linhas. DataFrame é a melhor forma de guardar informações pois além de manter uma boa formatação dos dados, ainda permite que seja gravado em arquivos do tipo CSV, que podem ser abertos e manipulados em softwares de planilha tipo excel ou calc.

### CRIAR E MANIPULAR DATAFRAMES

#### CRIAR DATAFRAMES 

Para criar um dataframe use a sintaxe:
```julia
Nome_dataFrame(nome_coluna_1 = [dado1_col_1, dado2_col_1], nome_coluna_2 = [dado1_col_2, dado2_col_2])

ou
nome_dataframe = DataFrame()
nome_dataframe[:nome_coluna_1] = [dado1_col_1, dado2_col_1]
nome_dataframe[:nome_coluna_2] = [dado1_col_2, dado2_col_2]

ou
nome_dataframe = DataFrame(  
                 nome_coluna_1 =  @data([dado1_col_1, dado2_col_1]),
                 nome_coluna_2 =  @data([dado1_col_2, dado2_col_2]),              
)
```
**OBS** : Nomes das colunas não podem ter espaço

É possível criar um dataframe a partir de uma matriz através do comando:
```julia
convert(DataFrame, matriz)
```

In [62]:
using DataFrames

In [63]:
# criar o dataframe.
# Nomes das colunas não podem ter espaço

dados = DataFrame(Nome_do_software = ["scilab","julia"], Ano = [2005, 2012])
dados

Unnamed: 0,Nome_do_software,Ano
1,scilab,2005
2,julia,2012


Ou assim:

In [64]:
# Nomes das colunas não podem ter espaço

dados = DataFrame()

dados[:Nome_do_sofware] = ["scilab","julia"]
dados[:Ano]             = [2005, 2012]
dados

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


Ou ainda:

In [65]:
# Nomes das colunas não podem ter espaço

dados = DataFrame(  
        Nome_do_sofware =  @data(["scilab","julia"]),
        Ano             =  @data([2005, 2012]))

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


In [66]:
# salvar no arquivo 
writetable("dataframe.csv", dados)

In [67]:
# exibindo o arquivo e o conteúdo 
readtable("dataframe.csv")

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


Outro exemplo

In [68]:
# Nomes das colunas não podem ter espaço

Softwares = DataFrame()

Softwares[:Nome_do_software]  = ["Julia", "SageMath", "Maxima", "Octave","Maxima"]
Softwares[:Ano_de_lancamento] = [2012, 2005, 1980, 2000, 1980]
Softwares[:Site]              = ["julialang.org","sagemath.org","maxima.org","gnu.org/octave", "maxima.org"]

Softwares

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,Maxima,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org


In [69]:
# Visualizar cabeçalho das colunas
names(Softwares) 

3-element Array{Symbol,1}:
 :Nome_do_software 
 :Ano_de_lancamento
 :Site             

In [70]:
# saber os tipos dos elementos do dataframe. Aqui temos String (primeira coluna) e tipo Inteiro (segunda coluna)
eltypes(Softwares)

3-element Array{Type,1}:
 String
 Int64 
 String

In [71]:
# salvar no arquivo 
writetable("softwares_dataframe.csv", Softwares)

#### MANIPULAR COLUNAS, LINHAS E CONCATENAR DATAFRAMES

In [72]:
using DataFrames

** Para adicionar uma nova coluna de dados ao DataFrame use:**
```julia
DataFrame[:nova_coluna] = [vetor_dados]
```

In [73]:
# Copia dataframe "dados" gravado em arquivo
dados1 = readtable("dataframe.csv")

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


In [74]:
# Adicionar uma nova coluna de dados
dados1[:Gostei] = ["Sim", "Sim"]

2-element Array{String,1}:
 "Sim"
 "Sim"

In [75]:
dados1

Unnamed: 0,Nome_do_sofware,Ano,Gostei
1,scilab,2005,Sim
2,julia,2012,Sim


** Para deletar uma coluna use:**
```julia
delete!(Dataframe, :nome_coluna)
```

In [76]:
delete!(dados1, :Gostei)

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


** Para alterar nome de uma coluna use:**
```julia
rename(Dataframe,:nome_coluna,:novo_nome_coluna) # apenas uma coluna
names!(Dataframe, [:novo_nome_coluna_1, :novo_nome_coluna_2]) # todas as colunas
```

In [77]:
# Copia dataframe "dados" gravado em arquivo
dados2 = readtable("dataframe.csv")

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


In [78]:
# Alterar o nome da coluna 1 "Nome_do_sofware" para "Nome_do_programa"
rename(dados2, :Nome_do_sofware,:Nome_programa)

Unnamed: 0,Nome_programa,Ano
1,scilab,2005
2,julia,2012


** Para concatenar Dataframes na horizontal use:**
```julia
[Dataframe_1  Dataframe_2] ou
hcat(Dataframe_1 , Dataframe_2)
```

In [79]:
# Copia dataframe "dados" gravado em arquivo
dados3 = readtable("dataframe.csv")

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


In [80]:
# Novo Dataframe 

dados_novos = DataFrame()

dados_novos[:Nome_do_sofware] = ["scilab","axiom"]
dados_novos[:Ano]             = [2005,1980]

dados_novos

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,axiom,1980


In [81]:
# Concatenar na horizontal
dados5 = [dados3 dados_novos]

Unnamed: 0,Nome_do_sofware,Ano,Nome_do_sofware_1,Ano_1
1,scilab,2005,scilab,2005
2,julia,2012,axiom,1980


Ou 

In [82]:
dados5 =  hcat(dados3 , dados_novos)

Unnamed: 0,Nome_do_sofware,Ano,Nome_do_sofware_1,Ano_1
1,scilab,2005,scilab,2005
2,julia,2012,axiom,1980


** Para concatenar Dataframes na vertical use:**
```julia
[Dataframe_1 ; Dataframe_2] ou
vcat(Dataframe_1 , Dataframe_2)
```

In [83]:
# Concatenar na vertical
dados4 = [dados3; dados_novos]

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012
3,scilab,2005
4,axiom,1980


Ou

In [84]:
dados4 =  vcat(dados3 , dados_novos)

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012
3,scilab,2005
4,axiom,1980


Se os Dataframes tiverem somente uma coluna com nome em comum e mesmo tamanho pode ser usado a forma:
```julia
join(Dataframe_1,Dataframe_2, on = :nome_coluna_comum)
```

** Para deletar linhas e linhas com dados repetidos use:**
```julia
deleterows!(DataFrame, [linha_1,linha_2,...]) # apaga as linhas e modifica o Dataframe(CUIDADO!)
deleterows!(DataFrame, linha_1:linha_x)       # apaga as linhas e modifica o Dataframe(CUIDADO!)

unique(DataFrame)  # apaga a linha repetida 
unique!(DataFrame) # apaga a linha repetida e modifica o Dataframe(CUIDADO!)
```
Sendo x um número inteiro que representa a coluna ou elemento.

In [85]:
dados4

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012
3,scilab,2005
4,axiom,1980


In [86]:
# deletar uma linha
deleterows!(dados4, 2)

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,scilab,2005
3,axiom,1980


In [87]:
# deletar linhas de dados repetido
unique!(dados4)

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,axiom,1980


** Para ordenar os elementos de um Dataframe**


In [88]:
# Copia dataframe "dados" gravado em arquivo
dados6 = readtable("dataframe.csv")

Unnamed: 0,Nome_do_sofware,Ano
1,scilab,2005
2,julia,2012


In [89]:
# ordena e atualiza
sort!(dados6, cols = order(:Nome_do_sofware))

Unnamed: 0,Nome_do_sofware,Ano
1,julia,2012
2,scilab,2005


#### VISUALIZAR E ALTERAR DADOS EM UM DATAFRAME

In [90]:
using DataFrames

In [91]:
# copiar Dataframe gravado em arquivo
Softwares1 = readtable("softwares_dataframe.csv")

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,Maxima,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org


**Visualizar dados**

```julia
DataFrame[:nome_coluna_x]              # Somente os elementos da coluna_x
DataFrame[coluna_x]                    # Somente os elementos da coluna_x

DataFrame[:nome_coluna_x][elemento_x]  # Somente um elemento da coluna_x e linha_x
DataFrame[coluna_x][elemento_x]        # Somente um elemento da coluna_x e linha_x
```

In [92]:
# Visualizando toda a primeira coluna
Softwares1[:Nome_do_software]

5-element DataArrays.DataArray{String,1}:
 "Julia"   
 "SageMath"
 "Maxima"  
 "Octave"  
 "Maxima"  

In [93]:
# Visualizando toda a primeira coluna
Softwares1[1]

5-element DataArrays.DataArray{String,1}:
 "Julia"   
 "SageMath"
 "Maxima"  
 "Octave"  
 "Maxima"  

In [94]:
# acessando o terceiro elemento da primeira coluna
Softwares1[:Nome_do_software][3]

"Maxima"

In [95]:
# acessando o terceiro elemento da primeira coluna
Softwares1[1][3]

"Maxima"

**Alterar dados em um dataframe**

```julia
DataFrame[:nome_coluna_x][elemento_x] = novo_dado           # altera o dado da coluna_x e linha_x
DataFrame[coluna_x][elemento_x]       = novo_dado           # altera o dado da coluna_x e linha_x
DataFrame[[elem_x1,elem_x2,elem_x3],:coluna_x] = novo_dado* # altera os dados dos elem x1,x2,x3 da coluna_x

*novo_dado pode ser um vetor correspondente aos novos dados de elem x1,x2,x3...
```

In [96]:
# alterando o valor do terceiro elemrnto da primeira coluna
Softwares1[1][3] = "maXIma"

"maXIma"

In [97]:
# veja o novo nome do software maxima
Softwares1

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,maXIma,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org


**Adicionar linha de dados**

```julia
push!(Dataframe, [dado_col_x1,dado_col_x2])
ou
nome_Dataframe = vcat(nome_Dataframe, DataFrame(dado_col_x1 = valor,dado_col_x2 = valor))
```
Sendo x um número inteiro que representa a coluna ou elemento.


In [98]:
push!(Softwares1, ["FreeMat",2001,"freemat.org"])

In [99]:
Softwares1

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,maXIma,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org
6,FreeMat,2001,freemat.org


In [100]:
# outra forma de adicionar uma linha de dados. Ficará 2 "FreeMat"
Softwares1 = vcat(Softwares1,DataFrame(Nome_do_software="FreeMat",Ano_de_lancamento=2001,Site="freemat.org"))

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,maXIma,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org
6,FreeMat,2001,freemat.org
7,FreeMat,2001,freemat.org


**Ordenando dados**
```julia
sort(Dataframe, cols = order(:nome_coluna))
sort!(Dataframe, cols = order(:nome_coluna)) # ordena e modifica o Dataframe(CUIDADO!)
```
Use somente **sort** sem o "! " para evitar a atualização do vetor

In [101]:
sort!(Softwares1, cols = order(:Ano_de_lancamento))

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,maXIma,1980,maxima.org
2,Maxima,1980,maxima.org
3,Octave,2000,gnu.org/octave
4,FreeMat,2001,freemat.org
5,FreeMat,2001,freemat.org
6,SageMath,2005,sagemath.org
7,Julia,2012,julialang.org


In [102]:
# veja que o dataframe Softwares foi atualizado automaticamente
Softwares1

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,maXIma,1980,maxima.org
2,Maxima,1980,maxima.org
3,Octave,2000,gnu.org/octave
4,FreeMat,2001,freemat.org
5,FreeMat,2001,freemat.org
6,SageMath,2005,sagemath.org
7,Julia,2012,julialang.org


**Retirar elementos repetidos**

Use somente **unique(dataframe)** sem o "! " para evitar a atualização do vetor

In [103]:
unique!(Softwares1)

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,maXIma,1980,maxima.org
2,Maxima,1980,maxima.org
3,Octave,2000,gnu.org/octave
4,FreeMat,2001,freemat.org
5,SageMath,2005,sagemath.org
6,Julia,2012,julialang.org


#### FILTRAR  DADOS EM UM DATAFRAME

Para filtrar dados em um DataFrame temos:
```julia
Nome_DataFrame[ Nome_DataFrame[coluna].operador_logico valor, colunas_filtradas ]
```
- `Operador lógico`: > , < , =! e outros
- `valor` : valor a ser pesquisado
- `colunas`: qual ou quais colunas devem ser filtradas (use : para todas as colunas)

In [104]:
using DataFrames

In [105]:
# copiar Dataframe gravado em arquivo
Softwares1 = readtable("softwares_dataframe.csv")

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,Maxima,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org


In [106]:
# filtrar todos os dados maiores que o ano de 1980
Softwares1[Softwares1[2].> 1980, :  ]

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,Octave,2000,gnu.org/octave


In [107]:
# filtrar somente a colunaa 1   maiores que o ano de 1980
Softwares1[Softwares1[2].> 1980, 1  ]

3-element DataArrays.DataArray{String,1}:
 "Julia"   
 "SageMath"
 "Octave"  

In [108]:
# filtrar somente as colunas 2 a 3  maiores que o ano de 1980
Softwares1[Softwares1[2].> 1980, 2:3  ]

Unnamed: 0,Ano_de_lancamento,Site
1,2012,julialang.org
2,2005,sagemath.org
3,2000,gnu.org/octave


In [109]:
# filtrar somente as colunas 1 e 3  maiores que o ano de 1980
Softwares1[Softwares1[2].> 1980, [1,3]]

Unnamed: 0,Nome_do_software,Site
1,Julia,julialang.org
2,SageMath,sagemath.org
3,Octave,gnu.org/octave


In [110]:
# filtrar somente as colunas 1 e 3  maiores que o ano de 1980 e menores que 2010
Softwares1[(Softwares1[2].> 1980)&(Softwares1[2].< 2010), [1,3]  ]

Unnamed: 0,Nome_do_software,Site
1,SageMath,sagemath.org
2,Octave,gnu.org/octave


#### MAP, MAPREDUCE , SUM, PROD E LIST COMPREHENSION

In [111]:
Softwares1[2]

5-element DataArrays.DataArray{Int64,1}:
 2012
 2005
 1980
 2000
 1980

In [112]:
map(x -> 10*x , Softwares1[2])

5-element DataArrays.DataArray{Any,1}:
 20120
 20050
 19800
 20000
 19800

In [113]:
mapreduce(x -> 10*x , + , Softwares1[2])

99770

In [114]:
sum(Softwares1[2])

9977

In [115]:
prod(Softwares1[2])

31630257648000000

In [116]:
[10*x for x = Softwares1[2]]

5-element Array{Int64,1}:
 20120
 20050
 19800
 20000
 19800

### ARQUIVOS CSV COM DATAFRAMES

As manipulações com os dados importados do arquivo CSV seguem o mesmo padrão das manipulações de Dataframe ja trabalhado acima. Para criar um DataFrame no formato CSV:
```julia
nome_dataframe = csv"""
Coluna_1 , Coluna_2
dados_1  , dados_1
dados_2  , dados_2
"""
```
**Importar dados em um arquivo CSV**

```julia
   var_dados = readtable("arquivo.csv")
```
**Salvar dataframe em um arquivo CSV**

    Forma geral de salvar dados em um arquivo CSV:
```julia
   writetable("nome.csv", dataframe, separator = ',', header = true/false)
```
       separator -> simbolo separador das dados entre as colunas
       header    -> cabeçalho das colunas

In [117]:
using DataFrames

Software_Científico = csv"""
Nome_software , Ano_lançamento
Python        , 1991
Scilab        , 2000
"""

Unnamed: 0,Nome_software,Ano_lançamento
1,Python,1991
2,Scilab,2000


In [118]:
typeof(Software_Científico)

DataFrames.DataFrame

In [119]:
push!(Software_Científico, ["Julia",2012])

In [120]:
# salvar em arquivo e ler os dados do arquivo
writetable("Soft_Cient.csv", Software_Científico, separator = ',', header = true)

readtable("Soft_Cient.csv")

Unnamed: 0,Nome_software,Ano_lançamento
1,Python,1991
2,Scilab,2000
3,Julia,2012


In [121]:
# Importar tabela de dados
tabela_dados_reta = readtable("dados_reta.csv")

Unnamed: 0,x,y
1,0.0,-0.183440428023042
2,0.2,-0.131101157495126
3,0.4,0.0268875670852843
4,0.8,0.110532679260319
5,1.0,0.253944632998395
6,1.2,0.257190123748649
7,1.4,0.531888837111346
8,1.6,0.579048247883555
9,2.0,0.935180993484717
10,2.2,0.916600344376623


In [122]:
# visualizar toda a primeira coluna
tabela_dados_reta[1]

14-element DataArrays.DataArray{Float64,1}:
 0.0
 0.2
 0.4
 0.8
 1.0
 1.2
 1.4
 1.6
 2.0
 2.2
 2.6
 2.8
 3.0
 3.4

In [123]:
# Acessar o 7 elemento da primeira coluna
tabela_dados_reta[1][7]

1.4

In [124]:
# Visualizar toda a segunda coluna
tabela_dados_reta[2]

14-element DataArrays.DataArray{Float64,1}:
 -0.18344  
 -0.131101 
  0.0268876
  0.110533 
  0.253945 
  0.25719  
  0.531889 
  0.579048 
  0.935181 
  0.9166   
  1.13329  
  1.26893  
  1.10203  
  1.13392  

In [125]:
# Gráfico dos dados
using Plots
pyplot()

scatter(tabela_dados_reta[1],tabela_dados_reta[2], size = (400,300), label = "Pontos")

## APLICAÇÕES

Um pesquisador deseja investigar todas as raízes das função  $f(x)  = x + x^2sin(x)$  num intervalo de 0 a 15.

In [126]:
using DataFrames, SymPy
@syms x

(x,)

In [127]:
# função
f(x)  = x + x^2*sin(x)



f (generic function with 2 methods)

In [128]:
using Plots
pyplot()

plot(f, 0:0.5:15, label = "funcao", size = (400, 300))

In [129]:
# Vetor de valores iniciais (xi)
v = [0.0, 2.0, 6.0, 9.0, 13.0]

# Dataframe que vai receber as raízes calculadas de tamanho 5. 
# O tipo dos dados são Array de Float64

Resultado1 = DataFrame(Valor_X = rand(5), Raiz = rand(5));

In [130]:
# laço for adiciona o valor de "x" na primeira coluna 1
# e a raiz na coluna 2

for i = 1:length(v)
    #Dados da primeira coluna do Dataframe
    Resultado1[1][i] = v[i]
    
    #Dados da segunda coluna do Dataframe
    Resultado1[2][i] = nsolve(f(x), v[i])
end

In [131]:
Resultado1

Unnamed: 0,Valor_X,Raiz
1,0.0,0.0
2,2.0,0.0
3,6.0,6.119024225042324
4,9.0,9.529904336449029
5,13.0,12.486196308339682


**Outra forma `Like a Python`**

Criar um DataFrame vazio e um laço `for` vai adicionando ao final tal como um vetor.

In [132]:
# = Float64[] siginifica vetor vazio do tipo Float64

Resultado2 = DataFrame(Valor_X = Float64[], Raiz = Float64[])

Unnamed: 0,Valor_X,Raiz


In [133]:
# Vetor de valores iniciais (xi)
# ATENÇÃO! como o Resultado2 é um vetor vazio, a cada execução
# será criada ao final do DataFrame um novo conjunto de dados
# para evitar isso use unique!(Resultado2) ao final do laço
v = [0.0, 2.0, 6.0, 9.0, 13.0]

for i in v
    push!(Resultado2, [i, nsolve(f(x), i)])
end

unique!(Resultado2)

Unnamed: 0,Valor_X,Raiz
1,0.0,0.0
2,2.0,0.0
3,6.0,6.119024225042324
4,9.0,9.529904336449029
5,13.0,12.486196308339682


In [134]:
# Testando os resultados 

for i = 1:length(v)
    print(f(Resultado2[2][i])," ; ")
end

0.0 ; 0.0 ; 8.881784197001252e-15 ; 4.085620730620576e-14 ; -6.039613253960852e-14 ; 

In [135]:
# Gravando os dados em um arquivo CSV

writetable("Resultado2.csv", Resultado1, separator = ',', header = true)

**Outa forma de adicionar dados ao final de um Dataframe**

Comando vcat. Sintaxe:

```julia
vcat(nome_Dataframe, DataFrame(coluna1 = dados, coluna2 = dados))
```

**Adicionando um único valor de raiz**

In [136]:
Resultado2 = readtable("Resultado2.csv")
push!(Resultado2, [60, nsolve(f(x), 60)]) # pode ser usado também o comando vcat
Resultado2

Unnamed: 0,Valor_X,Raiz
1,0.0,0.0
2,2.0,0.0
3,6.0,6.119024225042324
4,9.0,9.529904336449029
5,13.0,12.486196308339682
6,60.0,59.70700965357191


**Adicionando vários valores de raizes**

In [137]:
# vetor de raízes aproximadas e vetor de raizes calculadas pelo SymPy
novos_valores_x = [62.0, 70.0, 75.0, 80.0] 
novas_raizes_f = Float64[nsolve(f(x), raiz) for raiz = novos_valores_x]

4-element Array{Float64,1}:
  62.8159
  69.1006
  75.385 
 -15.7714

In [138]:
Resultado2 = vcat(Resultado2, DataFrame(Valor_X = novos_valores_x, Raiz = novas_raizes_f))

Unnamed: 0,Valor_X,Raiz
1,0.0,0.0
2,2.0,0.0
3,6.0,6.119024225042324
4,9.0,9.529904336449029
5,13.0,12.486196308339682
6,60.0,59.70700965357191
7,62.0,62.81593287133609
8,70.0,69.10056621235024
9,75.0,75.38495805125963
10,80.0,-15.771411695083252


## QUERY

Query é um pacote para consultar as fontes de dados. O pacote permite filtrar, projetar, unir e agrupar dados de qualquer fonte de dados iterável. Possui suporte aprimorado para consulta de arrays, DataFrames, TypedTables, IndexedTables e qualquer fonte DataStream (CSV, SQLite etc.).

In [139]:
using Query, DataFrames



In [140]:
# copiar Dataframe gravado em arquivo
Softwares1 = readtable("softwares_dataframe.csv")

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org
3,Maxima,1980,maxima.org
4,Octave,2000,gnu.org/octave
5,Maxima,1980,maxima.org


In [141]:
x = @from i in Softwares1 begin
    @where i.Ano_de_lancamento > 2000 
    @select {i.Nome_do_software, i.Ano_de_lancamento, i.Site}
    @collect DataFrame
end

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,Julia,2012,julialang.org
2,SageMath,2005,sagemath.org


In [142]:
x = @from i in Softwares1 begin
    @where i.Ano_de_lancamento > 2000 && i.Ano_de_lancamento < 2010
    @select {i.Nome_do_software, i.Ano_de_lancamento, i.Site}
    @collect DataFrame
end

Unnamed: 0,Nome_do_software,Ano_de_lancamento,Site
1,SageMath,2005,sagemath.org


In [143]:
using DataFrames 
using DataArrays
using DataFramesMeta



In [144]:
df = DataFrame(a = [1,2,3], b = [4,5,6])



Unnamed: 0,a,b
1,1,4
2,2,5
3,3,6


In [145]:
@where(df, :a .> 2)



LoadError: LoadError: UndefVarError: @where not defined
while loading In[145], in expression starting on line 1

In [146]:
@with(df, df[:a .> 1, ^(:b)])

2-element DataArrays.DataArray{Int64,1}:
 5
 6

In [147]:
@with(df, :a + _I_(:b) )

3-element DataArrays.DataArray{Int64,1}:
 5
 7
 9

In [148]:
@where(df, :a .> 2)

LoadError: LoadError: UndefVarError: @where not defined
while loading In[148], in expression starting on line 1