# Aula 2 - Leitura e escrita da bases de dados

Começamos sempre do mesmo jeito:

In [1]:
import polars as pl

O `pip install` só é necessário se você nunca usou a biblioteca antes. Nos usos seguintes, basta importar a biblioteca e, por convenção, sempre apelidamos o polars como pl.

## Leitura de arquivos csv

Feito o import, vamos ler a base de dados em si. As funções de leitura de bases de dados do polars seguem sempre o mesmo formato: `read_<nome do formato>`. Vamos usar aqui o `read_csv`, já que é este o formato da base de dados.

In [2]:
df = pl.read_csv('bolsas_no_brasil_concluidas.csv')

ComputeError: found more fields than defined in 'Schema'

Consider setting 'truncate_ragged_lines=True'.

Ops. Tivemos um problema. Pra você ver como mesmo ler uma planilinha pode ser difícil.

O erro não é óbvio nisso, mas o grande problema é que, em geral, arquivos .csv utilizam vírgulas para separar itens, mas o csv fornecido pela fapesp utiliza ponto e vírgula. Vamos então tentar de novo explicitando isso:

In [5]:
df = pl.read_csv('bolsas_no_brasil_concluidas.csv', separator=';')

Agora foi!

Vamos entender o que fizemos por partes.

`df = `: criamos uma variável chamada `df` e atribuímos a esta variável o resultado do que vem depois do `=`. Neste caso, isso significa que iremos salvar em `df` o conteúdo da planilha que iremos ler.
Feito isso, para acessar esse conteúdo basta digitarmos o nome da variável, que nomeei como `df` por convenção - consiste na abreviatura de DataFrame -, mas poderia receber qualquer outro nome, como `dados_bolsas` ou `fapesp_brasil_concluido`. Para entender melhor as limitações dos nomes das variáveis, clique [aqui](https://www.w3schools.com/python/python_variables_names.asp).

`pl.read_csv()`: utilizamos a função `read_csv()`da biblioteca `polars`, que apelidamos como `pl`, como vimos na aula anterior. Lembre-se sempre de utilizar os parenteses ao chamar qualquer função!

`('bolsas_no_brasil_concluidas.csv', separator=';')`: dentro da função, passamos dois argumentos - chamamos de argumento os valores que estamos "colocando" na função - `'bolsas_no_brasil_concluidas.csv'` e `';'`.  
O primeiro argumento, `'bolsas_no_brasil_concluidas.csv'` se resume a nomear o arquivo que queremos ler. Este argumento é obrigatório. Sem dizer o que você quer ler, não tem como ler nada. Lembre-se de atentar para o fato de que o formato do arquivo deve ser incluso em seu nome - neste caso, ".csv".  
Já o argumento `';'` é opcional. Neste caso, acabamos sendo obrigados a colocá-lo, mas, ao ler a esmagadora maioria das planilhas, você não precisará informar nada do tipo. Isso acontece porque, se você não informa qual separador quer utilizar, o polars presume que deve utilizar a vírgula. Se quiser utilizar algo diferente, precisará pedir explicitamente ao polars que faça isso.  
Enquanto `';'` é um argumento (algo que estamos colocando dentro da função), `separator=` é um parâmetro. Pense nos parâmetros como caixinhas dentro da função que estão aguardando ser preenchidas. Se você não preenche o parâmetro separator, o polars vai lá e guarda uma vírgula lá, mas, se quiser que outra coisa seja guardada lá, vai precisar passar explicitamente um **argumento** informando o que deve ser utilizado.

Vamos utilizar bastante essa terminologia - argumentos e parâmetros - então é importante para para tentar entender direito isso e tirar eventuais dúvidas antes de prosseguir.

Basicamente todas as funções do polars tem uma série de parâmetros que podem ou não ser preenchidos com argumentos - caso não sejam preenchidos, o polars vai guardar lá algo pré-definido. Não precisa entender em detalhes cada um, mas, se quiser conferir a lista completa dos parâmetros que podem ser utilizados com `read_csv`, confira a [documentação dessa função.](https://docs.pola.rs/api/python/stable/reference/api/polars.read_csv.html)

## Escrita da base de dados

Antes de entrar na exploração da base de dados em si, vamos terminar de ver tudo o que tem pra ver sobre leitura e escrita de dados.

Temos o nosso `df`. Se quisermos salvá-lo como csv, basta utilizar a função `write_csv()` - veja que o padrão de nomes será o mesmo do read, formado por `write_<nome do formato>`. Ao utilizar essa função, passamos como argumento o nome como queremos salvar o arquivo, com a extensão inclusa.

In [7]:
df.write_csv('base_fapesp.csv')

Se quisermos salvar em formato do excel, fazemos algo semelhante:

In [8]:
df.write_excel('base_fapesp.xlsx')

ModuleNotFoundError: Excel export requires 'xlsxwriter' not found.
Please install using the command `pip install xlsxwriter`.

No entanto, ao rodar isso, temos um erro. Este erro não acontece porque não existe a função `write_excel`, mas sim porque, para rodar essa função, precisamos instalar algumas dependências adicionais.

Para a instalação de polars ser mais rápidas, seus desenvolvedores fizeram com que você não fosse obrigado a instalar coisas que não irá usar. No nosso caso, como vamos trabalhar com excel, é melhor já instalarmos tudo o que é necessário para trabalhar com esse formato, não apenas o "xlsxwriter" sugerido pela mensagem de erro.

Para isso, rodamos agora `!pip install polars[excel]`. Os colchetes indicam que, além do polars, queremos instalas as dependências adicionais que associadas as "excel".

In [9]:
!pip install polars[excel]

/bin/bash: line 1: pip: command not found


Feito isso, agora tentamos de novo, agora com sucesso:

In [10]:
df.write_excel('base_fapesp.xlsx')

<xlsxwriter.workbook.Workbook at 0x7d4c29f9e7e0>

Como a base de dados é grandinha, pode demorar um pouco.

Para ler a planilha salva, podemos lê-la como fizemos com o csv:

In [11]:
df_excel = pl.read_excel('base_fapesp.xlsx')

Could not determine dtype for column 7, falling back to string
Could not determine dtype for column 8, falling back to string
Could not determine dtype for column 10, falling back to string
Could not determine dtype for column 11, falling back to string
Could not determine dtype for column 12, falling back to string
Could not determine dtype for column 14, falling back to string
Could not determine dtype for column 15, falling back to string
Could not determine dtype for column 23, falling back to string
Could not determine dtype for column 26, falling back to string


Pode ignorar eventuais alertas sobre dtype. Elas são destinadas a usos mais avançados desse tipo de ferramenta.

Note que, se não houvessemos instalado antes `polars[excel]`, teriamos recebido uma mensagem de erro ao tentar ler a planilha.

Agora que sabemos como ler a planilha, vamos explorá-la!