## Introdução

[^1]Há duas principais maneiras de chegar a esse ambiente de programação:

- **Localmente**: é preciso instalar o Python e uma IDE no seu computador.

- **Na nuvem**: acessa pelo navegador um ambiente já pronto e configurado para rodar Python.

[^1]: Todo este material foi retirado de diversas postagens e cursos da Análise Macro (www.analisemacro.com.br)

Um ambiente na nuvem pode ser o `Jupyter Notebook/Google Colab` e um ambiente local pode ser o `VsCode` ou `Anaconda`, mas a opção aqui é o Quarto do RStudio.


### Jupyter Notebook/Google Colab

O Jupyter Notebook é uma interface para programar em uma estrutura de "caderno de anotação": você pode escrever textos, inserir imagens, etc. e adicionar blocos de código, assim como exibir os resultados do código, tudo em um mesmo arquivo. Suas principais vantagens se referem a interface simples e intuitiva para iniciantes, além da facilidade de compartilhar códigos.

Para usar a interface do Jupyter na nuvem, basta seguir estes passos:

1. Ter uma conta no [Google](https://www.google.com.br/);
2. Acessar o [Google Drive](https://drive.google.com/);
3. Clicar em Novo (*New*) > Mais (*More*) > Google Colaboratory.

E com isso já se tem um ambiente de programação em Python. 

O que estes procedimentos fazem é criar um arquivo "*Untitled0.ipynb*" no seu Google Drive. Dessa forma, você pode escolher onde criar o arquivo e organizar seus códigos em pastas, se preferir.

O ponto forte está na sua capacidade de fácil integração (Google Drive, Github, entre outros), além de não ser necessário ter instalado a linguagem na máquina.

Para acessar, basta ir no site https://colab.research.google.com/, ter uma conta Google e criar um novo notebook.

### Quarto

O uso no Quarto se torna mais tranquilo para quem já usa o RStudio e trabalha tanto com o R quanto o Python. Para inserir os códigos a única diferença é que os `chunks` passam agora a iniciar com `{python}` ao invés de `{r}` depois das três crases. 

E ainda existe a possibilidade de rodar Python dentro do R, desde que seja usado o pacote `reticulate`. 

Um bom post sobre como preparar o ambiente de trabalho deve ser lido nesta página (https://analisemacro.com.br/data-science/python/introducao-ao-python-como-preparar-o-ambiente-de-trabalho/).


```{r}
#install.packages("reticulate")
reticulate::py_config()
```

In [None]:
#py -m pip install jupyter
1 + 1

# Instalações de Pacotes


```{r}
#reticulate::py_install("pandas")
```

In [None]:
#!pip install python-bcb #Google Colab
#py -m pip install python-bcb #Terminal Windows
#python3 -m pip install python-bcb #Terminal Mac

# Pacotes pandas e numpy

::: grid
::: g-col-6
### **Pandas**

- É uma biblioteca para **análise e tratamento de dados** no Python.<br><br>
- Oferece uma **sintaxe** e **estrutura de dados** flexível.<br><br>
- Cobre (quase) tudo que você precisa para **analisar dados**.<br><br>
- É **gratuito** e de **código aberto**.

Saiba mais: [https://pandas.pydata.org/](https://pandas.pydata.org/)

:::

::: g-col-6
### **Numpy**

- É uma biblioteca para **computação numérica** no Python;<br><br>
- Oferece uma **estrutura vetorial e matricial** para dados numéricos;<br><br>
- É a **base de muitas bibliotecas**;<br><br>
- É **gratuito** e de **código aberto**.

Saiba mais: [https://numpy.org/](https://numpy.org/)

:::
:::

## Unboxing do pandas

::: grid
::: g-col-6

### Estrutura de dados tabulares

```{r, echo=FALSE, out.width="45%"}
knitr::include_graphics("imgs/pd_dataframe.svg")
```


:::
::: g-col-6

### Leitura e escrita de arquivos *offline*

```{r, echo=FALSE, out.width="95%"}
knitr::include_graphics("imgs/pd_import_export.svg")
```


:::
:::


::: grid
::: g-col-6

###  Manipulação de dados facilitada

```{r, echo=FALSE, out.width="85%"}
knitr::include_graphics("imgs/pd_wrangle.svg")
```


:::
::: g-col-6

###  Módulo para visualização de dados

```{r, echo=FALSE, out.width="95%"}
knitr::include_graphics("imgs/pd_dataviz.svg")
```


:::
:::

## Para fazer isso:

O ciclo de análise de dados...


```{r, echo=FALSE, out.width="100%"}
knitr::include_graphics("imgs/ciclo_dados.png")
```



## Com o pandas, numpy e o Python, usa-se isso:

As principais bibliotecas usados para análise de dados.


```{r, echo=FALSE, out.width="100%"}
knitr::include_graphics("imgs/ciclo_dados_bibliotecas.png")
```


## Importando Arquivos

Para importar um arquivo CSV *offline* pode-se usar a biblioteca `pandas` no Python:


In [None]:
# Importa o arquivo "dados.csv" salvo na pasta "dados" a partir da pasta atual
import pandas as pd
tabela = pd.read_csv(filepath_or_buffer = "dados/dados.csv")

A função `read_csv()` importa o arquivo para um objeto `DataFrame` no Python, basta apontar a localização.

Por padrão, a função tenta adivinhar os tipos das colunas e utiliza a primeira linha como nome das colunas da tabela.


In [None]:
tabela

### Importando CSV com ponto e vírgula (;) de separador

O padrão de arquivos CSV é usar a vírgula como separador dos valores, mas em alguns casos o arquivo CSV pode ter sido gerado com um separador diferente.

No caso de separador ponto e vírgula (;) em um arquivo CSV, o padrão é que os decimais sejam, então, uma vírgula. Para importar nesse formato use os argumentos da função `read_csv()`:


In [None]:
# Importa arquivo CSV com separador ;
tabela = pd.read_csv(filepath_or_buffer = "dados/dados_pv.csv", 
        sep = ";", decimal = ",")
tabela.head()

### Lidando com codificação de caracteres

O padrão do pacote `pandas` é utilizar a mesma codificação de caracteres de fábrica do Python, que é a UTF-8. Se o arquivo CSV foi gerado com outra codificação pode ser que a importação dos dados saia do resultado desejado. O principal problema que pode acontecer é caracteres especiais, como "ç", não serem reconhecidos ou a importação gerar um erro. Por exemplo (dados do TSE):


In [None]:
# Importa arquivo CSV com separador ; e encoding padrão (gera um erro)
tse_codificacao_eua = pd.read_csv(
  filepath_or_buffer = "dados/tse.csv", 
  sep = ";"
  )

Para lidar com esses problemas deve-se apontar uma codificação compatível com o arquivo no momento da importação. Basta informar no argumento `encoding` qual é a codificação correta:


In [None]:
# Importa arquivo CSV com separador ; e encoding latin1
tse_codificacao_br = pd.read_csv(
  filepath_or_buffer = "dados/tse.csv",
  sep = ";",
  encoding = "latin_1"
  )
tse_codificacao_br.iloc[range(3), range(6)]

### Importando Excel

Para importar um arquivo Excel *offline* também pode usar a biblioteca **pandas** no Python:


In [None]:
tabela_excel = pd.read_excel(io = "dados/dados.xlsx")
tabela_excel