<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Integração com Pandas

Já sabemos que o Pandas é uma das principais bibliotecas de Python para manipulação de dados. Por isso, é sempre interessante unir Python com Pandas. Já vimos como é possível abrir arquivos xlsx com o Pandas, mas isso já infere que estaremos trabalhando com data frames, o que pode não ser o intuito no seu projeto.


<center><img width="50%" src="https://images.unsplash.com/photo-1508060769857-4248294a47e5?ixlib=rb-1.2.1&ixid=eyJhcHBfaWQiOjEyMDd9&auto=format&fit=crop&w=667&q=80"></center>

Por isso, é sempre importante saber como levar os dados a um data frame, e depois retorná-los para o formato xlsx, ou o contrário. Essa flexibilidade abre nosso leque de possibilidades e nosso poder analítico, e esse é o foco deste notebook.

Mais uma vez, lembrando sobre a atualização da biblioteca e o carregamento dos dados.

In [None]:
# atualizando a lib
!pip install -U openpyxl -q

## Sobre o Openpyxl
O Openpyxl tem ferramentas para converter um xlsx em dataframe, e vice versa. Cada biblioteca tem propriedades que podem ser desejáveis a depender do seu objetivo, e por isso é interessante que saibamos alternar entre elas.

Para nosso primeiro caso, vamos abrir o nosso arquivo com Pandas, para simular o recebimento do arquivo como data frame, mas você quer trabalhar com o openpyxl.

In [None]:
# importando o pandas e os dados
import pandas as pd
df = pd.read_excel('/content/controle_da_empresa.xlsx')

# visualizando o data frame
df.head()

Unnamed: 0,Código,Item,Estoque Mínimo,Custo da Unidade,Preço da Unidade,Unidade de Medida,Estoque Atual
0,SIG001,Canon 6D Mark II,5,8500,8500,Unidade,13
1,SIG002,Canon 5D Mark III,2,9500,13650,Unidade,1
2,SIG003,Lente 85mm f/1.4,8,7000,9989,Unidade,6
3,SIG004,Lente 50mm f/1.4,8,900,1649,Unidade,10
4,SIG005,Lente 16-35mm f/2.8,8,6120,8997,Unidade,11


## Transformando para XLSX
Uma vez carregado nosso data frame, é hora de trabalhar com o openpyxl. Para isso, vamos importar o módulo `Workbook` e dos utilitários do openpyxl vamos puxar do módulo dataframe, o `dataframe_to_rows`, que, como o nome sugere, transforma o dataframe em linhas, como quando lemos um arquivo xlsx.

In [None]:
# importando os pacotes necessários
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows

Para podermos ter esses dados em formato xlsx, primeiro, precisamos criar nossa planilha, e acessar a aba principal, para então inserir os dados nas células.

Portanto, vamos criar nossa planilha.

In [None]:
# criando a planilha
workbook = Workbook()

# acessando a aba
sheet = workbook.active

Com nossa planilha aberta, podemos usar um loop for para iterar sobre os dados do data frame, e inserir os mesmos em nossa planilha.

In [None]:
# iterando sobre o dataframe, inserindo os dados nas células
for row in dataframe_to_rows(df, index=False, header=True):
  sheet.append(row)

# salvando a planilha
workbook.save(filename='salvo_no_openpyxl.xlsx')

Pronto! Agora podemos utilizar os arquivos que recebemos como csv, em formato xlsx.

**Ou, usando diretamente o método `df.to_excel`**

In [None]:
df.to_excel("salvo_no_pandas.xlsx", sheet_name="Nome da aba", index=False)

## Convertendo XLSX para DF

Agora que já sabemos ir de Data Frame para XLSX, é hora de fazer o caminho contrário.

<center><img width="50%" src="https://images.unsplash.com/photo-1460925895917-afdab827c52f?ixlib=rb-1.2.1&ixid=eyJhcHBfaWQiOjEyMDd9&auto=format&fit=crop&w=702&q=80"></center>

Já conhecemos todas as possibilidades que o Pandas e outras bibliotecas trabalhando em conjunto com essa nos proporcionam, portajnto, é bastante interessante direcionarmos nossa análise com o Pandas. 

Aqui, vamos simular o recebimento de um arquivo em formato xlsx, e transformá-lo em um data frame do Pandas.

Uma das primeiras coisas que precisaremos fazer é coletar o nome das colunas, pois quando criarmos nosso data frame, elas aparecerão como a primeira linha, e não como coluna.

Depois de carregar os dados, vamos renomear as colunas e apagar a coluna extra. Mas, um passo de cada vez. Primeiro, vamos iterar sobre a primeira linha e coletar os nomes das colunas.

In [None]:
# buscando os nomes das colunas
for value in sheet.iter_rows(min_row=1,
                           max_row=1,
                           min_col=1,
                           max_col=7,
                           values_only=True):
  cols = value
  print(cols)

('Código', 'Item', 'Estoque Mínimo', 'Custo da Unidade', 'Preço da Unidade', 'Unidade de Medida', 'Estoque Atual')


Agora, iremos coletar os valores presentes na coluna, e transformar em um data frame com a função `DataFrame` do Pandas.

Após isso, utilizaremos a lista de colunas que guardamos na variável `cols` para renomear as colunas, e em seguida vamos excluir a primeira linha, que continha o nome das colunas.

Por fim, é só visualizar o data frame.

In [None]:
# coletando os valores para o DF
values = sheet.values

# criando o dataframe
df_xl = pd.DataFrame(values)

# nomeando as colunas
df_xl.columns = cols

# removendo linha repetida
df_xl.drop(df_xl.index[0], inplace = True)

# visualizando o dataset
df_xl.head()

Unnamed: 0,Código,Item,Estoque Mínimo,Custo da Unidade,Preço da Unidade,Unidade de Medida,Estoque Atual
1,SIG001,Canon 6D Mark II,5,8500,8500,Unidade,13
2,SIG002,Canon 5D Mark III,2,9500,13650,Unidade,1
3,SIG003,Lente 85mm f/1.4,8,7000,9989,Unidade,6
4,SIG004,Lente 50mm f/1.4,8,900,1649,Unidade,10
5,SIG005,Lente 16-35mm f/2.8,8,6120,8997,Unidade,11


**Ou pela maneira mais fácil**

In [None]:
df = pd.read_excel('/content/controle_da_empresa.xlsx')