<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#**Utilizando Python para manipulação de Excel**

O objetivo deste notebook é estudar algumas das diversas formas de manipulação de planilhas de Excel utilizando a linguagem de programação Python. 

De forma mais específica iremos estudar e aprofundar um pouco na ferramenta `openpyxl`, uma biblioteca de Python que nos permite ler, escrever e manipular arquivos Excel de uma forma fácil, sem muitas complicações. Isso pode viabilizar o nosso dia a dia, otimizando nossas tarefas e nos possibilitando mais desempenho em nossas rotinas do dia a dia.

Este notebook compila informações do material presente no curso Python do Zero, da plataforma Sigmoidal.

<center><img width="60%" src="https://miro.medium.com/max/720/0*eSQte3e-rJeH7bu8.jpg"></center>

Para facilitar nossos estudos, iremos dividir cada assunto abordado em um tópico distinto. Abaixo os tópicos apresentados neste notebook:

* `1 - Carregando uma Planilha e passos iniciais`

* `2 - Navegando pela Planilha`

* `3 - Manipulando os dados`

* `4 - Adicionando Dados a uma Planilha`

* `5 - Removendo e Adicionnado Linhas e Colunas`

* `6 - Navegando pelas Abas de uma Planilha`

* `7 - Filtros e Fórmulas`

* `8 - Inserindo Gráficos`

* `9 - Integração com Pandas`


#**1 - Carregando uma Planilha e passos iniciais**

A biblioteca openpyxl permite que seja feita, com facilidade a manipulação de arquivos em formato .xlsx, do Microsoft Excel, por meio do Python.

<center><img width="50%" src="https://img.freepik.com/vetores-gratis/ilustracao-do-conceito-de-planilhas_114360-945.jpg?w=740&t=st=1663782429~exp=1663783029~hmac=d9c26489bd66df4314ec66c8566705fe07dd6ee8751fb11ca977fb00cebc15cf"></center>

O openpyxl vem por padrão no Colab, mas sua versão desatualizada não será capaz de fazer o que precisamos. Portanto, o primeiro passo sempre que abrir um notebook onde o openpyxl será necessário é rodar o comando abaixo, para atualizar o pacote no notebook.

In [None]:
# atualizando o pacote openpyxl
!pip install -U openpyxl -q


##Criando uma Planilha

Aqui, vamos entender como funciona a nomenclatura utilizada pelo pacote. A planilha, e aqui leia-se o arquivo xlsx é chamada de `workbook`. Portanto, vamos criar um objeto do tipo Workbook, e associá-lo à essa variável.

Dentro de um `workbook`, podemos ter diferentes sheets, que, neste caso, são as abas da planilha.

Sempre precisamos definir qual a aba que será ativada e utilizada. Passando somente o padrão `active`, ele abrirá a primeira aba, aquela que aparece quando abrimos o arquivo. 

In [None]:
# importando a lib
from openpyxl import Workbook

# criando o workbook/planilha (associando ao objeto do tipo Workbook)
workbook = Workbook()

# selecionando a aba
sheet = workbook.active

##Escrevendo na Planilha

Agora que estamos dentro da aba desejada dentro da planilha, selecionada através do `sheet = workbook.active`, podemos acessar as células e associar valores a elas. Para escrevermos em nossa planilha, precisamos acessar as células em que desejamos inserir os valores.

In [None]:
# acessando as células A1 e B1 e associando valores a elas
sheet['A1'] = 'hello'
sheet['B1'] = 'world'

# para salvar as alterações, utilizamos o comando abaixo:
workbook.save(filename='helloworld.xlsx')

##Carregando uma Planilha

Além de criar planilhas, também podemos acessar planilhas criadas previamente. Como estamos lidando com o Google Colab, vamos fazer o upload da planilha, que foi disponibilizada no material de apoio dessa aula ('controle_da_empresa.xlsx').

Agora vamos utilizar um outro módulo da lib openpyxl, que se chama `load_workbook`. Sua função, como o próprio nome sugere, é carregar planilhas.

In [None]:
# carregando uma planilha
from openpyxl import load_workbook

# carregando o arquivo
workbook = load_workbook(filename='controle_da_empresa.xlsx')

# verificando as abas
workbook.sheetnames

['Estoque', 'Vendas', 'Funcionários']

Conforme verificado acima, esta planilha conta com 3 abas diferentes. Portanto, devemos utilizar o comando abaixo para selecionar a planilha específica, que desejamos utilizar.

In [None]:
# selecionando a aba específica
sheet = workbook['Vendas']

# verificando a aba aberta
sheet.title

'Vendas'

##Acessando as Células

Para acessar uma célula, basta utilizar o comando abaixo. Lembrando sempre de passar o método .value, para que consulte o valor inserido dentro da célula.

In [None]:
# acessando as células
sheet['F10'].value

17994

Também é possível acessar o conteúdo, por meio do método cell, passando o número da coluna e da linha. Atenção para o index do excel, que começa com 1, diferente do index do Python.

In [None]:
# acessando as células
sheet.cell(row=10, column=6).value

17994

Alguns argumentos que a função load_workbook recebe:
* `read_only` tem por padrão `False`, o que possibilita manipular dados. Utilizando `True` não é possível fazer essa manipulação.

* `data_only` recebe por padrão o argumento `False`. Caso seja passado `True`, qualquer célula que tenha fórmula, transmitirá somente o valor resultante da ação executada pla fórmula, sem apresentar a fórmula em si.

In [None]:
# adicione os dois parenteses e verifique a doc string para ver os argumentos
workbook2 = load_workbook(filename='controle_da_empresa.xlsx', read_only=True, data_only=True)

#**2 - Navegando pela Planilha**

Uma vez dentro da planilha, é importante saber como navegar por ela, encontrar e manipular as células. Importante lembrar sempre que é primordial checar e realizar a atualização da biblioteca, utilizando o `!pip install -U openpyxl -q`.

<center><img width="50%" src="https://img.freepik.com/vetores-gratis/ilustracao-do-conceito-de-planilhas_114360-736.jpg?w=740&t=st=1663782654~exp=1663783254~hmac=2f76d2a77f7b82c9faef396aa693c4509347001be0bcfc70733e0f0db5fe978a"></center>

In [None]:
# carregando a planilha novamente
from openpyxl import load_workbook

workbook = load_workbook(filename='controle_da_empresa.xlsx')

# verificando as abas
sheet = workbook['Vendas']

##Acessando as Células

Para acessar as células de uma planilha, vamos fazer como fizemos no notebook anterior, passado a célula que desejamos utilizar como parâmetro.

In [None]:
# acessando um intervalo
sheet['A1:C2']

((<Cell 'Vendas'.A1>, <Cell 'Vendas'.B1>, <Cell 'Vendas'.C1>),
 (<Cell 'Vendas'.A2>, <Cell 'Vendas'.B2>, <Cell 'Vendas'.C2>))

Se não passarmos a linha, ele retorna a coluna inteira.

In [None]:
# acessando uma coluna
sheet['A']

(<Cell 'Vendas'.A1>,
 <Cell 'Vendas'.A2>,
 <Cell 'Vendas'.A3>,
 <Cell 'Vendas'.A4>,
 <Cell 'Vendas'.A5>,
 <Cell 'Vendas'.A6>,
 <Cell 'Vendas'.A7>,
 <Cell 'Vendas'.A8>,
 <Cell 'Vendas'.A9>,
 <Cell 'Vendas'.A10>,
 <Cell 'Vendas'.A11>,
 <Cell 'Vendas'.A12>,
 <Cell 'Vendas'.A13>,
 <Cell 'Vendas'.A14>,
 <Cell 'Vendas'.A15>,
 <Cell 'Vendas'.A16>,
 <Cell 'Vendas'.A17>,
 <Cell 'Vendas'.A18>,
 <Cell 'Vendas'.A19>,
 <Cell 'Vendas'.A20>,
 <Cell 'Vendas'.A21>,
 <Cell 'Vendas'.A22>,
 <Cell 'Vendas'.A23>,
 <Cell 'Vendas'.A24>,
 <Cell 'Vendas'.A25>,
 <Cell 'Vendas'.A26>,
 <Cell 'Vendas'.A27>,
 <Cell 'Vendas'.A28>,
 <Cell 'Vendas'.A29>,
 <Cell 'Vendas'.A30>,
 <Cell 'Vendas'.A31>,
 <Cell 'Vendas'.A32>,
 <Cell 'Vendas'.A33>,
 <Cell 'Vendas'.A34>,
 <Cell 'Vendas'.A35>,
 <Cell 'Vendas'.A36>,
 <Cell 'Vendas'.A37>,
 <Cell 'Vendas'.A38>,
 <Cell 'Vendas'.A39>,
 <Cell 'Vendas'.A40>,
 <Cell 'Vendas'.A41>,
 <Cell 'Vendas'.A42>,
 <Cell 'Vendas'.A43>,
 <Cell 'Vendas'.A44>,
 <Cell 'Vendas'.A45>,
 <Cell 'Vendas'.A46

Da mesma forma, podemos passar apenas a linha, e teremos como resultado, todas as colunas para aquela linha.

In [None]:
sheet[1]

(<Cell 'Vendas'.A1>,
 <Cell 'Vendas'.B1>,
 <Cell 'Vendas'.C1>,
 <Cell 'Vendas'.D1>,
 <Cell 'Vendas'.E1>,
 <Cell 'Vendas'.F1>)

##Iterando sobre os dados

Uma forma mais efetiva de buscarmos determinado intervalo de células, é utilizando uma estrutura de repetição para iterar sobre os dados e nos retornar os valores e células desejados.

Para isso, vamos criar um loop for para utilizar o método `iter_rows`, para iterar pelas linhas e retornar as células.

Aqui, podemos passar parâmetros para definir em que linhas e colunas será feita a iteração. Os valores min indicam onde começa e os valores max, indicam onde termina essa iteração.

In [None]:
sheet.iter_rows()

<generator object Worksheet._cells_by_row at 0x7f4fb46d20d0>

In [None]:
# iterando sobre os dados (linhas)
for row in sheet.iter_rows(min_row=1,
                           max_row=2,
                           min_col=1,
                           max_col=2):
  print(row)

(<Cell 'Vendas'.A1>, <Cell 'Vendas'.B1>)
(<Cell 'Vendas'.A2>, <Cell 'Vendas'.B2>)


Da mesma forma, também é possível iterar sobre as colunas.

In [None]:
# iterando sobre os dados (colunas)
for row in sheet.iter_cols(min_row=1,
                           max_row=2,
                           min_col=1,
                           max_col=2):
  print(row)

(<Cell 'Vendas'.A1>, <Cell 'Vendas'.A2>)
(<Cell 'Vendas'.B1>, <Cell 'Vendas'.B2>)


Até agora estamos recebendo tuplas com informações sobre as células, sem nenhum valor, o que não tem caráter informativo e não é interessante em nossa análise. Nosso objeto de interesse é o valor contido em cada célula.

Para coletar os valores que estão nas células, vamos passar o parâmetro `values_only` como True, para que ele nos retorne o valor contido nas células do intervalo que definimos para a iteração.

In [None]:
# iterando sobre os dados - linhas
for value in sheet.iter_rows(min_row=1,
                             max_row=2,
                             min_col=1,
                             max_col=2,
                             values_only=True):
  print(value)

('Data da Venda', 'Item')
(datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4')


In [None]:
# iterando sobre os dados - colunas
for value_col in sheet.iter_cols(min_row=1,
                                 max_row=2,
                                 min_col=1,
                                 max_col=2,
                                 values_only=True):
  print(value_col)

('Data da Venda', datetime.datetime(2020, 1, 2, 0, 0))
('Item', 'Lente 50mm f/1.4')


Perceba nos exemplos acima, a diferença entre os métodos `iter_rows` e `iter_cols`. A forma de organização difere de um para outro. Sendo que no primeiro caso a iteração é feita pelas linhas, e no segundo é feita pelas colunas.

Portanto, podemos realizar a iteração sobre toda a planilha, coletando os dados de todas as células. Verificamos que o método que melhor nos atende é o `iter_rows`.

In [None]:
# iterando sobre a planilha inteira
for value in sheet.iter_rows(values_only=True):
  print(value)

('Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 5, 0, 0), 'Lente 85mm f/1.4', 2, 'Raquel', 9989, 19978)
(datetime.datetime(2020, 1, 5, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790

#**3 - Manipulando os dados**

Até agora o que fizemos foi retornar tuplas com informações sobre as céluas. Para manipular esses dados, é mais prático que utilizemos outra estrutura de dados, para extrair e exeplorar essas informações. Importante lembrar sempre que é primordial checar e realizar a atualização da biblioteca, utilizando o `!pip install -U openpyxl -q`.


<center><img width="50%" src="https://img.freepik.com/fotos-gratis/mulher-tocando-uma-interface-holografica-de-tecnologia-inteligente_53876-98409.jpg?w=740&t=st=1663782783~exp=1663783383~hmac=15bcc62445cc9761ac0f0601d05c4677d3695bdac2420b89bc4fe3d611d3d627"></center>


## Dados Analisados

Os dados utilizados desta vez serao de um catálogo de relógios comercializados pelo [Amazon](https://www.amazon.com), vide arquivo importado abaixo.

In [None]:
# carregando a planilha
from openpyxl import load_workbook

workbook = load_workbook(filename='sample.xlsx')

# verifcando as abas
sheet_amazon = workbook.active

Carregada a nossa planilha, podemos realizar a iteração de todos os dados, utilizando a estrutura for, com o método iter_rows.

In [None]:
# iterando sobre os dados
for value_amazon in sheet_amazon.iter_rows(values_only=True):
  print(value_amazon)

('marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent', 'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'review_date')
('US', 3653882, 'R3O9SGZBVQBV76', 'B00FALQ1ZC', 937001370, 'Invicta Women\'s 15150 "Angel" 18k Yellow Gold Ion-Plated Stainless Steel and Brown Leather Watch', 'Watches', 5, 0, 0, 'N', 'Y', 'Five Stars', 'Absolutely love this watch! Get compliments almost every time I wear it. Dainty.', '2015-08-31')
('US', 14661224, 'RKH8BNC3L5DLF', 'B00D3RGO20', 484010722, "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch", 'Watches', 5, 0, 0, 'N', 'Y', 'I love thiswatch it keeps time wonderfully', 'I love this watch it keeps time wonderfully.', '2015-08-31')
('US', 27324930, 'R2HLE8WKZSU3NL', 'B00DKYC7TK', 361166390, 'Ritche 22mm Black Stainless Steel Bracelet Watch Band Strap Pebble Time/Pebble Classic', 'Watches', 2, 1, 1,

##Coletando os Dados

Apesar de serem facilmente acessados, esse formato dificulta um pouco a manipulação e até o entendimento dos dados. Por isso, vamos criar um dicionário e armazenar as informações dos produtos da planilha dentro dele.

Antes de realizar nossa estrutura de repetição, vamos organizar um exemplo, com três dados, de forma manual, para mostrarmos o funcionamento desta estrutura.

Basicamente vamos criar uma estrutura de dicionário para os três primeiros produtos. A chave do nosso dicionário será o código de cada produto, e o valor será outro dicionário, cuja chave é o nome da característica que queremos (parent, title e category) e o valor é a característica em si, dados de cada coluna. Vide abaixo:

In [None]:
# antes iremos fazer uma simulação de como funcionaria essa estrutura
# de forma manual, vamos criar uma estrutura de dicionário para três produtos dessa planilha, simulando a forma como queremos organizar os dados:

products = {
    "B00FALQ1ZC": {#criamos uma chave com o código do produto e colocamos os dados em outro dicionário, o valor é outro dicionário que possui novas chaves e valores
        "parent": "937001370",
        "title": 'Invicta Women\'s 15150 "Angel" 18k Yellow Gold Ion-Plated Stainless Steel and Brown Leather Watch',
        "category": "Watches"
    },
    "B00D3RGO20": {
        "parent": "484010722",
        "title": "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch",
        "category": "Watches"
    },
    "B00DKYC7TK": {
        "parent": "361166390",
        "title": "Ritche 22mm Black Stainless Steel Bracelet Watch Band Strap Pebble Time/Pebble Classic",
        "category": "Watches"
    }
}

In [None]:
# conforme exemplo acima, criamos uma variável dicionário chamada products, que pode ser acessada abaixo:
products

{'B00FALQ1ZC': {'parent': '937001370',
  'title': 'Invicta Women\'s 15150 "Angel" 18k Yellow Gold Ion-Plated Stainless Steel and Brown Leather Watch',
  'category': 'Watches'},
 'B00D3RGO20': {'parent': '484010722',
  'title': "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch",
  'category': 'Watches'},
 'B00DKYC7TK': {'parent': '361166390',
  'title': 'Ritche 22mm Black Stainless Steel Bracelet Watch Band Strap Pebble Time/Pebble Classic',
  'category': 'Watches'}}

In [None]:
# para acessar, por exemplo, os dados do produto B00D3RGO20, acessamos pela chave dele
products['B00D3RGO20']

{'parent': '484010722',
 'title': "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch",
 'category': 'Watches'}

In [None]:
# parar encontrarmos, por exemplo, a descrição deste produto, fazemos da seguinte maneira:
products['B00D3RGO20']['title']

"Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch"

Uma vez esclarecido o funcionamento da nossa estrutura de manipulação, vamos realizar a iteração sobre todos os dados:

In [None]:
# criando um dicionário
products_amazon = {} #dicionário vazio

# salvando em um dicionário utilizando estrutura for
for row in sheet_amazon.iter_rows(min_row=2,#pulando a linha dos títulos da coluna, queremos apenas os valores
                                  min_col=4,#selecionando apenas os dados a partir da coluna 4
                                  max_col=7,#selecionando apenas os dados entre as colunas 4 e 7
                                  values_only=True):
  product_id = row[0]#na primeira iteração o row[0] irá trazer os dados do id do produto 
  product = {
      "parent": row[1],#na primeira iteração o row[1] irá trazer os dados parent do produto
      "title": row[2],#na primeira iteração o row[2] irá trazer os dados de title do produto
      "category":row[3]#na primeira iteração o row[3] irá trazer os dados de category do produto
  }
  products_amazon[product_id] = product # o dicionário products terá como chave "product_id" e valores outro dicionário "product"


Ao executarmos o dicionário criado temos como resultado a mesma estrutra de dados ilustrada no exemplo, criado manualmente. Mas, com a estrutura for, realizamos a iteração e organização de todos os dados da planilha, seguindo esse modelo.

In [None]:
products_amazon

{'B00FALQ1ZC': {'parent': 937001370,
  'title': 'Invicta Women\'s 15150 "Angel" 18k Yellow Gold Ion-Plated Stainless Steel and Brown Leather Watch',
  'category': 'Watches'},
 'B00D3RGO20': {'parent': 484010722,
  'title': "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch",
  'category': 'Watches'},
 'B00DKYC7TK': {'parent': 361166390,
  'title': 'Ritche 22mm Black Stainless Steel Bracelet Watch Band Strap Pebble Time/Pebble Classic',
  'category': 'Watches'},
 'B000EQS1JW': {'parent': 958035625,
  'title': "Citizen Men's BM8180-03E Eco-Drive Stainless Steel Watch with Green Canvas Band",
  'category': 'Watches'},
 'B00A6GFD7S': {'parent': 765328221,
  'title': "Orient ER27009B Men's Symphony Automatic Stainless Steel Black Dial Mechanical Watch",
  'category': 'Watches'},
 'B00EYSOSE8': {'parent': 230493695,
  'title': "Casio Men's GW-9400BJ-1JF G-Shock Master of G Rangeman Digital Solar Black Carbon Fiber Insert Watch",
  'category': 'Watches

In [None]:
# para acessar, por exemplo, os dados do produto B00D3RGO20, acessamos pela chave dele, da mesma forma realizada no exemplo
products_amazon['B00D3RGO20']

{'parent': 484010722,
 'title': "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch",
 'category': 'Watches'}

Conforme mostrado acima, nossa iteração usou como chave para os dicionários o código de cada produto, e dentro, colocamos outro dicionário com as informações relevantes dos produtos, que estamos analisando.

Vamos verificar, por exemplo, as chaves do dicionário.

In [None]:
# verificando as chaves
products_amazon.keys()

dict_keys(['B00FALQ1ZC', 'B00D3RGO20', 'B00DKYC7TK', 'B000EQS1JW', 'B00A6GFD7S', 'B00EYSOSE8', 'B00WM0QA3M', 'B00A4EYBR0', 'B00MAMPGGE', 'B004LBPB7Q', 'B00KGTVGKS', 'B0039UT5OU', 'B00MPF0XJQ', 'B003P1OHHS', 'B00R70YEOE', 'B000FVE3BG', 'B008X6JB12', 'B0040UOFPW', 'B00UR2R5UY', 'B00HFF57L0', 'B00F5O06E6', 'B00CHS398I', 'B003OQ4TA4', 'B007X0SYEY', 'B005KPL7FM', 'B00FNIFI2O', 'B005JVP0FU', 'B004M23SDI', 'B00RV2L8CE', 'B000JQJS6M', 'B00VXLJD44', 'B004EFGBW8', 'B00G9X76DG', 'B00SFTTZ9U', 'B00NC8PMUK', 'B00C1C5J9W', 'B000GB0G5M', 'B00F8AWMXA', 'B005MDPAPU', 'B006C8NJY8', 'B00791YURC', 'B00S69FO0I', 'B00C7IQBRY', 'B009S4U1TY', 'B000B55AEA', 'B0053HDR78', 'B008OIOLQO', 'B009PQB036', 'B007X0E178', 'B00BXQSHRI', 'B00ZI3SGXM', 'B0053A0HB4', 'B00QBTQX50', 'B00G3JSF22', 'B002NQXYL6', 'B004MAZN3I', 'B000JQFX1G', 'B00A6B9N6U', 'B00HJ7T0OY', 'B004401KHE', 'B001UGDB0O', 'B00L4JRXIS', 'B009PQB5K4', 'B003M2G0SY', 'B002SSUQFG', 'B003622WUK', 'B00L8M9Z32', 'B000GAWSA4', 'B004YM2FV2', 'B008RNKIV8', 'B000SZNT

In [None]:
# utilizando as chaves para fazer consultas nas informações dos produtos
products_amazon['B00FNIFI2O']

{'parent': 330558574,
 'title': "Szanto Men's SZ 2001 2000 Series Classic Vintage-Inspired Stainless Steel Watch with Pebbled Leather Band",
 'category': 'Watches'}

##Transformando em Data Frame

A grande vantagem de trabalhar com essa estrutura de dicionário para manipular nossos dados, é que ela pode ser facilmente transformada em um data frame. A combinação da iteração pelo método for com a organização dos dados em um dicionário, viabiliza muito essa transformação, o que facilita a nossa análise.

Como temos nosso dicionário em mãos, vamos transformá-lo em um data frame e verificar o resultado.

In [None]:
import pandas as pd
df = pd.DataFrame.from_dict(products_amazon, orient="index")#utilizamos o orient=index para organizar nossos dados

In [None]:
df.head()

Unnamed: 0,parent,title,category
B00FALQ1ZC,937001370,"Invicta Women's 15150 ""Angel"" 18k Yellow Gold ...",Watches
B00D3RGO20,484010722,Kenneth Cole New York Women's KC4944 Automatic...,Watches
B00DKYC7TK,361166390,Ritche 22mm Black Stainless Steel Bracelet Wat...,Watches
B000EQS1JW,958035625,Citizen Men's BM8180-03E Eco-Drive Stainless S...,Watches
B00A6GFD7S,765328221,Orient ER27009B Men's Symphony Automatic Stain...,Watches


In [None]:
# para acessar informações dos produtos, podemos utilizar o método .loc do data frame
df.loc['B000EQS1JW']

parent                                              958035625
title       Citizen Men's BM8180-03E Eco-Drive Stainless S...
category                                              Watches
Name: B000EQS1JW, dtype: object

#**4 - Adicionando Dados a uma Planilha**

Já verificamos anteriormente como ler, acessar os dados e até como iterar sobre as células e armazenar dados para um criar um dataframe a partir de um dicionário.

Vamos verificar agora como acrescentar algum dado para a nossa planilha. Mais uma vez, é importante lembrar sempre que é primordial checar e realizar a atualização da biblioteca, utilizando o !pip install -U openpyxl -q.


<center><img width="50%" src="https://img.freepik.com/fotos-gratis/codificacao-de-programa-de-computador-na-tela_53876-138060.jpg?w=740&t=st=1663783004~exp=1663783604~hmac=21e1b9ef59bc9a538b95318045832f6d40ff1ea489d099d75d28bf3956868f6a"></center>

In [None]:
# incluir imagem
# incluir nova introdução
# incluir introdução pandas e excel

Vamos utilizar mais uma vez os dados da planilha de venda de relógios da Amazon, como nossa base de dados.

In [None]:
# carregando a planilha
from openpyxl import load_workbook

workbook = load_workbook(filename='sample.xlsx')

# verificando as abas
sheet = workbook.active

In [None]:
# acessando a célula
sheet['A1'].value

'marketplace'

Primeiramente iremos associar um novo valor a essa célula, para realizarmos a modificação.

In [None]:
sheet['A1'] = "Marketplace"

# conferindo o resultado
sheet['A1'].value

'Marketplace'

Podemos salvar uma célula em uma variável e fazer a alteração diretamente na variável.

In [None]:
# associando uma célula a uma variável
cell = sheet['A1']

# verificando o valor
cell.value

'Marketplace'

Quando abrimos uma planilha no Excel podemos ver que há várias e várias linhas e colunas vazias, que aparecem em nossa visualização pelo programa, mas, como podemos perceber, não são trazidos para cá.

Entretanto, se as células vazias estão entre células preenchidas, o openpyxl vai sim ler e reconhecer esses espaço vazio, retornando células com formato `None`.

Abaixo, vamos verificar todas as linhas do nosso conjunto de dados, e inserir linhas um pouco mais abaixo, para que possamos visualizar esses acontecimentos.

In [None]:
# verificando a quantidade de linhas da nossa planilha
sheet.dimensions

'A1:O100'

Agora vamos criar uma função que mostre todas as entradas de nosso conjunto. Basicamente é o que foi realizado anteriormente, mas vamos incluir uma função para facilitar nossas análises.

In [None]:
# criando função para verificar todas as linhas
def print_rows():
  """
  Função utilizada para mostrar as entradas de nosso conjuntos de dados em excel
  """
  for row in sheet.iter_rows(values_only=True):
    print(row)

In [None]:
print_rows()

('Marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent', 'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'review_date')
('US', 3653882, 'R3O9SGZBVQBV76', 'B00FALQ1ZC', 937001370, 'Invicta Women\'s 15150 "Angel" 18k Yellow Gold Ion-Plated Stainless Steel and Brown Leather Watch', 'Watches', 5, 0, 0, 'N', 'Y', 'Five Stars', 'Absolutely love this watch! Get compliments almost every time I wear it. Dainty.', '2015-08-31')
('US', 14661224, 'RKH8BNC3L5DLF', 'B00D3RGO20', 484010722, "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch", 'Watches', 5, 0, 0, 'N', 'Y', 'I love thiswatch it keeps time wonderfully', 'I love this watch it keeps time wonderfully.', '2015-08-31')
('US', 27324930, 'R2HLE8WKZSU3NL', 'B00DKYC7TK', 361166390, 'Ritche 22mm Black Stainless Steel Bracelet Watch Band Strap Pebble Time/Pebble Classic', 'Watches', 2, 1, 1,

Acima, vimos que nossa última linha é a 100. Por isso, não conseguimos ver o que está na célula 101, que está vazia.

Entretanto, se adicionarmos conteúdo à célula `A102`, iremos ter como retorno diversas entradas vazias. Conforme fizemos abaixo.

In [None]:
# adicionando conteúdo à célula A102
sheet['A102'] = "teste"

print_rows()

('Marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent', 'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'review_date')
('US', 3653882, 'R3O9SGZBVQBV76', 'B00FALQ1ZC', 937001370, 'Invicta Women\'s 15150 "Angel" 18k Yellow Gold Ion-Plated Stainless Steel and Brown Leather Watch', 'Watches', 5, 0, 0, 'N', 'Y', 'Five Stars', 'Absolutely love this watch! Get compliments almost every time I wear it. Dainty.', '2015-08-31')
('US', 14661224, 'RKH8BNC3L5DLF', 'B00D3RGO20', 484010722, "Kenneth Cole New York Women's KC4944 Automatic Silver Automatic Mesh Bracelet Analog Watch", 'Watches', 5, 0, 0, 'N', 'Y', 'I love thiswatch it keeps time wonderfully', 'I love this watch it keeps time wonderfully.', '2015-08-31')
('US', 27324930, 'R2HLE8WKZSU3NL', 'B00DKYC7TK', 361166390, 'Ritche 22mm Black Stainless Steel Bracelet Watch Band Strap Pebble Time/Pebble Classic', 'Watches', 2, 1, 1,

#**5 - Removendo e Adicionando Linhas e Colunas**

Agora iremos realizar a manipulação de arquivos xlsx removendo e adicionando novas colunas.

<center><img width="50%" src="https://img.freepik.com/vetores-gratis/planilha-em-icones-de-laptop-e-desktop_603843-349.jpg?w=740&t=st=1663783166~exp=1663783766~hmac=1c261434cd4c0bd81b7d469848d4b3c0edc995913b95aded7440dc33f0c4902d"></center>

Desta vez vamos importar novamente a planilha de controle de dados da empresa. As rotinas de importação que estamos incluindo aqui não precisam ser executadas várias vezes no mesmo notebook. A repetição aqui é proposital, para fins de fixação.

In [None]:
# carregando uma planilha
from openpyxl import load_workbook

workbook = load_workbook(filename='controle_da_empresa.xlsx')

# verificando as abas
sheet = workbook.active

Como vamos sempre modificar as entradas de nossa planilha, iremos utilizar a função para iterar todos os dados criada anteriormente, para realizar as conferencias (função `print_rows()`.

In [None]:
# testando a função
print_rows()

('Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 5, 0, 0), 'Lente 85mm f/1.4', 2, 'Raquel', 9989, 19978)
(datetime.datetime(2020, 1, 5, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790

##Adicionando Colunas

Para adicionar uma coluna, vamos utilizar o método `insert_cols`, com o índice em que ela será inserida como parâmetro. Lembrando no Excel os índices começam com 1.

In [None]:
# adicionando uma coluna
sheet.insert_cols(idx=1)

# checando a planilha
print_rows()

(None, 'Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 5, 0, 0), 'Lente 85mm f/1.4', 2, 'Raquel', 9989, 19978)
(N

Também é possível criar mais de uma coluna por vez, passando o parâmetro `amount` com a quantidade de colunas que desejamos criar.

In [None]:
# adicionando uma coluna a partir de um índice
sheet.insert_cols(idx=3, amount=3)

print_rows()

(None, 'Data da Venda', None, None, None, 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(None, datetime.datetime(2020, 1, 2, 0, 0), None, None, None, 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(None, datetime.datetime(2020, 1, 2, 0, 0), None, None, None, 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), None, None, None, 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), None, None, None, 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), None, None, None, 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), None, None, None, 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(None, datetime.datetime(2020, 1, 4, 0, 0), None, None, None, 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), None, None, None, 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(None, datetime.datetim

##Deletando Colunas

É possível deletar as colunas a partir do comando `delete_cols`, passando parâmetros iguais aos que passamos anteriormente.

Vamos, por exemplo, deletar as colunas extras que criamos.

In [None]:
# deletando as colunas
sheet.delete_cols(idx=3, amount=3)

print_rows()

(None, 'Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 5, 0, 0), 'Lente 85mm f/1.4', 2, 'Raquel', 9989, 19978)
(N

##Manipulando Linhas

Da mesma forma que utilizamos o `insert` e `delete` para manipular colunas, podemos utilizar o mesmo tipo de método para manipular as linhas da nossa planiliha. Para isso, em vez de utilizarmos `col`, utilizaremos `row`.

In [None]:
# vamos criar uma nova linha
sheet.insert_rows(idx=1)

print_rows()

(None, None, None, None, None, None, None)
(None, 'Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 5, 0, 0), 'Lent

In [None]:
# criando mais de uma linha de uma única vez
sheet.insert_rows(idx=5, amount=5)

print_rows()

(None, None, None, None, None, None, None)
(None, 'Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(None, datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, None, None, None, None, None, None)
(None, None, None, None, None, None, None)
(None, None, None, None, None, None, None)
(None, None, None, None, None, None, None)
(None, None, None, None, None, None, None)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(None, datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(None, datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(None, dat

In [None]:
# deletando as linhas criadas
# criando mais de uma linha de uma única vez
sheet.delete_rows(idx=5, amount=5)
sheet.delete_rows(idx=1)
sheet.delete_cols(idx=1)

print_rows()

('Data da Venda', 'Item', 'Quantidade', 'Vendedor', 'Preço Unitário', 'Total de Vendas')
(datetime.datetime(2020, 1, 2, 0, 0), 'Lente 50mm f/1.4', 2, 'Carlos', 1649, 3298)
(datetime.datetime(2020, 1, 2, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(datetime.datetime(2020, 1, 3, 0, 0), 'Filtro ND 5 Stop', 2, 'Raquel', 1220, 2440)
(datetime.datetime(2020, 1, 3, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Fernanda', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'Filtro ND 3 Stop', 1, 'Raquel', 1220, 1220)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 4, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790, 11580)
(datetime.datetime(2020, 1, 4, 0, 0), 'Lente 16-35mm f/2.8', 2, 'Carlos', 8997, 17994)
(datetime.datetime(2020, 1, 5, 0, 0), 'Lente 85mm f/1.4', 2, 'Raquel', 9989, 19978)
(datetime.datetime(2020, 1, 5, 0, 0), 'DJI Ronin-S', 2, 'Theo', 5790

#**6 - Navegando Pelas Abas de uma Planilha**

Seguindo adiante com nossa manipulação de arquivos xlsx, precisamos aprender com efetividade como acessar e navegar pelas abas de uma planilha.

Por isso, vamos ver como utilizar na prática esses recursos com efetividade.

Como sempre, lembramos de fazer o upload dos arquivos utilizados e a atualização do pacote.

<center><img width="50%" src="https://img.freepik.com/vetores-gratis/ilustracao-do-conceito-de-codificacao_114360-939.jpg?w=740&t=st=1663783309~exp=1663783909~hmac=7cf5090d6b7c894e698b2a448ad08c0954688074fdd53b75fc9dcfdf93a5d928"></center>


Vamos carregar os dados como temos feito em todos os notebooks anteriores. Foco, dessa vez, para o método sheetnames, que nos mostra o nome das abas pelas quais podemos navegar nesse arquivo.

In [None]:
# carregando uma planilha
from openpyxl import load_workbook

workbook = load_workbook(filename='controle_da_empresa.xlsx')

In [None]:
# verificando as abas
workbook.sheetnames

['Estoque', 'Vendas', 'Funcionários']

## Escolhendo uma Aba

Para carregar uma aba específica, vamos chamar o nome da aba dentro de aspas, simples ou duplas, dentro de colchetes, ao chamar o objeto workbook. É ideal que salvemos esse objeto dentro de uma variável, para facilitar o acesso no futuro.

In [None]:
# carregando uma aba específica
sheet = workbook['Vendas']

## Renomeando uma Aba
Uma vez carregada, podemos modificar o nome da aba, através do método `title`.

In [None]:
# modificar o nome da aba
sheet.title = 'VendasVendas'
print(sheet.title)

VendasVendas


## Criando Novas Abas
Também é possível criar uma nova aba, através do método `create_sheet`.

Abaixo, podemos conferir que o nome da aba Vendas foi modificado com sucesso, e podemos ver que a aba Nova Aba também foi criada sem problemas.

In [None]:
# criando uma aba nova
new_sheet = workbook.create_sheet('Nova Aba')
workbook.sheetnames

['Estoque', 'VendasVendas', 'Funcionários', 'Nova Aba']

Quando criamos uma nova aba, por padrão, ela toma a últimia posição entre as abas existentes. Entretanto, possível modificar isso, passando como argumento um `int` que indica a posição que desejamos que ela assuma.

Nesse caso, a indexação é feita pelo Python, por isso, o index 0 é a primeira posição.

In [None]:
# ao criar uma nova aba, é possível escolher a posição dela
nova_aba = workbook.create_sheet('Primeira Aba', 0)
workbook.sheetnames

['Primeira Aba', 'Estoque', 'VendasVendas', 'Funcionários', 'Nova Aba']

## Removendo Abas

Da mesma forma que podemos criar, podemos também remover abas. Isso é feito facilmente através do método `remove`, passando como parâmetro a aba a ser excluída.

In [None]:
# removendo uma aba
workbook.remove(nova_aba)
workbook.remove(new_sheet)
workbook.sheetnames

['Estoque', 'VendasVendas', 'Funcionários']

## Copiando Abas

Por fim, podemos também criar cópias de abas existentes, utilizando o método `copy_worksheet`.

In [None]:
# copiando uma aba
workbook.copy_worksheet(sheet)
workbook.sheetnames

['Estoque', 'VendasVendas', 'Funcionários', 'VendasVendas Copy']

#**7 - Filtros e Fórmulas**

Quando estamos analisando dados em uma planilha do Excel, filtros e fórmulas fazem grande parte da nossa rotina de organização e exploração dos dados.

Aqui, estamos lidando com planilhas, arquivos xlsx, e mesmo utilizando Python, continuamos contando com essas ferramentas.

<center><img width="50%" src="https://img.freepik.com/vetores-gratis/ilustracao-do-conceito-de-matematica_114360-3972.jpg?w=740&t=st=1663783471~exp=1663784071~hmac=955c9c78fb059f2cc94d17114cd3385f1e94b76950712ccca0f2bf9c39f738dd"></center>

In [None]:
# carregando uma planilha
from openpyxl import load_workbook

workbook = load_workbook(filename='controle_da_empresa.xlsx')

# verificando as abas
workbook.sheetnames

['Estoque', 'Vendas', 'Funcionários']

In [None]:
# carregando uma aba específica
sheet = workbook['Vendas']

Utilizamos o método `dimensions` para verificar as dimensoes da planilha.

In [None]:
sheet.dimensions

'A1:F91'

## Adicionando um Filtro

Sabendo o intervalo no qual os nossos dados estão, podemos criar um filtro geral na planilha com o método `auto_filter`, e passando a referência do intervalo dos nossos dados, para facilitar a vida de quem for utilizá-la.

In [None]:
# adicionando um filtro
sheet.auto_filter.ref = 'A1:F91'

## Salvando o Arquivo
Sempre que manipulamos os dados aqui, estamos fazendo isso em método de "consulta". As mudaças são de fato aplicadas à nossa variável que recebeu os valores contidos na planilha.

Entretanto, para fazer modificações **no arquivo**, de fato, precisamos salvar esse arquivo.

Aqui, a fim de preservar o arquivo original, vamos criar um arquivo de nome difernte.

Basta usar o método `save`, e passar entre parênteses o `filename`, ou seja, o nome do arquivo a ser criado. Não se esqueça de passar a extensão correta como parâmetro.

In [None]:
# salvando o arquivo modificado
workbook.save(filename='controle_filtro.xlsx')

## Fórmulas

Outra ferramenta poderosa que temos à nossa disposição no Excel são as fórmulas.

Aqui, conseguimos utilizar as mesmas também.

Abaixo, importaremos de dentro dos utilitários da openpyxl o módulo `FORMULAE`.

Não utilizaremos nada dele diretamente, mas a partir desse módulo, podemos conferir que fórmulas temos à nossa disposição.

In [None]:
# importando o módulo
from openpyxl.utils import FORMULAE

In [None]:
# verificando as fórmulas
FORMULAE

frozenset({'ABS',
           'ACCRINT',
           'ACCRINTM',
           'ACOS',
           'ACOSH',
           'AMORDEGRC',
           'AMORLINC',
           'AND',
           'AREAS',
           'ASC',
           'ASIN',
           'ASINH',
           'ATAN',
           'ATAN2',
           'ATANH',
           'AVEDEV',
           'AVERAGE',
           'AVERAGEA',
           'AVERAGEIF',
           'AVERAGEIFS',
           'BAHTTEXT',
           'BESSELI',
           'BESSELJ',
           'BESSELK',
           'BESSELY',
           'BETADIST',
           'BETAINV',
           'BIN2DEC',
           'BIN2HEX',
           'BIN2OCT',
           'BINOMDIST',
           'CEILING',
           'CELL',
           'CHAR',
           'CHIDIST',
           'CHIINV',
           'CHITEST',
           'CHOOSE',
           'CLEAN',
           'CODE',
           'COLUMN',
           'COLUMNS',
           'COMBIN',
           'COMPLEX',
           'CONCATENATE',
           'CONFIDENCE',
           'CO

In [None]:
# associando uma fórmula a uma célula
sheet['G1'] = 'Valor Médio'
sheet['G2'] = '=AVERAGE(E2:E91)'

# salvando a planilha para conferência
workbook.save(filename='controle_formulas.xlsx')

## Fórmula Condicional
Agora, vamos utilizar uma fórmula condicional, o SOMASE (SUMIF). Mais uma vez, o que faremos é simples: adicionar à célula uma string, que na verdade é uma fórmula. Uma vez lá dentro, ela funcionará como fórmula.

Aqui, vamos verificar a quantidade de **Canon 6D Mark II** vendidas.

Para utilização no Google Sheets em Português, considere o código abaixo:

`=SOMASE(B2:B91; "Canon 6D Mark II"; C2:C91)`

> Atenção para as aspas duplas, necessárias para o Excel, e fazem parte da organização que estabelecemos no Python, simples fora, duplas dentro, para garantir que rode.

In [None]:
# fórmula condicional
sheet['G3'] = '=SUMIF(B2:B91, "Canon 6D Mark II", C2:C91)'

# salvando a planilha
workbook.save(filename='controle_formulas.xlsx')

#**8 - Inserindo Gráficos**

Outra parte fundamental de análises e apresentação de resultados utiliando planilhas são os gráficos. Uma forma visual de apresentar os dados sempre é muito bem vinda e pode acrescentar bastante valor aos nossos projetos.

Tudo que precisamos fazer com a planliha foi possível com Python até aqui, e esse detalhe não poderia ser diferente. Neste notebook, vamos ver como criar e inserir gráficos em nossas planilhas usando Python e openpyxl.

<center><img width="50%" src="https://img.freepik.com/vetores-gratis/conjunto-de-elementos-planos-de-graficos_1284-34316.jpg?w=740&t=st=1663783512~exp=1663784112~hmac=35e80ba4487ae18ccf786b532bf7771f8126f24ee3ca76c21f48290749fb9f20"></center>

##Carregando os Dados

Como de praxe, carregaremos os dados da mesma forma que temos feito. Entretanto, importaremos, também, os módulos BarChart, LineChart e Reference, que possibilitarão a criação dos nossos gráficos.

Aqui, veremos os princípios básicos para criação e inserção dos gráficos à planilha, que são similares para outros tipos de gráfico. Para mais detalhes em diferentes tipos de gráficos, e mais exemplos, a [documentação](https://openpyxl.readthedocs.io/en/stable/charts/introduction.html) é uma excelente fonte.

In [None]:
# importando os pacotes
from openpyxl import load_workbook, Workbook

# importando os pacotes.chart, para plotagem dos gráficos
from openpyxl.chart import BarChart, LineChart, Reference 

workbook = load_workbook(filename='controle_da_empresa.xlsx')

# verificando as abas
workbook.sheetnames

# carregando uma aba específica
sheet = workbook['Estoque']

## Gráfico de Barras
A primeira visualização que utilizaremos é o gráfico de barras.

Para criar gráficos, criaremos um objeto BarChart, e o associaremos a uma variável. Então, selecionaremos todas as informações que queremos utilizar, adicionaremos essas informações ao gráfico, e adicionaremos o gráfico à planilha.

Essa última parte funciona da mesma forma da inserção de imagens, que vimos anteriormente, mas nesse caso utilizaremos o método `add_chart`, com parâmetros similares aos que passamos para imagens.

In [None]:
# criando o objeto BarChart
chart = BarChart()

# adicionando os dados de referência
# data = Reference(worksheet=sheet,
#                  min_row=1,
#                  max_row=91,
#                  min_col=2,
#                  max_col=6)

data = "Estoque!$B$1:$C$11"

# nomeando os eixos
chart.x_axis.title = 'Itens'
chart.y_axis.title = 'Estoque Mínimo'

# adicionando os dados ao gráfico
chart.add_data(data, titles_from_data=True)

# adicionando o gráfico à planilha
sheet.add_chart(chart, 'H1')

O resultado foi um gráfico que mostra a diferença entre o **custo de aquisição** e o **preço final** para o consumidor, para cada item em estoque. 

Como todas as células de interesse foram selecionadas, é possível, no próprio excel, modificar a visualização.

Lembre-se de salvar o arquivo modificado para que possa ser feita a conferência.

In [None]:
# salvando a planilha com gráfico de barras
workbook.save(filename='controle_chart.xlsx')

## Gráfico de Linhas
Outra visualização bastante importante e usada com bastante frequência é o Gráfico de Linhas.

Para esse gráfico, vamos criar uma outra planilha, com dados novos para que possamos criar uma visualização interessante nesse sentido.

O princípioé  o mesmo que aplicamos nos notebooks anteriores. Criamos uma planilha, abrimos a aba principal, carregamos dados para dentro dessa planilha.

Então, criamos um objeto LineChart, passamos para ele as referências de nossos dados, estilizamos ele, inserimos os dados no gráfico, e o gráfico na planilha.

Por fim, salvamos o arquivo da planilha, para que possamos conferir o que fizemos.

In [None]:
from openpyxl.chart.axis import DateAxis
from datetime import date

# criando a planilha
wb = Workbook()

# acessando a aba
ws = wb.active

# criando os dados
rows = [
    ['Date', 'Batch 1', 'Batch 2', 'Batch 3'],
    [date(2015,9, 1), 40, 30, 25],
    [date(2015,9, 2), 40, 25, 30],
    [date(2015,9, 3), 50, 30, 45],
    [date(2015,9, 4), 30, 25, 40],
    [date(2015,9, 5), 25, 35, 30],
    [date(2015,9, 6), 20, 40, 35],
]

# inserindo os dados
for row in rows:
    ws.append(row)

# criando o gráfico
c1 = LineChart()
c1.title = "Line Chart"
c1.style = 13
c1.y_axis.title = 'Tamanho'
c1.x_axis.title = 'Número de testes'

data = Reference(ws, min_col=2, min_row=1, max_col=4, max_row=7)

# adicionando as referências
c1.add_data(data, titles_from_data=True)

# adicionando o gráfico à planilha
ws.add_chart(c1, "A10")

# salvando a planilha
wb.save(filename='line_chart.xlsx')

#**9 -  Integração com Pandas**

Já sabemos que o Pandas é uma das principais bibliotecas de Python para manipulação de dados. Por isso, é sempre interessante unir Python com Pandas. Já vimos como é possível abrir arquivos xlsx com o Pandas, mas isso já infere que estaremos trabalhando com data frames, o que pode não ser o intuito no seu projeto.

Por isso, é sempre importante saber como levar os dados a um data frame, e depois retorná-los para o formato xlsx, ou o contrário. Essa flexibilidade abre nosso leque de possibilidades e nosso poder analítico, e esse é o foco deste notebook.

Mais uma vez, lembrando sobre a atualização da biblioteca e o carregamento dos dados.


<center><img width="50%" src="https://miro.medium.com/max/720/1*HsgTI2V4XW2gDTxnhtiHHw.png"></center>


<center><img width="50%" src="https://img.freepik.com/vetores-gratis/ilustracao-de-icone-dos-desenhos-animados-de-livro-de-leitura-panda-bonito_138676-2683.jpg?w=740&t=st=1663783690~exp=1663784290~hmac=00d3cfd971abe0333ee32079f4a8fde951bfd2d67362d4ae377003f147e20178"></center>


## Sobre o Openpyxl
O Openpyxl tem ferramentas para converter um xlsx em dataframe, e vice versa. Cada biblioteca tem propriedades que podem ser desejáveis a depender do seu objetivo, e por isso é interessante que saibamos alternar entre elas.

Para nosso primeiro caso, vamos abrir o nosso arquivo com Pandas, para simular o recebimento do arquivo como data frame, mas você quer trabalhar com o openpyxl.

In [None]:
# importando o pandas e os dados
import pandas as pd
df = pd.read_excel('/content/controle_da_empresa.xlsx')

# visualizando o data frame
df.head()

Unnamed: 0,Código,Item,Estoque Mínimo,Custo da Unidade,Preço da Unidade,Unidade de Medida,Estoque Atual
0,SIG001,Canon 6D Mark II,5,8500,8500,Unidade,13
1,SIG002,Canon 5D Mark III,2,9500,13650,Unidade,1
2,SIG003,Lente 85mm f/1.4,8,7000,9989,Unidade,6
3,SIG004,Lente 50mm f/1.4,8,900,1649,Unidade,10
4,SIG005,Lente 16-35mm f/2.8,8,6120,8997,Unidade,11


## Transformando para XLSX
Uma vez carregado nosso data frame, é hora de trabalhar com o openpyxl. Para isso, vamos importar o módulo `Workbook` e dos utilitários do openpyxl vamos puxar do módulo dataframe, o `dataframe_to_rows`, que, como o nome sugere, transforma o dataframe em linhas, como quando lemos um arquivo xlsx.

In [None]:
# importando os pacotes necessários
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows

Para podermos ter esses dados em formato xlsx, primeiro, precisamos criar nossa planilha, e acessar a aba principal, para então inserir os dados nas células.

Portanto, vamos criar nossa planilha.

In [None]:
# criando a planilha
workbook = Workbook()

# acessando a aba
sheet = workbook.active

Com nossa planilha aberta, podemos usar um loop for para iterar sobre os dados do data frame, e inserir os mesmos em nossa planilha.

In [None]:
# iterando sobre o dataframe, inserindo os dados nas células
for row in dataframe_to_rows(df, index=False, header=True):
  sheet.append(row)

# salvando a planilha
workbook.save(filename='salvo_no_openpyxl.xlsx')

Pronto! Agora podemos utilizar os arquivos que recebemos como csv, em formato xlsx.

**Ou, usando diretamente o método `df.to_excel`**

In [None]:
df.to_excel("salvo_no_pandas.xlsx", sheet_name="Nome da aba", index=False)

## Convertendo XLSX para DF

Agora que já sabemos ir de Data Frame para XLSX, é hora de fazer o caminho contrário.

Já conhecemos todas as possibilidades que o Pandas e outras bibliotecas trabalhando em conjunto com essa nos proporcionam, portajnto, é bastante interessante direcionarmos nossa análise com o Pandas. 

Aqui, vamos simular o recebimento de um arquivo em formato xlsx, e transformá-lo em um data frame do Pandas.

Uma das primeiras coisas que precisaremos fazer é coletar o nome das colunas, pois quando criarmos nosso data frame, elas aparecerão como a primeira linha, e não como coluna.

Depois de carregar os dados, vamos renomear as colunas e apagar a coluna extra. Mas, um passo de cada vez. Primeiro, vamos iterar sobre a primeira linha e coletar os nomes das colunas.

In [None]:
# buscando os nomes das colunas
for value in sheet.iter_rows(min_row=1,
                           max_row=1,
                           min_col=1,
                           max_col=7,
                           values_only=True):
  cols = value
  print(cols)

('Código', 'Item', 'Estoque Mínimo', 'Custo da Unidade', 'Preço da Unidade', 'Unidade de Medida', 'Estoque Atual')


Agora, iremos coletar os valores presentes na coluna, e transformar em um data frame com a função `DataFrame` do Pandas.

Após isso, utilizaremos a lista de colunas que guardamos na variável `cols` para renomear as colunas, e em seguida vamos excluir a primeira linha, que continha o nome das colunas.

Por fim, é só visualizar o data frame.

In [None]:
# coletando os valores para o DF
values = sheet.values

# criando o dataframe
df_xl = pd.DataFrame(values)

# nomeando as colunas
df_xl.columns = cols

# removendo linha repetida
df_xl.drop(df_xl.index[0], inplace = True)

# visualizando o dataset
df_xl.head()

Unnamed: 0,Código,Item,Estoque Mínimo,Custo da Unidade,Preço da Unidade,Unidade de Medida,Estoque Atual
1,SIG001,Canon 6D Mark II,5,8500,8500,Unidade,13
2,SIG002,Canon 5D Mark III,2,9500,13650,Unidade,1
3,SIG003,Lente 85mm f/1.4,8,7000,9989,Unidade,6
4,SIG004,Lente 50mm f/1.4,8,900,1649,Unidade,10
5,SIG005,Lente 16-35mm f/2.8,8,6120,8997,Unidade,11


**Ou pela maneira mais fácil**

In [None]:
df = pd.read_excel('/content/controle_da_empresa.xlsx')