# Pandas
A biblioteca Pandas é uma das mais populares e poderosas ferramentas para análise e manipulação de dados em Python. Ela fornece estruturas de dados rápidas, flexíveis e expressivas, como DataFrame e Series, facilitando o trabalho com grandes conjuntos de dados de diversas fontes.

## Estruturas de Dados Principais

###Series
Uma Series é um array unidimensional que pode conter qualquer tipo de dado (inteiros, floats, strings, etc.). Cada elemento de uma Series tem um índice associado.

In [None]:
import pandas as pd

# Criando uma Series
serie = pd.Series([10, 20, 30, 40])
print(serie)


###DataFrame
Um DataFrame é uma estrutura de dados bidimensional, semelhante a uma tabela em bancos de dados relacionais ou uma planilha do Excel. Ele consiste em linhas e colunas, onde cada coluna pode ser de um tipo diferente.

In [None]:
# Criando um DataFrame
dados = {'Nome': ['Ana', 'João', 'Maria'],
         'Idade': [23, 34, 45],
         'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba']}
df = pd.DataFrame(dados)
print(df)


## Operações Básicas
###Leitura e Escrita de Dados
Pandas suporta várias fontes de dados, incluindo arquivos CSV, Excel, JSON e SQL.

In [None]:
# Lendo um arquivo CSV
df = pd.read_csv('dados.csv')

# Salvando um DataFrame para um arquivo CSV
df.to_csv('dados_saida.csv', index=False)


### Seleção de Dados
Seleção de dados pode ser feita utilizando rótulos de coluna e índices de linha.

In [None]:
# Selecionando uma coluna
print(df['Nome'])

# Selecionando múltiplas colunas
print(df[['Nome', 'Idade']])

# Selecionando linhas usando índices
print(df.iloc[0])  # Primeira linha
print(df.iloc[1:3])  # Segunda e terceira linhas

# Selecionando linhas usando rótulos
print(df.loc[0])  # Primeira linha
print(df.loc[1:3])  # Segunda e terceira linhas


###Filtragem de Dados
Filtragem é útil para selecionar dados que atendem a determinadas condições.

In [None]:
# Filtrando dados com base em uma condição
print(df[df['Idade'] > 30])


###Agregação e Agrupamento
Pandas permite operações de agregação e agrupamento para análise estatística.

In [None]:
# Agrupando dados e calculando a média
print(df.groupby('Cidade').mean())


###Manipulação de Dados
Adicionar e Remover Colunas

In [None]:
# Adicionando uma nova coluna
df['Salário'] = [5000, 6000, 7000]
print(df)

# Removendo uma coluna
df.drop('Salário', axis=1, inplace=True)
print(df)


Tratamento de Valores Nulos

In [None]:
# Identificando valores nulos
print(df.isnull())

# Preenchendo valores nulos
df.fillna(0, inplace=True)
print(df)


###Visualização de Dados
andas se integra bem com bibliotecas de visualização como Matplotlib e Seaborn.

In [None]:
import matplotlib.pyplot as plt

# Criando um gráfico simples
df['Idade'].plot(kind='bar')
plt.show()


##Vantagens do Pandas
* **Facilidade de Uso**: API intuitiva e expressiva, facilitando a leitura e escrita de dados.
* **Flexibilidade**: Suporte para diferentes tipos de dados e fontes de dados.
* **Desempenho**: Operações vetorizadas e otimização para grandes conjuntos de dados.
* **Integração**: Compatível com outras bibliotecas como NumPy, Matplotlib e SciPy.

## Conclusão
Pandas é uma ferramenta essencial para cientistas de dados, analistas e desenvolvedores que trabalham com dados em Python. Sua capacidade de manipulação e análise eficiente de dados torna a biblioteca indispensável para tarefas desde a limpeza de dados até a análise exploratória e visualização.

## O que é o Pandas e para que serve?
* Análise de Dados (seja para DataScience, seja para trabalhar de forma integrada com arquivos em Excel e Bancos de Dados)
* Melhor biblioteca/módulo para trabalhar com quantidades enormes de informações
* Uma mistura de listas e dicionário de forma muito eficiente

### Resumo
Se você trabalhar com muitos dados, você vai precisar usar o pandas

### Forma de usar


    import pandas as pd
    pd.

## Pandas e csv

### Resumo
Quase sempre quando formo "Ler" um arquivo csv, vamos usar o pandas. É prático e bem eficiente.

### Funcionamento


    # Forma mais básica: (muitas vezes não usaremos a forma mais básica)
    dataframe = pd.read_csv(arquivo_com_extensao)


* Vamos ler um arquivo real, com a Base de Dados de Vendas da Empresa "Contoso".

In [None]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

vendas_df = pd.read_csv('/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv('/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';')

produtos_df

## DataFrame

### Resumo
É como se fosse uma tabela
* As colunas funcionam 'como chaves de dicionário'
* As linhas funcionam como listas

### Funcionamento

Temos um dataframe chamado vendas_df

    vendas_df['coluna_x'] -> uma lista com os valores da coluna_x (em formato dataframe, é um dataframe com 1 coluna só)
    vendas_df[0] -> NÃO FUNCIONA ASSIM PARA DATAFRAMES
    vendas_df[:3] -> pega até a linha de índice 3 do dataframe
    vendas_df[['coluna_x', 'coluna_y', 'coluna_z']] -> cria um novo dataframe com as colunas coluna_x, coluna_y e coluna_z
    vendas_df['coluna_x'][0] -> pega o itemd a 1ª linha da coluna coluna_x

- Vamos ler um arquivo real, com a Base de Dados de Vendas da Empresa "Contoso"

In [None]:
import pandas as pd

vendas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')

# vendas_df['ID Cliente']

# vendas_df[0] ## Não funciona

# vendas_df[:0] ## Assim funciona

vendas_df[['ID Cliente', 'ID Produto', 'Quantidade Vendida']]

# vendas_df['ID Cliente'][0]

### Aplicação
* O 1º passo de toda a Análise de Dados é você entender o que existe na sua base de dados

Usaremos o .info() para isso

In [None]:
vendas_df.info()

* Vamos criar então agora uma lista de Clientes

In [None]:
lista_clientes = vendas_df['ID Cliente']
lista_clientes

* Vamos criar agora uma lista com os produtos e as quatidades de vendas dele, caso a gente queira analisar só os produtos (independentemente do cliente)

In [None]:
lista_colunas = ['ID Produto', 'Quantidade Vendida', 'Quantidade Devolvida']
lista_produtos = vendas_df[lista_colunas]
lista_produtos

---


## Comparando, Tratando e Mesclando DataFrames

### Objetivo
Vamos cmodificar os IDs para os nomes dos produtos, dos clientes e das lojas, para nossas análises ficarem mais intuitivas futuramente. Para isso, vamos criar um dataframe com todos os detalhes.

* Usaremos o método `merge` para isso e, depois se quisermos, podemos pegar apenas as colunas que queremos do dataframe final.

### Criando nossos datafreames

In [None]:
import pandas as pd

# às vezes precisaremos mudar o encoding. Possíeis valores para testar:
#enconding = 'latin1', encoding= 'ISO-8859-1', enconding='utf-8' ou então encoding='cp1252'
vendas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')
lojas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Lojas.csv', sep=';', encoding='latin1')
clientes_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Clientes.csv', sep=';', encoding='latin1')

#Usaremos o display para ver todos os dataframes, dessa forma, o pandas irá mostrar todas as tabelas desejadas, caso contrário, só mostraria um, a primeira.
display(vendas_df)
display(produtos_df)
display(lojas_df)
display(clientes_df)

### Vamos tirar as colunas inúteis do clientes_df ou pegar apenas as colunas que quisermos


    .drop([coluna1, coluna2, coluna3]) # -> Retira as colunas: coluna1, coluna2 e coluna3

In [None]:
# ## Para remover colunas indesejadas da base de dados:
# cliente_df_removido = clientes_df.drop(['Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10'], axis=1)
# display(cliente_df_removido)
# #

#Renomeando as colunas
lojas_df.rename({'ÿID Loja':'ID Loja'}, axis=1, inplace=True)
clientes_df.rename({'ÿID Cliente':'ID Cliente'}, axis=1, inplace=True)
produtos_df.rename({'ÿNome do Produto':'Nome do Produto'}, axis=1, inplace=True)

## Para pegar somente o desejado:
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]
display(lojas_df)

### Agora vamos juntar os dataframes para ter 1 único dataframe com tudo "bonito"


    novo_dataframe = dataframe1.merge(dataframe2, on='coluna')


* Obs: O `merge` precisa das colunas com o mesmo nome para funcionar. Se não tiver, você precisa alterar o nome da coluna com o .rename


    dataframe.rename({'coluna1':'novo_coluna1'})

In [None]:
## Juntando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente')

#Exibindo o dataframe final
display(vendas_df)


In [None]:
# Vamos renomear o e-mail para ficar mais claro que é do cliente
vendas_df = vendas_df.rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

---


## Resumo e um pouco de Visualização no Pandas

### Resumo
Vamos ver alguns métodos para analisar nossas tabelas (dataframes)
Além disso, vamos usar os plot de gráfico padrões do pandas, mas no projeto de DataScience veremos outras mais bonitas e também muito práticas.

Obs: O pandas usa o matplotlib (que vimos na seção de "módulos e bibliotecas") para poder plotar os gráficos.
Se quiser personalizar mais do que o padrão do pandas, importe o matplotlib e use os métodos do matplotlib.

* Preparando as bases de dados (que fizemos na última aula)

### Qual cliente que comprou mais vezes?
* Usaremos o método `.value_count()` para contar quantas vezes cada valor do Dataframe aparece
* Usaremos o método `.plot()`para exibir um gráfico

In [None]:
frequencia_clientes = vendas_df['E-mail do Cliente'].value_counts()
display(frequencia_clientes)
frequencia_clientes[:5].plot(figsize=(15,5))

### Qual loja que mais vendeu?
* Usaremos o `.groupby` para agrupar o nosso dataframe, de acordo com o que queremos (somando as qualidades de vendas, por exemplo)

In [None]:
vendas_lojas = vendas_df.groupby('Nome da Loja').sum()
vendas_lojas = vendas_lojas[['Quantidade Vendida']]
display(vendas_lojas)

* Agora precisaremos pegar o maior valor. Temos 2 formas:
    1. Ordenar o dataframe em ordem descrescente de Quantidade Vendida
        * Método `.sort_values`
    2. Pegar o Maior valor diretamente
        * Métodos `.max()` e `.idmax()`

In [None]:
## Ordenando o dataframe
vendas_lojas = vendas_lojas.sort_values(by=['Quantidade Vendida'], ascending=False)
display(vendas_lojas)

# Podemos plotar em um gráfico
vendas_lojas[:5].plot(figsize=(15,5), kind='bar')

In [None]:
# Pegando o maior valor e seu índice

maior_valor = vendas_lojas['Quantidade Vendida'].max()
maior_indice = vendas_lojas['Quantidade Vendida'].idxmax()

print(maior_valor)
print(maior_indice)

### Qual o produto que menos vendeu?

* Já temos a lista criada para isso, basta verificarmos o final da lista (já que ela está ordenada) ou então usamos os métodos:
    1. `min()`
    2. `ìdxmin()`

In [None]:
menor_valor = vendas_lojas['Quantidade Vendida'].min()
menor_indice = vendas_lojas['Quantidade Vendida'].idxmin()

print(menor_valor)
print(menor_indice)
#

---

## Filtrando informações nos dataframes

### Resumo

Um dos grandes potenciais do pandas é para tratar condições.

E a forma com que analisamos condições no dataframe é diferente do que já fizemos até agora no curso, vamos ver como funciona.

* Preparanda as bases de dados.

In [None]:
import pandas as pd
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')


#importando os arquivos
vendas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')
lojas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Lojas.csv', sep=';', encoding='latin1')
clientes_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Clientes.csv', sep=';', encoding='latin1')

#Renomeando colunas com nomenclatura bugada por causa da codificação]
lojas_df.rename({'ÿID Loja':'ID Loja'}, axis=1, inplace=True)
clientes_df.rename({'ÿID Cliente':'ID Cliente'}, axis=1, inplace=True)
produtos_df.rename({'ÿNome do Produto':'Nome do Produto'}, axis=1, inplace=True)

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

### Primeiro vamos aplicacar uma função normalmente. Qual a %  das vendas que foi devolvido?
* Para isso vamos somar as quantidades nasa colunas correspondentes. Lembrando, o % vai ser: Total Devolvido / Total Vendido.

In [None]:
qtde_vendida = vendas_df['Quantidade Vendida'].sum()
qtde_devolvida = vendas_df['Quantidade Devolvida'].sum()

print('{:.2%}'.format(qtde_devolvida / qtde_vendida))

### Agora, se quisermos fazer a mesma análise apenas para 1 loja. Queremos filtrar apenas os itens da Loja Contoso Europe Online e saber o % de devolução dessa loja.

* Para isso, vamos precisar filtrar. A forma de filtrar nos dataframes é uma "simples" comparação

In [None]:
vendas_loja_contoso_europe_online = vendas_df[vendas_df['ID Loja'] == 306]
display(vendas_loja_contoso_europe_online)
qtde_vendida = vendas_loja_contoso_europe_online['Quantidade Vendida'].sum()
qtde_devolvida = vendas_loja_contoso_europe_online['Quantidade Devolvida'].sum()
print('{:.2%}'.format(qtde_devolvida / qtde_vendida))


### Vamos fazer em 2 passos para entender certinho o que está acontecendo.

In [None]:
# vendas_loja_contoso_europe_online = vendas_df[vendas_df['ID Loja'] == 306]
loja_306 = vendas_df['ID Loja'] == 306
vendas_loja_contoso_europe_online = vendas_df[loja_306]
display(vendas_loja_contoso_europe_online)


### Desafio: e se eu quisesse criar uma tabela apenas com as vendas da Loja Contoso Europe Online e que não tiveram nenhuma devolução. Quero criar essa tabela e saber quantas vendas são.

* Repare que nesse caso são 2 condições, como fazemos isso?

In [None]:
# Tudo Junto
df_lojas_306_sem_devolucao = vendas_df[(vendas_df['ID Loja'] == 306) & (vendas_df['Quantidade Devolvida'] == 0)]
display(df_lojas_306_sem_devolucao)

In [None]:
# Tudo Separado

loja_306 = vendas_df['ID Loja'] == 306
qtde_devolvida_0 = vendas_df['Quantidade Devolvida'] == 0
df_lojas_306_sem_devolucao = vendas_df[loja_306 & qtde_devolvida_0]
display(df_lojas_306_sem_devolucao)

#

---

## Adicionando Colunas, Modificando Colunas e Valores

### Vamos pegar o nosso dataframe novamente



In [None]:
import pandas as pd
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')


#importando os arquivos
vendas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')
lojas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Lojas.csv', sep=';', encoding='latin1')
clientes_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Clientes.csv', sep=';', encoding='latin1')

#Renomeando colunas com nomenclatura bugada por causa da codificação]
lojas_df.rename({'ÿID Loja':'ID Loja'}, axis=1, inplace=True)
clientes_df.rename({'ÿID Cliente':'ID Cliente'}, axis=1, inplace=True)
produtos_df.rename({'ÿNome do Produto':'Nome do Produto'}, axis=1, inplace=True)

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

### Agora, e se quisermos acrescentar uma coluna com o mês, o dia e o ano de cada venda (e não só a data completa)

In [None]:
vendas_df['Data da Venda'] = pd.to_datetime(vendas_df['Data da Venda'], format='%d/%m/%Y')
vendas_df['Ano da Venda'] = vendas_df['Data da Venda'].dt.year
vendas_df['Mês da Venda'] = vendas_df['Data da Venda'].dt.month
vendas_df['Dia da Venda'] = vendas_df['Data da Venda'].dt.day
display(vendas_df)
vendas_df.info()

### E agora, caso a gente queira modificar 1 valor específico, como fazemos? Vamos importar novamente a base de produtos


In [None]:
novos_produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')
display(novos_produtos_df.head())
#repare no .head() para pegar apenas os primeiros valores, é bem comum para pegar os 5 primeiros itens

novos_produtos_df.rename({'ÿNome do Produto':'Nome do Produto'}, axis=1, inplace=True)
display(novos_produtos_df.head())

### Antes de entrar no próximo exemplo, precisamos falar de 2 métodos:
1. `.loc()` - Permite pegar uma linha de acordo com o índice dela. Ele dá erro caso não encontre o índice. Isso é interessante principalmente quando o índice é uma informação relevante ao invés só do números do índice ou quando queremos pegar alguma linha específica do dataframe (ao invés de ir no início do dataframe até a linha 5, por exemplo).
Também podemos usar o `loc[indice_linha, indice_coluna]` para acessar um valor específico e modificá-lo.


2. `ìloc`- Enxerga o dataframe como linhas e colunas e consegue pegar o valor com um número de liinha e um número de coluna. Repare que ele não analisa o valor do índice da linha e da coluna, apenas a posição importa.
Uso:


    iloc[num_linha, num_coluna]

    

* Vendo na prática

In [None]:
# novos_produtos_df = novos_produtos_df.set_index('Nome do Produto')
display(novos_produtos_df.head())

# Uso por loc
display(novos_produtos_df.loc['Contoso Wireless Laser Mouse E50 Grey', 'Preco Unitario'])

# Uso por iloc
display(novos_produtos_df.iloc[0, 5])


### A empresa decidiu aumentar o preço do produto de ID 873 (Contoso Wireless Mouse e50 Grey) para 26. Coomo fazemos, para modificar isso na nossa base?

In [None]:
novos_produtos_df.loc['Contoso Wireless Laser Mouse E50 Grey', 'Preco Unitario'] = 26
# Ou
novos_produtos_df.loc[novos_produtos_df['ID Produto'] == 873, 'Preco Unitario'] = 26
display(novos_produtos_df.head())
#

---

## Exportando do DataFrame para um csv

### depois de modificar um DataFrame, ou até criar um, muitas vezes podemos exportarr esse dataframe para um csv.

No pandas, isso é bem simples:


        dataframe.to_csv('nome_do_arquivo.csv', sep=',')

## Lendo um DataFrame, modificando ele e exportando

In [None]:
import pandas as pd
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')


#importando os arquivos
vendas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')
lojas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Lojas.csv', sep=';', encoding='latin1')
clientes_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Clientes.csv', sep=';', encoding='latin1')

#Renomeando colunas com nomenclatura bugada por causa da codificação]
lojas_df.rename({'ÿID Loja':'ID Loja'}, axis=1, inplace=True)
clientes_df.rename({'ÿID Cliente':'ID Cliente'}, axis=1, inplace=True)
produtos_df.rename({'ÿNome do Produto':'Nome do Produto'}, axis=1, inplace=True)

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

In [None]:
# Criando o csv

vendas_df.to_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Novo Vendas 2017.csv', sep=';')

### Criando um dicionário, transformando o dicionário em um DataFrame e exportando para csv.

In [None]:
vendas_produtos = {'iphone': [558147, 951642], 'galaxy': [712350, 244295], 'ipad': [573823, 26964], 'tv': [405252, 787604], 'máquina de café': [718654, 867660], 'kindle': [531580, 78830], 'geladeira': [973139, 710331], 'adega': [892292, 646016], 'notebook dell': [422760, 694913], 'notebook hp': [154753, 539704], 'notebook asus': [887061, 324831], 'microsoft surface': [438508, 667179], 'webcam': [237467, 295633], 'caixa de som': [489705, 725316], 'microfone': [328311, 644622], 'câmera canon': [591120, 994303]}

vendas_produtos_df = pd.DataFrame.from_dict(vendas_produtos, orient='index')
vendas_produtos_df = vendas_produtos_df.rename(columns={0: 'Vendas 2019', 1: 'Vendas 2020'})
display(vendas_produtos_df)
vendas_produtos_df.to_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Novo Vendas Produtos.csv', sep=';', encoding='latin1')


## Pandas lendo csv da internet

### Essa é uma das forma de importar arquivos da internet, direto do pandas. Mas nem sempre você vai conseguir abrir assim direto.

### 2 situações principais em que você consegue fazer direto
1. Arquivo csv direto no link (melhor dos mundo)
2. O arquivo csv é gerado para você, mas fica no meio de uma requisição que precisa ser tratada.

### Caso 1: csv direlo no link
* Criado um arquivo csv e disponibilizado no link para Download no Drive: https://drive.google.com/uc?authuser=0&id=1Ru7s-x3YJuStZK1mqr_qNqiHVvdHUN66&export=download

In [None]:
import pandas as pd

url = 'https://drive.google.com/uc?authuser=0&id=1Ru7s-x3YJuStZK1mqr_qNqiHVvdHUN66&export=download'

cotacao_df = pd.read_csv(url, sep=',')
display(cotacao_df)


### Caso 2: csv em uma requisição que precisa ser tratada

Pesquisei por histórico de preços do café no Google e cheguei nesse site: https://portalweb.cooxupe.com.br:9080/portal/precohistoricocafe_2.jsp

In [None]:
import pandas as pd
import requests
import io

url = 'https://portalweb.cooxupe.com.br:9080/portal/precohistoricocafe_2.jsp?d-3496238-e=2&6578706f7274=1'
conteudo_url = requests.get(url).content
arquivo = io.StringIO(conteudo_url.decode('latin1'))
cafe_df = pd.read_csv(arquivo, sep=r'\t', engine='python')
display(cafe_df)

### Apenas para lembrar os tipos de encoding principais que vamos usar:

- encoding='latin1'
- encoding='ISO-8859-1'
- encoding='utf-8'
- encoding='cp1252'

# Integração Python + Excel

### 2 formas:

1. Pandas
    - Mais usada no geral
    - Trata o Excel como uma base de dados
    - Faz o que quiser com o arquivo
    - Pode desfazer a estrutura original do arquivo, caso queira editar
    
2. Openpyxl
    - Trata o Excel como uma planilha mesmo que pode ter várias coisas
    - Edita "como se fosse um VBA"
    - Menos eficiente
    - Mantém mais a estrutura original do arquivo, mas cuidado porque não necessariamente tudo, então tem que testar

### Desafio

- Temos uma planilha de produtos e serviços. Com o aumento de imposto sobre os serviços, temos que atualizar o preço dos produtos impactados pela mudança.

Novo Multiplicador Imposto: 1.5

In [None]:
# pandas
import pandas as pd

tabela = pd.read_excel("/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Produtos.xlsx")
display(tabela)

In [None]:
# atualizar o multiplicador
tabela.loc[tabela["Tipo"]=="Serviço", "Multiplicador Imposto"] = 1.5

# fazer a conta do Preço Base Reais
tabela["Preço Base Reais"] = tabela["Multiplicador Imposto"] * tabela["Preço Base Original"]

tabela.to_excel("/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/ProdutosPandas.xlsx", index=False)

In [None]:
# openpyxl
from openpyxl import Workbook, load_workbook

planilha = load_workbook("/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Produtos.xlsx")

aba_ativa = planilha.active

for celula in aba_ativa["C"]:
    if celula.value == "Serviço":
        linha = celula.row
        aba_ativa[f"D{linha}"] = 1.5

planilha.save("/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/ProdutosOpenPy.xlsx")

---


## E quando o nosso código demora muito? Será que travou? Quanto tempo vai demorar?
### Biblioteca/Módulo `tqdm`
* Vamos importar os arquivos csv da Empresa Contoso e tratar como fizemos ao longo desse módulo.

In [None]:
import pandas as pd
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')


#importando os arquivos
vendas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Cadastro Produtos.csv', sep=';', encoding='latin1')
lojas_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Lojas.csv', sep=';', encoding='latin1')
clientes_df = pd.read_csv(r'/content/drive/MyDrive/Estudo de Python/Conteúdo/16 - Dados-Pandas + Python e Excel/Contoso - Clientes.csv', sep=';', encoding='latin1')

#Renomeando colunas com nomenclatura bugada por causa da codificação]
lojas_df.rename({'ÿID Loja':'ID Loja'}, axis=1, inplace=True)
clientes_df.rename({'ÿID Cliente':'ID Cliente'}, axis=1, inplace=True)
produtos_df.rename({'ÿNome do Produto':'Nome do Produto'}, axis=1, inplace=True)

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

### Agora imagina que a Loja Contoso Romo (ID 222), para tentar burlar o sistema de metas, diminiu 1 da quantidade devolvida de todas as vendas que ela teve. Descobrindo isso, precisamos ajeitar a base.
* Faremos com um for, principalmente por motivos didátivos, mas teríamos outras formas de fazer isso também.


In [None]:
from tqdm import tqdm

pbar = tqdm(total=len(vendas_df['ID Loja']), position=0, leave=True)

for i,id_loja in enumerate(vendas_df['ID Loja']):
    pbar.update()
    if id_loja == 222:
        vendas_df.loc[i, 'Quantidade Devolvida'] += 1
display(vendas_df)


---