<a href="https://colab.research.google.com/github/fabiomarcolia/python-para-dados/blob/main/recursos_templates_python/Introducao_ao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas - Saindo Zero para Analise de Dados
## Nessa aula vamos te mostrar a introdução ao Pandas e tudo o que precisa saber nesse início para trabalhar com dados dentro do Python!

In [None]:
import pandas as pd


### Carregando a planilha VendasEletro.xlsx
Usamos `pd.read_excel` para carregar dados de um arquivo Excel

In [None]:
file_path = 'https://github.com/fabiomarcolia/python-para-dados/raw/main/dados/bases_treino/VendasEletro.xlsx'
vendas_df = pd.read_excel(file_path)

### Visualizando as primeiras linhas do DataFrame
`display` é usado para mostrar o DataFrame de forma mais visual

In [None]:
display(vendas_df.head())

Unnamed: 0,CdProduto,Qtde,Nota,PrecoLiq,PrecoIPI,PrecoICMS,P_IPI,P_ICM,NmProduto,CdCliente,...,Data_Pedido,Data_Nota,CdOperacao,NmOperacao,CdSubGrupo,NmSubGrupo,CdLinha,NmLinha,Valor,Lucro
0,1748,1,1,839.04,914.55,1079.17,9,18,ATE 50 LITROS PRADARIA Serie 78,149.0,...,2010-04-01,2010-04-07 00:00:00,5.102,VENDAS,188,ATE 50 LITROS,1,ELETRODOMESTICOS,839.04,41.952
1,1749,4,1,839.52,915.08,1079.79,9,18,MUITA LEMBRANCA IMPERION Serie 78,149.0,...,2010-04-01,2010-04-08 00:00:00,5.102,VENDAS,189,MUITA LEMBRANCA,3,TI,3358.08,92.2944
2,1748,1,2,839.04,914.55,1079.17,9,18,ATE 50 LITROS PRADARIA Serie 78,145.0,...,2010-04-01,2010-04-07 00:00:00,5.102,VENDAS,188,ATE 50 LITROS,1,ELETRODOMESTICOS,839.04,41.952
3,1749,4,2,839.52,915.08,1079.79,9,18,MUITA LEMBRANCA IMPERION Serie 78,145.0,...,2010-04-01,2010-04-08 00:00:00,5.102,VENDAS,189,MUITA LEMBRANCA,3,TI,3358.08,92.2944
4,4965,2,3,2383.2,2550.02,3009.03,7,18,BONZINHO PRADA Serie 99,141.0,...,2010-04-05,2010-04-17 00:00:00,5.102,VENDAS,90,BONZINHO,4,SOM & IMAGEM,4766.4,428.976


### Visualização básica dos dados
`shape` mostra o número de linhas e colunas no DataFrame
`describe` fornece um resumo estatístico dos dados numéricos

In [None]:
print(vendas_df.shape)
display(vendas_df.describe())

### Pegar uma coluna específica
Selecionamos colunas específicas colocando os nomes das colunas em uma lista dentro dos colchetes

In [None]:
produtos = vendas_df[['NmProduto', 'CdCliente']]
display(produtos)

### Pegar uma linha específica
`loc` é usado para selecionar linhas e colunas por rótulo ou condição

In [None]:
display(vendas_df.loc[1:5])

### Pegar linhas que correspondem a uma condição
Utilizamos a sintaxe de colchetes para aplicar condições de filtragem no DataFrame

In [None]:
vendas_sp_df = vendas_df.loc[vendas_df['UF'] == 'SP']
display(vendas_sp_df)

### Pegar várias linhas e colunas usando o loc
Podemos selecionar várias linhas e colunas usando `loc` com condições

In [None]:
vendas_vivaldo_sp = vendas_df.loc[vendas_df['NmVendedor'] == 'VIVALDO', ['NmVendedor', 'Cidade', 'Valor']]
display(vendas_vivaldo_sp)

### Pegar um valor específico
Usamos `loc` para selecionar um valor específico fornecendo o índice da linha e o nome da coluna

In [None]:
print(vendas_df.loc[1, 'NmProduto'])

MUITA LEMBRANCA IMPERION Serie 78


### Adicionar uma coluna baseada em outra
Podemos adicionar novas colunas calculando valores a partir de colunas existentes

In [None]:
vendas_df['Comissao'] = vendas_df['Valor'] * 0.05
display(vendas_df)

### Criar uma coluna com valor padrão
Utilizamos `loc[:, 'nome_coluna']` para adicionar uma nova coluna com um valor padrão

In [None]:
vendas_df.loc[:, 'Imposto'] = 0
display(vendas_df)

### Adicionar linhas a partir de outra planilha
`concat` é usado para adicionar linhas de um DataFrame a outro

In [None]:
vendas_dez_df = pd.read_excel('https://github.com/marsolia/python-para-dados/raw/main/dados/VendasEletro.xlsx')
vendas_df = pd.concat([vendas_df, vendas_dez_df])
display(vendas_df)

### Excluir uma linha ou coluna
`drop` é usado para remover linhas ou colunas do DataFrame

In [None]:
vendas_df = vendas_df.drop(0, axis=0)
display(vendas_df)

### Tratar valores vazios
`dropna` remove linhas ou colunas com valores NaN
`fillna` preenche valores NaN com um valor especificado
`ffill` preenche valores NaN com o valor anterior na coluna

In [None]:
vendas_df = vendas_df.dropna(how='all', axis=1)
vendas_df = vendas_df.dropna()
vendas_df['Comissao'] = vendas_df['Comissao'].fillna(vendas_df['Comissao'].mean())
vendas_df = vendas_df.ffill()
display(vendas_df)

### Cálculo de indicadores
`value_counts` conta a frequência de valores únicos em uma coluna
`groupby` agrupa os dados e `sum` soma os valores das colunas numéricas

In [None]:
transacoes_loja = vendas_df['Cidade'].value_counts()
display(transacoes_loja)

faturamento_produto = vendas_df[['NmProduto', 'Valor']].groupby('NmProduto').sum()
display(faturamento_produto)

### Mesclar dois dataframes
`merge` é usado para combinar dois DataFrames com base em uma coluna comum
Como se colocar uma planilha ao lado da outra, vai mudar os nomes das colunas, para o exemplo.

In [None]:
gerentes_df = pd.read_excel('https://github.com/marsolia/python-para-dados/raw/main/dados/VendasEletro.xlsx')
vendas_df = vendas_df.merge(gerentes_df,on='CdCliente')
display(vendas_df)

### Filtragem de Dados - múltiplas condições
Utilizamos operadores lógicos (& para AND, | para OR) para aplicar múltiplas condições

In [None]:
vendas_filtradas = vendas_df[(vendas_df['Valor_x'] > 2000) & (vendas_df['Cidade_x'] == 'INDAIATUBA')]
display(vendas_filtradas)

### Ordenação de Dados
`sort_values` ordena os dados por uma ou mais colunas

In [None]:
vendas_ordenadas = vendas_df.sort_values(by='Valor_x', ascending=False)
display(vendas_ordenadas)

### Renomear Colunas
`rename` altera os nomes das colunas

In [None]:
vendas_df.rename(columns={'NmProduto': 'Produto', 'CdCliente': 'ClienteID'}, inplace=True)
display(vendas_df.head())

### Alterar Tipos de Dados
Usamos `pd.to_datetime` para converter colunas de datas em objetos datetime

In [None]:
vendas_df['Data_Pedido_x'] = pd.to_datetime(vendas_df['Data_Pedido_x'])
vendas_df['Data_Nota_x'] = pd.to_datetime(vendas_df['Data_Nota_x'])
display(vendas_df.dtypes)

### Salvar Dados em um novo arquivo Excel
`to_excel` salva o DataFrame em um arquivo Excel

In [None]:
vendas_df.to_excel('VendasEletro_Atualizado.xlsx', index=False)

### Operações de Agrupamento Avançadas
`groupby` agrupa os dados e `agg` aplica múltiplas funções agregadas

In [None]:
grupo_vendedor = vendas_df.groupby('NmVendedor').agg({
    'Valor': ['sum', 'mean'],
    'Lucro': ['sum', 'mean']
})
display(grupo_vendedor)