<a href="https://colab.research.google.com/github/tayseribeiro/tratamento_pandas/blob/main/Tratamento_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tratamento de dados para construção de relatórios/dashboards

### Objetivo:

Apresentar as principais técnicas de tratamento aplicado a dados.



Base de Dados: https://drive.google.com/drive/folders/1cYsSZBY1wF1iV3FYdUUMXWhvgpVXEFI8 <br>
Link Original do Kaggle: https://www.kaggle.com/apoorvaappz/global-super-store-dataset

# Importação de dados

In [None]:
#Para que as funções do Pandas funcione, primeiro precisamos ativar essa biblioteca:
import pandas as pd

In [None]:
#Esse procedimento é exclusivo para consultas a dados no Colab
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
#Abrindo arquivos do tipo .CSV
df_CSV = pd.read_csv('/content/drive/MyDrive/Treinamento - Tratamento de dados com python/Global_Superstore.txt', engine='python')
#df_CSV.head()

In [None]:
#Abrindo arquivos do tipo .EXCEL
df_EXCEL = pd.read_excel('/content/drive/MyDrive/Treinamento - Tratamento de dados com python/Global_Superstore.xlsx',sheet_name='Sheet1')
#df_EXCEL.head()

# Identificação dos dados










In [None]:
#Informações sobre tipo de dado
df_EXCEL.info()

In [None]:
#Total de linhas e colunas
df_EXCEL.shape

In [None]:
# Descrição do index
df_EXCEL.index

In [None]:
#Verificando o nomes dos campos
df_EXCEL.columns

## Campos do tipo data / dataHora

Identificamos que os campos de data estão como "object" = str (Texto) para futuras análises é importante que estes campos estejam no formato correto. Para isso aplicamos conversões que alteram o tipo de dado:





In [None]:
#Transformando object em datatime
df_EXCEL['PEDIDO_DATA'] =  pd.to_datetime(df_EXCEL['PEDIDO_DATA'])
df_EXCEL['PEDIDO_DATA_ENVIO'] =  pd.to_datetime(df_EXCEL['PEDIDO_DATA_ENVIO'])

#Podemos verificar se a alteração do tipo de dado foi executada
df_EXCEL.info()

# Filtros 


In [None]:
#Aplicando filtro através de um campo específico: "PRODUTO_QTD"
df_FILTRO = df_EXCEL[df_EXCEL['PRODUTO_QTD'] == 10]
df_FILTRO.head(5)

In [None]:
df_FILTRO.shape

In [None]:
#Aplicando filtro através de 2 campos: PRODUTO_QTD & PRODUTO_PRECO & PRODUTO_FRETE - Se e regra for OU usar: |
df_FILTRO1 = df_EXCEL[(df_EXCEL['PRODUTO_QTD'] >= 2) & (df_EXCEL['PRODUTO_PRECO'] >= 10000) & (df_EXCEL['PRODUTO_FRETE'] <= 900) ]
df_FILTRO1.head(5)

In [None]:
#Aplicando filtros através de um padrão específico - Técnica 1
df_FILTRO2 = df_EXCEL[df_EXCEL['CLIENTE_PAIS'] == 'Brazil']
df_FILTRO2.head(5)

In [None]:
#Aplicando filtros através de um padrão específico - Técnica 2
df_FILTRO3 = df_EXCEL[df_EXCEL['PRODUTO_PRIORIDADE'].isin(['High','Low'])]
df_FILTRO3.head(5)

In [None]:
#Aplicando filtros através de um caractere em uma posição específica
df_FILTRO4 = df_EXCEL[df_EXCEL['PEDIDO_ID'].str[0] == 'M']
df_FILTRO4.head(5)

In [None]:
#Aplicando filtros com regras específicas, como por exemplo: que contenha uma determinada letra no fim de uma palavra
#https://www.debuggex.com/cheatsheet/regex/python

df_FILTRO5 = df_EXCEL[df_EXCEL['CLIENTE_ESTADO'].str.contains('to$')]
df_FILTRO5.head()

In [None]:
#Aplicando filtros através de um trecho específico - Sem determinar a posição
df_FILTRO6 = df_EXCEL[df_EXCEL['PRODUTO_NOME'].str.contains("Mana")]
df_FILTRO6.head(5)

In [None]:
# Aplicando filtro em campos do tipo data
df_FILTRO7 = df_EXCEL[df_EXCEL['PEDIDO_DATA'] == '01-01-2014']
df_FILTRO7.head(5)

In [None]:
#Aplicando filtros em campos nulos ou não nulos
df_FILTRO8 = df_EXCEL[df_EXCEL['CLIENTE_COD_POSTAL'].notnull()]
#df_FILTRO8 = df_EXCEL[df_EXCEL['CLIENTE_COD_POSTAL'].isnull()]
df_FILTRO8.head()

In [None]:
# Aplicando filtro para facilitar a visualização
df_EXCEL = df_EXCEL[df_EXCEL['CLIENTE_CIDADE'] == 'Santos']
#df_EXCEL.head()

# Ordenação

In [None]:
df_ordenado = df_EXCEL.sort_values(by = ["PRODUTO_CATEGORIA", "PRODUTO_SUBCATEGORIA"],ascending = [True, True])
df_ordenado.head()

In [None]:
df_ordenado1 = df_EXCEL.sort_values(by = ["PRODUTO_PRECO"],ascending = [False])
df_ordenado1.head()

In [None]:
#Ordenando campos de forma que os elementos vazios apareçam por último
df_ordenado2 = df_EXCEL.sort_values(by= ["CLIENTE_COD_POSTAL"],ascending=False, na_position='last')
df_ordenado2.head()

# Transformação na base

In [None]:
#Criando um novo campo através de cáculos matemáticos
df_EXCEL['PRODUTO_VENDA_FINAL'] = (df_EXCEL['PRODUTO_PRECO'] * df_EXCEL['PRODUTO_QTD'])+ df_EXCEL['PRODUTO_FRETE']
df_EXCEL.head()

In [None]:
def f (row):
    if row['PRODUTO_VENDA_FINAL'] >= 1000: val = 10

    elif row['PRODUTO_VENDA_FINAL'] >= 500 : val = 5

    elif row['PRODUTO_VENDA_FINAL'] >= 100 : val = 3

    else: val = 0

    return val
# Criando nova coluna atráves de operadores lógicos
df_EXCEL['PRODUTOS_PONTOS'] = df_EXCEL.apply(f, axis=1)
#df_EXCEL.head()

In [None]:
#Criando um novo campo atráves união colunas
df_EXCEL['CHAVE'] = df_EXCEL['CLIENTE_NOME'].str.cat(df_EXCEL['CLIENTE_PAIS'], sep =", ")
#df_EXCEL.head()

In [None]:
#Criando novos campos através do elemtnso tipo "data"
df_EXCEL['MES'] = df_EXCEL['PEDIDO_DATA'].dt.month
df_EXCEL['DIA_DA_SEMANA'] = df_EXCEL['PEDIDO_DATA'].dt.weekday
df_EXCEL['ANO'] = df_EXCEL['PEDIDO_DATA'].dt.year
df_EXCEL['SEMANA'] = df_EXCEL['PEDIDO_DATA'].dt.weekday
df_EXCEL.head(5)

In [None]:
#Substituindo caractereres de um campo
df_EXCEL['CLIENTE_PAIS'] = df_EXCEL['CLIENTE_PAIS'].str.replace('z', 's')
df_EXCEL.head()

In [None]:
#Transformando um texto em 2 colunas 
df_EXCEL[['PRODUTO_NOME_NEW','PRODUTO_TIPO']] = df_EXCEL['PRODUTO_NOME'].str.split(',', n=1, expand=True)
df_EXCEL.head()

In [None]:
# Renomeando campos
df_EXCEL.rename(columns={'PEDIDO_MODO_ENVIO': 'PEDIDO_MD_ENV','CLIENTE_SEGMENTO': 'CLIENTE_SEG'}, inplace=True)
df_EXCEL.head()

In [None]:
#Removendo campo
df_EXCEL = df_EXCEL.drop(columns=['CHAVE']) 
#df_EXCEL.head()

In [None]:
#Removendo linhas duplicadas
df_EXCEL_DUPLICADAS = df_EXCEL.drop_duplicates('CLIENTE_NOME', keep='last')
#df = df.drop_duplicates(['col_name1','col_name2','col_name3'], keep='last')
#df_EXCEL_DUPLICADAS.head()

# Agrupamento



In [None]:
df_EXCEL_AGRUPADO = df_EXCEL.groupby(by='CLIENTE_SEGMENTO').size()
#df_EXCEL_AGRUPADO = df_EXCEL.groupby(by='CLIENTE_SEGMENTO').sum().reset_index(name='Teste')
#df_EXCEL_AGRUPADO = df_EXCEL.groupby(by='CLIENTE_SEGMENTO').mean().sort_values(by='PRODUTO_LUCRO')
df_EXCEL_AGRUPADO.head()

In [None]:
df_EXCEL_AGRUPADO1 = df_EXCEL.groupby(by='CLIENTE_SEGMENTO')['PRODUTO_QTD'].mean()
df_EXCEL_AGRUPADO1.head()

In [None]:
df_EXCEL_AGRUPADO2 = df_EXCEL.groupby(by=['CLIENTE_SEGMENTO', 'PRODUTO_CATEGORIA']).agg({'PRODUTO_QTD':['min','max','mean','sum']})
df_EXCEL_AGRUPADO2.head(20)

# Join

In [None]:
#Criando tabelas
tabela_1 = pd.DataFrame({
'Nome':['João', 'Ana', 'Pedro' , 'Maria'], 
'Idade': ['21', '34', '26', '48'], 
'Carros': ['azul', 'preto', 'verde' , 'amarelo']})

tabela_1.head()

In [None]:
tabela_2 = pd.DataFrame({
'Nome':['João', 'Marcelo', 'Thiago' , 'Maria'],  
'Filhos': ['1', '3', '2' , '2']})

tabela_2.head()

In [None]:
#pd.merge(tabela_da_esquerda, tabela_da_direita, on=["coluna_1","coluna_2"], how="left|right|inner|outer")

In [None]:
# Inner join => Retorna a interseção exata entre as tabelas
df_InnerJoin= pd.merge(tabela_1, tabela_2, how = 'inner', on = 'Nome')
df_InnerJoin.head()

In [None]:
# Outer join => Retornar todas as informações, de ambas tabelas
df_OuterJoin= pd.merge(tabela_1, tabela_2, how = 'outer')
df_OuterJoin.head()

In [None]:
#‘Left’ => Supondo que na sua tarefa você deva manter os dados da tabela_1 e acrescentar dados da tabela 2 através de um campo comum: "Nome" 
# Ou seja, a tabela 1 será complementada com a tabela 2 somente quando o campos "Nomes" for exatamente igual linha por linha.
df_LeftJoin= pd.merge(tabela_1, tabela_2, how = 'left', on = 'Nome')
df_LeftJoin.head()

In [None]:
#‘Right’ => Nesse exemplo tabela 2 será complementada com a tabela 1 somente quando o campos "Nomes" for exatamente igual linha por linha.
df_LeftRight= pd.merge(tabela_1, tabela_2, how = 'right', on = 'Nome')
df_LeftRight.head()

In [None]:
#‘Full Join’ => Retorna a resultante da união de tabelas
df_Concat =pd.concat([tabela_1, tabela_2], ignore_index= True)
df_Concat.head(8)

# Exportação de dados



In [None]:
df_Concat.to_csv('/content/drive/MyDrive/Treinamento - Tratamento de dados com python/df_Concat.csv', sep=',', encoding='utf-8', index=False)

In [None]:
df_Concat.to_excel('/content/drive/MyDrive/Treinamento - Tratamento de dados com python/df_Concat.xlsx', index=False)