## Estudo de Caso - Controle de Faturamento.

Nesse estudo de caso, a missão é realizar tratamento dos dados para inserção e 
criação de relatório em BI utilizando o Tableau.
Os dados utilizados neste Estudo de Caso foram cedidos por uma empresa local e 
passarão por um tratamento de anonimização para ser publicado.

Por ser um projeto de criação de dashboard em BI, o Python foi usado somente 
para **tratamento e manipulação dos dados**, todas as análises e resultados
estarão presentes no Dashboard no Tableau que pode ser acessado por este [link](https://public.tableau.com/app/profile/mmendes/viz/EstudodeCaso-ControledeFaturamento/Painel1):




## Importação de bibliotecas que serão utilizadas neste projeto.



Para este projeto utilizaremos somente Pandas e Numpy.


In [24]:
import pandas as pd
import numpy as np

## Leitura do arquivo em excel já retirando cabeçalhos e rodapés.

In [25]:
dados = pd.read_excel('vendas2023.xlsx', skiprows = 4, skipfooter = 5)
dados

Unnamed: 0,Código,Data,Hora,Código.1,Nome,Quantidade,Valor,Unnamed: 7,Código.2,Nome.1,Unnamed: 10,Código.3,Nome.2,Unnamed: 13,Código.4,Nome.3
0,90251,2023-01-02 00:00:00,15:10:53,21,Pe e Mao,1,47,,2,Cliente Femenino,,15,Janete,,,
1,90252,2023-01-02 00:00:00,15:11:40,69,Combo Sobrancelha + Buço,1,30,,2,Cliente Femenino,,7,Magnolia M. Lemos,,,
2,90253,2023-01-02 00:00:00,15:12:08,21,Pe e Mao,1,45,,2,Cliente Femenino,,11,Edna Maria Costa Amorim,,,
3,90254,2023-01-02 00:00:00,15:12:44,63,Mao,1,23,,2,Cliente Femenino,,15,Janete,,,
4,90255,2023-01-02 00:00:00,15:13:09,63,Mao,1,22,,2,Cliente Femenino,,11,Edna Maria Costa Amorim,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,17:50:49,63,Mao,1,22,,2,Cliente Femenino,,71,Tatiana,,,
20071,101031,2023-11-30 00:00:00,17:53:35,1,Corte Femenino,1,50,,2,Cliente Femenino,,19,Marcos,,,
20072,101032,2023-11-30 00:00:00,18:40:13,21,Pe e Mao,1,45,,1,Cliente Masculino,,9,Suzete Nunes Cabral,,,
20073,101032,2023-11-30 00:00:00,18:40:13,21,Pe e Mao,1,45,,1,Cliente Masculino,,11,Edna Maria Costa Amorim,,,


## Limpeza e manipulação dos dados.

A formatação do arquivo excel possuia espaços vazios entre as colunas, então foi necessário a retirada dessas colunas juntamente com outras que não seriam utilizadas para a elaboração do Dashboard.

In [26]:
excluir_colunas = ['Unnamed: 7', 'Hora', 'Código.1','Código.2', 'Unnamed: 10', 'Código.3', 'Unnamed: 13', 'Código.4', 'Nome.3']
dados = dados.drop(columns= excluir_colunas)
dados

Unnamed: 0,Código,Data,Nome,Quantidade,Valor,Nome.1,Nome.2
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Femenino,Janete
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Femenino,Magnolia M. Lemos
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Femenino,Edna Maria Costa Amorim
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Femenino,Janete
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Femenino,Edna Maria Costa Amorim
...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Femenino,Tatiana
20071,101031,2023-11-30 00:00:00,Corte Femenino,1,50,Cliente Femenino,Marcos
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Suzete Nunes Cabral
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Edna Maria Costa Amorim


Renomeando as colunas para facilitar leitura.

In [27]:
rename_colunas = {
    'Código': 'ID',
    'Nome': 'Produto',
    'Nome.1': 'Sexo',
    'Nome.2': 'Profissional'
}
dados = dados.rename(columns = rename_colunas)
dados

Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Profissional
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Femenino,Janete
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Femenino,Magnolia M. Lemos
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Femenino,Edna Maria Costa Amorim
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Femenino,Janete
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Femenino,Edna Maria Costa Amorim
...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Femenino,Tatiana
20071,101031,2023-11-30 00:00:00,Corte Femenino,1,50,Cliente Femenino,Marcos
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Suzete Nunes Cabral
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Edna Maria Costa Amorim


A exportação do excel veio em formato de folha A4, e a cada x números de linhas se repetia o cabeçalho. Para identificação e retirada desses valores, foi utilizado o preenchimentos dos espaços vazios por "NULO" para que pudesse ser localizados seus índices e retirados da folha, permanecendo somente as linhas com todas as informações do serviço prestado.

In [28]:
dados['Produto'] = dados['Produto'].fillna('NULO')
linhas_excluir = dados[dados['Produto'].isin(['Nome', 'NULO'])]
linhas_excluir
dados = dados.drop(linhas_excluir.index)

In [29]:
dados.isnull().sum()

ID              0
Data            0
Produto         0
Quantidade      0
Valor           0
Sexo            0
Profissional    0
dtype: int64

Localizando dados duplicados e retirando-os do dataset.

In [30]:
dados_dupli = dados[dados.duplicated(keep=False)]
dados_dupli


Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Profissional
618,90598,2023-01-13 00:00:00,Reconstrução Glynett,1,100,Cliente Femenino,Marcos
619,90598,2023-01-13 00:00:00,Reconstrução Glynett,1,100,Cliente Femenino,Marcos
3925,92373,2023-03-10 00:00:00,Sobrancelha,1,20,Cliente Femenino,Maria das Graças S. Pereira
3926,92373,2023-03-10 00:00:00,Sobrancelha,1,20,Cliente Femenino,Maria das Graças S. Pereira
4566,92727,2023-03-22 00:00:00,Corte Femenino,1,40,Cliente Femenino,Marcos
4567,92727,2023-03-22 00:00:00,Corte Femenino,1,40,Cliente Femenino,Marcos
5000,92972,2023-03-30 00:00:00,Sobrancelha,1,20,Cliente Femenino,Maria das Graças S. Pereira
5001,92972,2023-03-30 00:00:00,Sobrancelha,1,20,Cliente Femenino,Maria das Graças S. Pereira
5479,93221,2023-04-06 00:00:00,Sobrancelha,1,20,Cliente Femenino,Maria das Graças S. Pereira
5482,93221,2023-04-06 00:00:00,Sobrancelha,1,20,Cliente Femenino,Maria das Graças S. Pereira


In [31]:
dados = dados.drop(dados_dupli.index)

In [32]:
dados.duplicated().sum()

0

Alteração ortográfica para correção e boa apresentação no relatório.

In [33]:
dados['Produto'] = dados['Produto'].replace('Corte Femenino', 'Corte Feminino')
dados['Sexo'] = dados['Sexo'].replace('Cliente Femenino', 'Cliente Feminino')
dados

Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Profissional
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Feminino,Janete
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Feminino,Magnolia M. Lemos
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Feminino,Edna Maria Costa Amorim
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Feminino,Janete
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Feminino,Edna Maria Costa Amorim
...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Feminino,Tatiana
20071,101031,2023-11-30 00:00:00,Corte Feminino,1,50,Cliente Feminino,Marcos
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Suzete Nunes Cabral
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Edna Maria Costa Amorim


Função para atribuição da categoria profissional em nova coluna utilizando os serviços prestados ou produtos como base para a aplicação da função.

In [34]:
def categoria_prof(produto):
    if 'Corte Feminino' in produto:
        return 'Cabeleireiro'
    elif 'Sobrancelha' in produto:
        return 'Depiladora'
    elif 'Mao' in produto:
        return 'Manicure'
dados['Categoria Profissional'] = dados['Produto'].apply(categoria_prof)
dados

Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Profissional,Categoria Profissional
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Feminino,Janete,Manicure
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Feminino,Magnolia M. Lemos,Depiladora
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Feminino,Edna Maria Costa Amorim,Manicure
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Feminino,Janete,Manicure
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Feminino,Edna Maria Costa Amorim,Manicure
...,...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Feminino,Tatiana,Manicure
20071,101031,2023-11-30 00:00:00,Corte Feminino,1,50,Cliente Feminino,Marcos,Cabeleireiro
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Suzete Nunes Cabral,Manicure
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Edna Maria Costa Amorim,Manicure


Código para checar como ficou a nova coluna criada "Categoria Profissional".

In [35]:
dados.groupby('Profissional')['Categoria Profissional'].unique()

Profissional
Ana Tereza Fonseca                             [Manicure, None]
Edna Maria Costa Amorim                        [Manicure, None]
Francisca                      [None, Cabeleireiro, Depiladora]
Geisa                          [Cabeleireiro, None, Depiladora]
Ivaneide Costa Soares                          [Manicure, None]
Janete                                         [Manicure, None]
Jany Kelly M Pereira                           [None, Manicure]
Luciana Mendes P. Souza                        [Manicure, None]
Magnolia M. Lemos                            [Depiladora, None]
Marcos                         [None, Cabeleireiro, Depiladora]
Maria Francisca Cardoso Luz    [None, Cabeleireiro, Depiladora]
Maria das Graças S. Pereira                  [Depiladora, None]
Suzete Nunes Cabral                            [None, Manicure]
Tatiana                                        [Manicure, None]
Name: Categoria Profissional, dtype: object

Ao checar como ficou a nova coluna criada "Categoria Profissional", foi possível perceber que a categoria não pôde ser atribuida corretamente com o serviço pois alguns profissionais prestavam serviços em conflito e estavam com mais de uma função, além de ter dados que não foram captados. Por isso, foi criado uma lista com o nome de todos os profissionais, para ser aplicado de forma manual com if e elif.

In [36]:
lista_prof = dados['Profissional'].unique().tolist()
lista_prof

['Janete',
 'Magnolia M. Lemos',
 'Edna Maria Costa Amorim',
 'Geisa',
 'Francisca',
 'Marcos',
 'Maria das Graças S. Pereira',
 'Ivaneide Costa Soares',
 'Luciana Mendes P. Souza',
 'Ana Tereza Fonseca',
 'Suzete Nunes Cabral',
 'Tatiana',
 'Maria Francisca Cardoso Luz',
 'Jany Kelly M Pereira']

Substituição e simplicação de um nome que vai atuar como base para um código à frente.

In [37]:
dados.loc[dados['Profissional']== 'Maria Francisca Cardoso Luz', 'Profissional'] = 'Francisca'

Criação de função if elif para atribuição da coluna "Categoria Profissional" vinculada ao nome do funcionário. Dessa forma, mesmo que haja serviços conflitantes, será atribuido para o profissional correto.

In [38]:
def categoria_prof(nome):
    if nome in ['Geisa', 'Marcos', 'Francisca']:
        return 'Cabeleireiro'
    elif nome in ['Magnolia M. Lemos','Maria das Graças S. Pereira']:
        return 'Depiladora'
    elif nome in ['Janete', 'Edna Maria Costa Amorim','Ivaneide Costa Soares','Luciana Mendes P. Souza','Ana Tereza Fonseca','Suzete Nunes Cabral', 'Tatiana','Jany Kelly M Pereira']:
        return 'Manicure'
    else:
        return 'Sem cadastro'
dados['Categoria Profissional'] = dados['Profissional'].apply(categoria_prof)
dados


Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Profissional,Categoria Profissional
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Feminino,Janete,Manicure
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Feminino,Magnolia M. Lemos,Depiladora
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Feminino,Edna Maria Costa Amorim,Manicure
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Feminino,Janete,Manicure
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Feminino,Edna Maria Costa Amorim,Manicure
...,...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Feminino,Tatiana,Manicure
20071,101031,2023-11-30 00:00:00,Corte Feminino,1,50,Cliente Feminino,Marcos,Cabeleireiro
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Suzete Nunes Cabral,Manicure
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Edna Maria Costa Amorim,Manicure


In [39]:
dados['Categoria Profissional'].unique()

array(['Manicure', 'Depiladora', 'Cabeleireiro'], dtype=object)

Criação de um ID Profissional para retirada dos nomes dos funcionários da tabela, garantindo a anonimização dos dados. Para este código foi aplicado nas colunas de Profissional e Categoria Profissional para a retirada das 3 primeiras letras de cada coluna adicionado ao #, logo após a criação da nova Coluna, foi retirada a coluna com os nomes dos profissionais do dataframe.

In [40]:
dados['Profissional_id']  = dados[['Profissional', 'Categoria Profissional']].apply(lambda row: f'{row[0][0:3]}{'#'}{row[1][0:3]}', axis =1)
dados

  dados['Profissional_id']  = dados[['Profissional', 'Categoria Profissional']].apply(lambda row: f'{row[0][0:3]}{'#'}{row[1][0:3]}', axis =1)


Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Profissional,Categoria Profissional,Profissional_id
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Feminino,Janete,Manicure,Jan#Man
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Feminino,Magnolia M. Lemos,Depiladora,Mag#Dep
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Feminino,Edna Maria Costa Amorim,Manicure,Edn#Man
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Feminino,Janete,Manicure,Jan#Man
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Feminino,Edna Maria Costa Amorim,Manicure,Edn#Man
...,...,...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Feminino,Tatiana,Manicure,Tat#Man
20071,101031,2023-11-30 00:00:00,Corte Feminino,1,50,Cliente Feminino,Marcos,Cabeleireiro,Mar#Cab
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Suzete Nunes Cabral,Manicure,Suz#Man
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Edna Maria Costa Amorim,Manicure,Edn#Man


In [41]:
dados = dados.drop(columns = 'Profissional')
dados

Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Categoria Profissional,Profissional_id
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Feminino,Manicure,Jan#Man
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Feminino,Depiladora,Mag#Dep
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Feminino,Manicure,Edn#Man
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Feminino,Manicure,Jan#Man
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Feminino,Manicure,Edn#Man
...,...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Feminino,Manicure,Tat#Man
20071,101031,2023-11-30 00:00:00,Corte Feminino,1,50,Cliente Feminino,Cabeleireiro,Mar#Cab
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Manicure,Suz#Man
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Manicure,Edn#Man


Código criado para atribuir valores de Comissão às categorias profissionais existentes, permitindo que fossem possíveis analisar novas métricas referentes à lucro no Dashboard.

In [42]:
def comissao(categoria_prof):
    if categoria_prof =='Manicure':
        return 0.4
    elif categoria_prof == 'Depiladora':
        return 0.5
    elif categoria_prof == 'Cabeleireiro':
        return 0.5
    else:
        return 'Sem cadastro'
dados['Comissao'] = dados['Categoria Profissional'].apply(comissao)
dados


Unnamed: 0,ID,Data,Produto,Quantidade,Valor,Sexo,Categoria Profissional,Profissional_id,Comissao
0,90251,2023-01-02 00:00:00,Pe e Mao,1,47,Cliente Feminino,Manicure,Jan#Man,0.4
1,90252,2023-01-02 00:00:00,Combo Sobrancelha + Buço,1,30,Cliente Feminino,Depiladora,Mag#Dep,0.5
2,90253,2023-01-02 00:00:00,Pe e Mao,1,45,Cliente Feminino,Manicure,Edn#Man,0.4
3,90254,2023-01-02 00:00:00,Mao,1,23,Cliente Feminino,Manicure,Jan#Man,0.4
4,90255,2023-01-02 00:00:00,Mao,1,22,Cliente Feminino,Manicure,Edn#Man,0.4
...,...,...,...,...,...,...,...,...,...
20070,101030,2023-11-30 00:00:00,Mao,1,22,Cliente Feminino,Manicure,Tat#Man,0.4
20071,101031,2023-11-30 00:00:00,Corte Feminino,1,50,Cliente Feminino,Cabeleireiro,Mar#Cab,0.5
20072,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Manicure,Suz#Man,0.4
20073,101032,2023-11-30 00:00:00,Pe e Mao,1,45,Cliente Masculino,Manicure,Edn#Man,0.4


Para finalizar, checar e alterar os datatypes que estiverem incorretos ou em objetos, para facilitar a incersão e leitura dos tipos na ferramenta de BI.

In [43]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16831 entries, 0 to 20074
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID                      16831 non-null  object 
 1   Data                    16831 non-null  object 
 2   Produto                 16831 non-null  object 
 3   Quantidade              16831 non-null  object 
 4   Valor                   16831 non-null  object 
 5   Sexo                    16831 non-null  object 
 6   Categoria Profissional  16831 non-null  object 
 7   Profissional_id         16831 non-null  object 
 8   Comissao                16831 non-null  float64
dtypes: float64(1), object(8)
memory usage: 1.3+ MB


In [44]:
colunas_float = ['Valor', 'Comissao']
colunas_num = ['ID', 'Quantidade']
dados[colunas_float] = dados[colunas_float].astype(np.float64)
dados[colunas_num] = dados[colunas_num].astype(np.int64)
dados['Data'] = pd.to_datetime(dados['Data'])
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16831 entries, 0 to 20074
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ID                      16831 non-null  int64         
 1   Data                    16831 non-null  datetime64[ns]
 2   Produto                 16831 non-null  object        
 3   Quantidade              16831 non-null  int64         
 4   Valor                   16831 non-null  float64       
 5   Sexo                    16831 non-null  object        
 6   Categoria Profissional  16831 non-null  object        
 7   Profissional_id         16831 non-null  object        
 8   Comissao                16831 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 1.3+ MB


Geração do arquivo .CSV que será upado para a ferramenta de BI.

In [45]:
dados.to_csv('clean_vendas2023.csv', index= False, encoding= 'utf-8')