#Bibliotecas e CSV

In [69]:
import pandas as pd

In [70]:
df = pd.read_csv('C:\\Users\\cotoq\\PycharmProjects\\Teste_Analytics_MarcusGuerra\\data-sets\\data_raw.csv')

# Limpeza

## Valores Faltantes

In [71]:
valores_faltantes = df.isnull().sum()
print(valores_faltantes)

ID            0
Produto       0
Categoria     0
Preço         0
Quantidade    0
Data          0
dtype: int64


Como o data-set foi gerado artificalmente é de se esperar que não tenha nenhum valor faltando. Caso tivesse algum valor faltando, seria necessário realizar o tratamentos dos dados.

## Remoção de Duplicatas

Para remover duplicatas podemos usar a coluna ID, que é uma coluna única que descreve todos os registros de vendas. Para ter certeza também podemos filtrar o dataframe pelas colunas data produto e quantidade e ver se temos duplicatas. Pois para o negócio foi considerado que se foram comprados o mesmo produto, com a mesma quantidade e no mesmo horário, algum funcionário acidentalmente entrou a compra 2 vezes

In [72]:
duplicatas = df['ID'].duplicated().sum()
print(duplicatas)

0


In [73]:
DFduplicatas = df.duplicated(subset=['Data', 'Produto', 'Quantidade'])
total_duplicatas = DFduplicatas.sum()
print(total_duplicatas)

0


Felizmente não temos nenhuma duplicata, logo não é necessário excluir nenhuma linha.

## Verificação de Tipos de Dados

Primeiramente devemos checar se todos os tipos esperados para cada coluna estão correspondentes aos do data-set

In [74]:
for coluna in df.columns:
    tipos_unicos = df[coluna].map(type).value_counts()
    print(f'{tipos_unicos}\n')

ID
<class 'str'>    9999
Name: count, dtype: int64

Produto
<class 'str'>    9999
Name: count, dtype: int64

Categoria
<class 'str'>    9999
Name: count, dtype: int64

Preço
<class 'int'>    9999
Name: count, dtype: int64

Quantidade
<class 'int'>    9999
Name: count, dtype: int64

Data
<class 'str'>    9999
Name: count, dtype: int64



Podemos observar que a coluna de data não está no tipo datetime, o que pode causar problemas posteriormente. Então para facilitar nossas vidas, podemos transformar ela por tipo datetime do pandas.

In [75]:
df['Data'] = pd.to_datetime(df['Data'], format='%d/%m/%Y %H:%M')
print(df['Data'].map(type).value_counts())

Data
<class 'pandas._libs.tslibs.timestamps.Timestamp'>    9999
Name: count, dtype: int64


Já para as colunas do tipo string também é importante observamos erros de digitação.

In [76]:
print("Valores únicos na coluna 'Produto':")
print(df['Produto'].unique())

print("\nValores únicos na coluna 'Categoria':")
print(df['Categoria'].unique())

Valores únicos na coluna 'Produto':
['Notebook Dell' "Smart TV LG 4K 55''" 'iPhone 14 Pro' 'MacBook Air'
 'Câmera Canon' 'Mouse Razer' 'Fone de Ouvido JBL' 'Câmera Sony'
 'Samsung Galaxy S23' 'Caixa de Som JBL' 'Teclado Mecânico Razer']

Valores únicos na coluna 'Categoria':
['Laptops' 'Eletrônicos' 'Smartphones' 'Fotografia' 'Acessórios' 'Áudio']


Tendo acesso a lista de produtos originais, podemos observar que não tem nenhum produto ou categoria fora do padrão, então podemos continuar

## Salvando o data-set limpo

In [77]:
df.to_csv('C:\\Users\\cotoq\\PycharmProjects\\Teste_Analytics_MarcusGuerra\\data-sets\\data_clean.csv ', index=False)

# Data-set Limpo

## Calculando o Total de Vendas

In [78]:
df_limpo = pd.read_csv('C:\\Users\\cotoq\\PycharmProjects\\Teste_Analytics_MarcusGuerra\\data-sets\\data_clean.csv ')

In [79]:
df['Total'] = df['Quantidade'] * df['Preço']

total_vendas = df.groupby('Produto')['Total'].sum()

total_vendas = total_vendas.sort_values(ascending=False)

print(total_vendas)

Produto
MacBook Air               110580000
Câmera Canon               85185000
iPhone 14 Pro              80368000
Câmera Sony                73927000
Notebook Dell              47600000
Samsung Galaxy S23         38312000
Smart TV LG 4K 55''        26988000
Caixa de Som JBL           18076000
Teclado Mecânico Razer      6404300
Mouse Razer                 4892500
Fone de Ouvido JBL          3813600
Name: Total, dtype: int64


## Produto Mais Vendido

In [80]:
total_RS = "{:,.2f}".format(total_vendas.iloc[0])
print(f'O produto mais vendido foi {total_vendas.index[0]} faturando R$ {total_RS}')

O produto mais vendido foi MacBook Air faturando R$ 110,580,000.00
