#1.Programação em Python

##1.1.Limpeza e Análise de Dados de Vendas

○    Crie um script para simular um dataset de vendas com pelo menos 50 registros, contendo as colunas: ID, Data, Produto, Categoria, Quantidade, Preço. O período dos dados deve ser de 01/01/2023 a 31/12/2023.

○    Realize a limpeza dos dados, incluindo:

■    Tratamento de valores faltantes

■    Remoção de duplicatas

■    Conversão de tipos de dados, se necessário

○    Salve o dataset limpo em um arquivo data_clean.csv.

○    Utilizando o dataset limpo, realize as seguintes análises:

■    Calcule o total de vendas (Quantidade * Preço) por produto.

■    Identifique o produto com o maior número de vendas totais.

○    Salve seu código e nomeie adequadamente.

In [None]:
!pip install faker



In [None]:
import pandas as pd
import random
from faker import Faker #Para ajudar com o dados fictícios
import numpy as np #Para ajudar a gerar os números aleatórios

fake = Faker()

#Gerando uma lista de datas aleatórias,com a preoupação que não se concentrem em 01/01/2023
datas_aleatorias = pd.to_datetime(np.random.choice(pd.date_range('2023-01-01', '2023-12-31', freq='D'), size=50, replace=True))

np.random.seed(42) #Usado para gerar os mesmos resultados toda vez que executado


#Criando um dicionário de dados para o dataframe.
data = {
    'ID': np.arange(1,51),
    'Data': datas_aleatorias,
    'Produto': [fake.word() for _ in range(50)],
    'Categoria': [fake.word() for _ in range(50)],
    'Quantidade': np.random.randint(1,20, size=50),
    'Preço': np.random.uniform(10, 100, size=50).round(2)
}

#Criando o Dataframe 'df' a partir do dicionário 'data'
df = pd.DataFrame(data)
print("DataFrame: ")
display(df.head()) #Exibindo as primeiras linhas

df.loc[5, 'Preço'] = np.nan #Simulando a falta de preço
df.loc[10,'Quantidade'] = np.nan #Simulando falta de quantidade

df['Preço'] = df['Preço'].fillna(df['Preço'].mean()) #Preenche os valores faltantes com a média
df['Quantidade'] = df['Quantidade'].fillna(0) #Coloca 0 onde faltou quantidade

df.drop_duplicates(inplace=True) #Remove as duplicatas

df['Data'] = pd.to_datetime(df['Data']) #Converte para datetime

df.to_csv('data_clean.csv', index=False) #Salva o dataframe limpo no CSV

df['Total_Vendas'] = df['Quantidade'] * df['Preço'] #Calcula o total de vendas

vendas_por_produto = df.groupby('Produto')['Total_Vendas'].sum().reset_index() #Soma as vendas por produto
produto_maior_venda = vendas_por_produto.loc[vendas_por_produto['Total_Vendas'].idxmax()] #Sinaliza o produto com maior venda

#Exibindo as análises
print("Total de Vendas por produto: ")
display(vendas_por_produto)

print("Produto com o Maior Número de Vendas Totais: ")
display(produto_maior_venda)


DataFrame: 


Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preço
0,1,2023-07-26,executive,point,7,48.26
1,2,2023-01-15,green,easy,15,28.71
2,3,2023-12-12,give,line,11,61.09
3,4,2023-02-11,big,argue,8,12.82
4,5,2023-06-28,past,yard,7,85.81


Total de Vendas por produto: 


Unnamed: 0,Produto,Total_Vendas
0,Republican,301.8
1,again,520.8
2,amount,1162.44
3,analysis,1292.9
4,apply,1557.0
5,away,1104.6
6,between,753.72
7,big,102.56
8,change,491.4
9,compare,56.35


Produto com o Maior Número de Vendas Totais: 


Unnamed: 0,41
Produto,ten
Total_Vendas,1722.33
