### üí° Desafio: Gera√ß√£o e An√°lise de Vendas de uma Livraria

Voc√™ precisa criar um DataFrame que simule as vendas de uma livraria fict√≠cia. O conjunto de dados deve conter:
* Informa√ß√µes sobre os livros vendidos
* Pre√ßos
* Datas das vendas
* Clientes

üìå Requisitos:
1. Gerar um DataFrame com 1.500 registros.
1. Criar listas de livros e autores fict√≠cios.
1. Gerar nomes de clientes aleat√≥rios com a biblioteca Faker.
1. Adicionar quantidade vendida, pre√ßo unit√°rio e data da venda.
1. Adicionar a data de nascimento dos clientes (para poss√≠veis an√°lises futuras).
1. Salvar os dados em um arquivo CSV.

üéØ Desafios Extras (opcional):
* Criar um gr√°fico de barras mostrando a quantidade de vendas por livro üìä.
* Filtrar os 10 livros mais vendidos e exibi-los.
* Adicionar uma coluna com descontos aleat√≥rios e calcular o pre√ßo final da compra.

Data Generation üõ†Ô∏èü™Ñüè≠

In [None]:
from faker import Faker  # Importa a biblioteca Faker para gerar dados falsos
import pandas as pd  # Importa a biblioteca Pandas para manipula√ß√£o de dados
import numpy as np  # Importa a biblioteca NumPy para opera√ß√µes num√©ricas
import random  # Importa a biblioteca Random para gera√ß√£o de n√∫meros aleat√≥rios
import matplotlib.pyplot as plt  # Importa a biblioteca Matplotlib para cria√ß√£o de gr√°ficos

def generateData (numRows = 1500, numCustomer = 1270):
    """Gera um DataFrame com dados de vendas de livros.

    Args:
        numRows (int, optional): N√∫mero de linhas a serem geradas no DataFrame. Padr√£o √© 1500.
        numCustomer (int, optional): N√∫mero de clientes √∫nicos a serem gerados. Padr√£o √© 1270.

    Returns:
        pandas.DataFrame: Um DataFrame contendo dados de vendas de livros.
    """
    fake = Faker('en_US')  # Inicializa o Faker para gerar dados em ingl√™s (EUA)
    bookList = ["Competing on Analytics", "Data Science for Business", "The Data Warehouse Toolkit",
                "Analytics at Work", "Naked Statistics", "Data-Driven", "Winning with Data",
                "Big Data: A Revolution",
                "Data Smart", "The Analytics Edge", "Storytelling with Data", 
                "The Art of Data Science", "Lean Analytics", "Data Strategy",
                "Predictive Analytics", "Data Science for Executives", "Monetizing Data",
                "The Data Detective", "Analytics in a Big Data World", "Data Science for Business Leaders"]  # Lista de t√≠tulos de livros

    publisherList = ["Harvard Business Review Press", "O'Reilly Media", "Wiley",
                    "Harvard Business Review Press", "W.W. Norton & Company", "O'Reilly Media", "Wiley",
                    "Eamon Dolan/Houghton Mifflin Harcourt", "Wiley", "MIT Press", "Wiley",
                    "O'Reilly Media", "O'Reilly Media", "Kogan Page",
                    "Wiley", "Columbia Business School Publishing", "Harvard Business Review Press",
                    "Penguin Books", "Wiley", "O'Reilly Media"]  # Lista de editoras

    authorList = [fake.name() for _ in range(len(bookList))]  # Cria uma lista de nomes de autores usando Faker
    customerName = [fake.first_name() for _ in range(numCustomer)]  # Cria uma lista de nomes de clientes usando Faker

    randomIds = random.sample(range(1001, 2000), len(bookList))  # Gera IDs aleat√≥rios para os livros
    booksIds = {book: bookId for book, bookId in zip(bookList, randomIds)}  # Cria um dicion√°rio associando t√≠tulos de livros a IDs

    df = pd.DataFrame({'book': np.random.choice(bookList,numRows),
                        'publisher': np.random.choice(publisherList,numRows),
                        'author': np.random.choice(authorList,numRows),
                        'unit_price': np.round(np.random.uniform(25, 250,numRows),2),
                        'sales_quantity': np.random.randint(1,14,numRows),
                        'sales_date': np.random.choice(pd.date_range(start = '2024-01-01', end = '2024-12-31')),
                        'customer': np.random.choice(customerName,numRows),
                        'birth_date': np.random.choice(pd.date_range(start = '1950-01-01', end = '2009-12-31'))
                        })  # Cria o DataFrame com dados aleat√≥rios

    df["book_id"] = df["book"].map(booksIds)  # Adiciona a coluna 'book_id' mapeando os t√≠tulos dos livros para seus IDs
    df["sales_value"] = df["sales_quantity"]*df["unit_price"]  # Calcula o valor total das vendas
    df["%_discount"] = np.round(np.random.uniform(0, 10,numRows),1)  # Gera descontos aleat√≥rios
    df["total_price"] = np.round((df["sales_quantity"]*df["unit_price"])*(1-df["%_discount"]/100),2)  # Calcula o pre√ßo total ap√≥s o desconto

    return df  # Retorna o DataFrame gerado

df = generateData()  # Gera os dados chamando a fun√ß√£o generateData()
df.to_csv('C:/Users/santo/Documents/dataBases/salesBooks.csv', index = False)  # Salva o DataFrame em um arquivo CSV
print("\nExemplo dos dados:")
print(df.head())  # Imprime as primeiras linhas do DataFrame
print("\nArquivo carregado com sucesso")

Data Analysis üîé‚öôÔ∏èüß©

In [None]:
salesBook = df  # Atribui o DataFrame 'df' √† vari√°vel 'salesBook'
totalQuant = salesBook.groupby('book')['sales_quantity'].sum()  # Agrupa os dados por livro e soma a quantidade vendida
sortBook = totalQuant.sort_values(ascending = False)  # Ordena os livros por quantidade vendida em ordem decrescente
bookRank10 = sortBook[:10]  # Seleciona os 10 livros mais vendidos
print("\nTOP 10 Livros mais vendidos\n")
print(bookRank10)  # Imprime os 10 livros mais vendidos

Data Visualization üìäüìàüìâ

In [None]:
plt.figure(figsize=(12, 6))  # Define o tamanho da figura do gr√°fico
bars = plt.bar(totalQuant.index, totalQuant.values, color='skyblue')  # Cria um gr√°fico de barras com os dados de vendas
plt.xlabel('Book Title')  # Define o r√≥tulo do eixo x
plt.ylabel('Total Sales Quantity')  # Define o r√≥tulo do eixo y
plt.title('Total Sales Quantity by Book')  # Define o t√≠tulo do gr√°fico
plt.xticks(rotation=90, ha='right')  # Rotaciona os r√≥tulos do eixo x para melhor legibilidade
plt.tight_layout()  # Ajusta o layout do gr√°fico para evitar sobreposi√ß√£o

for bar in bars:  # Itera sobre cada barra no gr√°fico
    yval = bar.get_height()  # Obt√©m a altura da barra
    plt.text(bar.get_x() + bar.get_width()/2, yval, str(int(yval)), ha='center', va='bottom')  # Adiciona o valor da barra acima dela

plt.show()  # Exibe o gr√°fico