# Data Science E-commerce Project

## Coleta de Dados

### Introdu√ß√£o:

Este projeto tem como objetivo aplicar t√©cnicas de Data Science para analisar e prever o comportamento de clientes em um e-commerce simulado, com foco em prever churn, recomendar produtos, realizar testes A/B e detectar fraudes. 

A fase de coleta de dados √© crucial para criar um conjunto de dados inicial que servir√° de base para todas as an√°lises e modelos preditivos. Devido √† aus√™ncia de dados reais, utilizaremos a gera√ß√£o de dados sint√©ticos para simular o comportamento de clientes, produtos e vendas.

A gera√ß√£o de dados sint√©ticos nos permitir√° criar um ambiente de teste realista, facilitando o desenvolvimento e a valida√ß√£o dos modelos de an√°lise. Al√©m disso, essa abordagem nos dar√° flexibilidade para controlar a qualidade e a distribui√ß√£o dos dados, garantindo que eles representem os padr√µes e caracter√≠sticas relevantes para o nosso e-commerce simulado.

### Configura√ß√£o do Ambiente de Dados Sint√©ticos com Python:

Para gerar os dados sint√©ticos, configuraremos um ambiente de desenvolvimento Python no sistema operacional Windows, utilizando o VSCode como IDE. As seguintes bibliotecas ser√£o utilizadas:

- **Faker**: Respons√°vel por gerar dados fict√≠cios realistas, como nomes, endere√ßos, e-mails e outros atributos de clientes e produtos.
- **pandas**: Utilizada para manipular os dados gerados em formato de tabelas (DataFrames), facilitando a organiza√ß√£o e o processamento dos dados.
- **numpy**: Fornece suporte para opera√ß√µes matem√°ticas e arrays multidimensionais, √∫til para manipula√ß√£o de dados num√©ricos.
- **uuid**: Utilizada para gerar identificadores √∫nicos universais (UUIDs), garantindo a unicidade dos registros nas tabelas.
- **random**: Fornece fun√ß√µes para gera√ß√£o de n√∫meros aleat√≥rios, √∫til para simular comportamentos aleat√≥rios nos dados de vendas.
- **datetime**: Utilizada para manipular datas e hor√°rios, permitindo a gera√ß√£o de datas de vendas realistas.
- **sqlite3**: Utilizada para interagir com o banco de dados SQLite, permitindo a inser√ß√£o dos dados gerados nas tabelas correspondentes.

O ambiente ser√° configurado de forma a garantir a reprodutibilidade do processo de gera√ß√£o de dados, permitindo que os dados sejam gerados novamente, caso seja necess√°rio aumentar o volume de dados ou gerar novos dados para testes.

Data Generation üõ†Ô∏èü™Ñüè≠

In [None]:
from faker import Faker
import pandas as pd
import numpy as np
import uuid
import random
import matplotlib.pyplot as plt
from datetime import datetime
import sqlite3

fake = Faker('pt_BR')

conn = sqlite3.connect('salesEcommerce.db')
cursor = conn.cursor()

num_anos=5
base_clientes = 1500
taxa_crescimento_clientes = 0.2
vendas_por_cliente_ano = 2
taxa_crescimento_vendas = 0.25



categoriesDict = {"Eletronicos": ["Smartphone X", "Tablet Y", "Fone Bluetooth", "TV 4K", "Smartwatch", "Carregador Turbo", "Caixa de Som Bluetooth"],
                    "Computadores": ["Notebook Ultra", "PC Gamer", "Monitor Curvo", "Teclado Mec√¢nico", "Mouse RGB", "Webcam Full HD", "SSD 1TB"],
                    "Roupas": ["Camiseta Dry Fit", "Jaqueta Jeans", "T√™nis Running", "Vestido Casual", "Bon√© Esportivo", "Mochila Casual", "√ìculos de Sol"],
                    "Livros": ["Python para Iniciantes", "Data Science Avan√ßado", "O Poder do H√°bito", "1984", "Mindset", "Clean Code", "A Arte da Guerra"],
                    "Beleza": ["Perfume Elegance", "Kit Skincare", "Batom Matte", "Shampoo Org√¢nico", "M√°scara Facial", "Base L√≠quida", "Protetor Solar"],
                    "Automotivo": ["Pneu Aro 17", "√ìleo Sint√©tico", "C√¢mera de R√©", "Suporte Celular", "Capa para Banco", "Kit Ferramentas", "L√¢mpada LED Automotiva"],
                    "Brinquedos": ["Carrinho Controle Remoto", "Boneca Fashion", "Lego Criativo", "Quebra-Cabe√ßa 1000p√ßs", "Jogo Educativo", "Playset Cozinha", "Bola de Vinil"],
                    "Esportes": ["Bola de Futebol", "Raquete de T√™nis", "Corda de Pular", "Mochila Esportiva", "Kit de Halteres", "Bicicleta Speed", "Luvas de Boxe"],
                    "Moveis": ["Sof√° Retr√°til", "Mesa de Jantar", "Cadeira Gamer", "Guarda-Roupa 6 Portas", "Cama Box Queen", "Estante de Livros", "Mesa de Escrit√≥rio"],
                    "Eletrodomesticos": ["Geladeira Frost Free", "Micro-ondas Inox", "M√°quina de Lavar", "Aspirador de P√≥", "Fog√£o 5 Bocas", "Cafeteira El√©trica", "Liquidificador"],
                    "Ferramentas": ["Furadeira El√©trica", "Chave de Fenda", "Serra Circular", "Martelo Refor√ßado", "Trena Digital", "Alicate Universal", "Kit Brocas"],
                    "Petshop": ["Ra√ß√£o Premium", "Coleira Ajust√°vel", "Brinquedo Interativo", "Cama para Cachorro", "Areia para Gato", "Shampoo para Pets", "Arranhador para Gatos"],
                    "Perfumaria": ["Desodorante Roll-on", "Hidratante Corporal", "Shampoo Anticaspa", "Sabonete L√≠quido", "√ìleo Capilar", "Condicionador Nutritivo", "Creme para M√£os"],
                    "Papelaria": ["Caderno Universit√°rio", "Caneta Esferogr√°fica", "Marcador Permanente", "Papel Sulfite A4", "Planner Di√°rio", "Grampeador", "Estojo Organizador"],
                    "Games": ["Console NextGen", "Controle Sem Fio", "Teclado Gamer RGB", "Headset Surround", "Cadeira Gamer Pro", "Mousepad XL", "Cart√£o Presente PSN"]}


Clientes

In [None]:
def generate_customer(base_clientes, taxa_crescimento_clientes , num_anos):
    clientes_por_ano = [int(base_clientes * (1 + taxa_crescimento_clientes ) ** ano) for ano in range(num_anos)]
    todos_clientes = []
    info_clientes = {'customer_id': {}, 'address': {}, 'email': {}, 'birth_date': {}, 'state': {}}

    for ano, num_clientes in enumerate(clientes_por_ano):
        nomes_ano = [fake.name() for _ in range(num_clientes)]
        ids_ano = [str(uuid.uuid4())[:8] for _ in range(num_clientes)]
        endereco_ano = [fake.address() for _ in range(num_clientes)]
        emails_ano = [fake.email() for _ in range(num_clientes)]
        datas_nascimento_ano = [fake.date_of_birth(minimum_age=18, maximum_age=80) for _ in range(num_clientes)]
        state_ano = [fake.state() for _ in range(num_clientes)]

        for nome, id, endereco, email, data_nascimento, state in zip(nomes_ano, ids_ano, endereco_ano, emails_ano, datas_nascimento_ano, state_ano):
            todos_clientes.append(nome)
            info_clientes['customer_id'][nome] = id
            info_clientes['address'][nome] = endereco
            info_clientes['email'][nome] = email
            info_clientes['birth_date'][nome] = data_nascimento
            info_clientes['state'][nome] = state

    return todos_clientes, info_clientes


### Considera√ß√µes Finais:

A qualidade dos dados sint√©ticos √© crucial para a relev√¢ncia das an√°lises subsequentes. Dados que representam com precis√£o a distribui√ß√£o e os padr√µes dos dados reais garantem que os modelos de machine learning e as an√°lises explorat√≥rias forne√ßam insights confi√°veis.

Para alcan√ßar essa representa√ß√£o, utilizamos a biblioteca Faker, que permite gerar dados fict√≠cios com caracter√≠sticas realistas. Al√©m disso, ajustamos os par√¢metros de gera√ß√£o de dados para simular a distribui√ß√£o de vari√°veis importantes, como pre√ßos de produtos e frequ√™ncia de compras. A consist√™ncia entre as tabelas foi mantida atrav√©s da gera√ß√£o de chaves prim√°rias e estrangeiras, garantindo a integridade do banco de dados.

Este processo de gera√ß√£o de dados sint√©ticos pode ser repetido e ajustado conforme necess√°rio, permitindo a cria√ß√£o de conjuntos de dados maiores ou a simula√ß√£o de cen√°rios espec√≠ficos para testes adicionais.