# 1.0 Obtenção e Preparação dos Dados

### Fonte dos Dados

Os dados foram obtidos de um banco de dados do Hackday e incluem as seguintes tabelas:

* Vendas: Preços, descontos e desempenho trimestral.
* Edições: Formatos, preços, tamanhos e datas de publicação.
* Autores: Produtividade, localização e perfil dos escritores.
* Editoras: Tipo de biblioteca, consórcios e capacidade operacional.
* Livros: Informações gerais, gênero, avaliações e séries.
* Campanhas Promocionais: Impacto das campanhas ao longo do tempo.
* Avaliações: Feedback dos leitores.
* Premiações: Premiações recebidas pelos livros.
* Formatos: Tipo de livro (bolso, capa dura, etc.).
* Gêneros: Classificação literária (romance, ficção, mistério, etc.).
* Séries: Informações sobre trilogias e coleções.

### Problemas Identificados
Antes da análise, é necessário tratar algumas inconsistências no dataset, como:
* Valores nulos: Alguns campos contêm valores ausentes, o que pode impactar a análise.
* Problemas de formatação: Algumas linhas estão com todos os dados na primeira coluna, separados por ponto e vírgula.
* Separação desnecessária de colunas: Nome e sobrenome dos autores estão separados, mas isso não será relevante para a análise.
* Precisão excessiva de números: Alguns valores numéricos possuem muitas casas decimais desnecessárias.
* Tabelas fragmentadas: Algumas tabelas podem ser unidas para facilitar a análise.

A limpeza desses dados garantirá que a análise seja mais eficiente e confiável. 

## 1.1 Conectando ao Database 

In [None]:
import psycopg2 # Biblioteca para conectar ao PostgreSQL
import pandas as pd # Biblioteca para manipulação de dados

# Configuração para exibir todas as colunas dos DataFrames sem truncamento
pd.set_option('display.max_columns', 500)

# Definindo os parâmetros de conexão ao banco de dados PostgreSQL
host = "34.55.27.249"  # IP do servidor de banco de dados
dbname = "hackday-bookstore-cds"  # nome do banco de dados
user = "alunocds"  # usuário
password = "hackday2025"  # senha


## 1.2 Leitura da tabela de Vendas [Sales]

In [None]:

try:
    # Estabelecendo a conexão com o banco de dados PostgreSQL
    conn = psycopg2.connect(
        host=host,
        dbname=dbname,
        user=user,
        password=password
    )

    # Criando um cursor para executar comandos SQL no banco de dados
    cur = conn.cursor()

    # Definindo a consulta SQL completa (incluindo SET, CREATE, INSERT, e SELECT)
    # para padronização e correção dos dados de vendas.
    sql_query = """
    SET datestyle = 'DMY';

    DROP TABLE IF EXISTS sales_corrected;

    CREATE TEMP TABLE sales_corrected (
        sale_date DATE,
        isbn TEXT,
        discount TEXT,
        item_id TEXT,
        order_id TEXT
    );

    INSERT INTO sales_corrected (sale_date, isbn, discount, item_id, order_id)
    SELECT 
        sale_date::DATE,
        isbn,
        discount,
        item_id,
        order_id
    FROM sales
    WHERE isbn IS NOT NULL AND discount IS NOT NULL;

    INSERT INTO sales_corrected (sale_date, isbn, discount, item_id, order_id)
    SELECT
        SPLIT_PART(sale_date, ',', 1)::DATE AS sale_date,
        SPLIT_PART(sale_date, ',', 2) AS isbn,
        SPLIT_PART(sale_date, ',', 3) AS discount,
        SPLIT_PART(sale_date, ',', 4) AS item_id,
        SPLIT_PART(sale_date, ',', 5) AS order_id
    FROM sales
    WHERE sale_date LIKE '%,%';

        select    sale_date,
            isbn, 
            COUNT(isbn) 
            from sales_corrected
             group by isbn,sale_date
    """
    # Executando a consulta SQL no banco de dados
    cur.execute(sql_query)

    # Obtendo os resultados da consulta
    data = cur.fetchall()

    # Obtendo o nome das colunas (cabeçalhos da tabela)
    columns = [desc[0] for desc in cur.description]

    # Transformando os dados em um DataFrame do Pandas para facilitar a análise
    df_sales = pd.DataFrame(data, columns=columns)

    # Exibindo as primeiras linhas do DataFrame
    print(df_sales.head())

    # Fechando o cursor e a conexão
    cur.close()
    conn.close()

except Exception as e:
    # Capturando e exibindo erros em caso de falha na conexão ou execução da consulta
    print(f"Erro ao conectar ao banco de dados: {e}")

    sale_date               isbn  count
0  2193-07-19  989-28-229-1404-4      9
1  2193-08-22  989-28-79-16808-7      1
2  2193-07-19  989-28-229-0197-6      2
3  2193-08-03  989-28-79-51397-9      3
4  2193-08-14  989-28-79-45675-7      6


In [3]:
# Quantidade de Vendas por isbn
df_sales_group = df_sales.groupby('isbn', as_index=False)['count'].sum()
df_sales_group

Unnamed: 0,isbn,count
0,989-28-229-0197-6,502
1,989-28-229-1404-4,1829
2,989-28-229-3157-7,556
3,989-28-229-5891-8,634
4,989-28-229-6632-6,1304
...,...,...
88,989-28-79-82339-9,48
89,989-28-79-82749-6,884
90,989-28-79-86624-2,281
91,989-28-79-87459-9,76


## 1.3 Leitura e join das demais tabela com seleção de Features 

In [None]:
try:
    # Estabelecendo a conexão
    conn = psycopg2.connect(
        host=host,
        dbname=dbname,
        user=user,
        password=password
    )

    # Criando um cursor para interagir com o banco
    cur = conn.cursor()

    # Definindo a consulta SQL completa (incluindo SET, CREATE, INSERT, e SELECT)
    # para obter informações detalhadas sobre livros e autores
    sql_query = """
    SET datestyle = 'DMY';

    SELECT 
        ratings.book_id AS rating_book_id,
        ratings.rating,
        e.isbn,
        e.format_id,
        e.pub_id,
        e.publication_date,
        e.pages,
        e.print_run_size_k,
        e.price,
        p.name AS publisher_name,
        p.city AS publisher_city,
        p.state AS publisher_state,
        p.country AS publisher_country,
        p.year_established,
        p.marketing_spend,
        i.genre_id,
        i.series_id,
        i.volume_number,
        s.series_name,
        g.genre_desc,
        f.format_desc,
        b.title AS book_title,
        b.author_id,
        a."BookID" AS award_book_id,
        a."Title" AS award_title,
        a."Year Won",
        au.first_name AS author_first_name,
        au.last_name AS author_last_name,
        au.birthday AS author_birthday,
        au.country_residence AS author_country,
        au.hrs_writing_day AS author_hrs_writing_day
    FROM (  select book_id as book_id,
            avg(rating) as rating
            from ratings
            group by book_id ) as ratings
    LEFT JOIN edition e ON ratings.book_id = e.book_id
    LEFT JOIN publisher p ON p.book_id = ratings.book_id
    LEFT JOIN info i ON i.book_id = p.book_id
    LEFT JOIN series s ON s.series_id = i.series_id
    LEFT JOIN genders g ON g.genre_id = i.genre_id
    LEFT JOIN format f ON f.format_id = e.format_id
    LEFT JOIN book b ON i.book_id = b.book_id
    LEFT JOIN award a ON b.book_id = a."BookID"
    LEFT JOIN author au ON b.author_id = au.author_id;
    """

    # Executando a consulta SQL completa
    cur.execute(sql_query)

    # Obtendo os resultados da consulta
    data = cur.fetchall()

    # Obtendo o nome das colunas (cabeçalhos da tabela)
    columns = [desc[0] for desc in cur.description]

    # Transformando os resultados da consulta em um DataFrame do Pandas para facilitar a análise
    df = pd.DataFrame(data, columns=columns)

    # Fechando o cursor e a conexão com o banco de dados
    cur.close()
    conn.close()

except Exception as e:
    # Capturando e exibindo erros em caso de falha na conexão ou execução da consulta
    print(f"Erro ao conectar ao banco de dados: {e}")


## 1.4 Tratamento de dados inicial


In [None]:
# Unindo nome e sobrenome dos autores em uma única coluna

df['author_name'] = df['author_first_name'] + ' ' + df['author_last_name']
df.drop(columns=['author_first_name','author_last_name'], axis = 1, inplace = True)
df.drop_duplicates(inplace=True)

In [None]:
#  Selecionando as colunas úteis para gerar os insights
df_filtered = df[['isbn','rating_book_id','book_title', 'rating','price','publisher_name',
                  'marketing_spend','genre_desc','series_name','format_desc','author_name','Year Won']]

In [None]:
# Transformando Rating em Numeric e realizando o arredondamento.
df_filtered = df_filtered.copy()
df_filtered['rating'] = pd.to_numeric(df_filtered['rating'], errors='coerce').round(2)

## 1.5 Unindo as tabelas 

In [None]:
# Unindo as tabelas df_filtred e df_sales_group pelo isbn
df_final = pd.merge(df_filtered, df_sales_group, on='isbn', how='left')

# Renomeando 'count' para 'sales'
df_final.rename(columns={'count': 'sales_count'}, inplace=True)
df_final.loc[:, 'sales_count'] = pd.to_numeric(df_final['sales_count'], errors='coerce')

# Adicionando a coluna 'invoice', baseada na quantidade de vendas e preço unitário.
df_final['invoice'] = df_final['sales_count'] * df_final['price']

# Deletando NaN da coluna book_title 
df_final = df_final.dropna(subset=['book_title'])

df_final.head()

Unnamed: 0,isbn,rating_book_id,book_title,rating,price,publisher_name,marketing_spend,genre_desc,series_name,format_desc,author_name,Year Won,sales_count,invoice
0,989-28-654-4370-9,DE571,Don t Check your Ego,3.99,15.99,Palimpsest Printing,48000.0,Nonfiction,,Trade paperback,R.M. Larner,,45.0,719.55
1,989-28-654-9826-6,DE571,Don t Check your Ego,3.99,28.99,Palimpsest Printing,48000.0,Nonfiction,,Hardcover,R.M. Larner,,14.0,405.86
2,989-28-79-91028-0,TM925,The Mallemaroking,4.66,12.5,Etaoin Shrdlu Press,2320000.0,SciFi/Fantasy,The Mallemaroking Saga,Trade paperback,Bianca Thompson,2179.0,1368.0,17100.0
3,989-28-79-13801-1,TM925,The Mallemaroking,4.66,8.99,Etaoin Shrdlu Press,2320000.0,SciFi/Fantasy,The Mallemaroking Saga,Mass market paperback,Bianca Thompson,2179.0,4568.0,41066.32
4,989-28-79-71565-6,TM925,The Mallemaroking,4.66,21.5,Etaoin Shrdlu Press,2320000.0,SciFi/Fantasy,The Mallemaroking Saga,Hardcover,Bianca Thompson,2179.0,1279.0,27498.5


In [9]:
df = df_final.copy()

 # 1.6 Salvando o dataframe em .csv pra uso no Power Bi


In [10]:
df.to_csv('data/full-data.csv', index = False)

In [11]:
df_sales.to_csv('data/sales-data.csv', index = False)