<a href="https://colab.research.google.com/github/carolmarquezini/preta_lab/blob/main/projeto2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PROJETO 2: BANCO DE DADOS

### Tabela de Comando SQL

| **Comando SQL**        | **Descrição**                                                                 | **Exemplo de Uso**                                                                                     |
|------------------------|-------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------|
| `CREATE TABLE`          | Cria uma nova tabela no banco de dados.                                       | ```CREATE TABLE Alunos (id INTEGER PRIMARY KEY, nome TEXT);```                                           |
| `INSERT INTO`           | Insere novos registros em uma tabela.                                         | ```INSERT INTO Alunos (id, nome) VALUES (1, 'João');```                                                  |
| `SELECT`                | Seleciona dados de uma ou mais tabelas.                                       | ```SELECT * FROM Alunos;```                                                                             |
| `JOIN`                  | Junta dados de duas ou mais tabelas com base em uma condição.                 | ```SELECT Alunos.nome, Cursos.nome FROM Alunos JOIN Cursos ON Alunos.id_curso = Cursos.id;```             |
| `WHERE`                 | Filtra os resultados de uma consulta com base em uma condição.                | ```SELECT * FROM Alunos WHERE idade > 18;```                                                             |
| `GROUP BY`              | Agrupa resultados de uma consulta em categorias.                             | ```SELECT curso, COUNT(*) FROM Alunos GROUP BY curso;```                                                 |
| `HAVING`                | Filtra grupos após o uso de `GROUP BY`.                                       | ```SELECT curso, COUNT(*) FROM Alunos GROUP BY curso HAVING COUNT(*) > 5;```                             |
| `ORDER BY`              | Ordena os resultados de uma consulta.                                         | ```SELECT * FROM Alunos ORDER BY nome ASC;```                                                            |
| `UPDATE`                | Atualiza registros existentes em uma tabela.                                  | ```UPDATE Alunos SET idade = 20 WHERE id = 1;```                                                         |
| `DELETE`                | Remove registros de uma tabela.                                               | ```DELETE FROM Alunos WHERE id = 1;```                                                                   |
| `ALTER TABLE`           | Modifica a estrutura de uma tabela.                                           | ```ALTER TABLE Alunos ADD COLUMN email TEXT;```                                                          |
| `DROP TABLE`            | Remove uma tabela do banco de dados.                                          | ```DROP TABLE Alunos;```                                                                                 |
| `INNER JOIN`            | Retorna apenas os registros que possuem correspondências em ambas as tabelas. | ```SELECT Alunos.nome, Cursos.nome FROM Alunos INNER JOIN Cursos ON Alunos.id_curso = Cursos.id;```       |
| `LEFT JOIN`             | Retorna todos os registros da tabela à esquerda e os correspondentes à direita.| ```SELECT Alunos.nome, Cursos.nome FROM Alunos LEFT JOIN Cursos ON Alunos.id_curso = Cursos.id;```        |
| `RIGHT JOIN`            | Retorna todos os registros da tabela à direita e os correspondentes à esquerda.| ```SELECT Alunos.nome, Cursos.nome FROM Alunos RIGHT JOIN Cursos ON Alunos.id_curso = Cursos.id;```       |
| `FULL OUTER JOIN`       | Retorna todos os registros quando há correspondência em uma das tabelas.      | ```SELECT Alunos.nome, Cursos.nome FROM Alunos FULL OUTER JOIN Cursos ON Alunos.id_curso = Cursos.id;```  |
| `DISTINCT`              | Retorna valores distintos (não duplicados) de uma coluna.                     | ```SELECT DISTINCT curso FROM Alunos;```                                                                 |
| `COUNT`                 | Conta o número de registros que correspondem a uma consulta.                  | ```SELECT COUNT(*) FROM Alunos;```                                                                       |
| `AVG`                   | Calcula a média de uma coluna numérica.                                       | ```SELECT AVG(idade) FROM Alunos;```                                                                     |
| `SUM`                   | Calcula a soma de uma coluna numérica.                                        | ```SELECT SUM(salario) FROM Funcionarios;```                                                             |
| `MAX`                   | Retorna o valor máximo de uma coluna.                                         | ```SELECT MAX(salario) FROM Funcionarios;```                                                             |
| `MIN`                   | Retorna o valor mínimo de uma coluna.                                         | ```SELECT MIN(salario) FROM Funcionarios;```                                                             |
| `CREATE INDEX`          | Cria um índice para acelerar consultas.                                       | ```CREATE INDEX idx_nome ON Alunos (nome);```                                                            |
| `DROP INDEX`            | Remove um índice.                                                             | ```DROP INDEX idx_nome;```                                                                               |


### Cenário: Análise da Jornada e Experiência do Cliente

#### Descrição do Cenário:


Uma rede de hotéis está interessada em entender melhor a jornada dos seus clientes no site, bem como a experiência de reseva e estadia. A empresa tem informações sobre:

  - **Navegação:** O cliente acessa o site e visualiza diferentes páginas.

  - **Reservas:** O cliente faz uma reserva de quarto em um hotel.

  - **Avaliações:** O cliente avalia sua experiência após a estadia.

A rede quer analisar como diferentes perfis de clientes avaliam a experiência de estadia, comparando esses resultados com todo ofunil até chegar a estadia, desde a navegação até a avaliação do hotel.

#### Objetivo:

  - Entender a jornada do cliente desde a navegação no site até a reserva e sua experiência final.

  - Perguntas para análise:
  1. Qual o tempo médio que os clientes gastam no site antes de fazer uma reserva?

  2. Qual o percentual de clientes que realizam reservas após a navegação?

3. Existe alguma correlação entre o tempo gasto no site e a avaliação dada?

## O que você precisa fazer no Projeto 2

 1. Inserir os dados dos arquivos csv em um banco de dados SQLite.

2. Realizar de consultas para responder às perguntas de análise.

3. Salvar as consultas como tabela no banco de dados

### DICA:

Para verificar todas as tabelas que existem em um banco de dados SQLite, você pode rodar O comando abaixo.

Isso exibirá uma lista com todas as tabelas do banco de dados, permitindo verificar se as tabelas  foram criadas corretamente.

In [None]:
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tabelas = cursor.fetchall()
print(tabelas)

Se quiser excluir bases do baanco de dados use o comando abaixo:

In [None]:
cursor.execute('DROP TABLE IF EXISTS nome_da_tabela')

# RESOLUÇÃO - PROJETO 2: BANCO DE DADOS 🎯


### Preparando ambiente

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
%cd /content/drive/MyDrive/pretaLab-ciclo11/projeto02/

/content/drive/MyDrive/pretaLab-ciclo11/projeto02


In [5]:
!ls

projeto2.ipynb	reservas.csv


### Importar e intalar bibliotecas

In [None]:
!pip install faker

In [42]:
import os
import sqlite3
import pandas as pd
import csv
import random
from faker import Faker

### Conectar banco de dados SQLite

In [58]:
# Conectar ao banco de dados SQLite
conexao = sqlite3.connect('hotel_data.db')
cursor = conexao.cursor()

In [10]:
!ls

ecommerce.db  projeto2.ipynb  reservas.csv


### Somente quando necessário (precisar limpar banco) rodar esses códigos:

#### Excluir tabelas existentes, se necessário (use somente se quiser limpar o banco)


In [59]:
# Excluir tabelas existentes, se necessário (use somente se quiser limpar o banco)

cursor.execute('DROP TABLE IF EXISTS reservas')
cursor.execute('DROP TABLE IF EXISTS navegacao')
cursor.execute('DROP TABLE IF EXISTS avaliacoes')
cursor.execute('DROP TABLE IF EXISTS tempo_medio_site')
cursor.execute('DROP TABLE IF EXISTS percentual_reserva')
cursor.execute('DROP TABLE IF EXISTS correlacao_tempo_nota')
conexao.commit()

#### Criar as tabelas no banco de dados novamente (se necessário)




In [61]:
# Criar as tabelas no banco de dados novamente (se necessário)
cursor.execute('''
CREATE TABLE IF NOT EXISTS reservas (
    id_reserva INTEGER PRIMARY KEY,
    id_cliente INTEGER,
    data_checkin TEXT,
    data_checkout TEXT,
    valor_total REAL
);
''')

cursor.execute('''
CREATE TABLE IF NOT EXISTS navegacao (
    cliente_id INTEGER PRIMARY KEY,
    tempo_gasto INTEGER,
    paginas_visitadas INTEGER
);
''')

cursor.execute('''
CREATE TABLE IF NOT EXISTS avaliacoes (
    cliente_id INTEGER PRIMARY KEY,
    nota INTEGER,
    comentario TEXT
);
''')

<sqlite3.Cursor at 0x7b73f58e8440>

### Gerar dados fictícios

In [62]:
# Inicializa o Faker
fake = Faker()

# Quantidade de clientes fictícios
num_clientes = 100

# Gerar dados fictícios de navegação
navegacao_data = {
    'id_cliente': [i for i in range(1, num_clientes+1)],
    'tempo_gasto': [random.randint(5, 120) for _ in range(num_clientes)],  # Tempo em minutos
    'paginas_visitadas': [random.randint(1, 20) for _ in range(num_clientes)]
}

navegacao_df = pd.DataFrame(navegacao_data)

# Salvar o arquivo navegação
navegacao_df.to_csv('navegacao.csv', index=False)


In [63]:
# Gerar dados fictícios de avaliações
avaliacoes_data = {
    'id_cliente': [i for i in range(1, num_clientes+1)],
    'nota': [random.randint(1, 5) for _ in range(num_clientes)],  # Notas entre 1 e 5
    'comentario': [fake.sentence() for _ in range(num_clientes)]  # Comentários fictícios
}

avaliacoes_df = pd.DataFrame(avaliacoes_data)

# Salvar o arquivo avaliações
avaliacoes_df.to_csv('avaliacoes.csv', index=False)


### Inserir dados dos arquivos CSV no banco de dados

In [64]:
# Carregar os CSVs
navegacao_df = pd.read_csv('navegacao.csv')
reservas_df = pd.read_csv('reservas.csv')
avaliacoes_df = pd.read_csv('avaliacoes.csv')

# Inserir dados no SQLite
navegacao_df.to_sql('navegacao', conexao, if_exists='replace', index=False)
reservas_df.to_sql('reservas', conexao, if_exists='replace', index=False)
avaliacoes_df.to_sql('avaliacoes', conexao, if_exists='replace', index=False)

conexao.commit()

### Tempo médio gasto no site antes de fazer uma reserva:

In [65]:
# Tempo médio gasto no site antes de fazer uma reserva:
sql_query = ("""
SELECT AVG(navegacao.tempo_gasto) AS tempo_medio
FROM navegacao
JOIN reservas ON navegacao.id_cliente = reservas.id_cliente;
""")

tempo_medio_df = pd.read_sql_query(sql_query, conexao)
tempo_medio_df.to_sql('tempo_medio_site', conexao, if_exists='replace', index=False)
print(tempo_medio_df)

   tempo_medio
0    68.784314


### Percentual de clientes que fazem reservas após a navegação:


In [66]:
# Percentual de clientes que fazem reservas após a navegação:

sql_query = '''
SELECT
(CAST(COUNT(DISTINCT reservas.id_cliente) AS FLOAT) / COUNT(DISTINCT navegacao.id_cliente)) * 100 AS percentual_reserva
FROM navegacao
LEFT JOIN reservas ON navegacao.id_cliente = reservas.id_cliente;
'''
percentual_reserva_df = pd.read_sql_query(sql_query, conexao)
percentual_reserva_df.to_sql('percentual_reserva', conexao, if_exists='replace', index=False)
print(percentual_reserva_df)

   percentual_reserva
0                68.0


### Correlação entre o tempo no site e a avaliação:

In [67]:
# Correlação entre o tempo no site e a avaliação:
sql_query = '''
SELECT navegacao.tempo_gasto, avaliacoes.nota
FROM navegacao
JOIN reservas ON navegacao.id_cliente = reservas.id_cliente
JOIN avaliacoes ON reservas.id_cliente = avaliacoes.id_cliente;
'''
correlacao_df = pd.read_sql_query(sql_query, conexao)
correlacao = correlacao_df['tempo_gasto'].corr(correlacao_df['nota'])
print("Correlação entre tempo no site e avaliação:", correlacao)

Correlação entre tempo no site e avaliação: 0.2748810582716605


### Salvar dados

In [68]:
# Salvar tempo médio:

cursor.execute('''
CREATE TABLE IF NOT EXISTS tempo_medio AS
SELECT AVG(navegacao.tempo_gasto) AS tempo_medio
FROM navegacao
JOIN reservas ON navegacao.id_cliente = reservas.id_cliente;
''')
conexao.commit()

In [69]:
# Salvar percentual de reservas:

cursor.execute('''
CREATE TABLE IF NOT EXISTS percentual_reserva AS
SELECT
(CAST(COUNT(DISTINCT reservas.id_cliente) AS FLOAT) / COUNT(DISTINCT navegacao.id_cliente)) * 100 AS percentual_reserva
FROM navegacao
LEFT JOIN reservas ON navegacao.id_cliente = reservas.id_cliente;
''')
conexao.commit()

In [70]:
# Salvar correlação:

cursor.execute('''
CREATE TABLE IF NOT EXISTS correlacao_tempo_nota (correlacao REAL);
''')
cursor.execute('''
INSERT INTO correlacao_tempo_nota VALUES (?);
''', (correlacao,))
conexao.commit()

### Verificar tabelas existentes no banco de dados

In [71]:
# Verificar todas as tabelas existentes no banco de dados
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tabelas = cursor.fetchall()
print("Tabelas no banco de dados:", tabelas)

Tabelas no banco de dados: [('tempo_medio',), ('navegacao',), ('reservas',), ('avaliacoes',), ('tempo_medio_site',), ('percentual_reserva',), ('correlacao_tempo_nota',)]


### Encerrar conexão com banco de dados

In [72]:
conexao.close()
print("Consultas realizadas e resultados salvos no banco de dados.")

Consultas realizadas e resultados salvos no banco de dados.
