# Bancos de Dados + SQL

Para nossa atividade inicial de SQL trabalharemos com uma base de vendas.
Abaixo temos o ambiente de preparo para trabalharmos com o SQL lite.

In [2]:
#Importando a biblioteca necessária
import sqlite3
import pandas as pd

In [4]:
df_vendas = pd.read_csv("/content/TB_VENDAS_TAREFA .csv", delimiter=';')

In [8]:
conn = sqlite3.connect(':memory:')
df_vendas.to_sql('tb_vendas', conn, index=False, if_exists='replace')

24

In [9]:
def run_query(query):
    return pd.read_sql_query(query, conn)

# 1) Faça uma consulta que retorne todos os dados da nossa tabela de vendas, com todas linhas e todas colunas.


In [10]:
query = "SELECT * FROM tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE   PRODUTO VALOR_UNID  UNIDADES
0        1247        9081  CAMISETA       34,5         2
1        1248        9081     CALCA       89,9         1
2        1250        9560  CAMISETA       34,5         1
3        1249        9630   BERMUDA       79,5         2
4        1251        9425  CAMISETA       34,5         3
5        1252        9425   VESTIDO        102         1
6        1253        9481     CALCA       89,9         2
7        1254        9785      MEIA       25,9         1
8        1255        9786     CALCA       89,9         2
9        1256        9787   VESTIDO        102         1
10       1257        9788     CALCA       89,9         2
11       1258        9789  CAMISETA       34,5         3
12       1259        9790  CAMISETA       34,5         1
13       1260        9791   BERMUDA       79,5         2
14       1261        9792  CAMISETA       34,5         2
15       1262        9793     CALCA       89,9         2
16       1263        9794     C

# 2) Faça uma consulta que retorne apenas 10 linhas da coluna produto.


In [11]:
query = "SELECT PRODUTO FROM tb_vendas LIMIT 11" # A primeira linha é o cabecalho.
result_df = run_query(query)
print(result_df)

     PRODUTO
0   CAMISETA
1      CALCA
2   CAMISETA
3    BERMUDA
4   CAMISETA
5    VESTIDO
6      CALCA
7       MEIA
8      CALCA
9    VESTIDO
10     CALCA


# 3) Faça uma consulta que retorne a média do valor por unidade e também das unidades vendidas. Não se esqueça de renomear o nome das colunas ao cria-las.

In [12]:
query = "SELECT AVG(VALOR_UNID) AS ticket_médio FROM tb_vendas"
result_df = run_query(query)
print(result_df)


   ticket_médio
0     63.416667


In [13]:
query = "SELECT SUM(UNIDADES) AS VENDAS_DE_PEÇAS FROM tb_vendas"
result_df = run_query(query)
print(result_df)

   VENDAS_DE_PEÇAS
0               44


In [14]:
query = """
SELECT
    PRODUTO,
    SUM(UNIDADES * REPLACE(VALOR_UNID, ',', '.')) AS FATURAMENTO_TOTAL
FROM
    tb_vendas
GROUP BY
    PRODUTO;
"""
result_df = run_query(query)
print(result_df)

    PRODUTO  FATURAMENTO_TOTAL
0   BERMUDA              477.0
1     CALCA              988.9
2  CAMISETA              655.5
3      MEIA              103.6
4   VESTIDO              408.0


# 4) Note que na nossa tabela não temos o total de valor gasto por compra, temos o valor do produto e a quantidade vendida, para termos o valor total precisamos multiplicar essas duas colunas e para multiplicar colunas usamos o *.
# Faça uma consulta que retorne a coluna ID_COMPRA, ID_CLIENTE e o valor total gasto.

Ex: SELECT TICKET_MEDIO*UNIDADE FROM TB_EXEMPLO

In [15]:
query = """SELECT ID_COMPRA , ID_CLIENTE ,UNIDADES * CAST(REPLACE(VALOR_UNID, ',', '.') AS REAL) AS VALOR_TOTAL
FROM tb_vendas; """
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE  VALOR_TOTAL
0        1247        9081         69.0
1        1248        9081         89.9
2        1250        9560         34.5
3        1249        9630        159.0
4        1251        9425        103.5
5        1252        9425        102.0
6        1253        9481        179.8
7        1254        9785         25.9
8        1255        9786        179.8
9        1256        9787        102.0
10       1257        9788        179.8
11       1258        9789        103.5
12       1259        9790         34.5
13       1260        9791        159.0
14       1261        9792         69.0
15       1262        9793        179.8
16       1263        9794         89.9
17       1264        9795        159.0
18       1265        9796        138.0
19       1266        9797         34.5
20       1267        9798        204.0
21       1268        9799         77.7
22       1269        9800         69.0
23       1270        9801         89.9


# 5) [DESAFIO] Faça uma consulta que traz a média do valor total gasto que foi calculado no exercício anterior. Note que não queremos a média por pedido e sim a média total, apenas essa informação deve vir na consulta.

In [16]:
query = "SELECT AVG(UNIDADES * CAST(REPLACE(VALOR_UNID, ',', '.') AS REAL)) AS MEDIA_VALOR_TOTAL FROM tb_vendas"
result_df = run_query(query)
# Exibir o resultado
print(result_df)

   MEDIA_VALOR_TOTAL
0         109.708333


#6) Diferencie com suas palavras, considerando o repertório que tem criado da área de dados, a utilizadade do SQL e do Python para ciência de dados.
Minimo 2 linhas.

O python é utilizado para analisar, visualizar e automatizar dados enquanto banco de dados tem funções para acessar, consultar e manipular dados em bancos.


#7) Diferencie com suas palavras banco de dados relacionais de não relacionais.
Minimo 3 linhas.

Relacionais possuem uma estrutura fixa e organizada, ótimo para dados bem definidos. Não relacionais são flexível e escalável, ótimo para grandes volumes e dados variados como imagens e gráficos.

#8) Queremos saber da sua opinião, acredita que o SQL pode ser mais prático que o Python para consultas rápidas? Justifique.
Muitas vezes durante a carreia você terá que escolher qual linguagem utilizar para cada momento afim de entregar o que é solicitado o mais rápido e com qualidade possível, exercite sua argumentação = )

Minimo 3 linhas.

Sql é mais facilitado e rápido para filtros de complexidade simples, python entrega muito mais complexidade de código e possibilidades de manuseio de dados para a lapidação de insights.
