# **MÓDULO 24 - Bancos de Dados + SQL**

Para nossa atividade inicial de SQL trabalharemos com uma base de vendas.
Abaixo temos o ambiente de preparo para trabalharmos com o SQL lite.

In [1]:
import sqlite3 #Importando a biblioteca necessária
import pandas as pd

In [2]:
df_vendas = pd.read_csv("TB_VENDAS_TAREFA.csv", delimiter=';')

In [3]:
conn = sqlite3.connect(':memory:')
df_vendas.to_sql('tb_vendas', conn, index=False, if_exists='replace')

24

In [4]:
def run_query(query):
    return pd.read_sql_query(query, conn)

# 1) Faça uma consulta que retorne todos os dados da nossa tabela de vendas, com todas linhas e todas colunas.


In [6]:
query = "SELECT * FROM tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE   PRODUTO VALOR_UNID  UNIDADES
0        1247        9081  CAMISETA       34,5         2
1        1248        9081     CALCA       89,9         1
2        1250        9560  CAMISETA       34,5         1
3        1249        9630   BERMUDA       79,5         2
4        1251        9425  CAMISETA       34,5         3
5        1252        9425   VESTIDO        102         1
6        1253        9481     CALCA       89,9         2
7        1254        9785      MEIA       25,9         1
8        1255        9786     CALCA       89,9         2
9        1256        9787   VESTIDO        102         1
10       1257        9788     CALCA       89,9         2
11       1258        9789  CAMISETA       34,5         3
12       1259        9790  CAMISETA       34,5         1
13       1260        9791   BERMUDA       79,5         2
14       1261        9792  CAMISETA       34,5         2
15       1262        9793     CALCA       89,9         2
16       1263        9794     C

# 2) Faça uma consulta que retorne apenas 10 linhas da coluna produto.


In [8]:
query = "SELECT PRODUTO FROM tb_vendas limit 10"
result_df = run_query(query)
print(result_df)

    PRODUTO
0  CAMISETA
1     CALCA
2  CAMISETA
3   BERMUDA
4  CAMISETA
5   VESTIDO
6     CALCA
7      MEIA
8     CALCA
9   VESTIDO


# 3) Faça uma consulta que retorne a média do valor por unidade e também das unidades vendidas. Não se esqueça de renomear o nome das colunas ao cria-las.

In [17]:
query = "SELECT AVG (VALOR_UNID) AS MEDIA_DO_VALOR_UNID FROM tb_vendas"  
result_df = run_query(query)
print("Média do valor das unidades:\n", result_df)

query = "SELECT AVG (UNIDADES) AS MEDIA_DAS_UNIDADES FROM tb_vendas"  
result_df = run_query(query)
print("Média das unidades vendidas:\n", result_df)

Média do valor das unidades:
    MEDIA_DO_VALOR_UNID
0            63.416667
Média das unidades vendidas:
    MEDIA_DAS_UNIDADES
0            1.833333


# 4) Note que na nossa tabela não temos o total de valor gasto por compra, temos o valor do produto e a quantidade vendida, para termos o valor total precisamos multiplicar essas duas colunas e para multiplicar colunas usamos o *.
# Faça uma consulta que retorne a coluna ID_COMPRA, ID_CLIENTE e o valor total gasto.

Ex: SELECT TICKET_MEDIO*UNIDADE FROM TB_EXEMPLO

In [22]:
query = "SELECT ID_COMPRA, ID_CLIENTE, (VALOR_UNID*UNIDADES) AS VALOR_TOTAL_GASTO FROM tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE  VALOR_TOTAL_GASTO
0        1247        9081                 68
1        1248        9081                 89
2        1250        9560                 34
3        1249        9630                158
4        1251        9425                102
5        1252        9425                102
6        1253        9481                178
7        1254        9785                 25
8        1255        9786                178
9        1256        9787                102
10       1257        9788                178
11       1258        9789                102
12       1259        9790                 34
13       1260        9791                158
14       1261        9792                 68
15       1262        9793                178
16       1263        9794                 89
17       1264        9795                158
18       1265        9796                136
19       1266        9797                 34
20       1267        9798                204
21       1

# 5) [DESAFIO] Faça uma consulta que traz a média do valor total gasto que foi calculado no exercício anterior. Note que não queremos a média por pedido e sim a média total, apenas essa informação deve vir na consulta.

In [29]:
query = "SELECT AVG((VALOR_UNID*UNIDADES)) AS MEDIA_DO_TOTAL_GASTO FROM tb_vendas"
result_df = run_query(query)
# Exibir o resultado
print("Média do valor total gasto:\n", result_df)

Média do valor total gasto:
    MEDIA_DO_TOTAL_GASTO
0               108.625


# 6) Diferencie com suas palavras, considerando o repertório que tem criado da área de dados, a utilizadade do SQL e do Python para ciência de dados.
Minimo 2 linhas.

In [None]:
# SQL é essencial para a manipulação e extração de dados diretamente de bancos relacionais, permitindo realizar consultas eficientes com comandos como SELECT, calcular médias com AVG, somar valores com SUM e renomear colunas com AS. 
# Já o Python é mais versátil, sendo usado para análise avançada, visualização e Machine Learning, integrando bibliotecas como Pandas para processar os dados extraídos via SQL.
# Porém acredito que os dois sejam essenciais para ciancia de dados, podemos usar o python para fazer os pre-processamento de dados e logo depois fazer verificações desses dados com o SQL

#7) Diferencie com suas palavras banco de dados relacionais de não relacionais.
Minimo 3 linhas.

In [None]:
# Pelo que vi sobre SQL e bancos de dados, acredito que os bancos NoSQL (não relacionais) armazenam dados de forma mais flexível e podem exigir mais pré-processamento para estruturação. 
# Já os bancos relacionais organizam os dados em tabelas bem definidas, facilitando a consulta. 
# No entanto, mesmo os dados vindos de um banco relacional podem precisar de pré-processamento, pois podem conter inconsistências, valores nulos ou formatos inadequados para análise.

#8) Queremos saber da sua opinião, acredita que o SQL pode ser mais prático que o Python para consultas rápidas? Justifique.
Muitas vezes durante a carreia você terá que escolher qual linguagem utilizar para cada momento afim de entregar o que é solicitado o mais rápido e com qualidade possível, exercite sua argumentação = )

Minimo 3 linhas.

In [None]:
# Acredito que para uma analise ou uma consulta rapida, seja sim o ideal usar o SQL, ele ajuda mais e vejo ele com mais praticidade.
# Já o Python vejo ele como uma ferramenta para tratar dados mais complexos, e não em sí fazer verificações, porém no momento até dá pra fazer, porém acho que o Python seja ideal para tratar dados mais complexos e tirar ideias sobre esses dados,
# E assim logo depois usar o SQL para fazer verificações sobre os dados. 