# **MÓDULO 24 - Bancos de Dados + SQL**

Para nossa atividade inicial de SQL trabalharemos com uma base de vendas.
Abaixo temos o ambiente de preparo para trabalharmos com o SQL lite.

In [1]:
import sqlite3 #Importando a biblioteca necessária
import pandas as pd

In [2]:
df_vendas = pd.read_csv("C:/Users/yurid/Downloads/TB_VENDAS_TAREFA.csv", delimiter=';')

In [3]:
conn = sqlite3.connect(':memory:')
df_vendas.to_sql('tb_vendas', conn, index=False, if_exists='replace')

24

In [6]:
def run_query(query):
    return pd.read_sql_query(query, conn)

# 1) Faça uma consulta que retorne todos os dados da nossa tabela de vendas, com todas linhas e todas colunas.


In [8]:
query = 'SELECT * FROM tb_vendas'
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE   PRODUTO VALOR_UNID  UNIDADES
0        1247        9081  CAMISETA       34,5         2
1        1248        9081     CALCA       89,9         1
2        1250        9560  CAMISETA       34,5         1
3        1249        9630   BERMUDA       79,5         2
4        1251        9425  CAMISETA       34,5         3
5        1252        9425   VESTIDO        102         1
6        1253        9481     CALCA       89,9         2
7        1254        9785      MEIA       25,9         1
8        1255        9786     CALCA       89,9         2
9        1256        9787   VESTIDO        102         1
10       1257        9788     CALCA       89,9         2
11       1258        9789  CAMISETA       34,5         3
12       1259        9790  CAMISETA       34,5         1
13       1260        9791   BERMUDA       79,5         2
14       1261        9792  CAMISETA       34,5         2
15       1262        9793     CALCA       89,9         2
16       1263        9794     C

# 2) Faça uma consulta que retorne apenas 10 linhas da coluna produto.


In [9]:
query = "SELECT PRODUTO FROM tb_vendas LIMIT 10"
result_df = run_query(query)
print(result_df)

    PRODUTO
0  CAMISETA
1     CALCA
2  CAMISETA
3   BERMUDA
4  CAMISETA
5   VESTIDO
6     CALCA
7      MEIA
8     CALCA
9   VESTIDO


# 3) Faça uma consulta que retorne a média do valor por unidade e também das unidades vendidas. Não se esqueça de renomear o nome das colunas ao cria-las.

In [12]:
query = "SELECT AVG(VALOR_UNID) AS MEDIA_VALOR, SUM(UNIDADES) AS SUM_UNID FROM tb_vendas"
result_df = run_query(query)
print(result_df)

   MEDIA_VALOR  SUM_UNID
0    63.416667        44


# 4) Note que na nossa tabela não temos o total de valor gasto por compra, temos o valor do produto e a quantidade vendida, para termos o valor total precisamos multiplicar essas duas colunas e para multiplicar colunas usamos o *.
# Faça uma consulta que retorne a coluna ID_COMPRA, ID_CLIENTE e o valor total gasto.

Ex: SELECT TICKET_MEDIO*UNIDADE FROM TB_EXEMPLO

In [16]:
query = "SELECT ID_COMPRA, ID_CLIENTE, CAST(VALOR_UNID*UNIDADES AS FLOAT) AS TOTAL_GASTO FROM tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE  TOTAL_GASTO
0        1247        9081         68.0
1        1248        9081         89.0
2        1250        9560         34.0
3        1249        9630        158.0
4        1251        9425        102.0
5        1252        9425        102.0
6        1253        9481        178.0
7        1254        9785         25.0
8        1255        9786        178.0
9        1256        9787        102.0
10       1257        9788        178.0
11       1258        9789        102.0
12       1259        9790         34.0
13       1260        9791        158.0
14       1261        9792         68.0
15       1262        9793        178.0
16       1263        9794         89.0
17       1264        9795        158.0
18       1265        9796        136.0
19       1266        9797         34.0
20       1267        9798        204.0
21       1268        9799         75.0
22       1269        9800         68.0
23       1270        9801         89.0


# 5) [DESAFIO] Faça uma consulta que traz a média do valor total gasto que foi calculado no exercício anterior. Note que não queremos a média por pedido e sim a média total, apenas essa informação deve vir na consulta.

In [17]:
query = "SELECT AVG(CAST(VALOR_UNID*UNIDADES AS FLOAT)) AS MED_TOT_GASTO FROM tb_vendas "
result_df = run_query(query)
# Exibir o resultado
print(result_df)

   MED_TOT_GASTO
0        108.625


# 6) Diferencie com suas palavras, considerando o repertório que tem criado da área de dados, a utilizadade do SQL e do Python para ciência de dados.
No campo da ciência de dados, utilizamos o SQL para conversar diretamente com o banco de dados, de forma que trabalhamos com extração, filtragem agregação e junção de informações. Por outro lado, usamos Python para análise, experimentação e modelagem 'fora' do banco de dados, aplicando técnicas técnicas de machine learning e estatítica, mas sem interferir diretmente no conteúdo dele.


# 7) Diferencie com suas palavras banco de dados relacionais de não relacionais.
Bancos de dados relacionais (SQL) estruturam dados em tabelas com esquemas fixos (linhas e colunas), garantindo alta consistência e sendo ideais para dados transacionais (ex: sistemas financeiros). Bancos não relacionais (NoSQL) usam modelos flexíveis (como documentos JSON, chave-valor ou grafos) para dados semi ou não estruturados, focando em escalabilidade e velocidade. Resumindo, SQL prioriza a consistência e estrutura rígida, enquanto NoSQL prioriza a flexibilidade e o volume.


# 8) Queremos saber da sua opinião, acredita que o SQL pode ser mais prático que o Python para consultas rápidas? Justifique.
Muitas vezes durante a carreia você terá que escolher qual linguagem utilizar para cada momento afim de entregar o que é solicitado o mais rápido e com qualidade possível, exercite sua argumentação = )

SQL é mais prático que Python na medida que opera no servidor do banco de dados e envia somente a informação solicitada. Por sua vez, o Python roda localmente, de modo que é necessário ter todo o conjunto de dados na máquina. Dessa forma, operar com SQL é mais prático pois possibilita a filtragem dos dados e economia dos recursos da máquina para direcioná-los da melhor maneira para as etapas de análise com Python.


