# **MÓDULO 24 - Bancos de Dados + SQL**

Para nossa atividade inicial de SQL trabalharemos com uma base de vendas.
Abaixo temos o ambiente de preparo para trabalharmos com o SQL lite.

In [1]:
import sqlite3 #Importando a biblioteca necessária
import pandas as pd
import os

In [2]:
caminho = r".\\TB_VENDAS_TAREFA.csv"

if os.path.exists(caminho):
    print("O arquivo foi encontrado! ")
else:
    print('O arquivo não foi encontrado. ')

df_vendas = pd.read_csv(caminho, delimiter=';')

df_vendas.info()

df_vendas['VALOR_UNID'] = df_vendas['VALOR_UNID'].str.replace(',', '.').astype(float)

df_vendas.info()

O arquivo foi encontrado! 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   ID_COMPRA   24 non-null     int64 
 1   ID_CLIENTE  24 non-null     int64 
 2   PRODUTO     24 non-null     object
 3   VALOR_UNID  24 non-null     object
 4   UNIDADES    24 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 1.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   ID_COMPRA   24 non-null     int64  
 1   ID_CLIENTE  24 non-null     int64  
 2   PRODUTO     24 non-null     object 
 3   VALOR_UNID  24 non-null     float64
 4   UNIDADES    24 non-null     int64  
dtypes: float64(1), int64(3), object(1)
memory usage: 1.1+ KB


In [3]:
conn = sqlite3.connect(':memory:')
df_vendas.to_sql('TB_VENDAS', conn, index=False, if_exists='replace')

24

In [4]:
def run_query(query):
    return pd.read_sql_query(query, conn)

# 1) Faça uma consulta que retorne todos os dados da nossa tabela de vendas, com todas linhas e todas colunas.


In [5]:
query = "SELECT * FROM TB_VENDAS"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE   PRODUTO  VALOR_UNID  UNIDADES
0        1247        9081  CAMISETA        34.5         2
1        1248        9081     CALCA        89.9         1
2        1250        9560  CAMISETA        34.5         1
3        1249        9630   BERMUDA        79.5         2
4        1251        9425  CAMISETA        34.5         3
5        1252        9425   VESTIDO       102.0         1
6        1253        9481     CALCA        89.9         2
7        1254        9785      MEIA        25.9         1
8        1255        9786     CALCA        89.9         2
9        1256        9787   VESTIDO       102.0         1
10       1257        9788     CALCA        89.9         2
11       1258        9789  CAMISETA        34.5         3
12       1259        9790  CAMISETA        34.5         1
13       1260        9791   BERMUDA        79.5         2
14       1261        9792  CAMISETA        34.5         2
15       1262        9793     CALCA        89.9         2
16       1263 

# 2) Faça uma consulta que retorne apenas 10 linhas da coluna produto.


In [6]:
query = "SELECT PRODUTO FROM TB_VENDAS LIMIT 10 "
result_df = run_query(query)
print(result_df)

    PRODUTO
0  CAMISETA
1     CALCA
2  CAMISETA
3   BERMUDA
4  CAMISETA
5   VESTIDO
6     CALCA
7      MEIA
8     CALCA
9   VESTIDO


# Verificando tipo de dados

In [None]:
# Vou verificar o tipo dos dados

query = "PRAGMA table_info('TB_VENDAS')"
result_df = run_query(query)
print(result_df)

   cid        name     type  notnull dflt_value  pk
0    0   ID_COMPRA  INTEGER        0       None   0
1    1  ID_CLIENTE  INTEGER        0       None   0
2    2     PRODUTO     TEXT        0       None   0
3    3  VALOR_UNID     REAL        0       None   0
4    4    UNIDADES  INTEGER        0       None   0


# 3) Faça uma consulta que retorne a média do valor por unidade e também das unidades vendidas. Não se esqueça de renomear o nome das colunas ao cria-las.

In [10]:
query = "SELECT AVG(VALOR_UNID) as VALOR_MEDIA from TB_VENDAS;"
result_df = run_query(query)
print(result_df)

query = "SELECT AVG(UNIDADES) as UNIDADE_MEDIA from TB_VENDAS;"
result_df = run_query(query)
print(result_df)

   VALOR_MEDIA
0    64.004167
   UNIDADE_MEDIA
0       1.833333


# 4) Note que na nossa tabela não temos o total de valor gasto por compra, temos o valor do produto e a quantidade vendida, para termos o valor total precisamos multiplicar essas duas colunas e para multiplicar colunas usamos o *.
# Faça uma consulta que retorne a coluna ID_COMPRA, ID_CLIENTE e o valor total gasto.

Ex: SELECT TICKET_MEDIO*UNIDADE FROM TB_EXEMPLO

In [18]:
query = "SELECT ID_CLIENTE, ID_COMPRA, VALOR_UNID * UNIDADES as TOTAL_GASTO from TB_VENDAS"
result_df = run_query(query)
print(result_df)

    ID_CLIENTE  ID_COMPRA  TOTAL_GASTO
0         9081       1247         69.0
1         9081       1248         89.9
2         9560       1250         34.5
3         9630       1249        159.0
4         9425       1251        103.5
5         9425       1252        102.0
6         9481       1253        179.8
7         9785       1254         25.9
8         9786       1255        179.8
9         9787       1256        102.0
10        9788       1257        179.8
11        9789       1258        103.5
12        9790       1259         34.5
13        9791       1260        159.0
14        9792       1261         69.0
15        9793       1262        179.8
16        9794       1263         89.9
17        9795       1264        159.0
18        9796       1265        138.0
19        9797       1266         34.5
20        9798       1267        204.0
21        9799       1268         77.7
22        9800       1269         69.0
23        9801       1270         89.9


# 5) [DESAFIO] Faça uma consulta que traz a média do valor total gasto que foi calculado no exercício anterior. Note que não queremos a média por pedido e sim a média total, apenas essa informação deve vir na consulta.

In [21]:
query = "SELECT AVG(VALOR_UNID * UNIDADES) AS MEDIA_TOTAL_GASTO from TB_VENDAS"
result_df = run_query(query)
# Exibir o resultado
print(result_df)

   MEDIA_TOTAL_GASTO
0         109.708333


# 6) Diferencie com suas palavras, considerando o repertório que tem criado da área de dados, a usuabilidade do SQL e do Python para ciência de dados.
Minimo 2 linhas.

Python e SQL são ferramentas com finalidades diferentes dentro da área de dados. O Python é uma linguagem ampla, poderosa e versátil, usada desde a criação de aplicações até a análise e modelagem de dados, com suporte a bibliotecas que ampliam muito suas capacidades. Já o SQL tem um foco mais específico: é a linguagem padrão para se comunicar com bancos de dados relacionais, sendo ideal para consultas e manipulação direta de dados. Embora o Python consiga realizar parte do que o SQL faz, ele é mais seguro e completo para análise posterior, enquanto o SQL é mais eficiente para extração e consulta. Em resumo, ambos são essenciais, mas cada um brilha em etapas diferentes no processo dos dados.

# 7) Diferencie com suas palavras banco de dados relacionais de não relacionais.
Minimo 3 linhas.

Relacionais - SQL, são tabulares, funcionam de forma mais organizada e tradicional. Eles armazenam as informações em tabelas com linhas e colunas, tudo bem certinho e planejado. Por causa disso, costumam ser usados quando é preciso ter segurança, controle e uma estrutura mais estável — como em cadastros de clientes, sistemas de empresas ou transações financeiras, onde tudo precisa estar muito bem relacionado.

Não relacionais - NoSQL, são mais livres e flexíveis. Eles não seguem aquele modelo fixo de tabelas, o que os torna ótimos para lidar com grandes volumes de dados que mudam o tempo todo ou não têm uma estrutura tão definida. É o tipo de banco que a gente vê em redes sociais, aplicativos e plataformas que precisam crescer rápido e lidar com muita informação ao mesmo tempo.

A grande diferença entre os dois está na forma de usar. O relacional é mais certinho, feito para dados organizados e consultas complexas, enquanto o não relacional é mais dinâmico e preparado para lidar com muita informação em alta velocidade(Muitos dados que provávelmente serão distribuidos para outros servidores). No fim, os dois têm seu valor: o SQL é mais estável e confiável, e o NoSQL, mais adaptável para quem precisa de agilidade e está trabalhando com ulto volume de dados.

# 8) Queremos saber da sua opinião, acredita que o SQL pode ser mais prático que o Python para consultas rápidas? Justifique.
Muitas vezes durante a carreia você terá que escolher qual linguagem utilizar para cada momento afim de entregar o que é solicitado o mais rápido e com qualidade possível, exercite sua argumentação = )

Minimo 3 linhas.

Eu acredito que sim, no geral, mas é claro que vai depender da sua situação. Por exemplo, se lhe fosse entregue um arquivo csv, para um exercício da EBAC, e você só quisesse verificar os tipos de dados, é muito mais facil utilizar df.info() com pandas e fechou, não há necessidade de utilizar SQL nessa situação. Entretanto, em um ambiente normal do dia a dia da profissão de um cientista de dados, onde os dados normalmente estarão armazenados em um banco de dados, por meio de um SGBD, o SQL acaba sendo mais direto e eficiente para consultas rápidas, isso porque ele foi feito exatamente para isso — buscar, filtrar e retornar informações específicas de forma otimizada.

Concluindo, a estratégia mais prática vai depender da situação, mas visto que a situação mais provável seria a segunda, é válido afirmar que com SQL seria mais fácil e prático realizar consultas, especialmente quando os dados então em um banco de dados e se trata de um grande volume de dados.