# **MÓDULO 24 - Bancos de Dados + SQL**

Para nossa atividade inicial de SQL trabalharemos com uma base de vendas.
Abaixo temos o ambiente de preparo para trabalharmos com o SQL lite.

In [1]:
import sqlite3 #Importando a biblioteca necessária
import pandas as pd

In [2]:
df_vendas = pd.read_csv("TB_VENDAS_TAREFA.csv", delimiter=';')

In [3]:
conn = sqlite3.connect(':memory:')
df_vendas.to_sql('tb_vendas', conn, index=False, if_exists='replace')
df_vendas.head()

Unnamed: 0,ID_COMPRA,ID_CLIENTE,PRODUTO,VALOR_UNID,UNIDADES
0,1247,9081,CAMISETA,345,2
1,1248,9081,CALCA,899,1
2,1250,9560,CAMISETA,345,1
3,1249,9630,BERMUDA,795,2
4,1251,9425,CAMISETA,345,3


In [4]:
def run_query(query):
    return pd.read_sql_query(query, conn)

### 1.Retorne todos os dados da nossa tabela de vendas, com todas linhas e todas colunas.


In [5]:
query = "select * from tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE   PRODUTO VALOR_UNID  UNIDADES
0        1247        9081  CAMISETA       34,5         2
1        1248        9081     CALCA       89,9         1
2        1250        9560  CAMISETA       34,5         1
3        1249        9630   BERMUDA       79,5         2
4        1251        9425  CAMISETA       34,5         3
5        1252        9425   VESTIDO        102         1
6        1253        9481     CALCA       89,9         2
7        1254        9785      MEIA       25,9         1
8        1255        9786     CALCA       89,9         2
9        1256        9787   VESTIDO        102         1
10       1257        9788     CALCA       89,9         2
11       1258        9789  CAMISETA       34,5         3
12       1259        9790  CAMISETA       34,5         1
13       1260        9791   BERMUDA       79,5         2
14       1261        9792  CAMISETA       34,5         2
15       1262        9793     CALCA       89,9         2
16       1263        9794     C

### 2.Retorne apenas 10 linhas da coluna produto.


In [6]:
query = "select produto from tb_vendas limit 10"
result_df = run_query(query)
print(result_df)

    PRODUTO
0  CAMISETA
1     CALCA
2  CAMISETA
3   BERMUDA
4  CAMISETA
5   VESTIDO
6     CALCA
7      MEIA
8     CALCA
9   VESTIDO


### 3.Retorne a média do valor por unidade e também das unidades vendidas. Renomear o nome das colunas.

In [7]:
query = "select avg(VALOR_UNID) as 'média (valor/unidade)',avg(UNIDADES) as 'média (unidades)' from tb_vendas"
result_df = run_query(query)
print(result_df)

   média (valor/unidade)  média (unidades)
0              63.416667          1.833333


### 4.Note que na nossa tabela não temos o total de valor gasto por compra, temos o valor do produto e a quantidade vendida. Faça uma consulta que retorne a coluna ID_COMPRA, ID_CLIENTE e o valor total gasto.



In [10]:
query = "select ID_ClIENTE,ID_COMPRA,cast(VALOR_UNID * UNIDADES as float) as 'Total da Compra' from tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_CLIENTE  ID_COMPRA  Total da Compra
0         9081       1247             68.0
1         9081       1248             89.0
2         9560       1250             34.0
3         9630       1249            158.0
4         9425       1251            102.0
5         9425       1252            102.0
6         9481       1253            178.0
7         9785       1254             25.0
8         9786       1255            178.0
9         9787       1256            102.0
10        9788       1257            178.0
11        9789       1258            102.0
12        9790       1259             34.0
13        9791       1260            158.0
14        9792       1261             68.0
15        9793       1262            178.0
16        9794       1263             89.0
17        9795       1264            158.0
18        9796       1265            136.0
19        9797       1266             34.0
20        9798       1267            204.0
21        9799       1268             75.0
22        9

### 5.[DESAFIO] Faça uma consulta que traz a média do valor total gasto que foi calculado no exercício anterior. Note que não queremos a média por pedido e sim a média total, apenas essa informação deve vir na consulta.

Não ficou claro se a questão pedia a média total para o número de itens  ou  clientes. Desta forma realizei as duas operações.

In [None]:
# Média total por unidades
query = "select sum(cast(VALOR_UNID * UNIDADES as float))/sum(unidades) as 'média total/unidades' from tb_vendas"
result_df = run_query(query)
print(result_df)
# Média total por numero de clientes
query = "select sum(cast(VALOR_UNID * UNIDADES as float))/COUNT(DISTINCT ID_CLIENTE) 'média total/cliente' from tb_vendas"
result_df = run_query(query)
print(result_df)

   média total/unidades
0                 59.25
   média total/cliente
0                118.5


### 6) Diferencie com suas palavras, considerando o repertório que tem criado da área de dados, a utilizadade do SQL e do Python para ciência de dados.

SQL e Python são ferramentas fundamentais para ciência de dados, pois desempenham papéis específicos ao longo do workflow de trabalho de um cientista de dados. A primeira e mais antiga, SQL, foi desenvolvida no início dos anos 70 com o objetivo principal de ser uma linguagem para consulta de bancos de dados — o próprio "Q" de SQL (Structured Query Language) já indica sua função essencial: extrair, filtrar e manipular dados estruturados de forma eficiente.

Já o Python, uma linguagem de programação de alto nível criada no início dos anos 90, tornou-se indispensável devido à sua versatilidade e ao vasto ecossistema de bibliotecas. Ao longo das décadas, acumulou ferramentas poderosas para análise de dados (Pandas, NumPy), visualização (Matplotlib, Seaborn) e machine learning (Scikit-learn, TensorFlow). Dessa forma, o Python está presente em aplicações que vão desde desenvolvimento web até rotinas de inteligência artificial em áreas como medicina, finanças e automação industrial.

Assim, enquanto o SQL garante acesso rápido e organizado aos dados armazenados, o Python possibilita análises mais elaboradas, modelagem e visualização. Sendo assim importantes em etapas distintas do dia a dia do cientista de dados.


### 7) Diferencie com suas palavras banco de dados relacionais de não relacionais.

Dados Relacionas(SQL) podem ser entendido como matrizes onde os dados são armazenados em linhas e colunas, com relacionamentos bem definidos entre as matrizes via chaves.
Já os dados Não relacionais(NoSQL) funcionam com armarios ou baús flexivies, permitindo que os dados sejam armazenados de diferentes formas.

Uma das principais diferencias é o quanto aos escalonamento e integridade dos dados, enquanto o SQL prioriza a integridade dos dados, torna-se vantajoso para transações mais complexa, enquanto o NoSQL prioriza flexibilidade e performance em escala, sendo uma grande vantagem para dados dinâmicos e BigDATA

### 8) Queremos saber da sua opinião, acredita que o SQL pode ser mais prático que o Python para consultas rápidas? Justifique.


A escolha entre SQL e Python dependerá do contexto e do objetivo da análise. De fato, o SQL é imbatível em consultas otimizadas para bancos de dados, especialmente ao trabalhar com grandes volumes de dados, enquanto no Python essas mesmas operações exigiriam mais linhas de código e poderiam ser menos performáticas.

Por outro lado, o Python se destaca em análises exploratórias (como em Jupyter Notebooks), onde a flexibilidade de bibliotecas como Pandas permite manipular dados diretamente na memória (ex.: df_vendas['Coluna']). Embora, em alguns casos, seja possível trabalhar apenas com Python, para validações ou extrações de dados em bancos de dados, o SQL pode ser fundamental. Dessa forma, o ideal é usar SQL para o "pesado" do ETL e Python para o "poder analítico", complementando-se no fluxo de trabalho.
