# **MÓDULO 24 - Bancos de Dados + SQL**

Para nossa atividade inicial de SQL trabalharemos com uma base de vendas.
Abaixo temos o ambiente de preparo para trabalharmos com o SQL lite.

In [3]:
import sqlite3 #Importando a biblioteca necessária
import pandas as pd

In [4]:
df_vendas = pd.read_csv("TB_VENDAS_TAREFA.csv", delimiter=';')

In [5]:
df_vendas['VALOR_UNID'] = df_vendas['VALOR_UNID'].str.replace(',', '.').astype(float)

In [9]:
conn = sqlite3.connect(':memory:')
df_vendas.to_sql('tb_vendas', conn, index=False, if_exists='replace')

24

In [11]:
def run_query(query):
    return pd.read_sql_query(query, conn)

# 1) Faça uma consulta que retorne todos os dados da nossa tabela de vendas, com todas linhas e todas colunas.


In [14]:
query = "SELECT * FROM tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE   PRODUTO  VALOR_UNID  UNIDADES
0        1247        9081  CAMISETA        34.5         2
1        1248        9081     CALCA        89.9         1
2        1250        9560  CAMISETA        34.5         1
3        1249        9630   BERMUDA        79.5         2
4        1251        9425  CAMISETA        34.5         3
5        1252        9425   VESTIDO       102.0         1
6        1253        9481     CALCA        89.9         2
7        1254        9785      MEIA        25.9         1
8        1255        9786     CALCA        89.9         2
9        1256        9787   VESTIDO       102.0         1
10       1257        9788     CALCA        89.9         2
11       1258        9789  CAMISETA        34.5         3
12       1259        9790  CAMISETA        34.5         1
13       1260        9791   BERMUDA        79.5         2
14       1261        9792  CAMISETA        34.5         2
15       1262        9793     CALCA        89.9         2
16       1263 

# 2) Faça uma consulta que retorne apenas 10 linhas da coluna produto.


In [17]:
query = "SELECT PRODUTO FROM tb_vendas limit 10"
result_df = run_query(query)
print(result_df)

    PRODUTO
0  CAMISETA
1     CALCA
2  CAMISETA
3   BERMUDA
4  CAMISETA
5   VESTIDO
6     CALCA
7      MEIA
8     CALCA
9   VESTIDO


# 3) Faça uma consulta que retorne a média do valor por unidade e também das unidades vendidas. Não se esqueça de renomear o nome das colunas ao cria-las.

In [20]:
query = "SELECT AVG(VALOR_UNID) AS MÉDIA_VALOR_UNID FROM tb_vendas"
result_df = run_query(query)
print(result_df)

   MÉDIA_VALOR_UNID
0         64.004167


In [22]:
query = "SELECT AVG(UNIDADES) AS MÉDIA_UNIDADES FROM tb_vendas"
result_df = run_query(query)
print(result_df)

   MÉDIA_UNIDADES
0        1.833333


# 4) Note que na nossa tabela não temos o total de valor gasto por compra, temos o valor do produto e a quantidade vendida, para termos o valor total precisamos multiplicar essas duas colunas e para multiplicar colunas usamos o *.
# Faça uma consulta que retorne a coluna ID_COMPRA, ID_CLIENTE e o valor total gasto.

Ex: SELECT TICKET_MEDIO*UNIDADE FROM TB_EXEMPLO

In [31]:
query = "SELECT ID_COMPRA, ID_CLIENTE, VALOR_UNID * UNIDADES AS TICKET_MÉDIO FROM tb_vendas"
result_df = run_query(query)
print(result_df)

    ID_COMPRA  ID_CLIENTE  TICKET_MÉDIO
0        1247        9081          69.0
1        1248        9081          89.9
2        1250        9560          34.5
3        1249        9630         159.0
4        1251        9425         103.5
5        1252        9425         102.0
6        1253        9481         179.8
7        1254        9785          25.9
8        1255        9786         179.8
9        1256        9787         102.0
10       1257        9788         179.8
11       1258        9789         103.5
12       1259        9790          34.5
13       1260        9791         159.0
14       1261        9792          69.0
15       1262        9793         179.8
16       1263        9794          89.9
17       1264        9795         159.0
18       1265        9796         138.0
19       1266        9797          34.5
20       1267        9798         204.0
21       1268        9799          77.7
22       1269        9800          69.0
23       1270        9801          89.9


# 5) [DESAFIO] Faça uma consulta que traz a média do valor total gasto que foi calculado no exercício anterior. Note que não queremos a média por pedido e sim a média total, apenas essa informação deve vir na consulta.

In [67]:
query = "SELECT AVG(VALOR_UNID * UNIDADES) AS MÉDIA_TOTAL FROM tb_vendas"
result_df = run_query(query)
# Exibir o resultado
print(result_df)

   MÉDIA_TOTAL
0      108.625


# 6) Diferencie com suas palavras, considerando o repertório que tem criado da área de dados, a utilizadade do SQL e do Python para ciência de dados.
Minimo 2 linhas.

O SQL é recomendado para lidar com os dados, armazenando, manipulando eles, transformando, para no phyton ser feita a limpeza, o tratamento, e a análise deles.

#7) Diferencie com suas palavras banco de dados relacionais de não relacionais.
Minimo 3 linhas.

Bancos de dados relacionais têm uma estrutura rígida e usam SQL para manipulação de dados, sendo ideais para aplicações que requerem integridade de dados, e para a manipulação de dados mais complexos. Bancos de dados não relacionais (NoSQL) são mais flexíveis e adequados para grandes volumes de dados não estruturados, como redes sociais e Big Data.

#8) Queremos saber da sua opinião, acredita que o SQL pode ser mais prático que o Python para consultas rápidas? Justifique.
Muitas vezes durante a carreia você terá que escolher qual linguagem utilizar para cada momento afim de entregar o que é solicitado o mais rápido e com qualidade possível, exercite sua argumentação = )

Minimo 3 linhas.

Sim, pode ser, dependendo da quantidade de dados a serem analisados, o SQL pode prover uma consulta mais rápida, considerando que o SQL possui maneiras de ter um armazenamento mais compacto, já o phyton às vezes necessita de muitas linhas, muitos códigos para uma simples consulta, mas, novamente, depende muito da quantidade de dados e tipo de consulta a ser realizada.