# <font color = "blue"> Análise de Dados com Python e Linguagem SQL </font>

In [1]:
# Versão da linguagem Python
from platform import python_version
print("Versão de Python", python_version())

Versão de Python 3.9.13


In [2]:
# importar SQLite
import sqlite3

In [3]:
sqlite3.sqlite_version

'3.39.3'

In [4]:
# importar pandas
import pandas as pd
pd.__version__

'1.5.3'

In [5]:
# importar Numpy
import numpy as np
np.__version__

'1.22.2'

## Conectando no Banco de Dados com Linguagem Python 

In [6]:
 # conectar ao banco de dados
con = sqlite3.connect("cap12_dsa.db")

In [7]:
# abre um cursor para precorrer os dados do bd
cursor = con.cursor()

In [8]:
# extraer a tabela `sqlite_master`
query_1 = "SELECT * FROM sqlite_master;" 
cursor.execute(query_1)  # executar a query

<sqlite3.Cursor at 0x22225f2cab0>

In [9]:
coluna_nomes = [names[0] for names in cursor.description]
dados = np.array(cursor.fetchall())
pd.DataFrame(dados, columns=coluna_nomes)


Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,tb_vendas_dsa,tb_vendas_dsa,2,"CREATE TABLE ""tb_vendas_dsa"" (\n\t""ID_Pedido""\..."


In [10]:
# Extrair os nomes das tabelas existentes no bd.
query_2 = "SELECT name FROM sqlite_master WHERE type = 'table';"
cursor.execute(query_2)
print(cursor.fetchall())

[('tb_vendas_dsa',)]


> A query abaixo retorna todas as linhas e todas as colunas tabela 

In [11]:
# Extrair todas as linhas e colunas da tabela `tb_vendas_dsa`
query_3 = "SELECT * FROM tb_vendas_dsa;"
cursor.execute(query_3)
nomes_colunas = [name[0] for name in cursor.description]
print(nomes_colunas)

['ID_Pedido', 'ID_Cliente', 'Nome_Produto', 'Valor_Unitario', 'Unidades_Vendidas', 'Custo']


In [12]:
# Retorna os dados execução de query
dados = cursor.fetchall()
np.array(dados)
pd.DataFrame(np.array(dados), columns=nomes_colunas)

Unnamed: 0,ID_Pedido,ID_Cliente,Nome_Produto,Valor_Unitario,Unidades_Vendidas,Custo
0,1,63,Produto_38,154.03,7,92.42
1,2,49,Produto_8,171.52,5,102.91
2,3,83,Produto_39,28.97,13,17.38
3,4,37,Produto_2,104.55,4,62.73
4,5,19,Produto_1,77.21,19,46.33
...,...,...,...,...,...,...
495,496,27,Produto_12,155.02,1,93.01
496,497,32,Produto_23,71.04,6,42.62
497,498,80,Produto_1,67.83,13,40.7
498,499,13,Produto_50,187.89,16,112.73


## Operações com SQL 

In [13]:
query_3 = "SELECT AVG(tb.Unidades_Vendidas) AS media_unidades_vendidas FROM tb_vendas_dsa tb;"
cursor.execute(query_3)
names_colunas = [names[0] for names in cursor.description]
dados = np.array(cursor.fetchall())
pd.DataFrame(dados, columns=names_colunas)

Unnamed: 0,media_unidades_vendidas
0,10.506


> Retornar a média de unidades vendidas por produto

In [14]:
query_4 = "SELECT tb.Nome_Produto, ROUND(AVG(tb.Unidades_Vendidas), 2) AS media_unidades_vendidas FROM tb_vendas_dsa tb GROUP BY tb.Nome_Produto ORDER BY media_unidades_vendidas DESC LIMIT 5"
cursor.execute(query_4)
nome_colunas = [names[0] for names in cursor.description]
dados = np.array(cursor.fetchall())
pd.DataFrame(dados, columns=nome_colunas)

Unnamed: 0,Nome_Produto,media_unidades_vendidas
0,Produto_11,14.18
1,Produto_48,14.0
2,Produto_22,13.69
3,Produto_7,13.56
4,Produto_18,13.08


> Media de Unidades Vendidas apenas para os produtos em que o total unitário for menor do que 199

In [15]:
query_5 = """SELECT tb.Nome_Produto, SUM(tb.Unidades_Vendidas) AS
           sum_unidades_vendidas, ROUND(AVG(tb.Unidades_Vendidas), 2) AS 
           media_unidades_vendidas FROM tb_vendas_dsa tb GROUP BY tb.Nome_Produto 
           HAVING sum_unidades_vendidas < 199 ORDER BY media_unidades_vendidas, sum_unidades_vendidas DESC"""
cursor.execute(query_5)
names_coluna = [names[0] for names in cursor.description]
dados = np.array(cursor.fetchall())
pd.DataFrame(dados, columns=names_coluna)

Unnamed: 0,Nome_Produto,sum_unidades_vendidas,media_unidades_vendidas
0,Produto_13,30,6.0
1,Produto_9,72,7.2
2,Produto_44,36,7.2
3,Produto_40,58,7.25
4,Produto_20,68,7.56
5,Produto_31,79,7.9
6,Produto_34,81,8.1
7,Produto_16,132,8.25
8,Produto_12,115,8.85
9,Produto_45,71,8.88


Media de Unidades Vendidas apenas para os produtos em que o total unitário for maiores do que 199

In [16]:
query_5 = """SELECT tb.Nome_Produto, SUM(tb.Unidades_Vendidas) AS
           sum_unidades_vendidas, ROUND(AVG(tb.Unidades_Vendidas), 2) AS 
           media_unidades_vendidas FROM tb_vendas_dsa tb 
           WHERE Valor_Unitario > 199
           GROUP BY tb.Nome_Produto 
           ORDER BY media_unidades_vendidas, sum_unidades_vendidas DESC"""
cursor.execute(query_5)
names_coluna = [names[0] for names in cursor.description]
dados = np.array(cursor.fetchall())
pd.DataFrame(dados, columns=names_coluna)

Unnamed: 0,Nome_Produto,sum_unidades_vendidas,media_unidades_vendidas
0,Produto_11,1,1.0
1,Produto_20,7,7.0
2,Produto_15,8,8.0
3,Produto_17,14,14.0
4,Produto_39,16,16.0


> Adicionalmente se quer a média cujos productos a média de unidades vendidas seja maior do que 10

In [17]:
query_6 = """SELECT tb.Nome_Produto, SUM(tb.Unidades_Vendidas) AS
           sum_unidades_vendidas, ROUND(AVG(tb.Unidades_Vendidas), 2) AS 
           media_unidades_vendidas FROM tb_vendas_dsa tb 
           WHERE Valor_Unitario > 199
           GROUP BY tb.Nome_Produto 
           HAVING media_unidades_vendidas > 10
           ORDER BY media_unidades_vendidas, sum_unidades_vendidas DESC
           """
cursor.execute(query_6)
names_coluna = [names[0] for names in cursor.description]
dados = np.array(cursor.fetchall())
pd.DataFrame(dados, columns=names_coluna)

Unnamed: 0,Nome_Produto,sum_unidades_vendidas,media_unidades_vendidas
0,Produto_17,14,14.0
1,Produto_39,16,16.0


In [18]:
# desconetar
cursor.close()
con.close()

## Aplicando Linguagem SQL na Sintaxe do Pandas

In [19]:
# Conetar
con = sqlite3.connect("cap12_dsa.db")
cursor = con.cursor()

In [29]:
# Tabelas disponiveis
query_7 = "SELECT name FROM sqlite_master WHERE type = 'table'; "
cursor.execute(query_7)
nome_colunas = [names[0] for names in cursor.description]
pd.DataFrame(cursor.fetchall(), columns=nome_colunas)

Unnamed: 0,name
0,tb_vendas_dsa


In [32]:
# Selecionar todos os registros e colunas da tabela
query_8 = "SELECT * FROM tb_vendas_dsa;"
cursor.execute(query_8)
names = [names[0] for names in cursor.description]
dados = cursor.fetchall()
pd.DataFrame(dados, columns=names)

Unnamed: 0,ID_Pedido,ID_Cliente,Nome_Produto,Valor_Unitario,Unidades_Vendidas,Custo
0,1,63,Produto_38,154.03,7,92.42
1,2,49,Produto_8,171.52,5,102.91
2,3,83,Produto_39,28.97,13,17.38
3,4,37,Produto_2,104.55,4,62.73
4,5,19,Produto_1,77.21,19,46.33
...,...,...,...,...,...,...
495,496,27,Produto_12,155.02,1,93.01
496,497,32,Produto_23,71.04,6,42.62
497,498,80,Produto_1,67.83,13,40.70
498,499,13,Produto_50,187.89,16,112.73


In [33]:
# desconetar bd
cursor.close()
con.close()

## Muito obrigado por estar aqui comigo!

### Oscar J. O. Ayala