# <font>Data Science</font>

## <font>Fundamentos de Linguagem Python Para Análise de Dados e Data Science</font>

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

In [None]:
import pandas as pd
pd.__version__

## Análise de Dados com Python e Linguagem SQL

**Por Que a Linguagem SQL é Fundamental Para Profissionais de Dados?**

A Linguagem SQL (Structured Query Language) é fundamental para profissionais de dados por várias razões:

- **Padrão Universal**: SQL é uma linguagem padrão e amplamente aceita para gerenciamento e consulta de bancos de dados relacionais. Independentemente do sistema gerenciador de banco de dados (SGBD) utilizado, SQL é a linguagem comum para realizar consultas e manipulações de dados.


- **Flexibilidade**: SQL permite criar consultas complexas e personalizadas, combinando dados de várias tabelas, filtrando informações e realizando operações de agregação e ordenação. Isso permite que os profissionais de dados extraiam informações valiosas a partir dos dados armazenados.


- **Manipulação de Dados**: Além das consultas, SQL permite a inserção, atualização e exclusão de dados, bem como a definição de esquemas e gerenciamento de objetos de banco de dados, como tabelas, índices e visões.


- **Controle de Acesso e Segurança**: SQL também oferece recursos para gerenciar o acesso e a segurança dos dados, permitindo aos profissionais de dados controlar quem pode acessar, modificar ou excluir informações no banco de dados.


- **Alta Demanda no Mercado**: Profissionais de dados com habilidades em SQL estão em alta demanda, já que a linguagem é amplamente usada em várias áreas e setores. O conhecimento em SQL é uma habilidade essencial para cargos como >Analista de Dados, Cientista de Dados, Engenheiro de Dados e Administrador de Banco de Dados.


- **Integração com Outras Ferramentas e Tecnologias**: SQL se integra facilmente com outras ferramentas e linguagens de programação, como Python, R, Java, entre outras. Isso permite que os profissionais de dados aproveitem o poder da Linguagem SQL em conjunto com outras tecnologias para analisar, visualizar e processar dados.

Dominar a linguagem SQL proporciona aos profissionais de dados uma base sólida para trabalhar com bancos de dados relacionais e extrair insights valiosos a partir deles. Aprender SQL é um passo essencial para qualquer pessoa que deseja ingressar ou progredir no campo da Análise e Ciência de dados. A Linguagem SQL é fundamental para profissionais de dados.


In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

In [None]:
import sqlite3
sqlite3.sqlite_version

In [None]:
import pandas as pd
pd.__version__

### Conectando no Banco de Dados com Linguagem Python

In [None]:
# Conecta no banco de dados
con = sqlite3.connect('dataset.db')

In [None]:
# Abre um cursor para percorrer os dados no banco de dados
cursor = con.cursor()

In [None]:
# Query SQL para extrair os nomes das colunas no banco de dados
sql_query = """SELECT name FROM sqlite_master WHERE type = 'table';"""

In [None]:
# Executa a query
cursor.execute(sql_query)

In [None]:
# Visualiza o resultado
print(cursor.fetchall())

In [None]:
# Cria uma instrução SQL
query1 = 'SELECT * FROM tb_vendas'

In [None]:
# Executa a query no banco de dados
cursor.execute(query1)

In [None]:
# List comprehension para visualizar os nomes das colunas
nomes_colunas = [description[0] for description in cursor.description]

In [None]:
# Visualiza o resultado
print(nomes_colunas)

In [None]:
# Retorna os dados da execução da query
dados = cursor.fetchall()

# Visualiza os dados
dados

### Aplicando Linguagem SQL Direto no Banco de Dados com Linguagem Python

In [None]:
# A query abaixo retorna a média de unidades vendidas.

# Cria uma instrução SQL para calcular a média de unidades vendidas
query2 = 'SELECT AVG(Unidades_Vendidas) FROM tb_vendas'

In [None]:
# Executa a query no banco de dados
cursor.execute(query2)

In [None]:
# Visualiza o resultado
print(cursor.fetchall())

In [None]:
# Cria uma instrução SQL para calcular a média de unidades vendidas por produto
query3 = 'SELECT Nome_Produto, AVG(Unidades_Vendidas) FROM tb_vendas GROUP BY Nome_Produto'

In [None]:
# Executa a query no banco de dados
cursor.execute(query3)

In [None]:
# Visualiza o resultado
cursor.fetchall()

In [None]:
# A query abaixo retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199.

# Cria uma instrução SQL para calcular a média de unidades vendidas por produto,
# quando o valor unitário for maior que 199
query4 = """SELECT Nome_Produto, AVG(Unidades_Vendidas)
            FROM tb_vendas
            WHERE Valor_Unitario > 199
            GROUP BY Nome_Produto"""

In [None]:
# Executa a query no banco de dados
cursor.execute(query4)

In [None]:
# Visualiza o resultado
cursor.fetchall()

In [None]:
# A query abaixo retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199 e somente se a média de unidades vendidas for maior do que 10.

# Esta query está ERRADA!
query5 = """SELECT Nome_Produto, AVG(Unidades_Vendidas)
            FROM tb_vendas
            WHERE Valor_Unitario > 199 and AVG(Unidades_Vendidas) > 10
            GROUP BY Nome_Produto """

In [None]:
# Executa a query no banco de dados
# cursor.execute(query5)

In [None]:
# Cria uma instrução SQL para calcular a média de unidades vendidas por produto,
# quando o valor unitário for maior que 199, mas somente se a média de unidades vendidas for maior que 10
query5 = """SELECT Nome_Produto, AVG(Unidades_Vendidas)
            FROM tb_vendas
            WHERE Valor_Unitario > 199
            GROUP BY Nome_Produto
            HAVING AVG(Unidades_Vendidas) > 10"""

In [None]:
# Executa a query no banco de dados
cursor.execute(query5)

In [None]:
# Visualiza o resultado
cursor.fetchall()

In [None]:
# Fecha o cursor e encerra a conexão
cursor.close()
con.close()

In [None]:
# Aplicando Linguagem SQL na Sintaxe do Pandas com Linguagem Python

In [None]:
# Conecta no banco de dados
con = sqlite3.connect('dataset.db')

In [None]:
# Abre um cursor para percorrer os dados no banco de dados
cursor = con.cursor()

In [None]:
# A query abaixo retorna todas as linhas e todas as colunas da tabela.

In [None]:
# Cria uma instrução SQL
query = 'SELECT * FROM tb_vendas'

In [None]:
# Executa a query no banco de dados
cursor.execute(query)

In [None]:
# Retorna os dados da execução da query
dados = cursor.fetchall()
dados

In [None]:
type(dados)

In [None]:
# Carrega os dados como dataframe do Pandas
df = pd.DataFrame(dados, columns = ['ID_Pedido',
                                    'ID_Cliente',
                                    'Nome_Produto',
                                    'Valor_Unitario',
                                    'Unidades_Vendidas',
                                    'Custo'])

In [None]:
df.head()

In [None]:
# Fecha o cursor e encerra a conexão
cursor.close()
con.close()

In [None]:
# A query abaixo retorna a média de unidades vendidas.

In [None]:
# Calcula a média de unidades vendidas
media_unidades_vendidas = df['Unidades_Vendidas'].mean()

In [None]:
type(media_unidades_vendidas)

In [None]:
print(media_unidades_vendidas)

In [None]:
#  query abaixo retorna a média de unidades vendidas por produto.

# Calcula a média de unidades vendidas por produto
media_unidades_vendidas_por_produto = df.groupby('Nome_Produto')['Unidades_Vendidas'].mean()

In [None]:
# Visualiza os 10 primeiros resultados
print(media_unidades_vendidas_por_produto.head(10))

In [None]:
# A query abaixo retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199.

# Retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199.
df[df['Valor_Unitario'] > 199].groupby('Nome_Produto')['Unidades_Vendidas'].mean()

In [None]:
# A query abaixo retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199 e somente se a média de unidades vendidas for maior do que 10.

# Retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199.
df[df['Valor_Unitario'] > 199].groupby('Nome_Produto')['Unidades_Vendidas'].mean()

In [None]:
# A query abaixo retorna a média de unidades vendidas por produto se o valor unitario for maior do que 199 e somente se a média de unidades vendidas for maior do que 10.

# Alternativa B
df[df['Valor_Unitario'] > 199].groupby('Nome_Produto') \
                              .filter(lambda x: x['Unidades_Vendidas'].mean() > 10) \
                              .groupby('Nome_Produto')['Unidades_Vendidas'].mean()

## Sintaxe SQL x Sintaxe Pandas

In [None]:
# Sintaxe SQL
query5 = """SELECT Nome_Produto, AVG(Unidades_Vendidas)
            FROM tb_vendas
            WHERE Valor_Unitario > 199
            GROUP BY Nome_Produto
            HAVING AVG(Unidades_Vendidas) > 10"""

In [None]:
# Sintaxe Pandas
df[df['Valor_Unitario'] > 199].groupby('Nome_Produto') \
                              .filter(lambda x: x['Unidades_Vendidas'].mean() > 10) \
                              .groupby('Nome_Produto')['Unidades_Vendidas'].mean()

## Exercícios do Capítulo

In [None]:
# Exercício 1 - Nesta atividade, você irá conectar-se ao banco de dados, consultar os dados e calcular o total de vendas por produto.
# Para isso, você precisará multiplicar o valor unitário pelas unidades vendidas para cada registro, somando os resultados por nome de produto.


In [None]:
# Exercício 2 - Nesta atividade, você vai calcular a rentabilidade de cada pedido,
# subtraindo o custo total (unidades vendidas * custo) da receita (unidades vendidas * valor unitário).


In [None]:
# Exercicio 3 - Nesta atividade, você vai identificar o cliente que comprou mais unidades de um determinado produto e
# calcular o valor total gasto por esse cliente.


## Fim