# Nome do aluno
## Nuno Pereira

Instruções:
1. Leia cuidadosamente cada pergunta antes de responder.
2. Para cada questão, escreva o código SQL na área fornecida.
3. Não se esqueça de comentar o seu código sempre que relevante.
4. Este teste está dividido em níveis de dificuldade. Responda a todas as questões dentro do tempo alocado.

### Importação Livrarias

In [1]:
import pyodbc
import pandas as pd

### Ligação a base de dados SQL Server

In [2]:
driver = '{ODBC Driver 17 for SQL Server}'  # Certifique-se de que o driver está instalados

# Configuração da ligação (data source)
serverSource = 'localhost'  # Substitua pelo nome ou IP do servidor
databaseSource = 'AdventureWorks2022'  # Nome da base de dados
usernameSource = 'sa'  # Substitua pelo seu utilizador
passwordSource = '********'  # Substitua pela sua password

# Criar ligação (source)
try:
    connSource = pyodbc.connect(
        f'DRIVER={driver};SERVER={serverSource};DATABASE={databaseSource};UID={usernameSource};PWD={passwordSource}'
    )
    print("Ligação bem-sucedida ao SQL Server de origem.")
except Exception as e:
    print("Erro ao ligar-se ao SQL Server:", e)
    exit()


Ligação bem-sucedida ao SQL Server de origem.


### Função para executar Queries e guardar resultado em dataframe

In [3]:
def executar_query(query, conexao):
    try:
        df = pd.read_sql_query(query, conexao)
        print("Query executada com sucesso! Dados guardados no DataFrame.")
        print(df)  # Visualizar o DataFrame
        return df
    except Exception as e:
        print("Erro ao executar a query:", e)
        return None

### Função para executar Queries que não retornam resultados, e.g. create table

In [4]:
def executar_query_noresult(query, conexao):
    try:
        # Para comandos que não retornam resultados, usa execute() diretamente
        with conexao.cursor() as cursor:
            cursor.execute(query)
            conexao.commit()  
        print("Query executada com sucesso!")
    except Exception as e:
        print("Erro ao executar a query:", e)
        return None


## Parte 1: Questões Simples

### 1. Selecção de Dados

Escreva uma consulta para listar os primeiros 10 registos da tabela Person.Person, mostrando as colunas FirstName e LastName.

In [5]:
# Query SQL
query = """
SELECT TOP (10) [FirstName],[LastName]
FROM [Person].[Person]
"""

#### Explicação

O comando de SQL acima permite extrair os 10 primeiros registos da tabela person, apresentando apenas os campos firstname e lastname. Ao utilizar SELECT TOP (10), limito o número de linhas devolvidas, nesse caso as primeiras 10 linhas.

In [6]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
   FirstName     LastName
0       Syed        Abbas
1  Catherine         Abel
2        Kim  Abercrombie
3        Kim  Abercrombie
4        Kim  Abercrombie
5      Hazem     Abolrous
6        Sam     Abolrous
7   Humberto      Acevedo
8    Gustavo       Achong
9      Pilar     Ackerman


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,FirstName,LastName
0,Syed,Abbas
1,Catherine,Abel
2,Kim,Abercrombie
3,Kim,Abercrombie
4,Kim,Abercrombie
5,Hazem,Abolrous
6,Sam,Abolrous
7,Humberto,Acevedo
8,Gustavo,Achong
9,Pilar,Ackerman


### 2. Filtragem de Dados

Liste os nomes e sobrenomes de todas as pessoas cujo primeiro nome comece com a letra 'J'.

In [7]:
# Query SQL
query = """
SELECT [FirstName],[LastName]
FROM [Person].[Person]
WHERE FirstName LIKE 'J%';
"""

#### Explicação

O comando sql acima seleciona os campos firstname e lastname da tabela person, considerando apenas  os registos cujo nome próprio FirstName começa com a letra 'J'. A cláusula WHERE FirstName LIKE 'J%' usa o LIKE para filtrar nomes que iniciem por 'J', ignorando todos os outros. O % é um wildcard que no caso acima significa  que considera todos os registos que começam por ‘J’ podendo ter quaisquer outros caracteres a seguir.

In [8]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
     FirstName   LastName
0         Jack      Adams
1      Jackson      Adams
2         Jada      Adams
3        James      Adams
4        Jason      Adams
...        ...        ...
2458     Jenny  Zimmerman
2459        Jo  Zimmerman
2460   Juanita  Zimmerman
2461      Judy   Zugelder
2462      Jake   Zukowski

[2463 rows x 2 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,FirstName,LastName
0,Jack,Adams
1,Jackson,Adams
2,Jada,Adams
3,James,Adams
4,Jason,Adams
...,...,...
2458,Jenny,Zimmerman
2459,Jo,Zimmerman
2460,Juanita,Zimmerman
2461,Judy,Zugelder


### 3. Ordenação de Dados

Liste os produtos da tabela Production.Product ordenados pelo nome (Name) em ordem alfabética.

In [22]:
# Query SQL
query = """
SELECT [Name]
FROM Production.Product
ORDER BY Name ASC;
"""

#### Explicação

O comando sql acima seleciona a coluna Name da tabela Production.Product ordenando o resultado utilizando através da cláusula ORDER BY, que neste caso em ordem alfabética ascendente (ASC). O valor ASC é o valor por defeito, caso não seja definido nenhum valor.

In [24]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
                           Name
0               Adjustable Race
1        All-Purpose Bike Stand
2                  AWC Logo Cap
3               BB Ball Bearing
4                  Bearing Ball
..                          ...
499  Women's Mountain Shorts, M
500  Women's Mountain Shorts, S
501           Women's Tights, L
502           Women's Tights, M
503           Women's Tights, S

[504 rows x 1 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,Name
0,Adjustable Race
1,All-Purpose Bike Stand
2,AWC Logo Cap
3,BB Ball Bearing
4,Bearing Ball
...,...
499,"Women's Mountain Shorts, M"
500,"Women's Mountain Shorts, S"
501,"Women's Tights, L"
502,"Women's Tights, M"


### 4. Contagem de Registos

Quantos produtos existem na tabela Production.Product?

In [34]:
# Query SQL
query = """
SELECT COUNT(*) AS TotalItems
FROM Production.Product;
"""

#### Explicação

O comando sql acima  conta o numero de registos na tabela Produto utilizando a função count(). Foi criado um  alias  para  atribuir um nome mais explícito à coluna resultante da função.

In [35]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
   TotalItems
0         504


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,TotalItems
0,504


### 5. Filtragem de Dados

Liste os pedidos (Sales.SalesOrderHeader) realizados após 1 de janeiro de 2014

In [1]:
# Query SQL
query = """
SELECT *
FROM Sales.SalesOrderHeader
WHERE OrderDate > '20140101';
"""

#### Explicação

O comando sql acima seleciona todos os registos da tabela SalesOrderHeader cujas datas de encomenda (OrderDate) sejam posteriores a 1 de janeiro de 2014. Neste caso, a condição WHERE OrderDate > '20140101' utiliza a data sem hífens, num formato contínuo (YYYYMMDD) que garante que o SQL Server interprete corretamente a data independentemente das definições regionais do servidor.

In [39]:
executar_query(query, connSource)

  df = pd.read_sql_query(query, conexao)


Query executada com sucesso! Dados guardados no DataFrame.
       SalesOrderID  RevisionNumber  OrderDate    DueDate   ShipDate  Status  \
0             63425               8 2014-01-02 2014-01-14 2014-01-09       5   
1             63426               8 2014-01-02 2014-01-14 2014-01-09       5   
2             63427               8 2014-01-02 2014-01-14 2014-01-09       5   
3             63428               8 2014-01-02 2014-01-14 2014-01-09       5   
4             63429               8 2014-01-02 2014-01-14 2014-01-09       5   
...             ...             ...        ...        ...        ...     ...   
11694         75119               8 2014-06-30 2014-07-12 2014-07-07       5   
11695         75120               8 2014-06-30 2014-07-12 2014-07-07       5   
11696         75121               8 2014-06-30 2014-07-12 2014-07-07       5   
11697         75122               8 2014-06-30 2014-07-12 2014-07-07       5   
11698         75123               8 2014-06-30 2014-07-12 201

Unnamed: 0,SalesOrderID,RevisionNumber,OrderDate,DueDate,ShipDate,Status,OnlineOrderFlag,SalesOrderNumber,PurchaseOrderNumber,AccountNumber,...,CreditCardID,CreditCardApprovalCode,CurrencyRateID,SubTotal,TaxAmt,Freight,TotalDue,Comment,rowguid,ModifiedDate
0,63425,8,2014-01-02,2014-01-14,2014-01-09,5,True,SO63425,,10-4030-017247,...,8099.0,816159Vi41988,10787.0,854.45,68.3560,21.3613,944.1673,,E8CD486A-DC83-4721-9465-076294C4EB62,2014-01-09
1,63426,8,2014-01-02,2014-01-14,2014-01-09,5,True,SO63426,,10-4030-017195,...,12385.0,416589Vi64057,,2330.23,186.4184,58.2558,2574.9042,,6E194717-D886-4E89-B122-938291944686,2014-01-09
2,63427,8,2014-01-02,2014-01-14,2014-01-09,5,True,SO63427,,10-4030-018125,...,11994.0,1216594Vi61993,,2354.99,188.3992,58.8748,2602.2640,,C42E16A8-76AA-471B-8C7A-50106E9329EA,2014-01-09
3,63428,8,2014-01-02,2014-01-14,2014-01-09,5,True,SO63428,,10-4030-017185,...,8795.0,116598Vi45403,10792.0,2344.96,187.5968,58.6240,2591.1808,,17CA17EB-C7EC-48EB-BCA6-9F4B7DBBF523,2014-01-09
4,63429,8,2014-01-02,2014-01-14,2014-01-09,5,True,SO63429,,10-4030-011211,...,17680.0,516708Vi91761,10789.0,13.98,1.1184,0.3495,15.4479,,4A3B304F-A4EA-4507-8AB7-700115D22E7D,2014-01-09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11694,75119,8,2014-06-30,2014-07-12,2014-07-07,5,True,SO75119,,10-4030-011981,...,6761.0,429826Vi35166,,42.28,3.3824,1.0570,46.7194,,9382F1C9-383A-435F-9449-0EECEA21B78D,2014-07-07
11695,75120,8,2014-06-30,2014-07-12,2014-07-07,5,True,SO75120,,10-4030-018749,...,8925.0,929849Vi46003,,84.96,6.7968,2.1240,93.8808,,AE6A4FCF-FF73-4CD4-AF2C-5993D00D4AFE,2014-07-07
11696,75121,8,2014-06-30,2014-07-12,2014-07-07,5,True,SO75121,,10-4030-015251,...,14220.0,529864Vi73738,,74.98,5.9984,1.8745,82.8529,,D7395C0E-00CB-4BFA-A238-0D6A9F49884F,2014-07-07
11697,75122,8,2014-06-30,2014-07-12,2014-07-07,5,True,SO75122,,10-4030-015868,...,18719.0,330022Vi97312,,30.97,2.4776,0.7743,34.2219,,4221035A-4159-492F-AF40-4363A64FFC16,2014-07-07


## Parte 2: Questões Intermédias

### 6. Funções de Agregação

Calcule o total de vendas (TotalDue) na tabela Sales.SalesOrderHeader.

In [53]:
# Query SQL
query = """
SELECT SUM(TotalDue) AS "TotalDue ($)"
FROM Sales.SalesOrderHeader;
"""

#### Explicação

A query sql soma o valor de todas das vendas (TotalDue) da tabela Sales.SalesOrderHeader, através da função de agregação SUM(). O resultado é apresentado com o alias TotalVendas (4).

In [52]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
   TotalSales ($)
0    1.232168e+08


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,TotalSales ($)
0,123216800.0


### 7. Agrupamento de Dados

Mostre o número de vendas realizadas por cada território (TerritoryID) na tabela Sales.SalesOrderHeader.

In [58]:
# Query SQL
query = """
SELECT TerritoryID, COUNT(*) AS NumberOfSalesOrderByTerritory
FROM Sales.SalesOrderHeader
GROUP BY TerritoryID;
"""

#### Explicação

O comando SQL acima permite-te contar o número total de vendas existentes em cada TerritoryID. A função COUNT() calcula a quantidade total de linhas (vendas), enquanto a cláusula GROUP BY TerritoryID agrupa esses resultados por território.

In [59]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
   TerritoryID  NumberOfSalesOrderByTerritory
0            9                           6843
1            3                            385
2            6                           4067
3            7                           2672
4            1                           4594
5           10                           3219
6            4                           6224
7            5                            486
8            2                            352
9            8                           2623


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,TerritoryID,NumberOfSalesOrderByTerritory
0,9,6843
1,3,385
2,6,4067
3,7,2672
4,1,4594
5,10,3219
6,4,6224
7,5,486
8,2,352
9,8,2623


### 8. Joins Simples

Escreva uma consulta para listar os nomes dos clientes (Person.Person.FirstName, Person.Person.LastName) e o ID dos seus pedidos (Sales.SalesOrderHeader.SalesOrderID).

In [68]:
# Query SQL
query = """
SELECT p.FirstName,p.LastName,salesorder.SalesOrderID
FROM Sales.SalesOrderHeader AS salesorder
INNER JOIN Sales.Customer AS cust
ON salesorder.CustomerID = cust.CustomerID
INNER JOIN Person.Person AS p
ON cust.PersonID = p.BusinessEntityID;
"""

#### Explicação

O comando SQL apresenta o nome dos clientes e o ID dos respetivos pedidos (SalesOrderID). Como não é possível obter toda a informação apenas da tabela de vendas, estabelecem-se relações entre as várias tabelas que contêm esses dados.

A partir da tabela de encomendas (Sales.SalesOrderHeader), obtém-se a identificação de cada pedido (SalesOrderID) e o identificador do cliente (CustomerID). Seguidamente, cruza-se esta informação com a tabela de clientes (Sales.Customer), através do campo CustomerID, para se obter o PersonID. Este valor permite, por fim, ligar à tabela Person (Person.Person), através do BusinessEntityID, e assim aceder diretamente aos campos referentes ao nome do cliente (FirstName e LastName).


In [69]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
      FirstName  LastName  SalesOrderID
0           Jon      Yang         43793
1           Jon      Yang         51522
2           Jon      Yang         57418
3        Eugene     Huang         43767
4        Eugene     Huang         51493
...         ...       ...           ...
31460  Caroline  Vicknair         50675
31461  Caroline  Vicknair         53480
31462  Caroline  Vicknair         58928
31463  Caroline  Vicknair         65221
31464  Caroline  Vicknair         71803

[31465 rows x 3 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,FirstName,LastName,SalesOrderID
0,Jon,Yang,43793
1,Jon,Yang,51522
2,Jon,Yang,57418
3,Eugene,Huang,43767
4,Eugene,Huang,51493
...,...,...,...
31460,Caroline,Vicknair,50675
31461,Caroline,Vicknair,53480
31462,Caroline,Vicknair,58928
31463,Caroline,Vicknair,65221


### 9. Alias e Expressões Calculadas

Liste os produtos da tabela Production.Product e calcule o preço com um desconto de 10%. Utilize um alias para a coluna com o preço final.

In [70]:
# Query SQL
query = """
SELECT Name,CAST(ListPrice AS DECIMAL(10, 2)) AS OriginalPrice,
CONCAT('€', CAST(ListPrice * 0.9 AS DECIMAL(10, 2))) AS FinalPrice
FROM Production.Product;
"""

#### Explicação

O comando de sql apresenta o nome do produto através da coluna Name. O preço original, representado pelo campo ListPrice, é convertido para um formato decimal com duas casas decimais utilizando a função CAST, garantindo uma apresentação normal em moeda. O preço final com desconto é calculado aplicando uma redução de 10% ao preço original e também é formatado para duas casas decimais. O preço final formatado com o símbolo da moeda (€) utilizando a função CONCAT.

In [71]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
                      Name  OriginalPrice FinalPrice
0          Adjustable Race           0.00      €0.00
1             Bearing Ball           0.00      €0.00
2          BB Ball Bearing           0.00      €0.00
3    Headset Ball Bearings           0.00      €0.00
4                    Blade           0.00      €0.00
..                     ...            ...        ...
499      ML Bottom Bracket         101.24     €91.12
500      HL Bottom Bracket         121.49    €109.34
501     Road-750 Black, 44         539.99    €485.99
502     Road-750 Black, 48         539.99    €485.99
503     Road-750 Black, 52         539.99    €485.99

[504 rows x 3 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,Name,OriginalPrice,FinalPrice
0,Adjustable Race,0.00,€0.00
1,Bearing Ball,0.00,€0.00
2,BB Ball Bearing,0.00,€0.00
3,Headset Ball Bearings,0.00,€0.00
4,Blade,0.00,€0.00
...,...,...,...
499,ML Bottom Bracket,101.24,€91.12
500,HL Bottom Bracket,121.49,€109.34
501,"Road-750 Black, 44",539.99,€485.99
502,"Road-750 Black, 48",539.99,€485.99


### 10. Funções de Data

Liste todos os funcionários (HumanResources.Employee) contratados nos últimos 5 anos.

In [5]:
# Query SQL
query = """
SELECT employe.BusinessEntityID,person.FirstName,person.LastName,employe.HireDate
FROM 
    HumanResources.Employee AS employe
INNER JOIN Person.Person AS person
    ON employe.BusinessEntityID = person.BusinessEntityID
WHERE DATEDIFF(YEAR, employe.HireDate,  GETDATE()) <= 5;
"""

#### Explicação

O comando SQL lista os funcionários contratados nos últimos 5 anos. No entanto, neste caso, o resultado é um conjunto vazio, pois o último funcionário foi contratado em 30 de maio de 2013, há mais de 10 anos, pelo que não existem registos que cumpram o critério.

O comando apresenta o identificador único de cada funcionário, o primeiro nome, o apelido e a data de contratação. Os dados são obtidos a partir das tabelas Employee e Person, que estão relacionadas pelo campo comum BusinessEntityID. A cláusula INNER JOIN é utilizada para associar os dados entre estas tabelas.

A cláusula WHERE filtra os registos, devolvendo apenas aqueles cuja data de contratação ocorreu nos últimos 5 anos. Este filtro utiliza a função DATEDIFF, que calcula a diferença entre duas datas com base numa unidade de tempo específica — neste caso, anos. A função compara a data atual (GETDATE()) com a data de contratação (HireDate) e inclui apenas os registos em que essa diferença seja inferior a 5 anos.

In [6]:
executar_query(query, connSource)

  df = pd.read_sql_query(query, conexao)


Query executada com sucesso! Dados guardados no DataFrame.
Empty DataFrame
Columns: [BusinessEntityID, FirstName, LastName, HireDate]
Index: []


Unnamed: 0,BusinessEntityID,FirstName,LastName,HireDate


## Parte 3: Questões Avançadas

### 11. Subqueries

Liste os produtos (Production.Product) que nunca foram vendidos (Sales.SalesOrderDetail).

In [14]:
# Query SQL
query = """
SELECT prod.ProductID, prod.Name
FROM 
    Production.Product prod
WHERE 
    prod.ProductID NOT IN ( SELECT DISTINCT salesdetail.ProductID FROM Sales.SalesOrderDetail salesdetail )
    order by  prod.ProductID;
"""

#### Explicação

no comando de sql acima, a subquery  na clausula "WHERE" seleciona todos os id de produtos distintos presentes na tabela de vendas, ou seja, os produtos que já foram vendidos. O operador NOT IN na query principal verifica quais os ids de produtos  da tabela Production.Product não estão na lista de produtos vendidos retornados pela subquery. Como resultado temos  apenas os produtos que nunca foram vendidos.

In [15]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
     ProductID                           Name
0            1                Adjustable Race
1            2                   Bearing Ball
2            3                BB Ball Bearing
3            4          Headset Ball Bearings
4          316                          Blade
..         ...                            ...
233        848      Headlights - Weatherproof
234        851        Men's Sports Shorts, XL
235        901  LL Touring Frame - Yellow, 54
236        912            ML Road Seat/Saddle
237        995              ML Bottom Bracket

[238 rows x 2 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,ProductID,Name
0,1,Adjustable Race
1,2,Bearing Ball
2,3,BB Ball Bearing
3,4,Headset Ball Bearings
4,316,Blade
...,...,...
233,848,Headlights - Weatherproof
234,851,"Men's Sports Shorts, XL"
235,901,"LL Touring Frame - Yellow, 54"
236,912,ML Road Seat/Saddle


### 12. CTEs (Common Table Expressions)

Crie uma CTE para calcular a média de preço dos produtos (StandardCost) por categoria (ProductCategoryID).

In [16]:
# Query SQL
query = """
WITH AverageCost AS (
    SELECT 
        category.ProductCategoryID,
        AVG(prod.StandardCost) AS AverageStandardCost
    FROM 
        Production.Product prod
    INNER JOIN 
        Production.ProductSubcategory subcategory ON prod.ProductSubcategoryID = subcategory.ProductSubcategoryID
    INNER JOIN 
        Production.ProductCategory category ON subcategory.ProductCategoryID = category.ProductCategoryID
    GROUP BY 
        category.ProductCategoryID
)
SELECT prodcat.ProductCategoryID,prodcat.Name AS CategoryName,AverageStandardCost
FROM 
    AverageCost
INNER JOIN 
    Production.ProductCategory prodcat ON AverageCost.ProductCategoryID = prodcat.ProductCategoryID;

"""

#### Explicação

O comando sql acima  utiliza uma CTE chamada AverageCost para calcular o valor médio do custo  (StandardCost) de produtos, agrupados por categorias (ProductCategoryID). Dentro da CTE, a tabela Production.Product é ligada à tabela Production.ProductSubcategory através da coluna ProductSubcategoryID, permitindo identificar a subcategoria de cada produto. Em seguida, a tabela Production.ProductSubcategory é ligada à tabela Production.ProductCategory através da coluna ProductCategoryID, associando as subcategorias às suas categorias principais. A função agregada AVG(p.StandardCost) calcula a média do custo (Standard Cost) para cada categoria, e o agrupamento é feito através da clasula GROUP BY category.ProductCategoryID para garantir que o custo médio seja calculado separadamente para cada categoria.

Após a CTE calcular os custos médios por id de categoria, é efetuado uma query que relaciona o a informação da categoria como o id,nome com o custo médio da mesma calculado na CTE.

In [17]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
   ProductCategoryID CategoryName  AverageStandardCost
0                  1        Bikes             949.4105
1                  2   Components             268.1372
2                  3     Clothing              24.8031
3                  4  Accessories              13.2301


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,ProductCategoryID,CategoryName,AverageStandardCost
0,1,Bikes,949.4105
1,2,Components,268.1372
2,3,Clothing,24.8031
3,4,Accessories,13.2301


### 13. Funções de Janela

Liste os produtos e o seu custo (StandardCost) com a média do custo de todos os produtos na mesma categoria (ProductSubcategoryID). Utilize a função OVER

In [18]:
# Query SQL
query = """

SELECT 
    prod.ProductID,
    prod.Name AS ProductName,
    prod.StandardCost,
    prod.ProductSubcategoryID,
    AVG(prod.StandardCost) OVER (PARTITION BY prod.ProductSubcategoryID) AS AverageSubcategoryCost
FROM 
    Production.Product prod
ORDER BY 
    prod.ProductSubcategoryID, prod.ProductID;

"""

#### Explicação

O comando sql  retorna para cada produto, o  id (ProductID), o nome (ProductName), o custo padrão (StandardCost), o identificador da subcategoria (ProductSubcategoryID) e a média do custo (StandardCost) para todos os produtos da mesma subcategoria, calculado através da função de janela (AVG com OVER).
A função de janela AVG(prod.StandardCost) permite que cada linha (produto) mostre, além dos seus próprios dados, a média do custo padrão de todos os produtos pertencentes à mesma subcategoria.
A cláusula ORDER BY ordena os resultados primeiro por subcategoria (ProductSubcategoryID) e, dentro de cada subcategoria, pelo identificador do produto (ProductID).

In [19]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
     ProductID            ProductName  StandardCost  ProductSubcategoryID  \
0            1        Adjustable Race        0.0000                   NaN   
1            2           Bearing Ball        0.0000                   NaN   
2            3        BB Ball Bearing        0.0000                   NaN   
3            4  Headset Ball Bearings        0.0000                   NaN   
4          316                  Blade        0.0000                   NaN   
..         ...                    ...           ...                   ...   
499        930       HL Mountain Tire       13.0900                  37.0   
500        931           LL Road Tire        8.0373                  37.0   
501        932           ML Road Tire        9.3463                  37.0   
502        933           HL Road Tire       12.1924                  37.0   
503        934           Touring Tire       10.8423                  37.0   

     AverageSubc

  df = pd.read_sql_query(query, conexao)


Unnamed: 0,ProductID,ProductName,StandardCost,ProductSubcategoryID,AverageSubcategoryCost
0,1,Adjustable Race,0.0000,,5.0760
1,2,Bearing Ball,0.0000,,5.0760
2,3,BB Ball Bearing,0.0000,,5.0760
3,4,Headset Ball Bearings,0.0000,,5.0760
4,316,Blade,0.0000,,5.0760
...,...,...,...,...,...
499,930,HL Mountain Tire,13.0900,37.0,7.2865
500,931,LL Road Tire,8.0373,37.0,7.2865
501,932,ML Road Tire,9.3463,37.0,7.2865
502,933,HL Road Tire,12.1924,37.0,7.2865


### 14. Joins Complexos

Liste os nomes dos clientes e o total gasto por cada um nos pedidos, incluindo apenas clientes com mais de 5 pedidos.

In [20]:
# Query SQL
query = """

SELECT 
    person.FirstName + ' ' + person.LastName AS CustomerName,
    COUNT(salesorderdetail.SalesOrderID) AS OrderCount,
    SUM(salesorderdetail.UnitPrice * salesorderdetail.OrderQty) AS TotalSpent
FROM 
    Sales.Customer customer
INNER JOIN 
    Person.Person person ON customer.PersonID = person.BusinessEntityID
INNER JOIN 
    Sales.SalesOrderHeader salesorder ON customer.CustomerID = salesorder.CustomerID
INNER JOIN 
    Sales.SalesOrderDetail salesorderdetail ON salesorder.SalesOrderID = salesorderdetail.SalesOrderID
GROUP BY 
    person.FirstName, person.LastName
HAVING 
    COUNT(salesorderdetail.SalesOrderID) > 5
ORDER BY 
    TotalSpent DESC;

"""

#### Explicação

O comando SQL apresenta informações sobre os clientes, como o nome completo, o número total de pedidos e o total gasto, considerando apenas os clientes que realizaram mais de cinco pedidos. Para filtrar os resultados com base numa função agregada como COUNT(), é utilizada a cláusula HAVING.

A associação dos clientes aos valores gastos (salesorderdetail.UnitPrice * salesorderdetail.OrderQty) é feita através de uma série de cruzamentos entre tabelas. Primeiro, as tabelas Sales.Customer e SalesOrderHeader são ligadas utilizando a coluna CustomerID. Em seguida, a tabela de detalhe dos pedidos (SalesOrderDetail) é cruzada com a tabela SalesOrderHeader através do campo SalesOrderID.

Desta forma, é possível associar cada cliente ao respetivo valor gasto. Após estas junções, os dados são agrupados por cliente, identificados pelos campos FirstName e LastName. Para cada cliente, são calculados dois valores: o número total de pedidos realizados, utilizando a função COUNT(salesorderdetail.SalesOrderID), e o valor total gasto em todos os pedidos, calculado como a soma  o preço unitário e a quantidade pedida (SUM(salesorderdetail.UnitPrice * salesorderdetail.OrderQty)).

De seguida, a cláusula HAVING é utilizada para filtrar os resultados, incluindo apenas os clientes que realizaram mais de cinco pedidos. Por fim, os resultados são apresentados em ordem decrescente pelo total gasto, destacando os clientes que gastaram mais no topo da lista.



In [21]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
         CustomerName  OrderCount   TotalSpent
0         Roger Harui         301  882472.7866
1         Reuben D'sa         530  860147.5110
2        Andrew Dixon         366  853850.6395
3        Robert Vessa         436  817127.8029
4       Ryan Calafato         451  803769.8509
...               ...         ...          ...
2227   Orlando Suarez           6      58.1600
2228   Arianna Morris           6      57.5100
2229      Russell Xie           6      56.5100
2230  Lindsay Chander           6      49.7000
2231       Tamara Sun           6      44.0400

[2232 rows x 3 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,CustomerName,OrderCount,TotalSpent
0,Roger Harui,301,882472.7866
1,Reuben D'sa,530,860147.5110
2,Andrew Dixon,366,853850.6395
3,Robert Vessa,436,817127.8029
4,Ryan Calafato,451,803769.8509
...,...,...,...
2227,Orlando Suarez,6,58.1600
2228,Arianna Morris,6,57.5100
2229,Russell Xie,6,56.5100
2230,Lindsay Chander,6,49.7000


### 15. Triggers e Updates

Escreva um UPDATE para aumentar o preço de todos os produtos em 5% e crie um trigger que registe essa alteração numa tabela chamada PriceChangeLog.

In [8]:
# criação da tabela
query = """
CREATE TABLE PriceChangeLog (
    ChangeID UNIQUEIDENTIFIER DEFAULT NEWID() PRIMARY KEY,
    ProductID INT NOT NULL,
    OldPrice DECIMAL(18,2) NOT NULL,
    NewPrice DECIMAL(18,2) NOT NULL,
    ChangeDate DATETIME DEFAULT GETDATE()
);
"""

#### Explicação
O comando CREATE TABLE cria uma tabela chamada PriceChangeLog, destinada a registar as alterações de preços dos produtos. A tabela contém a coluna ChangeID, que é a chave primária e utiliza o tipo UNIQUEIDENTIFIER para armazenar valores GUID (Globally Unique Identifier). Cada novo registo tem o seu ChangeID gerado automaticamente através da função NEWID().

A coluna ProductID, do tipo INT, identifica o produto cujo preço foi alterado, sendo obrigatória (NOT NULL) para garantir que cada alteração de preço esteja associada a um produto válido. Já a coluna OldPrice armazena o preço anterior do produto antes da alteração, e a coluna NewPrice regista o novo preço do produto após a alteração. Ambas utilizam o tipo DECIMAL(18,2), que permite valores numéricos com até 18 dígitos no total, incluindo 2 casas decimais, e também possuem a restrição NOT NULL.

Por fim, a coluna ChangeDate, do tipo DATETIME, regista a data e a hora em que a alteração foi feita. Esta coluna tem um valor padrão definido pela função GETDATE(), que insere automaticamente a data e a hora atuais no momento em que o registo é criado. Esta tabela é essencial para monitorizar alterações de preços, associando cada alteração a um produto e registando as informações relevantes de forma organizada e detalhada.

Como a intrução de criação de tabela não é suposto retornar uma lista de resultados como o comando select, foi criado uma função 
executar_query_noresult() para este tipo de instruções de sql

In [9]:
executar_query_noresult(query, connSource)

Query executada com sucesso!


In [12]:
# criação da triguer para mapear alteração de preços
query = """

CREATE TRIGGER OnAfterUpdateItem_LogPriceChange
ON Production.Product
AFTER UPDATE
AS
BEGIN
    -- Insere os registos das alterações na tabela PriceChangeLog
    INSERT INTO PriceChangeLog (ProductID, OldPrice, NewPrice, ChangeDate)
    SELECT 
        i.ProductID,
        d.ListPrice AS OldPrice,
        i.ListPrice AS NewPrice,
        GETDATE() AS ChangeDate
    FROM 
        Inserted i
    INNER JOIN 
        Deleted d ON i.ProductID = d.ProductID
    WHERE 
        d.ListPrice <> i.ListPrice; -- Regista apenas se o preço foi alterado
END;
"""

#### Explicação

O comando cria um trigger chamado OnAfterUpdateItem_LogPriceChange, que é executado automaticamente após um update na tabela Production.Product. 
Portanto quando um UPDATE ocorre, o trigger insere informações sobre o produto cujo preço foi alterado, incluindo o identificador do produto (ProductID), o preço antigo (OldPrice), o novo preço (NewPrice) e a data e hora da alteração (ChangeDate), utilizando a função GETDATE().

O trigger utiliza as tabelas temporárias Inserted e Deleted, que armazenam os valores novos e antigos, respetivamente, durante a execução de um UPDATE. Estas tabelas são usadas para comparar os preços antes e depois da alteração. Apenas registos onde o preço antigo (d.ListPrice) é diferente do novo preço (i.ListPrice) são inseridos na tabela PriceChangeLog. Isto assegura que apenas alterações nos preços dos produtos sejam registadas na tabela de registo de alterações de preços


In [13]:
executar_query_noresult(query, connSource)

Query executada com sucesso!


In [15]:
# criação da triguer para mapear alteração de preços
query = """
UPDATE Production.Product
SET ListPrice = ListPrice * 1.05;
"""


#### Explicação

O comando UPDATE ajusta o preço de todos os produtos na tabela Production.Product, aumentando o valor da coluna ListPrice em 5%. 

In [16]:
executar_query_noresult(query, connSource)

Query executada com sucesso!


In [17]:
# verificar registos inseridos em changelogentry
query = """
select * from PriceChangeLog
"""

#### Explicação

Neste passo é feito uma consulta à tabela de registo de alterações de preço de forma a confirmar que o triguer de rastreio de alteração de preços está funcionando corretamente.

In [18]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
                                  ChangeID  ProductID  OldPrice  NewPrice  \
0     9444D166-9D24-45E7-AA91-00010A43A220        815     60.59     63.62   
1     30D56A53-79D3-4DA2-B6EC-00051B8BD57D        709      9.48      9.95   
2     561C4190-D24F-4D88-857F-000641F95EE7        995    100.99    106.04   
3     E422099E-EBBA-4EA0-A07F-0006DF2CC1CC        913     55.13     57.89   
4     B2E549FC-7C80-4424-86C4-003420AA0684        738    336.38    353.20   
...                                    ...        ...       ...       ...   
1211  D40EA2D4-E071-4CFC-A960-FE534FC64690        718   1499.32   1574.28   
1212  A9402208-6165-4177-804E-FEC4BE10C9F1        773   3391.49   3561.06   
1213  3C445517-5EFA-4B7B-8375-FF31434ED96D        930     36.66     38.49   
1214  771461A9-B927-4897-848B-FF49F925E784        724    336.38    353.20   
1215  A3DC3A2F-BE76-4151-A9BB-FF6F98D787AB        850     62.83     65.97   

                

  df = pd.read_sql_query(query, conexao)


Unnamed: 0,ChangeID,ProductID,OldPrice,NewPrice,ChangeDate
0,9444D166-9D24-45E7-AA91-00010A43A220,815,60.59,63.62,2024-12-20 00:11:09.420
1,30D56A53-79D3-4DA2-B6EC-00051B8BD57D,709,9.48,9.95,2024-12-20 00:11:09.403
2,561C4190-D24F-4D88-857F-000641F95EE7,995,100.99,106.04,2024-12-20 00:11:09.403
3,E422099E-EBBA-4EA0-A07F-0006DF2CC1CC,913,55.13,57.89,2024-12-20 00:11:50.133
4,B2E549FC-7C80-4424-86C4-003420AA0684,738,336.38,353.20,2024-12-20 00:11:09.403
...,...,...,...,...,...
1211,D40EA2D4-E071-4CFC-A960-FE534FC64690,718,1499.32,1574.28,2024-12-20 00:11:50.133
1212,A9402208-6165-4177-804E-FEC4BE10C9F1,773,3391.49,3561.06,2024-12-20 00:11:09.403
1213,3C445517-5EFA-4B7B-8375-FF31434ED96D,930,36.66,38.49,2024-12-20 00:11:50.133
1214,771461A9-B927-4897-848B-FF49F925E784,724,336.38,353.20,2024-12-20 00:11:09.403


## Parte 4: Questões Muito Avançadas

### 16. Pivot Tables

Crie uma consulta que mostre o número de vendas realizadas por território em cada ano, no formato de tabela dinâmica.

In [19]:
# consulta vendas por ano/territorio tabela dinamica
query = """
SELECT 
    TerritoryName,
    [2011] AS Sales2011,
    [2012] AS Sales2012,
    [2013] AS Sales2013,
	[2014] AS Sales2014
FROM (
    SELECT 
        territory.Name AS TerritoryName,
        YEAR(salesorder.OrderDate) AS SalesYear,
        COUNT(salesorder.SalesOrderID) AS SalesCount
    FROM 
        Sales.SalesOrderHeader salesorder
    INNER JOIN 
        Sales.SalesTerritory territory ON salesorder.TerritoryID = territory.TerritoryID
    GROUP BY 
        territory.Name, YEAR(salesorder.OrderDate)
) AS SalesData
PIVOT (
    SUM(SalesCount) 
    FOR SalesYear IN ([2011],[2012],[2013],[2014])
) AS PivotTable
ORDER BY 
    TerritoryName;
"""

#### Explicação

O presente comando sql  apresenta o numero de vendas realizadas por território em cada ano (2011, 2012, 2013 e 2014) no formato de uma tabela pivot. Para definição das colunas, foi efetuado uma consulta dos valores distintos por ano na tabela de vendas, obtendo os anos colocados em coluna. 
Foi utilizada a função PIVOT para transformar a variavel  anos em colunas.

Foi utilizado uma subquery que seleciona o nome do território (TerritoryName), o ano  (extraído da coluna OrderDate) e o número total de vendas realizadas em cada ano (SalesCount). Esses dados são agrupados pelo nome do território e pelo ano. 

A cláusula PIVOT transforma os valores únicos de SalesYear (2011, 2012, 2013 e 2014) em colunas separadas. Para cada combinação de território e ano, a agregação SUM(SalesCount) calcula o número total de vendas. A cláusula FOR SalesYear IN ([2011], [2012], [2013], [2014]) especifica explicitamente os anos que serão exibidos como colunas.

 O resultado é ordenado alfabeticamente pelo nome do território.

In [20]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
    TerritoryName  Sales2011  Sales2012  Sales2013  Sales2014
0       Australia        463        892       3015       2473
1          Canada        149        460       1884       1574
2         Central         50        130        151         54
3          France         70        290       1273       1039
4         Germany         81        249       1235       1058
5       Northeast         44        117        138         53
6       Northwest        224        510       2053       1807
7       Southeast         70        167        180         69
8       Southwest        339        777       2725       2383
9  United Kingdom        117        323       1528       1251


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,TerritoryName,Sales2011,Sales2012,Sales2013,Sales2014
0,Australia,463,892,3015,2473
1,Canada,149,460,1884,1574
2,Central,50,130,151,54
3,France,70,290,1273,1039
4,Germany,81,249,1235,1058
5,Northeast,44,117,138,53
6,Northwest,224,510,2053,1807
7,Southeast,70,167,180,69
8,Southwest,339,777,2725,2383
9,United Kingdom,117,323,1528,1251


### 17. Stored Procedures

Escreva uma stored procedure que receba um ProductID como parâmetro e devolva o histórico de vendas desse produto.

In [25]:
# criação de StoreProcedre
query = """
CREATE PROCEDURE GetProdSalesHistory
    @ProductID INT
AS
BEGIN
    SET NOCOUNT ON;

    SELECT 
        salesorderdetail.ProductID,
		prod.Name AS ProductName,
		salesorder.SalesOrderID,
        salesorder.OrderDate,
        salesorderdetail.OrderQty,
        salesorderdetail.UnitPrice,
        salesorderdetail.LineTotal,
        cust.CustomerID,
        cust.PersonID,
        person.FirstName + ' ' + person.LastName AS CustomerName
    FROM 
        Sales.SalesOrderDetail salesorderdetail
    INNER JOIN 
        Sales.SalesOrderHeader salesorder ON salesorderdetail.SalesOrderID = salesorder.SalesOrderID
    INNER JOIN 
        Sales.Customer cust ON salesorder.CustomerID = cust.CustomerID
	INNER JOIN 
        Production.Product prod ON salesorderdetail.ProductID = prod.ProductID
	LEFT JOIN 
        Person.Person person ON cust.PersonID = person.BusinessEntityID
    WHERE 
        salesorderdetail.ProductID = @ProductID
    ORDER BY 
        salesorder.OrderDate DESC;
END;
"""

#### Explicação

A stored procedure GetProdSalesHistory permite consultar alguma informação sobre histórico de vendas de um produto específico. A store procedure  aceita um único parâmetro, o @ProductID, que representa o identificador do produto para o qual a informação do histórico será obtido. Após a execução, retorna informações detalhadas sobre as vendas, incluindo dados do produto, dos pedidos e dos clientes associados.

Na consulta, várias tabelas são relacionadas através de junções para compor os dados. A tabela SalesOrderDetail fornece detalhes das vendas, como a quantidade pedida (OrderQty), o preço unitário do produto (UnitPrice) e o valor total da linha do pedido (LineTotal). A tabela SalesOrderHeader complementa com informações do cabeçalho do pedido, como o identificador da encomenda (SalesOrderID) e a data em que foi realizado (OrderDate). A tabela Customer associa os pedidos aos clientes, enquanto a tabela Product fornece informações descritivas do produto, como o nome (ProductName). A tabela Person é usada, quando aplicável, para recuperar o nome completo do cliente (FirstName e LastName).

A cláusula WHERE filtra os registos, retornando apenas aqueles que correspondem ao ProductID fornecido como parâmetro. Por fim, os resultados são ordenados pela data do pedido (OrderDate) em ordem decrescente, garantindo que as vendas mais recentes aparecem primeiro. 

In [26]:
executar_query_noresult(query, connSource)

Query executada com sucesso!


In [27]:
# Invocação de StoreProcedre passando produto 776 como parametro
query = """
EXEC GetProdSalesHistory @ProductID = 776;
"""

#### Explicação


O comando EXEC GetProdSalesHistory @ProductID = 776 executa a stored procedure GetProdSalesHistory, passando como parâmetro o valor 776, que representa o identificador de um produto específico na base de dados. Ao ser executada, a stored procedure consulta o histórico de vendas desse produto.

In [28]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
     ProductID             ProductName  SalesOrderID  OrderDate  OrderQty  \
0          776  Mountain-100 Black, 42         46596 2012-05-28         1   
1          776  Mountain-100 Black, 42         46508 2012-05-18         1   
2          776  Mountain-100 Black, 42         46506 2012-05-17         1   
3          776  Mountain-100 Black, 42         46452 2012-05-09         1   
4          776  Mountain-100 Black, 42         46330 2012-04-30         2   
..         ...                     ...           ...        ...       ...   
223        776  Mountain-100 Black, 42         43665 2011-05-31         1   
224        776  Mountain-100 Black, 42         43670 2011-05-31         1   
225        776  Mountain-100 Black, 42         43683 2011-05-31         2   
226        776  Mountain-100 Black, 42         43676 2011-05-31         2   
227        776  Mountain-100 Black, 42         43661 2011-05-31         4   

     UnitPrice  

  df = pd.read_sql_query(query, conexao)


Unnamed: 0,ProductID,ProductName,SalesOrderID,OrderDate,OrderQty,UnitPrice,LineTotal,CustomerID,PersonID,CustomerName
0,776,"Mountain-100 Black, 42",46596,2012-05-28,1,3374.9900,3374.99000,12037,19655,Patricia Chapman
1,776,"Mountain-100 Black, 42",46508,2012-05-18,1,3374.9900,3374.99000,28504,7737,Reginald Gomez
2,776,"Mountain-100 Black, 42",46506,2012-05-17,1,3374.9900,3374.99000,12242,9003,Gilbert Liang
3,776,"Mountain-100 Black, 42",46452,2012-05-09,1,3374.9900,3374.99000,26112,5641,Luke Perry
4,776,"Mountain-100 Black, 42",46330,2012-04-30,2,843.7475,1096.87175,29950,1321,Yale Li
...,...,...,...,...,...,...,...,...,...,...
223,776,"Mountain-100 Black, 42",43665,2011-05-31,1,2024.9940,2024.99400,29580,517,Richard Bready
224,776,"Mountain-100 Black, 42",43670,2011-05-31,1,2024.9940,2024.99400,29566,487,Mae Black
225,776,"Mountain-100 Black, 42",43683,2011-05-31,2,2024.9940,4049.98800,29497,317,François Ferrier
226,776,"Mountain-100 Black, 42",43676,2011-05-31,2,2024.9940,4049.98800,29811,1017,Mark Hanson


### 18. Funções Personalizadas

Crie uma função que receba a data de nascimento (BirthDate) de um funcionário e devolva a idade em anos.

In [29]:
query = """
CREATE FUNCTION dbo.CalculateAge
(
    @BirthDate DATE
)
RETURNS INT
AS
BEGIN
    RETURN DATEDIFF(YEAR, @BirthDate, GETDATE())

END;
"""

#### Explicação


A função dbo.CalculateAge é uma função  que calcula a idade de uma pessoa em anos com base na sua data de nascimento. Ela recebe como parâmetro data de nascimento (@BirthDate), que é do tipo DATE. A função devolve um valor inteiro (INT), que é a diferença em anos entre a data de nascimento e a data atual.

O cálculo é realizado através da função DATEDIFF, que retorna a diferença entre duas datas em unidades específicas, nesse caso desta função, a unidade utilizada é YEAR, o que significa que a diferença é calculada em anos. 

In [30]:
executar_query_noresult(query, connSource)

Query executada com sucesso!


In [31]:
query = """
SELECT
      [NationalIDNumber]
      ,[LoginID]
      ,dbo.CalculateAge([BirthDate]) AS Age
  FROM [AdventureWorks2022].[HumanResources].[Employee]
"""

#### Explicação

O comando SQL à tabela empployes  utiliza a função dbo.CalculateAge para calcular e apresentar a idade de cada funcionário com base na sua data de nascimento (BirthDate)

In [32]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
    NationalIDNumber                   LoginID  Age
0          295847284      adventure-works\ken0   55
1          245797967    adventure-works\terri0   53
2          509647174  adventure-works\roberto0   50
3          112457891      adventure-works\rob0   50
4          695256908     adventure-works\gail0   72
..               ...                       ...  ...
285        758596752     adventure-works\lynn0   47
286        982310417      adventure-works\amy0   67
287        954276278   adventure-works\rachel0   49
288        668991357      adventure-works\jae0   56
289        134219713   adventure-works\ranjit0   49

[290 rows x 3 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,NationalIDNumber,LoginID,Age
0,295847284,adventure-works\ken0,55
1,245797967,adventure-works\terri0,53
2,509647174,adventure-works\roberto0,50
3,112457891,adventure-works\rob0,50
4,695256908,adventure-works\gail0,72
...,...,...,...
285,758596752,adventure-works\lynn0,47
286,982310417,adventure-works\amy0,67
287,954276278,adventure-works\rachel0,49
288,668991357,adventure-works\jae0,56


### 19. Consultas Recursivas

Use uma CTE recursiva para listar a hierarquia de gestores na tabela HumanResources.Employee.

In [33]:
query = """
WITH ManagerHierarchy AS (
    SELECT BusinessEntityID AS EmployeeID, OrganizationLevel, 0 AS HieLevel
    FROM HumanResources.Employee
    WHERE OrganizationLevel IS NULL

    UNION ALL

	select employee.BusinessEntityID AS EmployeeID, employee.OrganizationLevel, Hierarchy.HieLevel + 1 AS Nivel
	FROM  ManagerHierarchy Hierarchy
	INNER JOIN HumanResources.Employee employee ON employee.OrganizationLevel = Hierarchy.EmployeeID
)
SELECT EmployeeID, OrganizationLevel, HieLevel
FROM ManagerHierarchy
ORDER BY HieLevel, EmployeeID;
"""

#### Explicação

O comando sql utiliza uma CTE  ManagerHierarchy para  apresentar a hierarquia de gestores e funcionários com base na coluna OrganizationLevel com o  objetivo de determinar o nível hierárquico de cada funcionário dentro da organização, começando pelos gestores de topo e descendo pela hierarquia.

A CTE está dividida em duas partes, a primeira parte, seleciona os gestores de nível mais alto, através da da identificação do campo OrganizationLevel definido como NULL. Os  gestores são atribuídos ao nível hierárquico 0, representando o topo da estrutura organizacional.

A segunda parte, o caso recursivo, junta a tabela HumanResources.Employee à própria CTE para identificar os subordinados de cada gestor. A ligação entre os gestores e os funcionários é feita pela condição employee.OrganizationLevel = Hierarchy.EmployeeID, que estabelece que o nível organizacional de um funcionário é subordinado ao gestor correspondente. Cada funcionário identificado recebe um nível hierárquico (HieLevel) igual ao nível do seu gestor incrementado em 1.


In [34]:
executar_query(query, connSource)

Query executada com sucesso! Dados guardados no DataFrame.
     EmployeeID  OrganizationLevel  HieLevel
0             1                NaN         0
1             2                1.0         1
2            16                1.0         1
3            25                1.0         1
4           234                1.0         1
..          ...                ...       ...
285         257                4.0         4
286         258                4.0         4
287         259                4.0         4
288         260                4.0         4
289         261                4.0         4

[290 rows x 3 columns]


  df = pd.read_sql_query(query, conexao)


Unnamed: 0,EmployeeID,OrganizationLevel,HieLevel
0,1,,0
1,2,1.0,1
2,16,1.0,1
3,25,1.0,1
4,234,1.0,1
...,...,...,...
285,257,4.0,4
286,258,4.0,4
287,259,4.0,4
288,260,4.0,4


### 20. Otimização de Querys

Dado o seguinte SELECT, identifique possíveis melhorias de desempenho e explique:

SELECT *
FROM Sales.SalesOrderHeader
WHERE YEAR(OrderDate) = 2014;

#### Explicação

1- Evitar o uso de SELECT * e especificar as colunas pretendidas como `SELECT SalesOrderID, OrderDate, TotalDue... `


2-Caso a tabela tenha muitos registos, e exista um indice que suporte a pesquisa pelo campo OrderDate, caso seja aplicada a seguinte  função YEA()) a mesma é aplicada a todos os registos da tabela, o que impede o uso eficiente de índices. Em vez disso, filtra diretamente pelas datas no intervalo do ano como exemplo abaixo.

` SELECT *
FROM Sales.SalesOrderHeader
WHERE OrderDate >= '2014-01-01' AND OrderDate <= '2014-12-31';
`

## Fechar ligação ao SQL Server

In [None]:
# Fechar a ligação
connSource.close()
print("Ligação encerrada.")

#### Perguntas:

##### Parte 1: Questões Simples

1. Selecção de Dados

Escreva uma consulta para listar os primeiros 10 registos da tabela Person.Person, mostrando as colunas FirstName e LastName.


2. Filtragem de Dados

Liste os nomes e sobrenomes de todas as pessoas cujo primeiro nome comece com a letra 'J'.


3. Ordenação de Dados

Liste os produtos da tabela Production.Product ordenados pelo nome (Name) em ordem alfabética.


4. Contagem de Registos

Quantos produtos existem na tabela Production.Product?


5. Filtro com Data

Liste os pedidos (Sales.SalesOrderHeader) realizados após 1 de janeiro de 2014


##### Parte 2: Questões Intermediárias

6. Funções de Agregação

Calcule o total de vendas (TotalDue) na tabela Sales.SalesOrderHeader.


7. Agrupamento de Dados

Mostre o número de vendas realizadas por cada território (TerritoryID) na tabela Sales.SalesOrderHeader.


8. Joins Simples

Escreva uma consulta para listar os nomes dos clientes (Person.Person.FirstName, Person.Person.LastName) e o ID dos seus pedidos (Sales.SalesOrderHeader.SalesOrderID).


9. Alias e Expressões Calculadas

Liste os produtos da tabela Production.Product e calcule o preço com um desconto de 10%. Utilize um alias para a coluna com o preço final.


10. Funções de Data

Liste todos os funcionários (HumanResources.Employee) contratados nos últimos 5 anos.


##### Parte 3: Questões Avançadas
11. Subqueries

Liste os produtos (Production.Product) que nunca foram vendidos (Sales.SalesOrderDetail).


12. CTEs (Common Table Expressions)

Crie uma CTE para calcular a média de preço dos produtos (StandardCost) por categoria (ProductCategoryID).


13. Funções de Janela

Liste os produtos e o seu custo (StandardCost) com a média do custo de todos os produtos na mesma categoria (ProductSubcategoryID). Utilize a função OVER


14. Joins Complexos

Liste os nomes dos clientes e o total gasto por cada um nos pedidos, incluindo apenas clientes com mais de 5 pedidos.


15. Triggers e Updates

Escreva um UPDATE para aumentar o preço de todos os produtos em 5% e crie um trigger que registe essa alteração numa tabela chamada PriceChangeLog.


##### Parte 4: Questões Muito Avançadas
16. Pivot Tables

Crie uma consulta que mostre o número de vendas realizadas por território em cada ano, no formato de tabela dinâmica.


17. Stored Procedures

Escreva uma stored procedure que receba um ProductID como parâmetro e devolva o histórico de vendas desse produto.


18. Funções Personalizadas

Crie uma função que receba a data de nascimento (BirthDate) de um funcionário e devolva a idade em anos.


19. Consultas Recursivas

Use uma CTE recursiva para listar a hierarquia de gestores na tabela HumanResources.Employee.


20. Otimização de Querys

Dado o seguinte SELECT, identifique possíveis melhorias de desempenho e explique:

SELECT *
FROM Sales.SalesOrderHeader
WHERE YEAR(OrderDate) = 2014;