> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [1]:
### Escreva sua resposta aqui
# !pip install pandas

import pandas as pd

salaries = pd.read_csv("salaries.csv")

display(salaries.head(5))
display(salaries.info())
display({
    "designations" : list(salaries["DESIGNATION"].unique()),
    "units" : list(salaries["UNIT"].unique()),
    "genders" : list(salaries["SEX"].unique()),
})

Unnamed: 0,FIRST NAME,LAST NAME,SEX,DOJ,CURRENT DATE,DESIGNATION,AGE,SALARY,UNIT,LEAVES USED,LEAVES REMAINING,RATINGS,PAST EXP
0,TOMASA,ARMEN,F,5-18-2014,01-07-2016,Analyst,21.0,44570,Finance,24.0,6.0,2.0,0
1,ANNIE,,F,,01-07-2016,Associate,,89207,Web,,13.0,,7
2,OLIVE,ANCY,F,7-28-2014,01-07-2016,Analyst,21.0,40955,Finance,23.0,7.0,3.0,0
3,CHERRY,AQUILAR,F,04-03-2013,01-07-2016,Analyst,22.0,45550,IT,22.0,8.0,3.0,0
4,LEON,ABOULAHOUD,M,11-20-2014,01-07-2016,Analyst,,43161,Operations,27.0,3.0,,3


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2639 entries, 0 to 2638
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   FIRST NAME        2639 non-null   object 
 1   LAST NAME         2637 non-null   object 
 2   SEX               2639 non-null   object 
 3   DOJ               2638 non-null   object 
 4   CURRENT DATE      2639 non-null   object 
 5   DESIGNATION       2639 non-null   object 
 6   AGE               2636 non-null   float64
 7   SALARY            2639 non-null   int64  
 8   UNIT              2639 non-null   object 
 9   LEAVES USED       2636 non-null   float64
 10  LEAVES REMAINING  2637 non-null   float64
 11  RATINGS           2637 non-null   float64
 12  PAST EXP          2639 non-null   int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 268.2+ KB


None

{'designations': ['Analyst',
  'Associate',
  'Senior Analyst',
  'Senior Manager',
  'Manager',
  'Director'],
 'units': ['Finance', 'Web', 'IT', 'Operations', 'Marketing', 'Management'],
 'genders': ['F', 'M']}

#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [2]:
### Escreva sua resposta aqui
# !pip install SQLAlchemy

from enum import Enum
from typing import Optional, Annotated
from datetime import datetime

from sqlalchemy import (
    create_engine,
    text, select,
    func
)

from sqlalchemy.orm import (
    DeclarativeBase,
    Mapped,
    mapped_column,
    Session, aliased
)

class Sex(Enum):
    F = "F"
    M = "M"

class Designation(Enum):
    Analyst = "Analyst"
    Associate = "Associate"
    Manager = "Manager"
    Director = "Director"
    Senior_Analyst = "Senior Analyst"
    Senior_Manager = "Senior Manager"

class Unit(Enum):
    Finance = "Finance"
    Web = "Web"
    Marketing = "Marketing"
    IT = "IT"
    Operations = "Operations"
    Management = "Management"
    

class Base(DeclarativeBase):
    pass

class Salario(Base):
    __tablename__ = "salario"

    ID: Mapped[int] = mapped_column(primary_key=True, nullable=False)
    first_name: Mapped[str] = mapped_column(nullable=False)
    last_name: Mapped[Optional[str]]
    sex: Mapped[Sex] = mapped_column(nullable=False)
    doj: Mapped[Optional[str]]
    current_date: Mapped[str] = mapped_column(nullable=False)
    designation: Mapped[Designation] = mapped_column(nullable=False, default=Designation.Analyst)
    age: Mapped[Optional[int]]
    salary: Mapped[float] = mapped_column(nullable=False, default=40000.0)
    unit: Mapped[Unit] = mapped_column(nullable=False)
    leaves_used: Mapped[Optional[int]]
    leaves_remaining: Mapped[Optional[int]]
    ratings: Mapped[Optional[float]]
    past_exp: Mapped[float] = mapped_column(nullable=False)

#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [3]:
### Escreva sua resposta aqui

engine = create_engine("sqlite+pysqlite:///salarios.sqlite", echo=False)

#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [4]:
### Escreva sua resposta aqui]

Base.metadata.create_all(engine)

#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [5]:
### Escreva sua resposta aqui

salaries.columns = [
    "first_name",
    "last_name",
    "sex",
    "doj",
    "current_date",
    "designation",
    "age",
    "salary",
    "unit",
    "leaves_used",
    "leaves_remaining",
    "ratings",
    "past_exp"
]

salaries.designation = salaries.designation.apply(lambda x: "Senior_Analyst" if x == "Senior Analyst" else x)
salaries.designation = salaries.designation.apply(lambda x: "Senior_Manager" if x == "Senior Manager" else x)

salaries_sql = salaries.to_sql("salario", engine, if_exists="append", index=False)

#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [6]:
### Execute aqui sua query SQL com SQLAlchemy
statistics = [
        {"label": "Mínimos", "func": "MIN"}, 
        {"label": "Máximos", "func": "MAX"}, 
        {"label": "Médios", "func": "AVG"}
        ]


with engine.connect() as connection:
    for i in statistics:
        result = connection.execute(text(
            f"SELECT designation, {i["func"]}(salary) FROM salario GROUP BY designation"))

        print(f"\nSalários {i["label"]}:\n")
        for row in result:
            print(f"    {row[0]}: {row[1]:.2f}")



Salários Mínimos:

    Analyst: 40001.00
    Associate: 70154.00
    Director: 213987.00
    Manager: 100124.00
    Senior_Analyst: 50044.00
    Senior_Manager: 151373.00

Salários Máximos:

    Analyst: 49980.00
    Associate: 99603.00
    Director: 388112.00
    Manager: 148890.00
    Senior_Analyst: 69966.00
    Senior_Manager: 199577.00

Salários Médios:

    Analyst: 45020.11
    Associate: 87202.98
    Director: 286971.19
    Manager: 126272.59
    Senior_Analyst: 59901.35
    Senior_Manager: 178664.27


In [7]:
### Execute aqui sua query SQL com SQLAlchemy + Pandas
with engine.connect() as connection:
    for i in statistics:
        query = f"SELECT designation, {i["func"]}(salary) FROM salario GROUP BY designation"
        label = f"Salário {i["label"]}"
        result_df = pd.read_sql_query(query, engine.connect())

        result_df.columns = ("Designation", label)
        result_df[label] = result_df[label].apply(lambda x: f"{x:.2f}")
        display(result_df)

Unnamed: 0,Designation,Salário Mínimos
0,Analyst,40001.0
1,Associate,70154.0
2,Director,213987.0
3,Manager,100124.0
4,Senior_Analyst,50044.0
5,Senior_Manager,151373.0


Unnamed: 0,Designation,Salário Máximos
0,Analyst,49980.0
1,Associate,99603.0
2,Director,388112.0
3,Manager,148890.0
4,Senior_Analyst,69966.0
5,Senior_Manager,199577.0


Unnamed: 0,Designation,Salário Médios
0,Analyst,45020.11
1,Associate,87202.98
2,Director,286971.19
3,Manager,126272.59
4,Senior_Analyst,59901.35
5,Senior_Manager,178664.27


In [8]:
### Execute aqui sua query com SQLAlchemy ORM

session = Session(engine)


query_min = select(Salario.designation, func.min(Salario.salary)).group_by(Salario.designation)
query_max = select(Salario.designation, func.max(Salario.salary)).group_by(Salario.designation)
query_avg = select(Salario.designation, func.avg(Salario.salary)).group_by(Salario.designation)

queries = [query_min, query_max, query_avg]

# Ignore este for, ele é apenas para substituir as strings MIN, MAX e AVG no campo func
    # de cada um dos objetos da lista statistcs pelos selects correspondentes pois estou
    # com preguiça de fazer isso manualmente
for i in range(3):
    statistics[i]["func"] = queries[i]

for i in statistics:
    res = session.execute(i["func"]).all()

    print(f"\nSalários {i["label"]}:\n")
    for row in res:
        print(f"    {row[0].value}: {row[1]:.2f}")

session.close()


Salários Mínimos:

    Analyst: 40001.00
    Associate: 70154.00
    Director: 213987.00
    Manager: 100124.00
    Senior Analyst: 50044.00
    Senior Manager: 151373.00

Salários Máximos:

    Analyst: 49980.00
    Associate: 99603.00
    Director: 388112.00
    Manager: 148890.00
    Senior Analyst: 69966.00
    Senior Manager: 199577.00

Salários Médios:

    Analyst: 45020.11
    Associate: 87202.98
    Director: 286971.19
    Manager: 126272.59
    Senior Analyst: 59901.35
    Senior Manager: 178664.27
