> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/salaries.csv"

df = pd.read_csv(url, parse_dates=['DOJ', 'CURRENT DATE'])

print(df.head())

print(df.info())

print(df['SEX'].unique())
print(df['DESIGNATION'].unique())
print(df['UNIT'].unique())


  FIRST NAME   LAST NAME SEX        DOJ CURRENT DATE DESIGNATION   AGE  \
0     TOMASA       ARMEN   F 2014-05-18   2016-01-07     Analyst  21.0   
1      ANNIE         NaN   F        NaT   2016-01-07   Associate   NaN   
2      OLIVE        ANCY   F 2014-07-28   2016-01-07     Analyst  21.0   
3     CHERRY     AQUILAR   F 2013-04-03   2016-01-07     Analyst  22.0   
4       LEON  ABOULAHOUD   M 2014-11-20   2016-01-07     Analyst   NaN   

   SALARY        UNIT  LEAVES USED  LEAVES REMAINING  RATINGS  PAST EXP  
0   44570     Finance         24.0               6.0      2.0         0  
1   89207         Web          NaN              13.0      NaN         7  
2   40955     Finance         23.0               7.0      3.0         0  
3   45550          IT         22.0               8.0      3.0         0  
4   43161  Operations         27.0               3.0      NaN         3  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2639 entries, 0 to 2638
Data columns (total 13 columns):
 #  

#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [2]:
from sqlalchemy import Column, Integer, String, Float, Date, Enum as SAEnum
from sqlalchemy.orm import declarative_base
import enum

Base = declarative_base()

class SexEnum(enum.Enum):
    F = "F"
    M = "M"

class DesignationEnum(enum.Enum):
    Analyst = "Analista"
    SeniorAnalyst = "Analista Sênior"
    Manager = "Gerente"

class UnitEnum(enum.Enum):
    TI = "TI"
    Finance = "Finanças"
    Marketing = "Marketing"

class Salary(Base):
    __tablename__ = "salary"

    ID = Column(Integer, primary_key=True, autoincrement=True)
    FIRST_NAME = Column(String)
    LAST_NAME = Column(String)
    SEX = Column(SAEnum(SexEnum))
    DOJ = Column(Date)
    CURRENT_DATE = Column(Date)
    DESIGNATION = Column(SAEnum(DesignationEnum))
    AGE = Column(Integer)
    SALARY = Column(Float)
    UNIT = Column(SAEnum(UnitEnum))
    LEAVES_USED = Column(Integer)
    LEAVES_REMAINING = Column(Integer)
    RATINGS = Column(Float)
    PAST_EXP = Column(Float)


#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [3]:
from sqlalchemy import create_engine

engine = create_engine("sqlite:///salarios.db", echo=True)

#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [4]:
Base.metadata.create_all(engine)

2025-12-17 21:46:44,356 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-17 21:46:44,357 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("salary")
2025-12-17 21:46:44,358 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-12-17 21:46:44,360 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("salary")
2025-12-17 21:46:44,361 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-12-17 21:46:44,363 INFO sqlalchemy.engine.Engine 
CREATE TABLE salary (
	"ID" INTEGER NOT NULL, 
	"FIRST_NAME" VARCHAR, 
	"LAST_NAME" VARCHAR, 
	"SEX" VARCHAR(1), 
	"DOJ" DATE, 
	"CURRENT_DATE" DATE, 
	"DESIGNATION" VARCHAR(13), 
	"AGE" INTEGER, 
	"SALARY" FLOAT, 
	"UNIT" VARCHAR(9), 
	"LEAVES_USED" INTEGER, 
	"LEAVES_REMAINING" INTEGER, 
	"RATINGS" FLOAT, 
	"PAST_EXP" FLOAT, 
	PRIMARY KEY ("ID")
)


2025-12-17 21:46:44,364 INFO sqlalchemy.engine.Engine [no key 0.00081s] ()
2025-12-17 21:46:44,371 INFO sqlalchemy.engine.Engine COMMIT


#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [6]:
df_enum = df.copy()
df_enum.rename(columns={
    "FIRST NAME": "FIRST_NAME",
    "LAST NAME": "LAST_NAME",
    "CURRENT DATE": "CURRENT_DATE",
    "LEAVES USED": "LEAVES_USED",
    "LEAVES REMAINING": "LEAVES_REMAINING",
    "PAST EXP": "PAST_EXP"
}, inplace=True)

df_enum['SEX'] = df_enum['SEX'].astype(str)
df_enum['DESIGNATION'] = df_enum['DESIGNATION'].astype(str)
df_enum['UNIT'] = df_enum['UNIT'].astype(str)

df_enum.to_sql('salary', engine, if_exists='append', index=False)


2025-12-17 21:47:28,168 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-17 21:47:28,172 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("salary")
2025-12-17 21:47:28,173 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-12-17 21:47:28,209 INFO sqlalchemy.engine.Engine INSERT INTO salary ("FIRST_NAME", "LAST_NAME", "SEX", "DOJ", "CURRENT_DATE", "DESIGNATION", "AGE", "SALARY", "UNIT", "LEAVES_USED", "LEAVES_REMAINING", "RATINGS", "PAST_EXP") VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
2025-12-17 21:47:28,210 INFO sqlalchemy.engine.Engine [generated in 0.02778s] [('TOMASA', 'ARMEN', 'F', '2014-05-18 00:00:00.000000', '2016-01-07 00:00:00.000000', 'Analyst', 21.0, 44570, 'Finance', 24.0, 6.0, 2.0, 0), ('ANNIE', None, 'F', None, '2016-01-07 00:00:00.000000', 'Associate', None, 89207, 'Web', None, 13.0, None, 7), ('OLIVE', 'ANCY', 'F', '2014-07-28 00:00:00.000000', '2016-01-07 00:00:00.000000', 'Analyst', 21.0, 40955, 'Finance', 23.0, 7.0, 3.0, 0), ('CHERRY', 'AQUILAR', 'F', '20

2639

#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [9]:
from sqlalchemy import text

query = """
SELECT DESIGNATION,
       MIN(SALARY)/12 AS min_salary_month,
       MAX(SALARY)/12 AS max_salary_month,
       AVG(SALARY)/12 AS avg_salary_month
FROM salary
GROUP BY DESIGNATION
"""

with engine.connect() as conn:
    result = conn.execute(text(query)) 
    for row in result:
        print(row)


2025-12-17 21:48:56,168 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-17 21:48:56,169 INFO sqlalchemy.engine.Engine 
SELECT DESIGNATION,
       MIN(SALARY)/12 AS min_salary_month,
       MAX(SALARY)/12 AS max_salary_month,
       AVG(SALARY)/12 AS avg_salary_month
FROM salary
GROUP BY DESIGNATION

2025-12-17 21:48:56,170 INFO sqlalchemy.engine.Engine [generated in 0.00243s] ()
('Analyst', 3333.4166666666665, 4165.0, 3751.675987685993)
('Associate', 5846.166666666667, 8300.25, 7266.915094339623)
('Director', 17832.25, 32342.666666666668, 23914.265625)
('Manager', 8343.666666666666, 12407.5, 10522.716049382716)
('Senior Analyst', 4170.333333333333, 5830.5, 4991.778792134832)
('Senior Manager', 12614.416666666666, 16631.416666666668, 14888.689516129032)
2025-12-17 21:48:56,175 INFO sqlalchemy.engine.Engine ROLLBACK


In [10]:
import pandas as pd

with engine.connect() as conn:
    df_salary = pd.read_sql_query(query, conn)

print(df_salary)


2025-12-17 21:49:05,993 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-17 21:49:05,994 INFO sqlalchemy.engine.Engine 
SELECT DESIGNATION,
       MIN(SALARY)/12 AS min_salary_month,
       MAX(SALARY)/12 AS max_salary_month,
       AVG(SALARY)/12 AS avg_salary_month
FROM salary
GROUP BY DESIGNATION

2025-12-17 21:49:05,994 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-12-17 21:49:05,998 INFO sqlalchemy.engine.Engine ROLLBACK
      DESIGNATION  min_salary_month  max_salary_month  avg_salary_month
0         Analyst       3333.416667       4165.000000       3751.675988
1       Associate       5846.166667       8300.250000       7266.915094
2        Director      17832.250000      32342.666667      23914.265625
3         Manager       8343.666667      12407.500000      10522.716049
4  Senior Analyst       4170.333333       5830.500000       4991.778792
5  Senior Manager      12614.416667      16631.416667      14888.689516


In [None]:
from sqlalchemy.orm import Session
from sqlalchemy import select, func

with Session(engine) as session:
    stmt = select(
        Salary.DESIGNATION,
        (func.min(Salary.SALARY)/12).label("min_salary_month"),
        (func.max(Salary.SALARY)/12).label("max_salary_month"),
        (func.avg(Salary.SALARY)/12).label("avg_salary_month")
    ).group_by(Salary.DESIGNATION)
    
    for row in session.execute(stmt):
        print(row)



--- SQL puro via engine.connect() ---
('Analyst', 3333.4166666666665, 4165.0, 3751.675987685993)
('Associate', 5846.166666666667, 8300.25, 7266.915094339623)
('Director', 17832.25, 32342.666666666668, 23914.265625)
('Manager', 8343.666666666666, 12407.5, 10522.716049382716)
('Senior Analyst', 4170.333333333333, 5830.5, 4991.778792134832)
('Senior Manager', 12614.416666666666, 16631.416666666668, 14888.689516129032)

--- SQL via Pandas ---
      DESIGNATION  min_salary_month  max_salary_month  avg_salary_month
0         Analyst       3333.416667       4165.000000       3751.675988
1       Associate       5846.166667       8300.250000       7266.915094
2        Director      17832.250000      32342.666667      23914.265625
3         Manager       8343.666667      12407.500000      10522.716049
4  Senior Analyst       4170.333333       5830.500000       4991.778792
5  Senior Manager      12614.416667      16631.416667      14888.689516

--- ORM com Session e select() ---
('Analyst', 3333