> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [None]:
### Escreva sua resposta aqui
import pandas as pd

# Baixando o arquivo diretamente do GitHub (raw)
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/salaries.csv"
df = pd.read_csv(url)

# Exibindo as primeiras linhas e informações básicas
display(df.head())
df.info()
df.describe(include='all')

#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [5]:
%pip install sqlalchemy

from sqlalchemy import Column, Integer, String, Float, Date, Enum
from sqlalchemy.orm import declarative_base
import enum

### Escreva sua resposta aqui
Base = declarative_base()

# Os valores dos Enums já estão definidos manualmente abaixo.

class SexEnum(enum.Enum):
    F = 'F'
    M = 'M'

class DesignationEnum(enum.Enum):
    Analista = 'Analista'
    Analista_Sênior = 'Analista Sênior'
    Gerente = 'Gerente'

class UnitEnum(enum.Enum):
    TI = 'TI'
    Finanças = 'Finanças'
    Marketing = 'Marketing'

class Salary(Base):
    __tablename__ = 'salary'
    ID = Column(Integer, primary_key=True, autoincrement=True)
    FIRST_NAME = Column(String)
    LAST_NAME = Column(String)
    SEX = Column(Enum(SexEnum))
    DOJ = Column(Date)
    CURRENT_DATE = Column(Date)
    DESIGNATION = Column(Enum(DesignationEnum))
    AGE = Column(Integer)
    SALARY = Column(Float)
    UNIT = Column(Enum(UnitEnum))
    LEAVES_USED = Column(Integer)
    LEAVES_REMAINING = Column(Integer)
    RATINGS = Column(Float)
    PAST_EXP = Column(Float)

Note: you may need to restart the kernel to use updated packages.


In [9]:
from sqlalchemy import create_engine, Column, Integer, Float, String, Date, Enum
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
import enum

Base = declarative_base()

# Criando Enums
class SexEnum(enum.Enum):
    M = "M"
    F = "F"

class DesignationEnum(enum.Enum):
    Analyst = "Analyst"
    SeniorAnalyst = "Senior Analyst"
    Manager = "Manager"
    # ... adicionar todos os valores únicos do dataset

class UnitEnum(enum.Enum):
    IT = "IT"
    Finance = "Finance"
    Marketing = "Marketing"
    # ... adicionar todos os valores únicos do dataset

# Definindo a tabela
class Employee(Base):
    __tablename__ = 'employees'

    ID = Column(Integer, primary_key=True, autoincrement=True)
    FIRST_NAME = Column(String, nullable=False)
    LAST_NAME = Column(String, nullable=False)
    SEX = Column(Enum(SexEnum), nullable=False)
    DOJ = Column(Date, nullable=False)
    CURRENT_DATE = Column(Date, nullable=False)
    DESIGNATION = Column(Enum(DesignationEnum), nullable=False)
    AGE = Column(Integer, nullable=False)
    SALARY = Column(Float, nullable=False)
    UNIT = Column(Enum(UnitEnum), nullable=False)
    LEAVES_USED = Column(Integer, nullable=False)
    LEAVES_REMAINING = Column(Integer, nullable=False)
    RATINGS = Column(Float, nullable=False)
    PAST_EXP = Column(Float, nullable=False)

# Criando o engine e a tabela
engine = create_engine('sqlite:///employees.db', echo=True)
Base.metadata.create_all(engine)

# Criando sessão
Session = sessionmaker(bind=engine)
session = Session()


2025-11-25 15:47:54,091 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-25 15:47:54,093 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("employees")
2025-11-25 15:47:54,094 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-25 15:47:54,097 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("employees")
2025-11-25 15:47:54,100 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-25 15:47:54,103 INFO sqlalchemy.engine.Engine 
CREATE TABLE employees (
	"ID" INTEGER NOT NULL, 
	"FIRST_NAME" VARCHAR NOT NULL, 
	"LAST_NAME" VARCHAR NOT NULL, 
	"SEX" VARCHAR(1) NOT NULL, 
	"DOJ" DATE NOT NULL, 
	"CURRENT_DATE" DATE NOT NULL, 
	"DESIGNATION" VARCHAR(13) NOT NULL, 
	"AGE" INTEGER NOT NULL, 
	"SALARY" FLOAT NOT NULL, 
	"UNIT" VARCHAR(9) NOT NULL, 
	"LEAVES_USED" INTEGER NOT NULL, 
	"LEAVES_REMAINING" INTEGER NOT NULL, 
	"RATINGS" FLOAT NOT NULL, 
	"PAST_EXP" FLOAT NOT NULL, 
	PRIMARY KEY ("ID")
)


2025-11-25 15:47:54,105 INFO sqlalchemy.engine.Engine [no key 0.00199s] ()
2025-11-25 

  Base = declarative_base()


#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [10]:
from sqlalchemy import create_engine

# Criando a conexão com o banco SQLite chamado 'salarios.db'
engine = create_engine('sqlite:///salarios.db', echo=True)

# Testando a conexão
connection = engine.connect()
print("Conexão estabelecida com sucesso!")

# Fechando a conexão
connection.close()


Conexão estabelecida com sucesso!


#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [11]:
### Escreva sua resposta aqui
from sqlalchemy import create_engine, Column, Integer, Float, String, Date, Enum
from sqlalchemy.ext.declarative import declarative_base
import enum

Base = declarative_base()

# Definindo Enums
class SexEnum(enum.Enum):
    M = "M"
    F = "F"

class DesignationEnum(enum.Enum):
    Analyst = "Analyst"
    SeniorAnalyst = "Senior Analyst"
    Manager = "Manager"
    # Adicione todos os valores únicos do dataset

class UnitEnum(enum.Enum):
    IT = "IT"
    Finance = "Finance"
    Marketing = "Marketing"
    # Adicione todos os valores únicos do dataset

# Definindo a tabela Employee
class Employee(Base):
    __tablename__ = 'employees'

    ID = Column(Integer, primary_key=True, autoincrement=True)
    FIRST_NAME = Column(String, nullable=False)
    LAST_NAME = Column(String, nullable=False)
    SEX = Column(Enum(SexEnum), nullable=False)
    DOJ = Column(Date, nullable=False)
    CURRENT_DATE = Column(Date, nullable=False)
    DESIGNATION = Column(Enum(DesignationEnum), nullable=False)
    AGE = Column(Integer, nullable=False)
    SALARY = Column(Float, nullable=False)
    UNIT = Column(Enum(UnitEnum), nullable=False)
    LEAVES_USED = Column(Integer, nullable=False)
    LEAVES_REMAINING = Column(Integer, nullable=False)
    RATINGS = Column(Float, nullable=False)
    PAST_EXP = Column(Float, nullable=False)

# Criando a engine para o banco 'salarios.db'
engine = create_engine('sqlite:///salarios.db', echo=True)

# Criando todas as tabelas no banco
Base.metadata.create_all(engine)

print("Tabelas criadas com sucesso no banco 'salarios.db'.")


2025-11-25 15:49:17,026 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-25 15:49:17,028 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("employees")
2025-11-25 15:49:17,030 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-25 15:49:17,033 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("employees")
2025-11-25 15:49:17,034 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-25 15:49:17,036 INFO sqlalchemy.engine.Engine 
CREATE TABLE employees (
	"ID" INTEGER NOT NULL, 
	"FIRST_NAME" VARCHAR NOT NULL, 
	"LAST_NAME" VARCHAR NOT NULL, 
	"SEX" VARCHAR(1) NOT NULL, 
	"DOJ" DATE NOT NULL, 
	"CURRENT_DATE" DATE NOT NULL, 
	"DESIGNATION" VARCHAR(13) NOT NULL, 
	"AGE" INTEGER NOT NULL, 
	"SALARY" FLOAT NOT NULL, 
	"UNIT" VARCHAR(9) NOT NULL, 
	"LEAVES_USED" INTEGER NOT NULL, 
	"LEAVES_REMAINING" INTEGER NOT NULL, 
	"RATINGS" FLOAT NOT NULL, 
	"PAST_EXP" FLOAT NOT NULL, 
	PRIMARY KEY ("ID")
)


2025-11-25 15:49:17,038 INFO sqlalchemy.engine.Engine [no key 0.00209s] ()
2025-11-25 

  Base = declarative_base()


#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [23]:
### Escreva sua resposta aqui
import pandas as pd
from sqlalchemy import create_engine, Column, Integer, Float, String, Date, Enum
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
import enum

# ============================
# 1️⃣ Carregar CSV
# ============================
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/salaries.csv"
df = pd.read_csv(url)

# Converter datas de forma segura
df.loc[:, 'DOJ'] = pd.to_datetime(df['DOJ'], errors='coerce').dt.date
df.loc[:, 'CURRENT_DATE'] = pd.to_datetime(df['CURRENT DATE'], errors='coerce').dt.date

# ============================
# 2️⃣ Criar Enums dinamicamente
# ============================
SexEnum = enum.Enum('SexEnum', {v: v for v in df['SEX'].unique()})
DesignationEnum = enum.Enum('DesignationEnum', {v.replace(" ", "_"): v for v in df['DESIGNATION'].unique()})
UnitEnum = enum.Enum('UnitEnum', {v.replace(" ", "_"): v for v in df['UNIT'].unique()})

# ============================
# 3️⃣ Definir ORM
# ============================
Base = declarative_base()

class Employee(Base):
    __tablename__ = 'employees'

    ID = Column(Integer, primary_key=True, autoincrement=True)
    FIRST_NAME = Column(String, nullable=False)
    LAST_NAME = Column(String, nullable=False)
    SEX = Column(Enum(SexEnum), nullable=False)
    DOJ = Column(Date, nullable=False)
    CURRENT_DATE = Column(Date, nullable=False)
    DESIGNATION = Column(Enum(DesignationEnum), nullable=False)
    AGE = Column(Integer, nullable=False)
    SALARY = Column(Float, nullable=False)
    UNIT = Column(Enum(UnitEnum), nullable=False)
    LEAVES_USED = Column(Integer, nullable=False)
    LEAVES_REMAINING = Column(Integer, nullable=False)
    RATINGS = Column(Float, nullable=False)
    PAST_EXP = Column(Float, nullable=False)

# ============================
# 4️⃣ Criar engine e tabela
# ============================
engine = create_engine('sqlite:///salarios.db', echo=False)
Base.metadata.create_all(engine)

# ============================
# 5️⃣ Inserir dados via ORM
# ============================
Session = sessionmaker(bind=engine)
session = Session()

import numpy as np

employees = []
required_fields = [
    'FIRST NAME', 'LAST NAME', 'SEX', 'DOJ', 'CURRENT_DATE', 'DESIGNATION',
    'AGE', 'SALARY', 'UNIT', 'LEAVES USED', 'LEAVES REMAINING', 'RATINGS', 'PAST EXP'
]

for _, row in df.iterrows():
    # Skip rows with missing required fields
    if any(pd.isnull(row[field]) for field in required_fields):
        continue
    try:
        emp = Employee(
            FIRST_NAME=row['FIRST NAME'],
            LAST_NAME=row['LAST NAME'],
            SEX=SexEnum[row['SEX']],
            DOJ=row['DOJ'],
            CURRENT_DATE=row['CURRENT_DATE'],
            DESIGNATION=DesignationEnum[row['DESIGNATION'].replace(" ", "_")],
            AGE=int(row['AGE']),
            SALARY=float(row['SALARY']),
            UNIT=UnitEnum[row['UNIT'].replace(" ", "_")],
            LEAVES_USED=int(row['LEAVES USED']),
            LEAVES_REMAINING=int(row['LEAVES REMAINING']),
            RATINGS=float(row['RATINGS']),
            PAST_EXP=float(row['PAST EXP'])
        )
        employees.append(emp)
    except Exception as e:
        print(f"Erro ao inserir linha: {row.to_dict()}")
        print(f"Erro: {e}")

# Adicionar todos os registros de uma vez
session.add_all(employees)
session.commit()
session.close()

print("Todos os dados foram inseridos com sucesso no banco 'salarios.db'!")



  Base = declarative_base()


Todos os dados foram inseridos com sucesso no banco 'salarios.db'!


#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [19]:
### Execute aqui sua query SQL com SQLAlchemy
from sqlalchemy import text

# Abrir conexão
with engine.connect() as conn:
    sql = text("""
        SELECT DESIGNATION,
               MIN(SALARY)/12 AS MIN_SALARY_MONTHLY,
               MAX(SALARY)/12 AS MAX_SALARY_MONTHLY,
               AVG(SALARY)/12 AS AVG_SALARY_MONTHLY
        FROM employees
        GROUP BY DESIGNATION
    """)
    result = conn.execute(sql)
    for row in result:
        print(row)


2025-11-25 15:56:40,622 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-25 15:56:40,623 INFO sqlalchemy.engine.Engine 
        SELECT DESIGNATION,
               MIN(SALARY)/12 AS MIN_SALARY_MONTHLY,
               MAX(SALARY)/12 AS MAX_SALARY_MONTHLY,
               AVG(SALARY)/12 AS AVG_SALARY_MONTHLY
        FROM employees
        GROUP BY DESIGNATION
    
2025-11-25 15:56:40,624 INFO sqlalchemy.engine.Engine [generated in 0.00254s] ()
('Analyst', 3334.5, 4165.0, 3743.2151004426287)
('Manager', 8397.0, 12407.5, 10607.81851851852)
2025-11-25 15:56:40,629 INFO sqlalchemy.engine.Engine ROLLBACK


In [20]:
### Execute aqui sua query SQL com SQLAlchemy + Pandas
import pandas as pd
from sqlalchemy import text

with engine.connect() as conn:
    sql = """
        SELECT DESIGNATION,
               MIN(SALARY)/12 AS MIN_SALARY_MONTHLY,
               MAX(SALARY)/12 AS MAX_SALARY_MONTHLY,
               AVG(SALARY)/12 AS AVG_SALARY_MONTHLY
        FROM employees
        GROUP BY DESIGNATION
    """
    df_salary = pd.read_sql_query(sql, conn)

print(df_salary)


2025-11-25 15:56:44,993 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-25 15:56:44,994 INFO sqlalchemy.engine.Engine 
        SELECT DESIGNATION,
               MIN(SALARY)/12 AS MIN_SALARY_MONTHLY,
               MAX(SALARY)/12 AS MAX_SALARY_MONTHLY,
               AVG(SALARY)/12 AS AVG_SALARY_MONTHLY
        FROM employees
        GROUP BY DESIGNATION
    
2025-11-25 15:56:44,995 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-25 15:56:44,998 INFO sqlalchemy.engine.Engine ROLLBACK
  DESIGNATION  MIN_SALARY_MONTHLY  MAX_SALARY_MONTHLY  AVG_SALARY_MONTHLY
0     Analyst              3334.5              4165.0         3743.215100
1     Manager              8397.0             12407.5        10607.818519


In [21]:
### Execute aqui sua query com SQLAlchemy ORM
from sqlalchemy.orm import Session
from sqlalchemy import select, func

# Criar sessão
session = Session(engine)

# Criar query ORM
stmt = (
    select(
        Employee.DESIGNATION,
        (func.min(Employee.SALARY)/12).label('MIN_SALARY_MONTHLY'),
        (func.max(Employee.SALARY)/12).label('MAX_SALARY_MONTHLY'),
        (func.avg(Employee.SALARY)/12).label('AVG_SALARY_MONTHLY')
    )
    .group_by(Employee.DESIGNATION)
)

# Executar e exibir resultados
results = session.execute(stmt).all()
for row in results:
    print(row)

session.close()


2025-11-25 15:56:50,261 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-25 15:56:50,268 INFO sqlalchemy.engine.Engine SELECT employees."DESIGNATION", min(employees."SALARY") / (? + 0.0) AS "MIN_SALARY_MONTHLY", max(employees."SALARY") / (? + 0.0) AS "MAX_SALARY_MONTHLY", avg(employees."SALARY") / (? + 0.0) AS "AVG_SALARY_MONTHLY" 
FROM employees GROUP BY employees."DESIGNATION"
2025-11-25 15:56:50,269 INFO sqlalchemy.engine.Engine [generated in 0.00161s] (12, 12, 12)
(<DesignationEnum.Analyst: 'Analyst'>, 3334.5, 4165.0, 3743.2151004426287)
(<DesignationEnum.Manager: 'Manager'>, 8397.0, 12407.5, 10607.81851851852)
2025-11-25 15:56:50,274 INFO sqlalchemy.engine.Engine ROLLBACK
