> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [3]:
import pandas as pd

# Carregando o CSV
df = pd.read_csv('salaries.csv')

# Explorando os dados
print("Primeiras linhas:")
print(df.head())
print("\nInformações sobre o dataset:")
print(df.info())
print("\nValores únicos nas colunas categóricas:")
print(f"SEX: {df['SEX'].unique()}")
print(f"DESIGNATION: {df['DESIGNATION'].unique()}")
print(f"UNIT: {df['UNIT'].unique()}")

Primeiras linhas:
  FIRST NAME   LAST NAME SEX         DOJ CURRENT DATE DESIGNATION   AGE  \
0     TOMASA       ARMEN   F   5-18-2014   01-07-2016     Analyst  21.0   
1      ANNIE         NaN   F         NaN   01-07-2016   Associate   NaN   
2      OLIVE        ANCY   F   7-28-2014   01-07-2016     Analyst  21.0   
3     CHERRY     AQUILAR   F  04-03-2013   01-07-2016     Analyst  22.0   
4       LEON  ABOULAHOUD   M  11-20-2014   01-07-2016     Analyst   NaN   

   SALARY        UNIT  LEAVES USED  LEAVES REMAINING  RATINGS  PAST EXP  
0   44570     Finance         24.0               6.0      2.0         0  
1   89207         Web          NaN              13.0      NaN         7  
2   40955     Finance         23.0               7.0      3.0         0  
3   45550          IT         22.0               8.0      3.0         0  
4   43161  Operations         27.0               3.0      NaN         3  

Informações sobre o dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2639 en

#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [4]:
%pip install sqlalchemy

from sqlalchemy import create_engine, Column, Integer, String, Float, Date, Enum
from sqlalchemy.ext.declarative import declarative_base
import enum

Base = declarative_base()

# Criando os Enums baseados nos valores únicos do dataset
class SexEnum(enum.Enum):
    F = "F"
    M = "M"

class DesignationEnum(enum.Enum):
    ANALYST = "Analyst"
    SENIOR_ANALYST = "Senior Analyst"
    ASSOCIATE = "Associate"
    MANAGER = "Manager"
    SENIOR_MANAGER = "Senior Manager"
    DIRECTOR = "Director"

class UnitEnum(enum.Enum):
    FINANCE = "Finance"
    IT = "IT"
    OPERATIONS = "Operations"
    WEB = "Web"
    MANAGEMENT = "Management"

# Criando o modelo ORM
class Salary(Base):
    __tablename__ = 'salaries'
    
    ID = Column(Integer, primary_key=True, autoincrement=True)
    FIRST_NAME = Column(String, nullable=True)
    LAST_NAME = Column(String, nullable=True)
    SEX = Column(Enum(SexEnum), nullable=True)
    DOJ = Column(Date, nullable=True)  # Date of Joining
    CURRENT_DATE = Column(Date, nullable=True)
    DESIGNATION = Column(Enum(DesignationEnum), nullable=True)
    AGE = Column(Integer, nullable=True)
    SALARY = Column(Float, nullable=True)
    UNIT = Column(Enum(UnitEnum), nullable=True)
    LEAVES_USED = Column(Integer, nullable=True)
    LEAVES_REMAINING = Column(Integer, nullable=True)
    RATINGS = Column(Float, nullable=True)
    PAST_EXP = Column(Float, nullable=True)
    
    def __repr__(self):
        return f"<Salary(ID={self.ID}, NAME={self.FIRST_NAME} {self.LAST_NAME}, DESIGNATION={self.DESIGNATION})>"



Collecting sqlalchemy
  Downloading sqlalchemy-2.0.44-cp311-cp311-win_amd64.whl.metadata (9.8 kB)
Collecting greenlet>=1 (from sqlalchemy)
  Downloading greenlet-3.2.4-cp311-cp311-win_amd64.whl.metadata (4.2 kB)
Downloading sqlalchemy-2.0.44-cp311-cp311-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 2.1/2.1 MB 24.0 MB/s  0:00:00
Downloading greenlet-3.2.4-cp311-cp311-win_amd64.whl (299 kB)
Installing collected packages: greenlet, sqlalchemy

   ---------------------------------------- 0/2 [greenlet]
   ---------------------------------------- 0/2 [greenlet]
   -------------------- ------------------- 1/2 [sqlalchemy]
   -------------------- ------------------- 1/2 [sqlalchemy]
   -------------------- ------------------- 1/2 [sqlalchemy]
   -------------------- ------------------- 1/2 [sqlalchemy]
   -------------------- ------------------- 1/2 [sqlalchemy]
   -------------------- ------------------

  Base = declarative_base()


#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [8]:
engine = create_engine('sqlite:///salarios.db', echo=True)

#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [9]:
# Criando todas as tabelas definidas no Base
Base.metadata.create_all(engine)

2025-11-17 00:25:42,125 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-17 00:25:42,127 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("salaries")
2025-11-17 00:25:42,129 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-17 00:25:42,131 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("salaries")
2025-11-17 00:25:42,133 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-17 00:25:42,136 INFO sqlalchemy.engine.Engine 
CREATE TABLE salaries (
	"ID" INTEGER NOT NULL, 
	"FIRST_NAME" VARCHAR, 
	"LAST_NAME" VARCHAR, 
	"SEX" VARCHAR(1), 
	"DOJ" DATE, 
	"CURRENT_DATE" DATE, 
	"DESIGNATION" VARCHAR(14), 
	"AGE" INTEGER, 
	"SALARY" FLOAT, 
	"UNIT" VARCHAR(10), 
	"LEAVES_USED" INTEGER, 
	"LEAVES_REMAINING" INTEGER, 
	"RATINGS" FLOAT, 
	"PAST_EXP" FLOAT, 
	PRIMARY KEY ("ID")
)


2025-11-17 00:25:42,137 INFO sqlalchemy.engine.Engine [no key 0.00105s] ()
2025-11-17 00:25:42,149 INFO sqlalchemy.engine.Engine COMMIT


#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [10]:
# Preparando os dados para inserção
# Convertendo as datas para o formato correto
df_to_insert = df.copy()

# Convertendo as colunas de data (assumindo formato MM/DD/YYYY)
df_to_insert['DOJ'] = pd.to_datetime(df_to_insert['DOJ'], format='%m-%d-%Y', errors='coerce')
df_to_insert['CURRENT DATE'] = pd.to_datetime(df_to_insert['CURRENT DATE'], format='%m-%d-%Y', errors='coerce')

# Renomeando colunas para corresponder ao modelo
df_to_insert.columns = ['FIRST_NAME', 'LAST_NAME', 'SEX', 'DOJ', 'CURRENT_DATE', 
                        'DESIGNATION', 'AGE', 'SALARY', 'UNIT', 'LEAVES_USED', 
                        'LEAVES_REMAINING', 'RATINGS', 'PAST_EXP']

# Inserindo dados no banco
df_to_insert.to_sql('salaries', engine, if_exists='append', index=False)

print("Dados inseridos com sucesso!")

2025-11-17 00:25:48,598 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-17 00:25:48,601 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("salaries")
2025-11-17 00:25:48,603 INFO sqlalchemy.engine.Engine [raw sql] ()
2025-11-17 00:25:48,645 INFO sqlalchemy.engine.Engine INSERT INTO salaries ("FIRST_NAME", "LAST_NAME", "SEX", "DOJ", "CURRENT_DATE", "DESIGNATION", "AGE", "SALARY", "UNIT", "LEAVES_USED", "LEAVES_REMAINING", "RATINGS", "PAST_EXP") VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
2025-11-17 00:25:48,647 INFO sqlalchemy.engine.Engine [generated in 0.03455s] [('TOMASA', 'ARMEN', 'F', '2014-05-18 00:00:00.000000', '2016-01-07 00:00:00.000000', 'Analyst', 21.0, 44570, 'Finance', 24.0, 6.0, 2.0, 0), ('ANNIE', None, 'F', None, '2016-01-07 00:00:00.000000', 'Associate', None, 89207, 'Web', None, 13.0, None, 7), ('OLIVE', 'ANCY', 'F', '2014-07-28 00:00:00.000000', '2016-01-07 00:00:00.000000', 'Analyst', 21.0, 40955, 'Finance', 23.0, 7.0, 3.0, 0), ('CHERRY', 'AQUILAR', 'F',

#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [5]:
from sqlalchemy import text, func
from sqlalchemy.orm import Session

In [12]:
print("\n=== Query SQL com SQLAlchemy Connection ===")
with engine.connect() as conn:
    query = text("""
        SELECT DESIGNATION,
               MIN(SALARY/12) as min_salary_monthly,
               MAX(SALARY/12) as max_salary_monthly,
               AVG(SALARY/12) as avg_salary_monthly
        FROM salaries
        GROUP BY DESIGNATION
    """)
    result = conn.execute(query)
    
    print("DESIGNATION | MIN | MAX | AVG")
    print("-" * 60)
    for row in result:
        print(f"{row[0]:20} | {row[1]:10.2f} | {row[2]:10.2f} | {row[3]:10.2f}")


=== Query SQL com SQLAlchemy Connection ===
2025-11-17 00:27:59,497 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-17 00:27:59,498 INFO sqlalchemy.engine.Engine 
        SELECT DESIGNATION,
               MIN(SALARY/12) as min_salary_monthly,
               MAX(SALARY/12) as max_salary_monthly,
               AVG(SALARY/12) as avg_salary_monthly
        FROM salaries
        GROUP BY DESIGNATION
    
2025-11-17 00:27:59,498 INFO sqlalchemy.engine.Engine [cached since 87.83s ago] ()
DESIGNATION | MIN | MAX | AVG
------------------------------------------------------------
Analyst              |    3333.42 |    4165.00 |    3751.68
Associate            |    5846.17 |    8300.25 |    7266.92
Director             |   17832.25 |   32342.67 |   23914.27
Manager              |    8343.67 |   12407.50 |   10522.72
Senior Analyst       |    4170.33 |    5830.50 |    4991.78
Senior Manager       |   12614.42 |   16631.42 |   14888.69
2025-11-17 00:27:59,501 INFO sqlalchemy.engine.Engine

In [13]:
print("\n=== Query SQL com Pandas ===")
with engine.connect() as conn:
    query_sql = """
        SELECT DESIGNATION,
               MIN(SALARY/12) as min_salary_monthly,
               MAX(SALARY/12) as max_salary_monthly,
               AVG(SALARY/12) as avg_salary_monthly
        FROM salaries
        GROUP BY DESIGNATION
    """
    df_result = pd.read_sql_query(query_sql, conn)
    print(df_result)


=== Query SQL com Pandas ===
2025-11-17 00:28:23,335 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-17 00:28:23,336 INFO sqlalchemy.engine.Engine 
        SELECT DESIGNATION,
               MIN(SALARY/12) as min_salary_monthly,
               MAX(SALARY/12) as max_salary_monthly,
               AVG(SALARY/12) as avg_salary_monthly
        FROM salaries
        GROUP BY DESIGNATION
    
2025-11-17 00:28:23,337 INFO sqlalchemy.engine.Engine [raw sql] ()
      DESIGNATION  min_salary_monthly  max_salary_monthly  avg_salary_monthly
0         Analyst         3333.416667         4165.000000         3751.675988
1       Associate         5846.166667         8300.250000         7266.915094
2        Director        17832.250000        32342.666667        23914.265625
3         Manager         8343.666667        12407.500000        10522.716049
4  Senior Analyst         4170.333333         5830.500000         4991.778792
5  Senior Manager        12614.416667        16631.416667        14

In [None]:
print("\n=== Query com SQLAlchemy ORM ===")
from sqlalchemy import cast  # import para usar cast na coluna Enum e converter para String

with Session(engine) as session:
    # cast coluna Enum to String para pegar o valor textual do DB
    query = session.query(
        cast(Salary.DESIGNATION, String).label('DESIGNATION'),
        func.min(Salary.SALARY / 12).label('min_salary_monthly'),
        func.max(Salary.SALARY / 12).label('max_salary_monthly'),
        func.avg(Salary.SALARY / 12).label('avg_salary_monthly')
    ).group_by(cast(Salary.DESIGNATION, String))
    
    print("DESIGNATION | MIN | MAX | AVG")
    print("-" * 60)
    for row in query.all():
        # linha [0] agora é uma string plana, sendo assim, não precisaremos de um valor de acesso predefinido
        print(f"{row[0] if row[0] else 'N/A':20} | {row[1]:10.2f} | {row[2]:10.2f} | {row[3]:10.2f}")


=== Query com SQLAlchemy ORM ===
DESIGNATION | MIN | MAX | AVG
------------------------------------------------------------
2025-11-17 00:30:16,122 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-11-17 00:30:16,124 INFO sqlalchemy.engine.Engine SELECT CAST(salaries."DESIGNATION" AS VARCHAR) AS "DESIGNATION", min(salaries."SALARY" / (? + 0.0)) AS min_salary_monthly, max(salaries."SALARY" / (? + 0.0)) AS max_salary_monthly, avg(salaries."SALARY" / (? + 0.0)) AS avg_salary_monthly 
FROM salaries GROUP BY CAST(salaries."DESIGNATION" AS VARCHAR)
2025-11-17 00:30:16,125 INFO sqlalchemy.engine.Engine [generated in 0.00091s] (12, 12, 12)
Analyst              |    3333.42 |    4165.00 |    3751.68
Associate            |    5846.17 |    8300.25 |    7266.92
Director             |   17832.25 |   32342.67 |   23914.27
Manager              |    8343.67 |   12407.50 |   10522.72
Senior Analyst       |    4170.33 |    5830.50 |    4991.78
Senior Manager       |   12614.42 |   16631.42 |   14888.