> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [1]:
### Escreva sua resposta aqui

import pandas as pd

df = pd.read_csv('./salaries.csv')

df

Unnamed: 0,FIRST NAME,LAST NAME,SEX,DOJ,CURRENT DATE,DESIGNATION,AGE,SALARY,UNIT,LEAVES USED,LEAVES REMAINING,RATINGS,PAST EXP
0,TOMASA,ARMEN,F,5-18-2014,01-07-2016,Analyst,21.0,44570,Finance,24.0,6.0,2.0,0
1,ANNIE,,F,,01-07-2016,Associate,,89207,Web,,13.0,,7
2,OLIVE,ANCY,F,7-28-2014,01-07-2016,Analyst,21.0,40955,Finance,23.0,7.0,3.0,0
3,CHERRY,AQUILAR,F,04-03-2013,01-07-2016,Analyst,22.0,45550,IT,22.0,8.0,3.0,0
4,LEON,ABOULAHOUD,M,11-20-2014,01-07-2016,Analyst,,43161,Operations,27.0,3.0,,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2634,KATHERINE,ALSDON,F,6-28-2011,01-07-2016,Senior Manager,36.0,185977,Management,15.0,15.0,5.0,10
2635,LOUISE,ALTARAS,F,1-14-2014,01-07-2016,Analyst,23.0,45758,IT,17.0,13.0,2.0,0
2636,RENEE,ALVINO,F,1-23-2014,01-07-2016,Analyst,21.0,47315,Web,29.0,1.0,5.0,0
2637,TERI,ANASTASIO,F,3-17-2014,01-07-2016,Analyst,24.0,45172,Web,23.0,7.0,3.0,1


#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [23]:
### Escreva sua resposta aqui

from datetime import date
from typing import Annotated
from enum import Enum
from sqlalchemy import String, Enum as sqlEnum
from sqlalchemy.orm import (
    DeclarativeBase,
    Mapped, mapped_column
)

str50 = Annotated[str, 50]
str2 = Annotated[str, 2]

class Base(DeclarativeBase):
    '''Classe mãe de todas as classes da modelagem'''

    type_annotation_map ={
        str50: String(50),
        str2: String(2)
    }

class Sex(Enum):
    M = 'M',
    F = 'F'

class Designation(Enum):
    Analyst = 'Analyst'
    Associate = 'Associate'
    Manager = 'Manager'
    Director = 'Director'
    SeniorAnalyst = 'Senior Analyst'
    SeniorManager = 'Senior Manager'

class Unit(Enum):
    Finance = 'Finance'
    Web = 'Web'
    IT = 'IT'
    Operations = 'Operations'
    Marketing = 'Marketing'
    Management = 'Management'

class Salarios(Base):
    __tablename__ = 'salarios'

    id: Mapped[int]                     = mapped_column(primary_key=True, autoincrement=True)
    first_name: Mapped[str50]           = mapped_column(nullable=False)
    last_name: Mapped[str50]            = mapped_column(nullable=True)
    sex: Mapped[Sex]                    = mapped_column(sqlEnum(Sex), nullable=False)
    doj: Mapped[date]                   = mapped_column(nullable=True)
    current_date: Mapped[date]          = mapped_column(nullable=False)
    designation: Mapped[Designation]    = mapped_column(sqlEnum(Designation, values_callable=lambda x: [e.value for e in x]), nullable=False)
    age: Mapped[int]                    = mapped_column(nullable=True)
    salary: Mapped[float]               = mapped_column(nullable=False)
    unit: Mapped[Unit]                  = mapped_column(sqlEnum(Unit), nullable=False)
    leaves_used: Mapped[int]            = mapped_column(nullable=True)
    leaves_remaining: Mapped[int]       = mapped_column(nullable=True)
    ratings: Mapped[float]              = mapped_column(nullable=True)
    past_exp: Mapped[float]             = mapped_column(nullable=False)



#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [3]:
### Escreva sua resposta aqui

from sqlalchemy import create_engine

engine = create_engine('sqlite+pysqlite:///salarios.sqlite', echo=True)

#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [4]:
### Escreva sua resposta aqui
Base.metadata.create_all(engine)

2024-10-19 20:58:54,357 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-10-19 20:58:54,361 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("salarios")
2024-10-19 20:58:54,362 INFO sqlalchemy.engine.Engine [raw sql] ()


2024-10-19 20:58:54,367 INFO sqlalchemy.engine.Engine COMMIT


#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [5]:
### Escreva sua resposta aqui

#Como os nomes originais estão em maiúsculo e separados, precisei muda-los para ficar iguais aos do modelo
df = df.rename(columns={
    'FIRST NAME': 'first_name',
    'LAST NAME': 'last_name',
    'SEX': 'sex',
    'DOJ': 'doj',
    'CURRENT DATE': 'current_date',
    'DESIGNATION': 'designation',
    'AGE': 'age',
    'SALARY': 'salary',
    'UNIT': 'unit',
    'LEAVES USED': 'leaves_used',
    'LEAVES REMAINING': 'leaves_remaining',
    'RATINGS': 'ratings',
    'PAST EXP': 'past_exp'
})

df.to_sql('salarios', con=engine, if_exists='append', index=False)

2024-10-19 20:58:57,199 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-10-19 20:58:57,209 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("salarios")
2024-10-19 20:58:57,210 INFO sqlalchemy.engine.Engine [raw sql] ()


2024-10-19 20:58:57,298 INFO sqlalchemy.engine.Engine INSERT INTO salarios (first_name, last_name, sex, doj, "current_date", designation, age, salary, unit, leaves_used, leaves_remaining, ratings, past_exp) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
2024-10-19 20:58:57,299 INFO sqlalchemy.engine.Engine [generated in 0.05296s] [('TOMASA', 'ARMEN', 'F', '5-18-2014', '01-07-2016', 'Analyst', 21.0, 44570, 'Finance', 24.0, 6.0, 2.0, 0), ('ANNIE', None, 'F', None, '01-07-2016', 'Associate', None, 89207, 'Web', None, 13.0, None, 7), ('OLIVE', 'ANCY', 'F', '7-28-2014', '01-07-2016', 'Analyst', 21.0, 40955, 'Finance', 23.0, 7.0, 3.0, 0), ('CHERRY', 'AQUILAR', 'F', '04-03-2013', '01-07-2016', 'Analyst', 22.0, 45550, 'IT', 22.0, 8.0, 3.0, 0), ('LEON', 'ABOULAHOUD', 'M', '11-20-2014', '01-07-2016', 'Analyst', None, 43161, 'Operations', 27.0, 3.0, None, 3), ('VICTORIA', None, 'F', '2-19-2013', '01-07-2016', 'Analyst', 22.0, 48736, 'Marketing', 20.0, 10.0, 4.0, 0), ('ELLIOT', 'AGULAR', 'M', '09-

2639

#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [12]:
### Execute aqui sua query SQL com SQLAlchemy
from sqlalchemy import text

with engine.connect() as connection:
    result = connection.execute(
        text('''
        SELECT designation, MIN(salary/12), MAX(salary/12), AVG(salary/12)
        FROM salarios
        GROUP BY designation;
        ''')
    )

    for row in result:
        print(row)

2024-10-19 21:11:47,589 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-10-19 21:11:47,592 INFO sqlalchemy.engine.Engine 
        SELECT designation, MIN(salary/12), MAX(salary/12), AVG(salary/12)
        FROM salarios
        GROUP BY designation;
        
2024-10-19 21:11:47,593 INFO sqlalchemy.engine.Engine [generated in 0.00389s] ()
('Analyst', 3333.4166666666665, 4165.0, 3751.675987685993)
('Associate', 5846.166666666667, 8300.25, 7266.915094339623)
('Director', 17832.25, 32342.666666666668, 23914.265625)
('Manager', 8343.666666666666, 12407.5, 10522.716049382716)
('Senior Analyst', 4170.333333333333, 5830.5, 4991.778792134832)
('Senior Manager', 12614.416666666666, 16631.416666666668, 14888.689516129032)
2024-10-19 21:11:47,607 INFO sqlalchemy.engine.Engine ROLLBACK


In [22]:
### Execute aqui sua query SQL com SQLAlchemy + Pandas

from pandas import read_sql_query
from sqlalchemy import text

query = text('''
        SELECT designation, MIN(salary/12), MAX(salary/12), AVG(salary/12)
        FROM salarios
        GROUP BY designation;
        ''')

with engine.connect() as connection:
    result = read_sql_query(query, connection)

    print(result)

2024-10-19 21:56:07,278 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-10-19 21:56:07,282 INFO sqlalchemy.engine.Engine 
        SELECT designation, MIN(salary/12), MAX(salary/12), AVG(salary/12)
        FROM salarios
        GROUP BY designation;
        
2024-10-19 21:56:07,284 INFO sqlalchemy.engine.Engine [cached since 2660s ago] ()
      designation  MIN(salary/12)  MAX(salary/12)  AVG(salary/12)
0         Analyst     3333.416667     4165.000000     3751.675988
1       Associate     5846.166667     8300.250000     7266.915094
2        Director    17832.250000    32342.666667    23914.265625
3         Manager     8343.666667    12407.500000    10522.716049
4  Senior Analyst     4170.333333     5830.500000     4991.778792
5  Senior Manager    12614.416667    16631.416667    14888.689516
2024-10-19 21:56:07,306 INFO sqlalchemy.engine.Engine ROLLBACK


In [29]:
### Execute aqui sua query com SQLAlchemy ORM

from sqlalchemy import select, func
from sqlalchemy.orm import Session

session = Session(engine)

query = select(
    Salarios.designation,
    func.min(Salarios.salary / 12).label('min'),
    func.max(Salarios.salary / 12).label('max'),
    func.avg(Salarios.salary / 12).label('avg')

).group_by(Salarios.designation)

result = session.execute(query).all()

for row in result:
    print(row)


2024-10-19 22:02:26,047 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-10-19 22:02:26,099 INFO sqlalchemy.engine.Engine SELECT salarios.designation, min(salarios.salary / (? + 0.0)) AS min, max(salarios.salary / (? + 0.0)) AS max, avg(salarios.salary / (? + 0.0)) AS avg 
FROM salarios GROUP BY salarios.designation
2024-10-19 22:02:26,102 INFO sqlalchemy.engine.Engine [generated in 0.00295s] (12, 12, 12)
(<Designation.Analyst: 'Analyst'>, 3333.4166666666665, 4165.0, 3751.675987685993)
(<Designation.Associate: 'Associate'>, 5846.166666666667, 8300.25, 7266.915094339623)
(<Designation.Director: 'Director'>, 17832.25, 32342.666666666668, 23914.265625)
(<Designation.Manager: 'Manager'>, 8343.666666666666, 12407.5, 10522.716049382716)
(<Designation.SeniorAnalyst: 'Senior Analyst'>, 4170.333333333333, 5830.5, 4991.778792134832)
(<Designation.SeniorManager: 'Senior Manager'>, 12614.416666666666, 16631.416666666668, 14888.689516129032)
