> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [1]:
import pandas as pd

df_salarios = pd.read_csv("salaries.csv")

display(df_salarios)

Unnamed: 0,first_name,last_name,sex,doj,current_date,designation,age,salary,unit,leaves_used,leaves_remaining,ratings,past_exp
0,TOMASA,ARMEN,F,5-18-2014,01-07-2016,Analyst,21.0,44570,Finance,24.0,6.0,2.0,0
1,ANNIE,,F,,01-07-2016,Associate,,89207,Web,,13.0,,7
2,OLIVE,ANCY,F,7-28-2014,01-07-2016,Analyst,21.0,40955,Finance,23.0,7.0,3.0,0
3,CHERRY,AQUILAR,F,04-03-2013,01-07-2016,Analyst,22.0,45550,IT,22.0,8.0,3.0,0
4,LEON,ABOULAHOUD,M,11-20-2014,01-07-2016,Analyst,,43161,Operations,27.0,3.0,,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2634,KATHERINE,ALSDON,F,6-28-2011,01-07-2016,Senior_manager,36.0,185977,Management,15.0,15.0,5.0,10
2635,LOUISE,ALTARAS,F,1-14-2014,01-07-2016,Analyst,23.0,45758,IT,17.0,13.0,2.0,0
2636,RENEE,ALVINO,F,1-23-2014,01-07-2016,Analyst,21.0,47315,Web,29.0,1.0,5.0,0
2637,TERI,ANASTASIO,F,3-17-2014,01-07-2016,Analyst,24.0,45172,Web,23.0,7.0,3.0,1


#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [2]:
### Escreva sua resposta aqui
from sqlalchemy.orm import DeclarativeBase, Mapped, mapped_column,Session
from sqlalchemy import Enum,String,Date,select,func,desc
import enum
from datetime import date,datetime
from typing import Optional

class Base(DeclarativeBase):#data_convertida = datetime.strptime(str_data, "%m-%d-%Y").date()
    pass

class Sex(enum.Enum):
    F = 'F'
    M = 'M'

class Designation(enum.Enum):
    Analyst = "Analyst"
    Senior_analyst = "Senior_analyst"
    Manager = "Manager"
    Senior_manager = "Senior_manager"
    Associate = "Associate"
    Director = "Director"

class Unit(enum.Enum):
    
    Finance = 'Finance' 
    Web = 'Web'
    It = 'IT' 
    Operation = 'Operations'
    Marketing = 'Marketing'
    Management = 'Management'
    
class Salarios(Base):
    __tablename__ = 'salaries'

    id: Mapped[int] = mapped_column(primary_key=True,  autoincrement=True)
    first_name: Mapped[str] = mapped_column(String(20),nullable=False)
    last_name: Mapped[Optional[str]] = mapped_column(String(20),nullable=True)
    sex: Mapped[Sex] = mapped_column(Enum(Sex, native_enum=False), nullable=False)
    doj: Mapped[Optional[date]] = mapped_column(Date, nullable=True)
    current_date: Mapped[date] = mapped_column(Date,nullable=False)
    designation: Mapped[Designation] = mapped_column(Enum(Designation, native_enum=False),nullable=False)
    age: Mapped[Optional[int]] = mapped_column(nullable=True)
    salary: Mapped[int] = mapped_column(nullable=False)
    unit: Mapped[Unit] = mapped_column(Enum(Unit, native_enum=False))
    leaves_used: Mapped[Optional[int]] = mapped_column(nullable=True)
    leaves_remaining: Mapped[Optional[int]] = mapped_column(nullable=True)
    ratings: Mapped[Optional[int]] = mapped_column(nullable=True)
    past_exp: Mapped[int] = mapped_column(nullable=False)

    

#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [3]:
### Escreva sua resposta aqui
from sqlalchemy import create_engine

engine = create_engine('sqlite+pysqlite:///salaries')





#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [4]:
### Escreva sua resposta aqui
Base.metadata.create_all(engine)

#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [5]:
### Escreva sua resposta aqui
df = pd.read_csv('salaries.csv')
df.to_sql('salaries',engine,if_exists='append',index=False)

2639

#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [6]:
### Execute aqui sua query SQL com SQLAlchemy

from sqlalchemy import text

query = """
SELECT designation, 
       MIN(salary / 12.0) AS min_monthly_salary,
       MAX(salary / 12.0) AS max_monthly_salary,
       AVG(salary / 12.0) AS avg_monthly_salary
FROM salaries
GROUP BY designation
"""

with engine.connect() as conn:
    result = conn.execute(text(query))
    for row in result:
        print(row)


('Analyst', 3333.4166666666665, 4165.0, 3751.675987685993)
('Associate', 5846.166666666667, 8300.25, 7266.915094339623)
('Director', 17832.25, 32342.666666666668, 23914.265625)
('Manager', 8343.666666666666, 12407.5, 10522.716049382716)
('Senior_analyst', 4170.333333333333, 5830.5, 4991.778792134832)
('Senior_manager', 12614.416666666666, 16631.416666666668, 14888.689516129032)


In [7]:
### Execute aqui sua query SQL com SQLAlchemy + Pandas

query = """
SELECT designation, 
       MIN(salary / 12.0) AS min_monthly_salary,
       MAX(salary / 12.0) AS max_monthly_salary,
       AVG(salary / 12.0) AS avg_monthly_salary
FROM salaries
GROUP BY designation
"""

with engine.connect() as conn,conn.begin():
    result = pd.read_sql_query(query,conn)

print(result)

      designation  min_monthly_salary  max_monthly_salary  avg_monthly_salary
0         Analyst         3333.416667         4165.000000         3751.675988
1       Associate         5846.166667         8300.250000         7266.915094
2        Director        17832.250000        32342.666667        23914.265625
3         Manager         8343.666667        12407.500000        10522.716049
4  Senior_analyst         4170.333333         5830.500000         4991.778792
5  Senior_manager        12614.416667        16631.416667        14888.689516


In [8]:
### Execute aqui sua query com SQLAlchemy ORM

with Session(engine) as session:
    query = (
        select(
            Salarios.designation,
            func.min(Salarios.salary / 12).label("min_monthly_salary"),
            func.max(Salarios.salary / 12).label("max_monthly_salary"),
            func.avg(Salarios.salary / 12).label("avg_monthly_salary"),
        )
        .group_by(Salarios.designation)
    )

    result = session.execute(query).all()
    for row in result:
        print(row)


(<Designation.Analyst: 'Analyst'>, Decimal('3333.4166666667'), Decimal('4165.0000000000'), 3751.675987685993)
(<Designation.Associate: 'Associate'>, Decimal('5846.1666666667'), Decimal('8300.2500000000'), 7266.915094339623)
(<Designation.Director: 'Director'>, Decimal('17832.2500000000'), Decimal('32342.6666666667'), 23914.265625)
(<Designation.Manager: 'Manager'>, Decimal('8343.6666666667'), Decimal('12407.5000000000'), 10522.716049382716)
(<Designation.Senior_analyst: 'Senior_analyst'>, Decimal('4170.3333333333'), Decimal('5830.5000000000'), 4991.778792134832)
(<Designation.Senior_manager: 'Senior_manager'>, Decimal('12614.4166666667'), Decimal('16631.4166666667'), 14888.689516129032)
