> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.14 - ORM

## Exercícios

#### Q1. Conhecendo os dados
Baixe o seguinte csv onde iremos trabalhar. Ele contém informações sobre salários de profissionais de dados de uma empresa hipotética entre 2009 e 2016
* https://github.com/camilalaranjeira/python-intermediario/blob/main/salaries.csv

Suas colunas, descritas na [página do Kaggle que contém o dataset](https://www.kaggle.com/datasets/krishujeniya/salary-prediction-of-data-professions?resource=download), são:
* FIRST NAME: Primeiro nome do profissional de dados (String)
* LAST NAME: Sobrenome do profissional de dados (String)
* SEX: Gênero do profissional de dados (String: 'F' para Feminino, 'M' para Masculino)
* DOJ (Date of Joining): A data em que o profissional de dados ingressou na empresa (Data no formato MM/DD/AAAA)
* CURRENT DATE: A data atual ou a data de referência dos dados (Data no formato MM/DD/AAAA)
* DESIGNATION: O cargo ou designação do profissional de dados (String: ex., Analista, Analista Sênior, Gerente)
* AGE: Idade do profissional de dados (Integer)
* SALARY: Salário anual do profissional de dados (Float)
* UNIT: Unidade de negócios ou departamento em que o profissional de dados trabalha (String: ex., TI, Finanças, Marketing)
* LEAVES USED: Número de licenças utilizadas pelo profissional de dados (Integer)
* LEAVES REMAINING: Número de licenças restantes para o profissional de dados (Integer)
* RATINGS: Avaliações de desempenho do profissional de dados (Float)
* PAST EXP: Experiência de trabalho anterior em anos antes de ingressar na empresa atual (Float)

Na célula a seguir, **carregue os dados do CSV e dê uma olhada neles antes de seguir**.

In [1]:
### Escreva sua resposta aqui
import pandas as pd

dados = pd.read_csv('salaries.csv')
print(dados.head())

  FIRST NAME   LAST NAME SEX         DOJ CURRENT DATE DESIGNATION   AGE  \
0     TOMASA       ARMEN   F   5-18-2014   01-07-2016     Analyst  21.0   
1      ANNIE         NaN   F         NaN   01-07-2016   Associate   NaN   
2      OLIVE        ANCY   F   7-28-2014   01-07-2016     Analyst  21.0   
3     CHERRY     AQUILAR   F  04-03-2013   01-07-2016     Analyst  22.0   
4       LEON  ABOULAHOUD   M  11-20-2014   01-07-2016     Analyst   NaN   

   SALARY        UNIT  LEAVES USED  LEAVES REMAINING  RATINGS  PAST EXP  
0   44570     Finance         24.0               6.0      2.0         0  
1   89207         Web          NaN              13.0      NaN         7  
2   40955     Finance         23.0               7.0      3.0         0  
3   45550          IT         22.0               8.0      3.0         0  
4   43161  Operations         27.0               3.0      NaN         3  


#### Q2. Modelando os dados
Você deve **criar um ORM com SQLAlchemy capaz de comportar os dados dessa base**.

* Crie um campo de chave primária `ID`, que deve ser incrementado automaticamente
* Os campos SEX, DESIGNATION e UNIT devem ser definidos como classes `Enum` com os possíveis valores (consulte os valores únicos dessas colunas)
* Para os outros campos, consulte os tipos de dados informados na descrição acima

In [None]:
### Escreva sua resposta aqui
from sqlalchemy import create_engine, Column, Integer, Float, String, Date, Enum
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
import enum

Base = declarative_base()

class Sex(enum.Enum):
    F = 'Feminino'
    M = 'Masculino'

class Designation(enum.Enum):
    ANALISTA = 'Analista'
    ANALISTA_SENIOR = 'Analista Sênior'
    GERENTE = 'Gerente'

class Unit(enum.Enum):
    TI = 'TI'
    FINANCAS = 'Finanças'
    MARKETING = 'Marketing'

class Salary(Base):
    __tablename__ = 'salaries'

    id = Column(Integer, primary_key=True, autoincrement=True)
    first_name = Column(String)
    last_name = Column(String)
    sex = Column(Enum(Sex))
    doj = Column(Date)
    current_date = Column(Date)
    designation = Column(Enum(Designation))
    age = Column(Integer)
    salary = Column(Float)
    leaves_used = Column(Integer)
    leaves_remaining = Column(Integer)
    ratings = Column(Float)
    past_exp = Column(Float)

# Exemplo de criação do banco de dados
engine = create_engine('sqlite:///salaries.db')
Base.metadata.create_all(engine)

Session = sessionmaker(bind=engine)
session = Session()

  Base = declarative_base()


#### Q3. Estabelecendo uma conexão

Usando o método `create_engine` do SQLAlchemy, crie uma conexão com um novo banco de dados SQLite chamado `salarios`.

In [3]:
### Escreva sua resposta aqui
from sqlalchemy import create_engine

engine = create_engine('sqlite:///salarios.db')

#### Q4. Criando as tabelas
Crie as tabelas da questão Q2 no banco `salarios`.

In [4]:
### Escreva sua resposta aqui
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
from sqlalchemy import Column, Integer, Float, String, Date, Enum
import enum

Base = declarative_base()

class Sex(enum.Enum):
    F = 'Feminino'
    M = 'Masculino'

class Designation(enum.Enum):
    ANALISTA = 'Analista'
    ANALISTA_SENIOR = 'Analista Sênior'
    GERENTE = 'Gerente'

class Unit(enum.Enum):
    TI = 'TI'
    FINANCAS = 'Finanças'
    MARKETING = 'Marketing'

class Salary(Base):
    __tablename__ = 'salaries'

    id = Column(Integer, primary_key=True, autoincrement=True)
    first_name = Column(String)
    last_name = Column(String)
    sex = Column(Enum(Sex))
    doj = Column(Date)
    current_date = Column(Date)
    designation = Column(Enum(Designation))
    age = Column(Integer)
    salary = Column(Float)
    leaves_used = Column(Integer)
    leaves_remaining = Column(Integer)
    ratings = Column(Float)
    past_exp = Column(Float)

engine = create_engine('sqlite:///salarios.db')
Base.metadata.create_all(engine)

  Base = declarative_base()


#### Q5. Populando

Usando o método `to_sql` da biblioteca Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)), popule o banco `salarios` com os dados do csv que você carregou na questão Q1.
* Lembre-se de definir o parâmetro `if_exists='append'` para que as tabelas não sejam dropadas e recriadas.

In [5]:
### Escreva sua resposta aqui
import pandas as pd
from sqlalchemy import create_engine

dados = pd.read_csv('salaries.csv')
engine = create_engine('sqlite:///salarios.db')

dados.to_sql('salaries', con=engine, if_exists='append', index=False)

OperationalError: (sqlite3.OperationalError) table salaries has no column named FIRST NAME
[SQL: INSERT INTO salaries ("FIRST NAME", "LAST NAME", "SEX", "DOJ", "CURRENT DATE", "DESIGNATION", "AGE", "SALARY", "UNIT", "LEAVES USED", "LEAVES REMAINING", "RATINGS", "PAST EXP") VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)]
[parameters: [('TOMASA', 'ARMEN', 'F', '5-18-2014', '01-07-2016', 'Analyst', 21.0, 44570, 'Finance', 24.0, 6.0, 2.0, 0), ('ANNIE', None, 'F', None, '01-07-2016', 'Associate', None, 89207, 'Web', None, 13.0, None, 7), ('OLIVE', 'ANCY', 'F', '7-28-2014', '01-07-2016', 'Analyst', 21.0, 40955, 'Finance', 23.0, 7.0, 3.0, 0), ('CHERRY', 'AQUILAR', 'F', '04-03-2013', '01-07-2016', 'Analyst', 22.0, 45550, 'IT', 22.0, 8.0, 3.0, 0), ('LEON', 'ABOULAHOUD', 'M', '11-20-2014', '01-07-2016', 'Analyst', None, 43161, 'Operations', 27.0, 3.0, None, 3), ('VICTORIA', None, 'F', '2-19-2013', '01-07-2016', 'Analyst', 22.0, 48736, 'Marketing', 20.0, 10.0, 4.0, 0), ('ELLIOT', 'AGULAR', 'M', '09-02-2013', '01-07-2016', 'Analyst', 22.0, 40339, 'Marketing', 19.0, 11.0, 5.0, 0), ('JACQUES', 'AKMAL', 'M', '12-05-2013', '01-07-2016', 'Analyst', None, 40058, 'Marketing', 29.0, 1.0, 2.0, 2)  ... displaying 10 of 2639 total bound parameter sets ...  ('TERI', 'ANASTASIO', 'F', '3-17-2014', '01-07-2016', 'Analyst', 24.0, 45172, 'Web', 23.0, 7.0, 3.0, 1), ('GREGORY', 'ABARCA', 'M', '9-18-2014', '01-07-2016', 'Analyst', 24.0, 49176, 'Marketing', 17.0, 13.0, 2.0, 2)]]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

#### Q6. Consultas SQL vs ORM

Agrupe os dados por DESIGNATION e selecione o mínimo, máximo e a média dos salários (SALARY) divididos por 12. Já que o atributo SALARY é anual, dividir por 12 nos mostrará os valores mensais.

Assumindo que a variável que armazena a sua conexão se chama `engine`, você deve realizar a query acima de três formas:
* Executando a query SQL através de uma instância de conexão retornada pelo método `engine.connect()`
* Executando a query SQL com o método `read_sql_query` do Pandas (veja [a documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html)). Você usará mesma instância `engine.connect()` como um dos parâmetros.
* Executando uma query criada com o módulo `select` do SQLAlchemy. Sua execução deve ser feita através de um objeto `Session` do módulo `orm` do SQLAlchemy (`Session(engine)`).


In [None]:
### Execute aqui sua query SQL com SQLAlchemy
from sqlalchemy import create_engine

engine = create_engine('sqlite:///salarios.db')

with engine.connect() as connection:
    result = connection.execute("""
        SELECT DESIGNATION, 
               MIN(SALARY) / 12 AS Min_Salary, 
               MAX(SALARY) / 12 AS Max_Salary, 
               AVG(SALARY) / 12 AS Avg_Salary 
        FROM salaries 
        GROUP BY DESIGNATION
    """)
    for row in result:
        print(row)

In [None]:
### Execute aqui sua query SQL com SQLAlchemy + Pandas
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///salarios.db')

query = """
    SELECT DESIGNATION, 
           MIN(SALARY) / 12 AS Min_Salary, 
           MAX(SALARY) / 12 AS Max_Salary, 
           AVG(SALARY) / 12 AS Avg_Salary 
    FROM salaries 
    GROUP BY DESIGNATION
"""
df = pd.read_sql_query(query, con=engine)
print(df)

In [None]:
### Execute aqui sua query com SQLAlchemy ORM
from sqlalchemy import create_engine, select, func
from sqlalchemy.orm import sessionmaker

engine = create_engine('sqlite:///salarios.db')
Session = sessionmaker(bind=engine)
session = Session()

stmt = select(
    Salary.designation,
    func.min(Salary.salary) / 12,
    func.max(Salary.salary) / 12,
    func.avg(Salary.salary) / 12
).group_by(Salary.designation)

result = session.execute(stmt).fetchall()
for row in result:
    print(row)

session.close()