> Projeto Desenvolve <br>
Programa√ß√£o Intermedi√°ria com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# Modelagem de dados
Python √© uma linguagem muito permissiva, isso √© fato. Mas no escopo de ci√™ncia de dados, e em geral quando interagimos com algum sistema de gest√£o de banco de dados (SGBD), √© necess√°rio ser mais restritivo quanto ao tipo e √† natureza dos dados para garantir **integridade de dados** (garantir precis√£o, completude, consist√™ncia e validade dos dados de uma organiza√ß√£o).

Impor restri√ß√µes de tipo, al√©m de realizar valida√ß√µes robustas, √© fundamental para assegurar a integridade. Restri√ß√µes de tipo garantem que os dados sejam do formato esperado, prevenindo erros e inconsist√™ncias. Valida√ß√µes robustas asseguram que os dados cumpram regras espec√≠ficas de neg√≥cio e l√≥gicas, evitando a entrada de dados inv√°lidos que poderiam corromper o banco de dados ou comprometer a an√°lise.

Nas pr√≥ximas aulas conheceremos alguns recursos do Python para trabalhar com integridade de dados em mente.


## Type hints (anota√ß√µes de tipo)

Refer√™ncias principalis:
* [PEP 484 - Type Hints](https://peps.python.org/pep-0484/)
* [Type Hint Cheat Sheet](https://mypy.readthedocs.io/en/stable/cheat_sheet_py3.html)

Type hinting no Python √© uma funcionalidade que permite aos desenvolvedores especificar o tipo de vari√°veis, par√¢metros de fun√ß√£o e valores de retorno. Por padr√£o, s√£o somente para indicar aos desenvolvedores os tipos esperados em determinados contextos, no entanto **Python √© uma linguagem dinamicamente tipada**, e sua execu√ß√£o continua inalterada. Ou seja, **type hints n√£o adicionam verifica√ß√µes de tipo √† execu√ß√£o**.
> Veremos mais √† frente que existem outras bibliotecas (como a Pydantic) que exploram a anota√ß√£o de tipo para realizar valida√ß√µes.

Sintaxe:
* **Vari√°veis**: Voc√™ pode especificar o tipo de uma vari√°vel usando a nota√ß√£o `:`
* **M√©todos e fun√ß√µes**: Para fun√ß√µes, voc√™ pode especificar os tipos dos par√¢metros com a nota√ß√£o `:` e os valores de retorno com a nota√ß√£o `->`.

In [None]:
def divide(a: int, b: int) -> float:
    return a/b

def inverter(st: str) -> str:
    return st[::-1]

def cumprimentar(nome: str) -> None:
    print(f'Ol√° {nome}!')


x: int = 10
y: int = 17
res = divide(x, y)
print(f'A soma {x} + {y} = {res:.2}')

nome: str = "Mila"
cumprimentar(nome)
print(inverter(nome))

A soma 10 + 17 = 0.59
Ol√° Mila!
aliM


O atributo `__annotations__` registra todos os elementos de um dado objeto que s√£o acompanhados de anota√ß√£o de tipo.

In [None]:
print(divide.__annotations__)

{'a': <class 'int'>, 'b': <class 'int'>, 'return': <class 'float'>}


No caso de cole√ß√µes, podemos indicar n√£o s√≥ o tipo da cole√ß√£o como tamb√©m o tipo de seus elementos. Usa-se nesse caso a sintaxe de colchetes, como apresentado a seguir.

In [None]:
def soma_lista(lista: list[int]) -> int:
    return sum([x * 2 for x in lista])

def soma_dicionario(d: dict[str, int]) -> int:
    return sum(d.values())

def soma_tupla(lista: list[tuple[int, int]]) -> tuple[int, int]:
    return (sum(v[0] for v in lista), sum(v[1] for v in lista))

lst: list[int] = [1,2,3]
print(soma_lista(lst))

dic: dict[str, int] = {'a': 2, 'b':3, 'c': 4}
print(soma_dicionario(dic))

tup: list[tuple[int, int]] = [(1,2), (3,4), (5,6)]
print(soma_tupla(tup))

12
9
(9, 12)


### `typing`

A biblioteca `typing` expande nossa capacidade de anota√ß√£o de tipos. Por exemplo, no caso de par√¢metros opcionais voc√™ pode usar a anota√ß√£o `Optional`. Assim como no caso de cole√ß√µes, indicamos com a sintaxe de colchetes o tipo esperado para a vari√°vel opcional.

> Lembre-se que a anota√ß√£o de tipo n√£o altera a execu√ß√£o do Python e portanto √© preciso definir valores padr√£o para vari√°veis opcionais. Caso contr√°rio, elas ser√£o consideradas obrigat√≥rias.

In [None]:
from typing import Optional, Any

def imprime_lista(qualquer_coisa: list[Any]) -> None:
    print(qualquer_coisa)

def cumprimentar(nome: Optional[str] = None) -> None:
    if nome:
        print(f'Ol√° {nome}!')
    else:
        print('Ol√° mundo!')

cumprimentar()

Ol√° mundo!


Em alguns casos precisaremos anotar uma dada fun√ß√£o ou vari√°vel com **tipos gen√©ricos**, para indicar que aquele elemento pode assumir mais de um tipo de dado. No Python, voc√™ pode usar a biblioteca `typing`para definir tipos gen√©ricos.

* `Sequence` √© um dos [duck types](https://mypy.readthedocs.io/en/stable/cheat_sheet_py3.html#standard-duck-types) dispon√≠veis para cole√ß√µes de valores (*lembra? Se anda como um pato...*). Ao anotar um tipo `Sequence`, assumimos qualquer tipo de dados que possui os m√©todos m√°gicos `len` e `__getitem__`.

* `TypeVar` por outro lado nos permite garantir consist√™ncia de tipos, sem estabelecer est√°ticamente um tipo exato. Por exemplo, na fun√ß√£o `first` a seguir indicamos que o valor retornado tem o mesmo tipo dos elementos da sequ√™ncia.
    * Uma express√£o `TypeVar()` deve sempre ser atribu√≠da diretamente a uma vari√°vel. O primeiro argumento de `TypeVar()` deve ser uma string igual ao nome da vari√°vel √† qual ela √© atribu√≠da.
    * Podemos adicionar mais par√¢metros a `TypeVar()` para restringir o conjunto de tipos aceitos no determinado escopo.

In [None]:
from typing import Sequence, TypeVar

# Anota√ß√£o gen√©rica de tipo
T = TypeVar('T')
def first(l: list[T]) -> T:
    return l[0]

# Tipo gen√©rico de sequ√™ncia
T = TypeVar('T')
def first(l: Sequence[T]) -> T:
    return l[0]

# Anota√ß√£o gen√©rica de tipo
# restrita a str ou bytes
AnyStr = TypeVar('AnyStr', str, bytes)
def concat(x: AnyStr, y: AnyStr) -> AnyStr:
    return x + y

## `dataclass`

O m√≥dulo `dataclasses` fornece alguns decoradores e fun√ß√µes que adicionam automaticamente alguns m√©todos especiais (m√°gicos ‚ú®ü™ÑüîÆ) a classes customizadas (que a gente mesmo cria).

A principal fun√ß√£o √© a `dataclass`, t√≠picamente usada como decorador de classe. Seu papel √© aplicar um p√≥s-processamento √† classe decorada, examinando-a para encontrar campos (*fields*). Um campo (*field*) √© definido como qualquer vari√°vel identificada em `__annotations__`. Ou seja, uma vari√°vel que tem uma anota√ß√£o de tipo (*type hint*).

Voc√™ pode fornecer par√¢metros ao `dataclass` para indicar quais m√©todos ser√£o automaticamente adicionados. No exemplo a seguir, as duas decora√ß√£o s√£o equivalentes. O segundo caso apenas apresenta todas as customiza√ß√µes dispon√≠veis associadas a seus valores padr√£o.


```python
from dataclasses import dataclass

@dataclass
class A:
    field1: str
    field2: int = 0
    ...

@dataclass(init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False)
class B:
    field1: str
    field2: int = 0
```

A seguir uma explica√ß√£o dos principais par√¢metros (voc√™ pode consultar os outros na [PEP-557](https://peps.python.org/pep-0557/)).

* `init`: Se `True` (o padr√£o), um m√©todo `__init__` ser√° gerado.
* `repr`: Se `True` (o padr√£o), um m√©todo `__repr__` ser√° gerado. A string repr ter√° o nome da classe e o nome e repr de cada campo, na ordem em que s√£o definidos na classe.
* `eq`: Se `True` (o padr√£o), um m√©todo `__eq__` ser√° gerado. Este m√©todo compara a classe como se fosse uma tupla de seus campos, em ordem.
* `order`: Se `True` (o padr√£o √© `False`), os m√©todos `__lt__`, `__le__`, `__gt__` e `__ge__` ser√£o gerados. Eles comparam a classe como se fosse uma tupla de seus campos, em ordem. Se `order` for `True`, `eq` tamb√©m deve ser `True`.

Para o exemplo definido na c√©lula a seguir, segue uma amostra de como fica sua estrutura interna em termos de m√©todos m√°gicos.
```python
def __init__(self, nome: str, preco_unitario: float, quantidade_em_estoque: int = 0) -> None:
    self.nome = nome
    self.preco_unitario = preco_unitario
    self.quantidade_em_estoque = quantidade_em_estoque
def __repr__(self):
    return f'InventoryItem(nome={self.nome!r}, preco_unitario={self.preco_unitario!r}, quantidade_em_estoque={self.quantidade_em_estoque!r})'
def __eq__(self, other):
    if other.__class__ is self.__class__:
        return (self.nome, self.preco_unitario, self.quantidade_em_estoque) == (other.nome, other.preco_unitario, other.quantidade_em_estoque)
    return NotImplemented
def __lt__(self, other):
    if other.__class__ is self.__class__:
        return (self.nome, self.preco_unitario, self.quantidade_em_estoque) < (other.nome, other.preco_unitario, other.quantidade_em_estoque)
    return NotImplemented
    ... # outros m√©todos a seguir ...
```

In [None]:
from dataclasses import dataclass

@dataclass
class ItemDeInventario:
    '''Classe para registrar um item no invent√°rio.'''
    nome: str
    preco_unitario: float
    quantidade_em_estoque: int = 0

    def custo_total(self) -> float:
        return self.preco_unitario * self.quantidade_em_estoque

print(ItemDeInventario.__annotations__)

item = ItemDeInventario("", 0)
dir(item)

{'nome': <class 'str'>, 'preco_unitario': <class 'float'>, 'quantidade_em_estoque': <class 'int'>}


['__annotations__',
 '__class__',
 '__dataclass_fields__',
 '__dataclass_params__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__match_args__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'custo_total',
 'nome',
 'preco_unitario',
 'quantidade_em_estoque']

### `field`

Tamb√©m podemos definir e customizar expl√≠citamente cada um dos campos de dados. Para isso, temos a fun√ß√£o `field` do m√≥dulo `dataclasses`, com a seguite assinatura.

```python
def field(*, default=MISSING, default_factory=MISSING, repr=True,
          hash=None, init=True, compare=True, metadata=None)
```

Os principais par√¢metros para `field()` est√£o a seguir. Voc√™ pode consultar a lista completa [na documenta√ß√£o](https://docs.python.org/3/library/dataclasses.html#dataclasses.field).

* `default`: Se fornecido, este ser√° o valor padr√£o do campo. Isso √© necess√°rio porque a chamada `field()` substitui a posi√ß√£o normal do valor padr√£o.

* `default_factory`: Se fornecido, deve ser um objeto `callable` (ex.: fun√ß√£o ou classe) sem par√¢metros que ser√° chamado quando um valor padr√£o for necess√°rio para este campo. Pode ser usado para especificar campos com valores padr√£o mut√°veis. √â um erro especificar `default` e `default_factory`.

* `init`: Se `True` (o padr√£o), este campo √© inclu√≠do como um par√¢metro para o m√©todo `__init__()` gerado.

* `repr`: Se `True` (o padr√£o), este campo √© inclu√≠do na string retornada pelo m√©todo `__repr__()` gerado.

* `compare`: Se `True` (o padr√£o), este campo √© inclu√≠do nos m√©todos de igualdade e compara√ß√£o gerados (`__eq__()`, `__gt__()`, etc.).

In [None]:
dir(ItemDeInventario)

['__annotations__',
 '__class__',
 '__dataclass_fields__',
 '__dataclass_params__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__match_args__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'custo_total',
 'quantidade_em_estoque']

In [None]:
from dataclasses import field
import random

@dataclass(order=True)
class ItemDeInventario:
    '''Classe para registrar um item no invent√°rio.'''
    nome: str = field(compare=False)
    preco_unitario: float = field(compare=False)
    quantidade_em_estoque: int = 0

    def custo_total(self) -> float:
        return self.preco_unitario * self.quantidade_em_estoque

    def __str__(self) -> str:
        return f"{self.nome}: Quantidade - {self.quantidade_em_estoque}, Pre√ßo: R${self.preco_unitario:.2f}"

itens = []
for i in range(10):
    itens.append(ItemDeInventario(f"Nome{i:02d}",
                                  random.randint(1,100),
                                  random.randint(100, 1000)))


for item in sorted(itens, reverse=True):
    print(item)

Nome06: Quantidade - 946, Pre√ßo: R$93.00
Nome02: Quantidade - 914, Pre√ßo: R$39.00
Nome09: Quantidade - 842, Pre√ßo: R$100.00
Nome05: Quantidade - 745, Pre√ßo: R$65.00
Nome03: Quantidade - 742, Pre√ßo: R$62.00
Nome07: Quantidade - 654, Pre√ßo: R$72.00
Nome04: Quantidade - 386, Pre√ßo: R$19.00
Nome08: Quantidade - 350, Pre√ßo: R$89.00
Nome01: Quantidade - 161, Pre√ßo: R$24.00
Nome00: Quantidade - 143, Pre√ßo: R$76.00


## `Enum`

O conceito de enumera√ß√£o existe em muitas linguagens. Como definido na pr√≥pria [documenta√ß√£o do Python sobre Enums](https://docs.python.org/3/library/enum.html):

* √â um conjunto de nomes simb√≥licos (membros) vinculados a **valores constantes**
* Pode ser iterado para retornar seus membros can√¥nicos (ou seja, n√£o alias) **em ordem de defini√ß√£o**

Adicionalmente, a estrutura Enum no Python tem as seguintes caracter√≠sticas:
* Pode ser criado atrav√©s da sintaxe de classe ou de fun√ß√£o
* Usa sintaxe de chamada para retornar membros por valor
* usa sintaxe de √≠ndice para retornar membros por nome

In [None]:
from enum import Enum

# Criando Enum com sintaxe de classe.
# Usa-se a rela√ß√£o de heran√ßa.
class Color(Enum):
    RED = 1
    GREEN = 2
    BLUE = 3

# Criando Enum com sintaxe de fun√ß√£o.
# Enum (name, values)
Color = Enum('Color', ['RED', 'GREEN', 'BLUE'])

print('\nAcessando os objetos')
print(Color(1)) # sintaxe de chamada
print(Color['RED'], Color.RED) # sintaxe de √≠ndice

# acessando o nome e o valor correspondente de um item
print(Color(1).name, Color(1).value)
print(Color['RED'].name, Color['RED'].value)

print('\nIterando no Enum')
for c in Color:
    print(c)

print('\nPor dentro dos objetos')
print(dir(Color))
print(dir(Color.RED))


Acessando os objetos
Color.RED
Color.RED Color.RED
RED 1
RED 1

Iterando no Enum
Color.RED
Color.GREEN
Color.BLUE

Por dentro dos objetos
['BLUE', 'GREEN', 'RED', '__class__', '__doc__', '__members__', '__module__']
['__class__', '__doc__', '__module__', 'name', 'value']


Usar Enums ajuda a evitar erros, garantindo que apenas valores v√°lidos sejam atribu√≠dos, al√©m de tornar o c√≥digo mais leg√≠vel e f√°cil de manter. No exemplo a seguir, a vari√°vel `cor` de um objeto `Carro` √© uma inst√¢ncia da enumera√ß√£o `Color`.

In [None]:
from dataclasses import dataclass

@dataclass
class Carro:
    marca: str
    modelo: str
    cor: Color
    placa: str

carro01 = Carro('Volkswagen', 'T-Cross', Color.RED, "XYZ0000")
carro01.cor, type(carro01.cor)

(<Color.RED: 1>, <enum 'Color'>)

Por padr√£o, o Enum atribui ao seus elementos um intervalo num√©rico (`int`) sequencial, com o primeiro valor igual a `1`. Mas a estrutura te d√° liberdade de atribuir quaisquer valores, inclusive de tipos hetereg√™neos (onde cada elemento do Enum tem um tipo). No entanto, tipos heterog√™neos devem ser evitados, j√° que o prop√≥sito do Enum √© agrupar constantes de caracter√≠sticas semelhantes.

In [None]:
# Enum padr√£o
Color = Enum('Color', ['RED', 'GREEN', 'BLUE'])
print(Color.RED.name, Color.RED.value)

class SwitchPosition(Enum):
    ON = True
    OFF = False

class Size(Enum):
    S = "small"
    M = "medium"
    L = "large"
    XL = "extra large"

# Tipos heterog√™neos n√£o recomendado.
# O ideal √© haver consist√™ncia de tipos
class UserResponse(Enum):
    YES = 1
    NO = "No"

RED 1


A sintaxe funcional permite atributos adicionais. Os mais importantes s√£o:

* `value`: O nome da nova classe de enumera√ß√£o
* `names`: Nomes para os membros da enumera√ß√£o
* `start`: Valor inicial que a enumera√ß√£o de `values` vai come√ßar.
* `type`: Uma classe que adiciona funcionalidade aos elementos do Enum.

> O atributo `type` se expressa na sintaxe de classe como uma heran√ßa m√∫ltipla, permitindo que os itens da enumera√ß√£o possam ser comparados com objetos do tipo indicado.


Voc√™ pode ler mais sobre nesse tutorial do Real Python: [*Creating Enumerations With the Functional API*](https://realpython.com/python-enum/#creating-enumerations-with-the-functional-api).

Tamb√©m recomendo ler a se√ß√£o [*Exploring Other Enumeration Classes*](https://realpython.com/python-enum/#exploring-other-enumeration-classes) desse mesmo tutorial, caso tenha interesse de conhecer outras classes de enumera√ß√£o (`IntEnum`, `IntFlag`, etc.).

In [None]:
Size = Enum('Size', ['S', 'M', 'L', 'XL'], start=10, type=int)
print(list(Size))

class Size(int, Enum):
    S = 10
    M = 11
    L = 12
    XL = 13

print(list(Size))
Size.S > 10

[<Size.S: 10>, <Size.M: 11>, <Size.L: 12>, <Size.XL: 13>]
[<Size.S: 10>, <Size.M: 11>, <Size.L: 12>, <Size.XL: 13>]


False

## Pydantic

Segundo a pr√≥pria [documenta√ß√£o](https://docs.pydantic.dev/latest/), o Pydantic √© a biblioteca de **valida√ß√£o de dados** mais utilizada para Python. Adotando a abordagem nativa de anota√ß√£o de tipos que acabamos de ver, o Pydantic faz o papel de testar o tipo dos objetos associados √†s vari√°veis anotadas, **lan√ßando erros** em caso de inconsist√™ncias.

Uma outra importante vantagem do Pydantic √© a **serializa√ß√£o** de dados, facilmente convertendo o conte√∫do dos objetos Pydantic para tipos mais simples de armazenar, como dicion√°rios ou strings JSON.

Para o exemplo que vai ilustrar nossa explica√ß√£o, precisamos [instalar o Pydantic](https://docs.pydantic.dev/latest/install/) com a depend√™ncia opcional de valida√ß√£o de e-mail.

In [None]:
!pip install pydantic[email]

Collecting email-validator>=2.0.0 (from pydantic[email])
  Downloading email_validator-2.2.0-py3-none-any.whl (33 kB)
Collecting dnspython>=2.0.0 (from email-validator>=2.0.0->pydantic[email])
  Downloading dnspython-2.6.1-py3-none-any.whl (307 kB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m307.7/307.7 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: dnspython, email-validator
Successfully installed dnspython-2.6.1 email-validator-2.2.0


In [None]:
from uuid import UUID, uuid4 # universally unique identifiers
from datetime import date
from enum import Enum
import json
from pydantic import (
    BaseModel,
    EmailStr,
    Field,
    field_validator,
    model_validator
)

### `BaseModel`

Similar √†s dataclasses, os esquemas de dados no Pydantic exploram a estrutura√ß√£o de classes dedicadas ao armazenamento de dados. Ao criar uma classe que herda da classe `BaseModel` do Pydantic, todos os atributos com anota√ß√£o de tipos ser√£o considerados campos (*fields*) do esquema de dados e, portanto, far√£o parte das fun√ß√µes de valida√ß√£o e serializa√ß√£o automaticamente adicionadas √† classe.

Na c√©lula a seguir, criamos o esquema de dados usado como exemplo no tutorial do Real Python [*Pydantic: Simplifying Data Validation in Python*](https://realpython.com/python-pydantic/). Sua defini√ß√£o envolve duas classe:

* `Department(Enum)`: Um enumerador com valores do tipo string que define os poss√≠veis departamentos de uma empresa hipot√©tica. Ser√° utilizado como o tipo de um dos campos do esquema de dados. O campo internamente ir√° armazenar strings, por√©m com a garantia que vai assumir apenas valores v√°lidos.

* `Employee(BaseModel)`: Esquema de dados para o registro de funcion√°rios. Consiste nos atributos id, nome, email, data de nascimento, sal√°rio, departamento (nosso enumerador) e uma vari√°vel booleano que define se ele √© eleg√≠vel a benef√≠cios.
    * Note que a vari√°vel `employee_id` possui um valor default dado pela fun√ß√£o `uuid4()`, que cria um id √∫nico para o funcion√°rio. √â uma pr√°tica comum para cria√ß√£o de chaves de um registro em bancos de dados, sem depender de atributos que possam ter duplicatas ou sejam de alguma maneira inconsistentes (sujeito a mudan√ßas, etc.).
    * J√° o atributo `email` √© do tipo `EmailStr`, um tipo importado da biblioteca Pydantic que possui valida√ß√µes internas de uma string de e-mail. Internamente usa a biblioteca [email-validator](https://pypi.org/project/email-validator/) do Python.
    * Por fim, o atributo `date_of_birth`, por ser do tipo `date` da biblioteca `datetime`, aceita strings formatadas como uma data e as converte em um objeto de data. A classe `date` tamb√©m possui valida√ß√µes internas para realizar a convers√£o.


In [None]:
class Department(Enum):
    HR = "HR"
    SALES = "SALES"
    IT = "IT"
    ENGINEERING = "ENGINEERING"

class Employee(BaseModel):
    employee_id: UUID = uuid4()
    name: str
    email: EmailStr
    date_of_birth: date
    salary: float
    department: Department
    elected_benefits: bool

schema = Employee.model_json_schema()
print(json.dumps(schema, indent=2))

{
  "$defs": {
    "Department": {
      "enum": [
        "HR",
        "SALES",
        "IT",
        "ENGINEERING"
      ],
      "title": "Department",
      "type": "string"
    }
  },
  "properties": {
    "employee_id": {
      "default": "11377385-75ed-4ce3-9518-33ecd9c517a7",
      "format": "uuid",
      "title": "Employee Id",
      "type": "string"
    },
    "name": {
      "title": "Name",
      "type": "string"
    },
    "email": {
      "format": "email",
      "title": "Email",
      "type": "string"
    },
    "date_of_birth": {
      "format": "date",
      "title": "Date Of Birth",
      "type": "string"
    },
    "salary": {
      "title": "Salary",
      "type": "number"
    },
    "department": {
      "$ref": "#/$defs/Department"
    },
    "elected_benefits": {
      "title": "Elected Benefits",
      "type": "boolean"
    }
  },
  "required": [
    "name",
    "email",
    "date_of_birth",
    "salary",
    "department",
    "elected_benefits"
  ],
  "title"

Um registro do esquema √© definido como uma inst√¢ncia da classe que herda de `BaseModel`. Na c√©lula a seguir criamos uma inst√¢ncia apenas com os valores obrigat√≥rios (`employee_id` ser√° gerado automaticamente). O Pydantic realizar√° todo o processo de convers√£o (coer√ß√£o), transformando os dados brutos fornecidos em objetos de tipos definidos na classe.

Experimente substituir o objeto instanciado na c√©lula a seguir pelo objeto a seguir. Note como o Pydantic ir√° apontar todos os campos preenchidos de forma inv√°lida.
```python
new_employee = Employee(
    name=2,
    email="mila.br",
    date_of_birth=1991,
    salary="sim",
    department="EDU",
    elected_benefits=1234,
)
```

In [None]:
# definindo nova entrada como inst√¢ncia do modelo
new_employee = Employee(
    name="Mila Laranjeira",
    email="mila@projetodesenvolve.com.br",
    date_of_birth="1991-01-01",
    salary=1234.56,
    department="IT",
    elected_benefits=True,
)

new_employee.model_dump()
# new_employee.model_dump_json()

{'employee_id': UUID('11377385-75ed-4ce3-9518-33ecd9c517a7'),
 'name': 'Mila Laranjeira',
 'email': 'mila@projetodesenvolve.com.br',
 'date_of_birth': datetime.date(1991, 1, 1),
 'salary': 1234.56,
 'department': <Department.IT: 'IT'>,
 'elected_benefits': True}

Para refor√ßar a ideia de "coer√ß√£o de tipos", pegamos tamb√©m o exemplo da documenta√ß√£o do Pydantic. Note que o atributo `tastes` define um dicion√°rio `(str, PositiveInt)`, por√©m o registro possui valores que apesar de incorretos podem ser facilmente convertidos. Da mesma forma, a data fornecida n√£o √© um objeto do tipo data, mas √© uma string formatada para viabilizar a convers√£o de tipo.

In [None]:
from pydantic import PositiveInt

class User(BaseModel):
    id: int
    name: str = 'John Doe'
    signup_ts: date | None
    tastes: dict[str, PositiveInt]


external_data = {
    'id': 123,
    'signup_ts': '2019-06-01',
    'tastes': {
        'wine': 9,
        b'cheese': 7.0,
        'cabbage': '1',
    },
}

## Ao prefixar um dicion√°rio com o operador **,
## voc√™ fornece argumentos de palavra-chave para a
## fun√ß√£o com base nos pares de chave-valor do dicion√°rio.
user = User(**external_data)

print(user.id)
print(user.model_dump())

123
{'id': 123, 'name': 'John Doe', 'signup_ts': datetime.date(2019, 6, 1), 'tastes': {'wine': 9, 'cheese': 7, 'cabbage': 1}}


### Field

Voltando ao exemplo do esquema `Employee`, falaremos agora dos campos (*fields*), tamb√©m velhos conhecidos da biblioteca `dataclasses`. O field serve o prop√≥sito de customizar cada um dos campos bem como suas valida√ß√µes. Segue alguns dos par√¢metros interessantes de customiza√ß√£o de campos:
* `default` e `default_factory`: assim como em `dataclasses`, podemos definir um valor padr√£o (`default`) ou um *callable* (fun√ß√£o, classe, etc.) que produz um valor padr√£o (`default_factory`).
* `alias`: Voc√™ pode definir um apelido para o objeto, que ser√° usado no processo de valida√ß√£o (entrada de dados) e serializa√ß√£o (sa√≠da de dados), podendo ser diferente do nome da vari√°vel. Voc√™ pode optar tamb√©m pelos par√¢metros mais espec√≠ficos `validation_alias` ou `serialization_alias`.
* `frozen`: Se `True`, torna o atributo imut√°vel. Tentativas de alterar o valor em uma inst√¢ncia v√£o lan√ßar um erro.
* `repr`: Se o atributo deve ser inclu√≠do em `__repr__` (usado pelos prints e outras sa√≠das formatadas). Pode ser usado em dados sens√≠veis ou sigilosos.
* `min_length`, `max_length`: Tamanho m√°ximo ou m√≠nimo para iter√°veis.
* `gt`, `lt`, `ge`, `le`: Estabelece regras para n√∫meros, devendo ser maior que | menor que | maior ou igual | menor ou igual que um dado valor.

Veja uma lista detalhada dos par√¢metros da classe Field [na documenta√ß√£o](https://docs.pydantic.dev/latest/api/fields/).

> **`ValidationError`** √© uma classe customizada pelo Pydantic que herda de exce√ß√µes do Python. √â capaz de capturar erros de valida√ß√£o em objetos de exce√ß√£o, permitindo sua impress√£o e tratamento de maneira mais leg√≠vel e estruturada. Voc√™ pode ler mais sobre exce√ß√µes Pydantic e como customiz√°-las na [documenta√ß√£o](https://docs.pydantic.dev/latest/errors/errors/).

In [None]:
from pydantic import ValidationError

class Employee(BaseModel):
    employee_id: UUID = Field(default_factory=uuid4, frozen=True)
    name: str = Field(min_length=2, frozen=True)
    email: EmailStr = Field(pattern=r".+@projetodesenvolve\.com\.br$") # regex - regular expression
    date_of_birth: date = Field(alias="birth_date", repr=False, frozen=True)
    salary: float = Field(alias="compensation", gt=0, repr=False)
    department: Department
    elected_benefits: bool

try:
    employee_data = dict(
        name="Mila Laranjeira",
        email="mila@projetodesenvolve.com.br",
        birth_date="1991-01-01",
        compensation=1234.56,
        department="IT",
        elected_benefits=True,
    )
    employee = Employee(**employee_data)
    print(employee.model_dump())
except ValidationError as e:
    print(json.dumps(e.errors(), indent=2))

{'employee_id': UUID('e1da51a3-d0ca-4952-872b-4002d94b82ac'), 'name': 'Mila Laranjeira', 'email': 'mila@projetodesenvolve.com.br', 'date_of_birth': datetime.date(1991, 1, 1), 'salary': 1234.56, 'department': <Department.IT: 'IT'>, 'elected_benefits': True}


A seguir, instanciamos novos registros com os m√©todo de classe `model_validate` e `model_validate_json`. Note que no exemplo anterior tivemos que usar o operador un√°rio `**` para converter o dicion√°rio em argumentos. Esses m√©todos de `BaseModel` aceitam diretamente argumentos tipo `dict` e `json`, validando cada um dos campos e retornando o objeto instanciado.

In [None]:
## definindo novo dado como dicion√°rio
employee_data = {
    "name": "Mila Laranjeira",
    "email": "mila@projetodesenvolve.com.br",
    "birth_date": "1991-01-01",  ## chave alias
    "compensation": 1234.56,     ## chave alias
    "department": "IT",
    "elected_benefits": True,
}
employee = Employee.model_validate(employee_data)

new_employee_json = """
 {"employee_id":"d2e7b773-926b-49df-939a-5e98cbb9c9eb",
 "name":"Mila Laranjeira",
 "email":"mila@projetodesenvolve.com.br",
 "birth_date":"1991-01-01",
 "compensation":1234.56,
 "department":"IT",
 "elected_benefits":true}
 """
new_employee = Employee.model_validate_json(new_employee_json)

### `field_validator` e `model_validator`

O tutorial do Real Python cria duas situa√ß√µes hipot√©ticas para ilustrar o uso de **validadores customizados**, quando queremos impor regras de neg√≥cio para al√©m dos tipos de dados.
* Valida√ß√£o de campo: Suponha que a sua empresa apenas contrata maiores de 18 anos. Para trabalhar essa regra, temos o campo data de nascimento, mas por se tratar de um objeto tipo `date`, precisamos criar uma valida√ß√£o customizada para o campo.
* Valida√ß√£o de modelo: Suponha agora que o departamento de TI da empresa √© terceirizada e portanto n√£o √© eleg√≠vel a benef√≠cios de funcion√°rios internos. Essa √© uma valida√ß√£o que envolve mais de um campo e portanto n√£o √© suficiente criar uma valida√ß√£o de campo √∫nico.

Ambos `field_validator` e `model_validator` s√£o importados do Pydantic e utilizados como decoradores de fun√ß√£o. As representa√ß√µes funcionais a seguir apresentam os par√¢metros de cada objeto.

```python
field_validator(field, *fields=(), mode='after', check_fields=None)
```
* `field`: par√¢metro obrigat√≥rio com o campo a ser validado
* `*fields`: campos adicionais que tamb√©m devem se sujeitar √† mesma valida√ß√£o (independentes um do outro).
* `mode`: se a valida√ß√£o acontece antes ou depois da valida√ß√£o padr√£o de tipos.
* `check_fields`: se `True`, verifica se os campos existem no modelo.

```python
model_validator(mode)
```
* `mode`: par√¢metro obrigat√≥rio que define se a valida√ß√£o acontece antes ou depois da valida√ß√£o padr√£o de tipos.



In [None]:
class Employee(BaseModel):
    employee_id: UUID = Field(default_factory=uuid4, frozen=True)
    name: str = Field(min_length=1, frozen=True)
    email: EmailStr = Field(pattern=r".+@example\.com$")
    date_of_birth: date = Field(alias="birth_date", repr=False, frozen=True)
    salary: float = Field(alias="compensation", gt=0, repr=False)
    department: Department
    elected_benefits: bool

    @field_validator("date_of_birth")
    @classmethod
    def check_valid_age(cls, date_of_birth: date) -> date:
        today = date.today()
        eighteen_years_ago = date(today.year - 18, today.month, today.day)

        if date_of_birth > eighteen_years_ago:
            raise ValueError("Employees must be at least 18 years old.")

        return date_of_birth

    @model_validator(mode="after")
    def check_it_benefits(self) -> Self:
        department = self.department
        elected_benefits = self.elected_benefits

        if department == Department.IT and elected_benefits:
            raise ValueError(
                "IT employees are contractors and don't qualify for benefits"
            )
        return self


## falha no field validator
try:
    employee_data = {
        "name": "Jake Bar",
        "email": "jbar@example.com",
        "birth_date": '2020-05-21',
        "compensation": 90_000,
        "department": "SALES",
        "elected_benefits": True,
    }
    employee = Employee.model_validate(employee_data)
except ValueError as e:
    print(e)
## falha no model validator
try:
    new_employee = {
        "name": "Alexis Tau",
        "email": "ataue@example.com",
        "birth_date": "2001-04-12",
        "compensation": 100_000,
        "department": "IT",       ### IT
        "elected_benefits": True, ### n√£o recebe benef√≠cio
    }

    employee = Employee.model_validate(new_employee)
except ValueError as e:
    print(e)

1 validation error for Employee
birth_date
  Value error, Employees must be at least 18 years old. [type=value_error, input_value='2020-05-21', input_type=str]
    For further information visit https://errors.pydantic.dev/2.7/v/value_error
1 validation error for Employee
  Value error, IT employees are contractors and don't qualify for benefits [type=value_error, input_value={'name': 'Alexis Tau', 'e...elected_benefits': True}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.7/v/value_error
