<a href="https://colab.research.google.com/github/ancestor9/24_fall_textmining_NLP/blob/main/1203_07_Typing_Pydantic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **1. Pydantic**

#### vars() 함수는 객체의 속성을 사전 형태로 반환하는 파이썬 내장 함수입니다. 특히, vars()는 객체의 __dict__ 속성을 반환하며, 주로 클래스 인스턴스, 모듈 또는 다른 객체에서 사용할 수 있습니다. 객체의 내부 속성을 확인하거나 조작할 때 유용

In [1]:
print(vars())

{'__name__': '__main__', '__doc__': 'Automatically created module for IPython interactive environment', '__package__': None, '__loader__': None, '__spec__': None, '__builtin__': <module 'builtins' (built-in)>, '__builtins__': <module 'builtins' (built-in)>, '_ih': ['', 'print(vars())'], '_oh': {}, '_dh': ['/content'], 'In': ['', 'print(vars())'], 'Out': {}, 'get_ipython': <bound method InteractiveShell.get_ipython of <google.colab._shell.Shell object at 0x79fc3d4e21d0>>, 'exit': <IPython.core.autocall.ZMQExitAutocall object at 0x79fc3d4e2bc0>, 'quit': <IPython.core.autocall.ZMQExitAutocall object at 0x79fc3d4e2bc0>, '_': '', '__': '', '___': '', '_i': '', '_ii': '', '_iii': '', '_i1': 'print(vars())'}


In [6]:
import builtins

# 내장 함수의 사용 예
print("Hello, World!")  # print()는 내장 함수입니다.
print(len("Hello"))     # len()도 내장 함수로 문자열의 길이를 반환합니다.

# __builtin__을 통해 직접 호출하기
print(builtins.abs(-10))  # abs()는 절대값을 반환하는 내장 함수
print(builtins.max([1, 2, 3, 4]))  # max()는 리스트에서 가장 큰 값을 반환합니다.

# 사용자 정의 코드에서 __builtin__에 있는 함수를 확인할 수 있습니다.
all_builtins = dir(builtins)
print(f"총 내장 함수의 개수: {len(all_builtins)}")
print("몇 가지 내장 함수 목록:", all_builtins[140:158])


Hello, World!
5
10
4
총 내장 함수의 개수: 158
몇 가지 내장 함수 목록: ['property', 'range', 'repr', 'reversed', 'round', 'runfile', 'set', 'setattr', 'slice', 'sorted', 'staticmethod', 'str', 'sum', 'super', 'tuple', 'type', 'vars', 'zip']


- **vars()는 __dict__ 속성을 직접 참조하는 것과 동일한 역할을 하므로, 클래스 내부에서 인스턴스의 상태를 쉽게 살펴보고 관리할 수 있는 방법을 제공**

In [7]:
a = 10; b = 20
print(vars())



# **[Pydantic](https://docs.pydantic.dev/latest/)**

In [8]:
from pydantic import BaseModel

class Sale(BaseModel):
    product: str
    category: str
    quantity: int
    price: float

# 데이터 인스턴스 생성
data = {"product": "Laptop", "category": "Electronics", "quantity": 5, "price": 999.99}
sale = Sale(**data)

In [9]:
sale

Sale(product='Laptop', category='Electronics', quantity=5, price=999.99)

In [10]:
vars(sale)

{'product': 'Laptop',
 'category': 'Electronics',
 'quantity': 5,
 'price': 999.99}

In [11]:
type(sale)

In [13]:
# 데이터 검증 및 접근
print(sale.product)  # "Laptop"

Laptop


In [14]:
print(sale.dict())   # {"product": "Laptop", "category": "Electronics", "quantity": 5, "price": 999.99}

{'product': 'Laptop', 'category': 'Electronics', 'quantity': 5, 'price': 999.99}


In [15]:
# 유효성 검사 예시 (유효하지 않은 데이터 입력)
invalid_data = {"product": "Laptop", "category": "Electronics", "quantity": "Five", "price": 999.99}
try:
    sale = Sale(**invalid_data)  # 이 경우 자동으로 오류가 발생합니다 (quantity는 정수여야 합니다)
except Exception as e:
    print(e)

1 validation error for Sale
quantity
  Input should be a valid integer, unable to parse string as an integer [type=int_parsing, input_value='Five', input_type=str]
    For further information visit https://errors.pydantic.dev/2.9/v/int_parsing


## **Class로 데이터 정의**

In [16]:
class Sale:
    def __init__(self, product, category, quantity, price):
        self.product = product
        self.category = category
        self.quantity = quantity
        self.price = price

# 데이터 인스턴스 생성
sale = Sale("Laptop", "Electronics", 5, 999.99)

# 데이터 접근
print(sale.product)  # "Laptop"

Laptop


In [17]:
sale

<__main__.Sale at 0x79fc382d90f0>

In [18]:

print(vars(sale))    # {'product': 'Laptop', 'category': 'Electronics', 'quantity': 5, 'price': 999.99}


{'product': 'Laptop', 'category': 'Electronics', 'quantity': 5, 'price': 999.99}


In [20]:

# 유효성 검사 직접 구현
invalid_data = Sale("Laptop", "Electronics", "Five", 999.99)  # 이 경우 오류가 발생하지 않습니다


### **2. Typing**
- Python의 typing 모듈은 타입 힌트를 제공하여 코드의 가독성과 안정성을 향상

In [21]:

from typing import List, Dict, Tuple

# 함수가 문자열의 리스트를 입력받고, 정수를 반환
def sum_lengths(strings: List[str]) -> int:
    return sum(len(s) for s in strings)

In [22]:
sum_lengths('ancestor9')

9

In [23]:
# 문자열과 정수의 튜플 리스트를 입력받아 딕셔너리를 반환
def create_dict(pairs: List[Tuple[str, int]]) -> Dict[str, int]:
    return {key: value for key, value in pairs}


In [24]:
create_dict([('ancestor', 23)])

{'ancestor': 23}

In [25]:
create_dict([('ancestor9', 23), ('ancestor8', 33)])

{'ancestor9': 23, 'ancestor8': 33}

In [26]:
from typing import Union

def process_number(value: Union[int, float]) -> float:
    return value * 2.5

In [27]:
process_number(10)

25.0

In [28]:
process_number(10.0)

25.0

### **3. 예제**

In [29]:
from typing import List, Optional
from pydantic import BaseModel

# Pydantic 모델 정의
class User(BaseModel):
    id: int
    name: str
    email: str

# 임시 데이터베이스로 사용할 리스트
users_db: List[User] = []

### create_user: 함수 이름으로, 사용자를 생성하는 역할
- user: 함수의 매개변수로, 호출될 때 전달되어야 하는 입력 데이터로, u**ser가 함수에 전달되는 사용자 정보 객체**
- User: user 매개변수가 기대하는 데이터 타입을 나타내며, Pydantic 모델 클래스로 사용자 정보를 정의하기 위해 id, name, email 속성을 가진 객체를 의미
- 타입 힌트의 의미
> - **타입 힌트 (user: User)**는 user 매개변수가 User 클래스의 인스턴스임을 명시
이를 통해 create_user 함
> - create_use라는 함수는 user라는 매개변수가 User 객체이고, 함수 호출 시 Pydantic은 이 매개변수로 전달되는 데이터를 검증
> - create_user를 호출할 때는 아래와 같이 User 객체를 만들어 전달

In [30]:
def create_user(user: User):
    # 이메일 중복 검사
    if any(existing_user.email == user.email for existing_user in users_db):
        return {"success": False, "message": "Email already registered"}
    users_db.append(user)
    return {"success": True, "user": user}

In [31]:
user_data= User(id = 100, name='ancestor9', email='zoro')
user_data

User(id=100, name='ancestor9', email='zoro')

In [32]:
create_user(user_data)

{'success': True, 'user': User(id=100, name='ancestor9', email='zoro')}

In [33]:
# prompt: faker로 100개 가상데이터(name과 email을 생성)를 User를 통해 만들어봐
! pip install faker --quiet

from faker import Faker

fake = Faker()

class User(BaseModel):
    name: str
    email: str

users: List[User] = []

for _ in range(100):
    users.append(User(name=fake.name(),
                      email=fake.email()))

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [34]:
import pandas as pd
pd.DataFrame(users)

Unnamed: 0,0,1
0,"(name, Cynthia Rodriguez)","(email, henrybrittany@example.net)"
1,"(name, Gregory Doyle)","(email, garciajames@example.com)"
2,"(name, Kristina Scott)","(email, fishermichael@example.net)"
3,"(name, Brandon Hodges)","(email, mcgrathalexandra@example.net)"
4,"(name, Laura Wilkins MD)","(email, arnoldfernando@example.org)"
...,...,...
95,"(name, Monica Bryant)","(email, susan49@example.com)"
96,"(name, Jesse King)","(email, jeremiahfowler@example.org)"
97,"(name, Randy Sheppard)","(email, kevin23@example.org)"
98,"(name, Lucas Blackwell)","(email, rwilliamson@example.org)"


In [35]:
[user.dict() for user in users][:10]

[{'name': 'Cynthia Rodriguez', 'email': 'henrybrittany@example.net'},
 {'name': 'Gregory Doyle', 'email': 'garciajames@example.com'},
 {'name': 'Kristina Scott', 'email': 'fishermichael@example.net'},
 {'name': 'Brandon Hodges', 'email': 'mcgrathalexandra@example.net'},
 {'name': 'Laura Wilkins MD', 'email': 'arnoldfernando@example.org'},
 {'name': 'David Kramer Jr.', 'email': 'tyler30@example.net'},
 {'name': 'Andrew Ramirez', 'email': 'reyesterrence@example.net'},
 {'name': 'David King', 'email': 'jeffreyskinner@example.com'},
 {'name': 'Joseph Williams', 'email': 'kevin73@example.com'},
 {'name': 'Todd Green', 'email': 'owatson@example.com'}]

In [36]:
pd.DataFrame([user.dict() for user in users])

Unnamed: 0,name,email
0,Cynthia Rodriguez,henrybrittany@example.net
1,Gregory Doyle,garciajames@example.com
2,Kristina Scott,fishermichael@example.net
3,Brandon Hodges,mcgrathalexandra@example.net
4,Laura Wilkins MD,arnoldfernando@example.org
...,...,...
95,Monica Bryant,susan49@example.com
96,Jesse King,jeremiahfowler@example.org
97,Randy Sheppard,kevin23@example.org
98,Lucas Blackwell,rwilliamson@example.org
