- 환경변수 로딩

In [1]:
from dotenv import load_dotenv
import os

# .env 파일에 저장된 환경변수 로드
load_dotenv(override=True)
GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")


from openai import OpenAI

# openai api 인증 및 openai 객체 생성
client = OpenAI(api_key=GEMINI_API_KEY)

In [2]:
from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents= """
    OCR 기술에 대해 다음을 설명해줘 
    - OCR이란? 
    - OCR활용분야 
    - OCR활용 라이브러리 
    - 성능이 가장 좋은 OCR 서비스s
    """
)

print(response.text)

OCR (Optical Character Recognition, 광학 문자 인식) 기술에 대해 요청하신 내용을 자세히 설명해 드리겠습니다.

---

### 1. OCR이란?

**OCR (Optical Character Recognition, 광학 문자 인식)**은 이미지 파일(스캔 문서, 사진, PDF 등) 내에 포함된 텍스트를 인식하여 기계가 읽을 수 있는(편집 가능한) 디지털 텍스트 데이터로 변환하는 기술입니다.

**핵심 개념:**
*   **입력:** 종이 문서, 스캔 파일, 사진, PDF 등 텍스트가 포함된 이미지.
*   **처리:** OCR 엔진이 이미지 속 문자(알파벳, 숫자, 한글, 한자 등)의 모양을 분석하고, 해당 문자를 미리 학습된 패턴과 비교하여 식별합니다. 이 과정에서 이미지 전처리, 레이아웃 분석, 문자 분할, 특징 추출, 분류 등의 단계를 거칩니다.
*   **출력:** 인식된 텍스트가 포함된 워드 문서, 텍스트 파일, 검색 가능한 PDF 등.

**왜 필요한가?**
이미지 속 텍스트는 컴퓨터에게 단순한 픽셀 데이터일 뿐입니다. 워드프로세서처럼 내용을 편집하거나 검색할 수 없죠. OCR은 이 픽셀 데이터를 의미 있는 텍스트 정보로 변환하여, 사용자가 이미지 속 정보를 쉽게 활용하고 관리할 수 있도록 해줍니다.

**기술 발전:**
초기 OCR은 특정 폰트나 깔끔한 문서에만 정확도가 높았지만, 최근에는 딥러닝(Deep Learning) 기술의 발달로 다양한 폰트, 필기체, 복잡한 배경, 심지어 기울어지거나 손상된 문서에서도 매우 높은 인식률을 자랑합니다.

---

### 2. OCR 활용 분야

OCR 기술은 우리 생활과 산업 전반에 걸쳐 광범위하게 활용되고 있으며, 데이터 처리 자동화의 핵심 기술 중 하나입니다.

*   **문서 디지털화 및 관리:**
    *   **종이 문서의 디지털 전환:** 기존의 수많은 종이 문서(계약서, 보고서, 회의록 등)를 스캔하여 디지털 파일로 변환하고, OCR을 통해 검색 가능한 텍스트로 

- 이미지 생성

In [None]:
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client(api_key=GEMINI_API_KEY)

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()

I will create a 3D rendered image of a whimsical scene: a pink pig with small, feathery white wings and a dapper grey top hat soaring through the air above a bright and cheerful futuristic city. The city will feature sleek, modern buildings in pastel colors, interspersed with lush green parks and flying vehicles zipping between structures. The overall atmosphere will be one of lightheartedness and technological harmony.



- 이미지 편집

In [4]:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('./imgs/lady.jpg')

client = genai.Client(api_key=GEMINI_API_KEY)

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()

I will add a fluffy white llama with large, expressive eyes standing calmly beside you in the grassy field, ensuring it complements the natural lighting and peaceful atmosphere of the existing image.



- 유튜브 영상 요약

In [5]:
from google import genai

client = genai.Client(api_key=GEMINI_API_KEY)

response = client.models.generate_content(
    model='models/gemini-2.0-flash',
    contents=types.Content(
        parts=[
            types.Part(
                # file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=9hE5-98ZeCg')
                file_data=types.FileData(file_uri='https://youtu.be/xemQowx3a-w?si=wvVMujuz2oswY-vh')
            ),
            types.Part(text='5개의 문장으로 요약해줘')
        ]
    )
)

In [6]:
print(response.text)

이 동영상은 구글 I/O 2024 키노트에서 발표된 내용을 요약 및 소개하고 있다.

AI 모델과 에이전트 AI, AI 검색 서비스, 삼성 퀄컴과 협력하여 만든 프로젝트 무한 XR 디바이스 등, 발표 내용을 네 가지로 분류하였다.

구글이 AI 모델을 전부 다 1등을 먹었다고 보고, Gemini를 활용하는 개발자 수가 증가하고, Gemini 앱 월간 활성 사용자가 4억 명을 돌파했다고 한다.

Gemini 2.5 Pro Deep Think 모델이 TPU 버전 7까지 전기 요금을 많이 안 먹으면서도 돌릴 수 있도록, 미국 내 구글 AI Pro, Ultra 구독자 및 구글 원 사용자에게 제공될 예정이라고 한다.

텍스트에서 동영상, 이미지 생성은 물론, Gemini live, 이미지 투 영상의 진화, 거기에 XR 디바이스까지, 구글이 정말 무서운 상황임을 강조한다.
