# Laboratorio: Detección de Texto con Vision API (OCR)

Mis notas y código para el laboratorio de Google Cloud Skills Boost: Detecting Text in Images.

Las tareas de este lab son:
1. Detección de texto general (OCR) en una imagen de una señal.
2. Detección de texto optimizada para documentos.

![image.png](attachment:6dd9aebc-9a8b-4042-8e57-5cfd45a2257a.png)


## 1. Configuración Inicial

Creo los buckets, las tareas de Pub/Sub y las Cloud Functions.

``` bash
# Verifico que cuenta y proyecto están activos
gcloud auth list
gcloud config list project

# Creo los buckets para las imágenes y los resultados, y los temas de Pub/Sub
gcloud storage buckets create gs://qwiklabs-gcp-03-85757f10ba79_image --location=us-east4
gcloud storage buckets create gs://qwiklabs-gcp-03-85757f10ba79_result --location=us-east4
gcloud pubsub topics create qwiklabs-gcp-03-85757f10ba79_translate_topic
gcloud pubsub topics create qwiklabs-gcp-03-85757f10ba79_result_topic

# Clono el código de ejemplo y voy a la carpeta de la app
git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
cd python-docs-samples/functions/ocr/app/

# Guardo las variables del proyecto y configuro los permisos
PROJECT_ID=$(gcloud config get-value project)
PROJECT_NUMBER=$(gcloud projects list --filter="project_id:$PROJECT_ID" --format='value(project_number)')
SERVICE_ACCOUNT=$(gcloud storage service-agent --project=$PROJECT_ID)
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member serviceAccount:$SERVICE_ACCOUNT \
  --role roles/pubsub.publisher

# Despliego las tres Cloud Functions (extract, translate, save)
gcloud functions deploy ocr-extract \
  --gen2 \
  --runtime python312 \
  --region=us-east4 \
  --source=. \
  --entry-point process_image \
  --trigger-bucket qwiklabs-gcp-03-85757f10ba79_image \
  --service-account $PROJECT_NUMBER-compute@developer.gserviceaccount.com \
  --allow-unauthenticated \
  --set-env-vars "^:^GCP_PROJECT=qwiklabs-gcp-03-85757f10ba79:TRANSLATE_TOPIC=qwiklabs-gcp-03-85757f10ba79_translate_topic:RESULT_TOPIC=qwiklabs-gcp-03-85757f10ba79_result_topic:TO_LANG=es,en,fr,ja"

gcloud functions deploy ocr-translate \
  --gen2 \
  --runtime python312 \
  --region=us-east4 \
  --source=. \
  --trigger-topic qwiklabs-gcp-03-85757f10ba79_translate_topic \
  --entry-point translate_text \
  --service-account $PROJECT_NUMBER-compute@developer.gserviceaccount.com \
  --allow-unauthenticated \
  --set-env-vars "GCP_PROJECT=qwiklabs-gcp-03-85757f10ba79,RESULT_TOPIC=qwiklabs-gcp-03-85757f10ba79_result_topic"

gcloud functions deploy ocr-save \
  --gen2 \
  --runtime python312 \
  --region=us-east4 \
  --source=. \
  --trigger-topic qwiklabs-gcp-03-85757f10ba79_result_topic \
  --entry-point save_result \
  --service-account $PROJECT_NUMBER-compute@developer.gserviceaccount.com \
  --allow-unauthenticated \
  --set-env-vars "GCP_PROJECT=qwiklabs-gcp-03-85757f10ba79,RESULT_BUCKET=qwiklabs-gcp-03-85757f10ba79_result"

# Subo la imagen de prueba para iniciar el proceso y reviso los logs
gsutil cp gs://cloud-training/OCBL307/menu.jpg .
gsutil cp menu.jpg gs://qwiklabs-gcp-03-85757f10ba79_image
gcloud functions logs read --limit 100 --region=us-east4
```

![image.png](attachment:ce47fc4d-62a7-4d03-bdf5-8524263f5e22.png)

Defino las variables para la API y el bucket de GCS.

In [18]:
import json
import urllib.request, urllib.error
from IPython.display import HTML, display

from vision_utils import gcs_to_public_url

API_KEY = 'AIzaSyAD6eA6oTs3no1nzJernPe47CizGO1CGH4'
BUCKET = 'qwiklabs-gcp-03-85757f10ba79_image'

ENDPOINT = 'https://vision.googleapis.com/v1/images:annotate'
URL = f'{ENDPOINT}?key={API_KEY}'
HEADERS = {'Content-Type': 'application/json'}


## 2. Tarea 1: Detección de Texto (TEXT_DETECTION)

Para esta parte, usaré la imagen `sign.png` del laboratorio para extraer el texto de la señal de tráfico.
Primero, necesito subir esa imagen a mi bucket de GCS.


In [19]:
SIGN_URI = f'gs://{BUCKET}/menu.jpg'
display(HTML(f'<img src="{gcs_to_public_url(SIGN_URI)}" style="width:400px; height:auto; border:1px solid #ddd;"/>'))


### 2.1. Crear y enviar la solicitud

Preparo el payload para `TEXT_DETECTION` y llamo a la API.


In [20]:
payload_text = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': SIGN_URI}},
            'features': [{'type': 'TEXT_DETECTION'}]
        }
    ]
}

data_text = None

_data_bytes = json.dumps(payload_text).encode('utf-8')
req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
with urllib.request.urlopen(req, timeout=60) as resp:
    data_text = json.loads(resp.read().decode('utf-8'))


### 2.2. Procesar la respuesta de OCR

La respuesta de la API en `textAnnotations` contiene el texto detectado. El primer elemento (índice 0) tiene el texto completo.


In [21]:
if data_text:
    response = data_text.get('responses')[0]
    annotations = response.get('textAnnotations', [])
    if annotations:
        full_text = annotations[0].get('description')
        print("--- Texto Detectado ---")
        print(full_text.replace('\n', '\\n'))
        print("\n--- Texto por línea ---")
        lines = full_text.strip().split('\n')
        for line in lines:
            print(f"- {line}")
    else:
        print("No se detectó texto en la imagen.")


--- Texto Detectado ---
Déjeuner du 11 Avril 1944\nHuîtres\nSaucisson\nPalourdes\nRadis\nPâté Oeufs Mimosa\nFilets Merlus Sauce Verdie\nBouchées Mongla\nFilets de Boeuf Bristol\nGalantine\nPoulets de Grain Truffés\nHaricots Maître d'Hôtel\nSalade Coeur de Laitue\nFromage\nGlace\nGâteaux\nDuchesse\n---\nMoka\nBordeaux Blanc et Rouge\nChampagne\nCafe\nFine

--- Texto por línea ---
- Déjeuner du 11 Avril 1944
- Huîtres
- Saucisson
- Palourdes
- Radis
- Pâté Oeufs Mimosa
- Filets Merlus Sauce Verdie
- Bouchées Mongla
- Filets de Boeuf Bristol
- Galantine
- Poulets de Grain Truffés
- Haricots Maître d'Hôtel
- Salade Coeur de Laitue
- Fromage
- Glace
- Gâteaux
- Duchesse
- ---
- Moka
- Bordeaux Blanc et Rouge
- Champagne
- Cafe
- Fine


## Fin del Laboratorio de OCR

Pruebas de detección de texto completadas.
