# Laboratorio: Detecting Labels, Faces, and Landmarks in Images with the Cloud Vision API

Mis notas y código para el laboratorio de Google Cloud Skills Boost: [Detecting Labels, Faces, and Landmarks in Images with the Cloud Vision API](https://www.cloudskillsboost.google/focuses/43994738).

El orden de las tareas es:
1. Labels detection en `donuts.png`.
2. Web detection en `donuts.png`.
3. Faces detection `selfie.png`.
4. Landmarks detection en `city.png`.

![image.png](attachment:0e918359-4795-4792-a74f-00a6224abc63.png)

## 1. Configuración Inicial
![image.png](attachment:01569c6e-1ddb-4fc6-9f93-9fa633a00909.png)
![image.png](attachment:cefd44fa-b710-465d-b944-484271c00d06.png)

In [28]:
import json
import urllib.request, urllib.error
from IPython.display import HTML, display

API_KEY = 'AIzaSyCoKdBTgERdui7tqUa9VRKprw5qglbTey8'
BUCKET = 'qwiklabs-gcp-00-d82f65459eb2'

ENDPOINT = 'https://vision.googleapis.com/v1/images:annotate'
URL = f'{ENDPOINT}?key={API_KEY}'
HEADERS = {'Content-Type': 'application/json'}


### Funciones Auxiliares

Un par de funciones útiles para convertir la URI de GCS y para dibujar los resultados sobre las imágenes.


In [29]:
def gcs_to_public_url(gcs_uri: str) -> str:
    """Convierte una URI de GCS (gs://...) a una URL pública de HTTPs."""
    if not gcs_uri or not gcs_uri.startswith('gs://'):
        return gcs_uri
    path = gcs_uri[len('gs://'):]
    return f'https://storage.googleapis.com/{path}'


def draw_boxes_html(img_uri: str, boxes, width=600):
    """Renderiza cajas sobre una imagen usando HTML."""
    import html as _html
    import json as _json
    import secrets as _secrets

    _img_url = gcs_to_public_url(img_uri)
    _uid = _secrets.token_hex(4)
    _style_width = '' if (width is None) else f'width:{int(width)}px;'
    _tpl = """
    <div id=\"viz-{UID}\" style=\"position:relative; display:inline-block; border:1px solid #ddd;\">\n      <img id=\"img-{UID}\" src=\"{IMG_URL}\" style=\"display:block; {STYLE_W} max-width:100%; height:auto;\"/>\n      <canvas id=\"canvas-{UID}\" style=\"position:absolute; left:0; top:0; pointer-events:none;\"></canvas>\n    </div>\n    <script>\n    (function(){\n      const boxes = {BOXES};\n      const img = document.getElementById('img-{UID}');\n      const canvas = document.getElementById('canvas-{UID}');\n      function draw(){\n        const w = img.clientWidth || img.naturalWidth;\n        const h = img.clientHeight || img.naturalHeight;\n        if (!w || !h) { requestAnimationFrame(draw); return; }\n        canvas.width = w; canvas.height = h;\n        canvas.style.width = w + 'px'; canvas.style.height = h + 'px';\n        const ctx = canvas.getContext('2d');\n        ctx.clearRect(0, 0, w, h);\n        const srcW = img.naturalWidth || w; const srcH = img.naturalHeight || h;\n        const sx = w / srcW; const sy = h / srcH;\n        (boxes || []).forEach(b => {\n          const ptsRaw = b.points || [];\n          if (!ptsRaw.length) return;\n          const pts = ptsRaw.map(p => {\n            const px = ((\"x\" in p) ? (p.x || 0) : 0);\n            const py = ((\"y\" in p) ? (p.y || 0) : 0);\n            return [px * sx, py * sy];\n          });\n          ctx.beginPath();\n          ctx.moveTo(pts[0][0], pts[0][1]);\n          for (let i = 1; i < pts.length; i++) ctx.lineTo(pts[i][0], pts[i][1]);\n          if (pts.length >= 3) ctx.closePath();\n          ctx.lineWidth = 3;\n          ctx.strokeStyle = b.color || 'rgba(255, 0, 0, 0.9)';\n          ctx.stroke();\n          const parts = [];\n          if (b.label) parts.push(b.label);\n          if (b.score) parts.push('(' + (b.score*100).toFixed(1) + '%)');\n          const txt = parts.join(' ');\n          if (txt) {\n            const tx = Math.min(Math.max(pts[0][0] + 5, 2), w - 2);\n            const ty = Math.max(16, pts[0][1] - 5);\n            ctx.fillStyle = b.color || 'rgba(255, 0, 0, 0.9)';\n            ctx.font = 'bold 14px sans-serif';\n            ctx.fillText(txt, tx, ty);\n          }\n        });\n      }\n      img.addEventListener('load', draw);\n      window.addEventListener('resize', draw);\n      if (img.complete) draw();\n    })();\n    </script>
    """
    _html_out = (_tpl
        .replace('{UID}', _uid)
        .replace('{IMG_URL}', _html.escape(_img_url))
        .replace('{STYLE_W}', _style_width)
        .replace('{BOXES}', _json.dumps(boxes)))
    display(HTML(_html_out))


## Tarea 1: Detección de Etiquetas (Label Detection)

In [30]:
DONUTS_URI = f'gs://{BUCKET}/donuts.png'
display(HTML(f'<img src="{gcs_to_public_url(DONUTS_URI)}" style="width:400px; height:auto; border:1px solid #ddd;"/>'))


### 2.1. Crear la solicitud para la API

Preparo el JSON para la API, especificando la imagen de GCS y la feature `LABEL_DETECTION`.

In [31]:
payload_label = {
    'requests': [
        {
            'image': {
                'source': {
                    'gcsImageUri': DONUTS_URI
                }
            },
            'features': [
                {
                    'type': 'LABEL_DETECTION',
                    'maxResults': 10
                }
            ]
        }
    ]
}

print('Payload para LABEL_DETECTION:')
print(json.dumps(payload_label, indent=2, ensure_ascii=False))


Payload para LABEL_DETECTION:
{
  "requests": [
    {
      "image": {
        "source": {
          "gcsImageUri": "gs://qwiklabs-gcp-00-d82f65459eb2/donuts.png"
        }
      },
      "features": [
        {
          "type": "LABEL_DETECTION",
          "maxResults": 10
        }
      ]
    }
  ]
}


### 2.2. Enviar y procesar la respuesta

Envío la solicitud y proceso el JSON de respuesta para ver las etiquetas.

In [32]:
data_label = None

_data_bytes = json.dumps(payload_label).encode('utf-8')

req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
with urllib.request.urlopen(req, timeout=60) as resp:
    data_label = json.loads(resp.read().decode('utf-8'))

if data_label:
    r0 = (data_label.get('responses') or [{}])[0]
    labels = r0.get('labelAnnotations') or []
    if labels:
        print(f'Etiquetas detectadas: {len(labels)}')
        for it in labels:
            print(f"- {it.get('description')}: {it.get('score'):.4f}")
    else:
        print('No se encontraron etiquetas en la imagen.')


Etiquetas detectadas: 10
- Food: 0.9790
- Powdered sugar: 0.9265
- Ingredient: 0.9249
- Fried food: 0.8865
- Powder: 0.8605
- Recipe: 0.8278
- Fried dough: 0.8024
- Cooking: 0.7820
- Beignet: 0.7232
- Flour: 0.7010


## Tarea 2: Detección Web (Web Detection)

Ahora, para la misma imagen de los donuts, hago una detección web.


In [33]:
payload_web = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': DONUTS_URI}},
            'features': [{'type': 'WEB_DETECTION', 'maxResults': 10}]
        }
    ]
}

data_web = None
_data_bytes = json.dumps(payload_web).encode('utf-8')
req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
with urllib.request.urlopen(req, timeout=60) as resp:
    data_web = json.loads(resp.read().decode('utf-8'))

if data_web:
    r0 = (data_web.get('responses') or [{}])[0]
    wd = r0.get('webDetection') or {}
    entities = wd.get('webEntities') or []
    print('Entidades Web encontradas:')
    for it in entities[:5]: # Mostramos las primeras 5
        desc = it.get('description') or it.get('entityId')
        print(f"- {desc} (Score: {it.get('score')})")

    fmi = len(wd.get('fullMatchingImages') or [])
    pmi = len(wd.get('partialMatchingImages') or [])
    vs  = len(wd.get('visuallySimilarImages') or [])
    print(f'Imágenes coincidentes -> Completas: {fmi}, Parciales: {pmi}, Similares: {vs}')


Entidades Web encontradas:
- Computer vision (Score: 0.5793)
- Machine learning (Score: 0.4989)
- API (Score: 0.4894)
- Computer (Score: 0.3901)
- Image (Score: 0.3679)
Imágenes coincidentes -> Completas: 2, Parciales: 1, Similares: 10


## Tarea 3: Detección de Caras (Face Detection)

In [34]:
SELFIE_URI = f'gs://{BUCKET}/selfie.png'
display(HTML(f'<img src="{gcs_to_public_url(SELFIE_URI)}" style="width:600px; height:auto; border:1px solid #ddd;"/>'))


In [35]:
payload_face = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': SELFIE_URI}},
            'features': [
                { 'type': 'FACE_DETECTION' },
                { 'type': 'LANDMARK_DETECTION' } # El lab pide ambas
            ]
        }
    ]
}

data_face = None

_data_bytes = json.dumps(payload_face).encode('utf-8')

req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
with urllib.request.urlopen(req, timeout=60) as resp:
    data_face = json.loads(resp.read().decode('utf-8'))

if data_face:
    r0 = (data_face.get('responses') or [{}])[0]
    faces = r0.get('faceAnnotations') or []
    lms   = r0.get('landmarkAnnotations') or []

    print(f'Caras detectadas: {len(faces)}')
    for i, f in enumerate(faces):
        joy = f.get('joyLikelihood')
        conf = f.get('detectionConfidence') * 100
        print(f'  - Cara #{i+1}: Alegría={joy}, Confianza={conf:.1f}%')

    if lms:
        print(f'Landmarks: {len(lms)}')
        for lm in lms:
            print(f"  - {lm.get('description')} (Score: {lm.get('score'):.3f})")


Caras detectadas: 3
  - Cara #1: Alegría=LIKELY, Confianza=96.9%
  - Cara #2: Alegría=POSSIBLE, Confianza=98.4%
  - Cara #3: Alegría=VERY_LIKELY, Confianza=98.8%
Landmarks: 2
  - The Treasury (Score: 0.361)
  - Petra (Score: 0.284)


### 4.1. Visualización de las Cajas Delimitadoras (Caras)

Dibujo los resultados sobre la imagen. La caja roja es el `boundingPoly` general y la cian es el `fdBoundingPoly`, más ajustado a la piel.


In [36]:
_boxes_face = []
if data_face:
    r0_face = (data_face.get('responses') or [{}])[0]
    faces = r0_face.get('faceAnnotations') or []
    lms   = r0_face.get('landmarkAnnotations') or []

    # Cajas de caras (boundingPoly) en rojo
    for f in faces:
        _boxes_face.append({
            'points': (f.get('boundingPoly') or {}).get('vertices') or [],
            'label' : 'Cara',
            'score' : f.get('detectionConfidence'),
            'color' : 'rgba(255, 0, 0, 0.9)'  # rojo
        })
        # fdBoundingPoly en cian
        _boxes_face.append({
            'points': (f.get('fdBoundingPoly') or {}).get('vertices') or [],
            'label' : 'Cara (piel)',
            'score' : f.get('detectionConfidence'),
            'color' : 'rgba(0, 200, 255, 0.9)'  # cian
        })

    # Cajas de landmarks (si los hubiera) en naranja
    for lm in lms:
        _boxes_face.append({
            'points': (lm.get('boundingPoly') or {}).get('vertices') or [],
            'label' : lm.get('description') or 'Landmark',
            'score' : lm.get('score'),
            'color' : 'rgba(255, 140, 0, 0.95)'  # naranja
        })

if not _boxes_face:
    print('No hay cajas para visualizar.')
else:
    draw_boxes_html(SELFIE_URI, _boxes_face, width=600)


## 5. Tarea 4: Landmark Detection

Por último, la detección de landmarks en la imagen `city.png`.


In [37]:
CITY_URI = f'gs://{BUCKET}/city.png'
display(HTML(f'<img src="{gcs_to_public_url(CITY_URI)}" style="width:600px; height:auto; border:1px solid #ddd;"/>'))


In [38]:
payload_landmark = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': CITY_URI}},
            'features': [{'type': 'LANDMARK_DETECTION','maxResults': 10}]
        }
    ]
}

data_landmark = None
landmarks = []

_data_bytes = json.dumps(payload_landmark).encode('utf-8')
req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
with urllib.request.urlopen(req, timeout=60) as resp:
    data_landmark = json.loads(resp.read().decode('utf-8'))

if data_landmark:
    r0 = (data_landmark.get('responses') or [{}])[0]
    landmarks = r0.get('landmarkAnnotations', [])
    print(f'Punto de Referencia detectado: {len(landmarks)}')
    if landmarks:
        lm = landmarks[0]
        resumen = {
            'descripcion': lm.get('description'),
            'confianza': lm.get('score'),
            'ubicaciones': [loc.get('latLng') for loc in lm.get('locations', []) if loc.get('latLng')],
        }
        print(json.dumps(resumen, indent=2, ensure_ascii=False))


Punto de Referencia detectado: 1
{
  "descripcion": "Red Square",
  "confianza": 0.76078147,
  "ubicaciones": [
    {
      "latitude": 55.75393029999999,
      "longitude": 37.620794999999994
    }
  ]
}


### 5.1. Visualización de la Caja Delimitadora (Landmark)

Dibujo la caja del landmark encontrado sobre la imagen.

In [39]:
_boxes_landmark = []
if landmarks:
    for lm in landmarks:
        _boxes_landmark.append({
            'points': (lm.get('boundingPoly') or {}).get('vertices', []),
            'label': lm.get('description'),
            'score': lm.get('score'),
            'color': 'rgba(255, 140, 0, 0.9)' # Naranja
        })
    draw_boxes_html(CITY_URI, _boxes_landmark, width=600)
else:
    print('No hay landmarks para visualizar.')


## Fin del Laboratorio

Todas las tareas del laboratorio están completas.



## 1. Configuración Inicial

Primero, definimos las variables necesarias para interactuar con la API de Vision, incluyendo la clave de API, el endpoint del servicio y el nombre de nuestro bucket de Google Cloud Storage (GCS).

In [1]:
import json
import urllib.request, urllib.error
from IPython.display import HTML, display

# Reemplaza con tus propios valores del laboratorio
API_KEY = 'AIzaSyA1iqJ17y7hn95_PfuG_dK8-DgKw87f5zo'
BUCKET = 'qwiklabs-gcp-02-48265f2aaafa'

# Endpoint de la API de Vision
ENDPOINT = 'https://vision.googleapis.com/v1/images:annotate'
URL = f'{ENDPOINT}?key={API_KEY}'
HEADERS = {'Content-Type': 'application/json'}

### Funciones Auxiliares

Definimos un par de funciones que nos ayudarán a lo largo del cuaderno: una para convertir URIs de GCS a URLs públicas y otra para dibujar las cajas delimitadoras (bounding boxes) sobre las imágenes.

In [2]:
def gcs_to_public_url(gcs_uri: str) -> str:
    """Convierte una URI de GCS (gs://...) a una URL pública de HTTPs."""
    if not gcs_uri or not gcs_uri.startswith('gs://'):
        return gcs_uri
    path = gcs_uri[len('gs://'):]
    return f'https://storage.googleapis.com/{path}'

def draw_boxes_html(img_uri: str, boxes, width=600):
    """Renderiza cajas sobre una imagen usando HTML/Canvas en Jupyter."""
    import html as _html
    import json as _json
    import secrets as _secrets

    _img_url = gcs_to_public_url(img_uri)
    _uid = _secrets.token_hex(4)
    _style_width = '' if (width is None) else f'width:{int(width)}px;'
    _tpl = """
    <div id="viz-{UID}" style="position:relative; display:inline-block; border:1px solid #ddd;">
      <img id="img-{UID}" src="{IMG_URL}" style="display:block; {STYLE_W} max-width:100%; height:auto;"/>
      <canvas id="canvas-{UID}" style="position:absolute; left:0; top:0; pointer-events:none;"></canvas>
    </div>
    <script>
    (function(){{
      const boxes = {BOXES};
      const img = document.getElementById('img-{UID}');
      const canvas = document.getElementById('canvas-{UID}');
      function draw(){{
        const w = img.clientWidth || img.naturalWidth;
        const h = img.clientHeight || img.naturalHeight;
        if (!w || !h) {{ requestAnimationFrame(draw); return; }}
        canvas.width = w; canvas.height = h;
        canvas.style.width = w + 'px'; canvas.style.height = h + 'px';
        const ctx = canvas.getContext('2d');
        ctx.clearRect(0, 0, w, h);
        const srcW = img.naturalWidth || w; const srcH = img.naturalHeight || h;
        const sx = w / srcW; const sy = h / srcH;
        (boxes || []).forEach(b => {{
          const ptsRaw = b.points || [];
          if (!ptsRaw.length) return;
          const pts = ptsRaw.map(p => {{
            const px = (('x' in p) ? (p.x || 0) : 0);
            const py = (('y' in p) ? (p.y || 0) : 0);
            return [px * sx, py * sy];
          }});
          ctx.beginPath();
          ctx.moveTo(pts[0][0], pts[0][1]);
          for (let i = 1; i < pts.length; i++) ctx.lineTo(pts[i][0], pts[i][1]);
          if (pts.length >= 3) ctx.closePath();
          ctx.lineWidth = 3;
          ctx.strokeStyle = b.color || 'rgba(255, 0, 0, 0.9)';
          ctx.stroke();
          const parts = [];
          if (b.label) parts.push(b.label);
          if (b.score) parts.push('(' + (b.score*100).toFixed(1) + '%)');
          const txt = parts.join(' ');
          if (txt) {{
            const tx = Math.min(Math.max(pts[0][0] + 5, 2), w - 2);
            const ty = Math.max(16, pts[0][1] - 5);
            ctx.fillStyle = b.color || 'rgba(255, 0, 0, 0.9)';
            ctx.font = 'bold 14px sans-serif';
            ctx.fillText(txt, tx, ty);
          }}
        }});
      }}
      img.addEventListener('load', draw);
      window.addEventListener('resize', draw);
      if (img.complete) draw();
    }})();
    </script>
    """
    _html_out = (_tpl
        .replace('{{UID}}', _uid)
        .replace('{{IMG_URL}}', _html.escape(_img_url))
        .replace('{{STYLE_W}}', _style_width)
        .replace('{{BOXES}}', _json.dumps(boxes)))
    display(HTML(_html_out))

## 2. Tarea 1: Detección de Etiquetas (Label Detection)

Comenzamos con la detección de etiquetas. Usaremos la imagen `donuts.png` para que la API de Vision identifique los objetos y conceptos presentes en ella.

In [3]:
# Visualizamos la imagen que vamos a analizar
DONUTS_URI = f'gs://{BUCKET}/donuts.png'
display(HTML(f'<img src="{gcs_to_public_url(DONUTS_URI)}" style="width:400px; height:auto; border:1px solid #ddd;"/>'))

### 2.1. Crear la solicitud para la API

Construimos el cuerpo de la solicitud en formato JSON. Especificamos la URI de la imagen en GCS y el tipo de característica que queremos detectar: `LABEL_DETECTION`.

In [4]:
payload_label = {
    'requests': [
        {
            'image': {
                'source': {
                    'gcsImageUri': DONUTS_URI
                }
            },
            'features': [
                {
                    'type': 'LABEL_DETECTION',
                    'maxResults': 10
                }
            ]
        }
    ]
}

print('Payload para LABEL_DETECTION:')
print(json.dumps(payload_label, indent=2, ensure_ascii=False))

Payload para LABEL_DETECTION:
{
  "requests": [
    {
      "image": {
        "source": {
          "gcsImageUri": "gs://qwiklabs-gcp-02-48265f2aaafa/donuts.png"
        }
      },
      "features": [
        {
          "type": "LABEL_DETECTION",
          "maxResults": 10
        }
      ]
    }
  ]
}


### 2.2. Enviar la solicitud y procesar la respuesta

Enviamos la solicitud POST a la API y luego extraemos las etiquetas y sus puntuaciones de confianza de la respuesta.

In [5]:
data_label = None
try:
    _data_bytes = json.dumps(payload_label).encode('utf-8')
    req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
    with urllib.request.urlopen(req, timeout=60) as resp:
        print(f'Llamada a la API... Código de estado: {resp.getcode()}')
        data_label = json.loads(resp.read().decode('utf-8'))
except Exception as e:
    print(f'Error en la llamada a la API: {e}')

if data_label:
    r0 = (data_label.get('responses') or [{}])[0]
    labels = r0.get('labelAnnotations') or []
    if labels:
        print(f'Etiquetas detectadas: {len(labels)}')
        for it in labels:
            print(f"- {it.get('description')}: {it.get('score'):.4f}")
    else:
        print('No se encontraron etiquetas en la imagen.')


Llamada a la API... Código de estado: 200
Etiquetas detectadas: 10
- Food: 0.9790
- Powdered sugar: 0.9265
- Ingredient: 0.9249
- Fried food: 0.8865
- Powder: 0.8605
- Recipe: 0.8278
- Fried dough: 0.8024
- Cooking: 0.7820
- Beignet: 0.7232
- Flour: 0.7010


## 3. Tarea 2: Detección Web (Web Detection)

Ahora, usaremos la misma imagen `donuts.png` para realizar una detección web. Esto buscará en internet imágenes similares, páginas que contengan la imagen y entidades web relacionadas.

In [6]:
payload_web = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': DONUTS_URI}},
            'features': [{'type': 'WEB_DETECTION', 'maxResults': 10}]
        }
    ]
}

data_web = None
try:
    _data_bytes = json.dumps(payload_web).encode('utf-8')
    req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
    with urllib.request.urlopen(req, timeout=60) as resp:
        print(f'Llamada a la API... Código de estado: {resp.getcode()}')
        data_web = json.loads(resp.read().decode('utf-8'))
except Exception as e:
    print(f'Error en la llamada a la API: {e}')

if data_web:
    r0 = (data_web.get('responses') or [{}])[0]
    wd = r0.get('webDetection') or {}
    entities = wd.get('webEntities') or []
    print('Entidades Web encontradas:')
    for it in entities[:5]: # Mostramos las primeras 5
        desc = it.get('description') or it.get('entityId')
        print(f"- {desc} (Score: {it.get('score')})")
    
    fmi = len(wd.get('fullMatchingImages') or [])
    pmi = len(wd.get('partialMatchingImages') or [])
    vs  = len(wd.get('visuallySimilarImages') or [])
    print(f'Imágenes coincidentes -> Completas: {fmi}, Parciales: {pmi}, Similares: {vs}')


Llamada a la API... Código de estado: 200
Entidades Web encontradas:
- Computer vision (Score: 0.5797)
- API (Score: 0.4851)
- Vision AI (Score: 0.4509)
- Machine learning (Score: 0.4335)
- Foundation model (Score: 0.4321)
Imágenes coincidentes -> Completas: 2, Parciales: 1, Similares: 10


## 4. Tarea 3: Detección de Caras (Face Detection)

Cambiamos de imagen a `selfie.png`. En este paso, pediremos a la API que detecte las caras presentes, analice sus atributos (como la alegría) y dibuje cajas a su alrededor.

In [7]:
# Visualizamos la nueva imagen
SELFIE_URI = f'gs://{BUCKET}/selfie.png'
display(HTML(f'<img src="{gcs_to_public_url(SELFIE_URI)}" style="width:600px; height:auto; border:1px solid #ddd;"/>'))

In [8]:
payload_face = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': SELFIE_URI}},
            'features': [
                { 'type': 'FACE_DETECTION' },
                { 'type': 'LANDMARK_DETECTION' } # El lab pide ambas
            ]
        }
    ]
}

data_face = None
try:
    _data_bytes = json.dumps(payload_face).encode('utf-8')
    req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
    with urllib.request.urlopen(req, timeout=60) as resp:
        print(f'Llamada a la API... Código de estado: {resp.getcode()}')
        data_face = json.loads(resp.read().decode('utf-8'))
except Exception as e:
    print(f'Error en la llamada a la API: {e}')

if data_face:
    r0 = (data_face.get('responses') or [{}])[0]
    faces = r0.get('faceAnnotations') or []
    lms   = r0.get('landmarkAnnotations') or []
    
    print(f'Caras detectadas: {len(faces)}')
    for i, f in enumerate(faces):
        joy = f.get('joyLikelihood')
        conf = f.get('detectionConfidence') * 100
        print(f'  - Cara #{i+1}: Alegría={joy}, Confianza={conf:.1f}%')
        
    if lms:
        print(f'Puntos de referencia también encontrados en la selfie: {len(lms)}')
        for lm in lms:
            print(f"  - {lm.get('description')} (Score: {lm.get('score'):.3f})")

Llamada a la API... Código de estado: 200
Caras detectadas: 3
  - Cara #1: Alegría=VERY_LIKELY, Confianza=98.8%
  - Cara #2: Alegría=POSSIBLE, Confianza=98.4%
  - Cara #3: Alegría=VERY_LIKELY, Confianza=96.9%
Puntos de referencia también encontrados en la selfie: 2
  - The Treasury (Score: 0.361)
  - Petra (Score: 0.284)


### 4.1. Visualización de las Cajas Delimitadoras (Caras)

Usamos nuestra función `draw_boxes_html` para pintar los resultados sobre la imagen. La caja roja (`boundingPoly`) enmarca toda la cara, mientras que la cian (`fdBoundingPoly`) se enfoca más en la piel.

In [9]:
_boxes_face = []
if data_face:
    r0_face = (data_face.get('responses') or [{}])[0]
    faces = r0_face.get('faceAnnotations') or []
    lms   = r0_face.get('landmarkAnnotations') or []

    # Cajas de caras (boundingPoly) en rojo
    for f in faces:
        _boxes_face.append({
            'points': (f.get('boundingPoly') or {}).get('vertices') or [],
            'label' : 'Cara',
            'score' : f.get('detectionConfidence'),
            'color' : 'rgba(255, 0, 0, 0.9)'  # rojo
        })
        # fdBoundingPoly en cian
        _boxes_face.append({
            'points': (f.get('fdBoundingPoly') or {}).get('vertices') or [],
            'label' : 'Cara (piel)',
            'score' : f.get('detectionConfidence'),
            'color' : 'rgba(0, 200, 255, 0.9)'  # cian
        })

    # Cajas de landmarks (si los hubiera) en naranja
    for lm in lms:
        _boxes_face.append({
            'points': (lm.get('boundingPoly') or {}).get('vertices') or [],
            'label' : lm.get('description') or 'Landmark',
            'score' : lm.get('score'),
            'color' : 'rgba(255, 140, 0, 0.95)'  # naranja
        })

if not _boxes_face:
    print('No hay cajas para visualizar.')
else:
    draw_boxes_html(SELFIE_URI, _boxes_face, width=600)


## 5. Tarea 4: Detección de Puntos de Referencia (Landmark Detection)

Finalmente, analizaremos la imagen `city.png` para identificar puntos de referencia geográficos o arquitectónicos conocidos.

In [10]:
# Visualizamos la última imagen
CITY_URI = f'gs://{BUCKET}/city.png'
display(HTML(f'<img src="{gcs_to_public_url(CITY_URI)}" style="width:600px; height:auto; border:1px solid #ddd;"/>'))

In [11]:
payload_landmark = {
    'requests': [
        {
            'image': {'source': {'gcsImageUri': CITY_URI}},
            'features': [{'type': 'LANDMARK_DETECTION','maxResults': 10}]
        }
    ]
}

data_landmark = None
landmarks = []
try:
    _data_bytes = json.dumps(payload_landmark).encode('utf-8')
    req = urllib.request.Request(URL, data=_data_bytes, headers=HEADERS, method='POST')
    with urllib.request.urlopen(req, timeout=60) as resp:
        print(f'Llamada a la API... Código de estado: {resp.getcode()}')
        data_landmark = json.loads(resp.read().decode('utf-8'))
except Exception as e:
    print(f'Error en la llamada a la API: {e}')

if data_landmark:
    r0 = (data_landmark.get('responses') or [{}])[0]
    landmarks = r0.get('landmarkAnnotations', [])
    print(f'Punto de Referencia detectado: {len(landmarks)}')
    if landmarks:
        lm = landmarks[0]
        resumen = {
            'descripcion': lm.get('description'),
            'confianza': lm.get('score'),
            'ubicaciones': [loc.get('latLng') for loc in lm.get('locations', []) if loc.get('latLng')],
        }
        print(json.dumps(resumen, indent=2, ensure_ascii=False))


Llamada a la API... Código de estado: 200
Punto de Referencia detectado: 1
{
  "descripcion": "Red Square",
  "confianza": 0.76078147,
  "ubicaciones": [
    {
      "latitude": 55.75393029999999,
      "longitude": 37.620794999999994
    }
  ]
}


### 5.1. Visualización de la Caja Delimitadora (Landmark)

Finalmente, dibujamos la caja que la API identificó para el punto de referencia sobre la imagen de la ciudad.

In [12]:
_boxes_landmark = []
if landmarks:
    for lm in landmarks:
        _boxes_landmark.append({
            'points': (lm.get('boundingPoly') or {}).get('vertices', []),
            'label': lm.get('description'),
            'score': lm.get('score'),
            'color': 'rgba(255, 140, 0, 0.9)' # Naranja
        })
    draw_boxes_html(CITY_URI, _boxes_landmark, width=600)
else:
    print('No hay landmarks para visualizar.')

## Fin del Laboratorio

¡Hemos completado todas las tareas del laboratorio en el orden correcto! Cada sección ahora muestra la imagen, construye la solicitud, llama a la API, interpreta los resultados y, cuando es aplicable, los visualiza.