# Gemini for Face Exercise Proficiency Classification

Facial exercises have gained popularity for their potential benefits in improving muscle tone, reducing signs of aging and enhancing overall facial symmetry, being fundamental for speech therapy treatment. However, assessing proficiency in these exercises remains a challenge, as effectiveness depends on precise movements and muscle engagement. This notebook explores the application of Gemini, a cutting-edge AI model, for classifying face exercise proficiency without the need for acquiring labeled datasets or training any custom model.

In [1]:
import os
from google import genai

from dotenv import load_dotenv
from google.genai import types

load_dotenv()
GEMINI_API_KEY = os.getenv('GEMINI_API_KEY')

Here is a sample of how to call the Gemini API. In this experiment, we will focus on Gemini 2.0 Flash, which is a multimodal model capable of processing both text and images and delivering high-quality results. Google's API provides a free tier with a limited number of requests, making it accessible for experimentation.

In [2]:
client = genai.Client(api_key=GEMINI_API_KEY)

response = client.models.generate_content(
    model="gemini-2.0-flash", contents="Explain how AI works in a few words"
)
print(response.text)

AI learns patterns from data to make predictions or decisions.



---

Prompts play an important role in guiding the model's responses. The following prompt is designed to elicit a classification of proficiency levels based on the provided image. Each exercise should be associated with a  prompt that includes a breaf description of the exercise and a request for proficiency classification. The prompt is structured to ensure clarity and specificity, allowing the model to understand the task at hand. We believe that the prompt should be clear and concise, providing the model with the necessary context to generate accurate and relevant responses.

In [None]:
# system_prompt = """"
# Você é um modelo de inteligência artificial especializado na análise de exercícios motores faciais a partir de vídeos curtos. Seu objetivo é avaliar a corretude da execução dos movimentos com base em critérios biomecânicos, precisão da execução e alinhamento com as instruções propostas para cada exercício.
# """

### Prediction with a wrong exercise execution

In [8]:
# Only for videos of size <20Mb
video_file_name = "ex1_errado.mp4"
video_bytes = open(video_file_name, 'rb').read()

response = client.models.generate_content(
    model='models/gemini-2.0-flash',
    # config=types.GenerateContentConfig(
    #     system_instruction=system_prompt,
    # ),
    contents=types.Content(
        parts=[
            types.Part(text='Esse exercício foi performado corretamente, parcialmente ou incorretamente? Descrição: exercício de lateralização de língua. O paciente deve projetar a lingua para fora da bcoa e mover ela para os dois lados',),
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            )
        ]
    )
)

print(response.text)

Com base no vídeo, parece que o exercício de lateralização da língua não foi realizado. Não há movimentos da língua visíveis no vídeo. Portanto, pode-se dizer que o exercício foi executado incorretamente ou não foi realizado.


### Prediction with a correct exercise execution

It is also possible to ask it to return only a single class or any sort of structured output. In this case, we will ask it to return the class name.

In [9]:
# Only for videos of size <20Mb
video_file_name = "ex1_certo.mp4"
video_bytes = open(video_file_name, 'rb').read()

response = client.models.generate_content(
    model='models/gemini-2.0-flash',
    # config=types.GenerateContentConfig(
    #     system_instruction=system_prompt,
    # ),
    contents=types.Content(
        parts=[
            types.Part(text='Esse exercício foi performado corretamente, parcialmente ou incorretamente [Retorne apenas "Acertou", "Parcial" ou "Errou"]? Descrição: exercício de lateralização de língua. O paciente deve projetar a lingua para fora da boca e mover ela obrigatoriamente para os dois lados',),
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            )
        ]
    )
)

print(response.text)

Acertou


### Prediction with a partial exercise execution

In [6]:
# Only for videos of size <20Mb
video_file_name = "ex1_parcial.mp4"
video_bytes = open(video_file_name, 'rb').read()

response = client.models.generate_content(
    model='models/gemini-2.0-flash',
    # config=types.GenerateContentConfig(
    #     system_instruction=system_prompt,
    # ),
    contents=types.Content(
        parts=[
            types.Part(text='Esse exercício foi performado corretamente, parcialmente ou incorretamente [Retorne apenas "Acertou", "Parcial" ou "Errou"]? Descrição: exercício de lateralização de língua. O paciente deve projetar a lingua para fora da boca e mover ela obrigatoriamente para os dois lados',),
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            )
        ]
    )
)

print(response.text)

Acertou


It is possible to see that the model was not able to classify correctly the last image, which is a partial execution of the exercise.

### Gemini 1.5 Pro

This model is consedered one of the best for vision tasks. It is possible to see that it is able to classify the "partial" images correctly, but it is not able to return a formatted output.

In [10]:
# Only for videos of size <20Mb
video_file_name = "ex1_parcial.mp4"
video_bytes = open(video_file_name, 'rb').read()

response = client.models.generate_content(
    model='models/gemini-1.5-pro',
    # config=types.GenerateContentConfig(
    #     system_instruction=system_prompt,
    # ),
    contents=types.Content(
        parts=[
            types.Part(text='Esse exercício foi performado corretamente, parcialmente ou incorretamente [Retorne apenas "Acertou", "Parcial" ou "Errou"]? Descrição: exercício de lateralização de língua. O paciente deve projetar a lingua para fora da boca e mover ela obrigatoriamente para os dois lados',),
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            )
        ]
    )
)

print(response.text)

Errou. O exercício foi realizado apenas para o lado esquerdo.
