# Lab 2.2: Recomendação para ir ao Banho e Tosa

Este notebook executa o pipeline de recomendação de ida ao banho e tosa de ponta a ponta. As células abaixo irão compilar o código MapReduce, ingerir dados do PostgreSQL com Sqoop, executar o job no Hadoop, verifica os resultados e armazena os dados resultantes.

In [None]:
import os

# Define qual implementação de MapReduce usar: 'java' ou 'python'
MAPREDUCE_LANG = 'java'  # Altere para 'python' para usar a implementação em Python
os.environ['MAPREDUCE_LANG'] = MAPREDUCE_LANG

print(f"Usando implementação de MapReduce: {os.environ['MAPREDUCE_LANG'].upper()}")

## Compilando a Aplicação MapReduce

A primeira etapa é compilar nosso código-fonte Java em um arquivo `.jar` executável. A célula abaixo usa o Maven para isso. Ela navega até o diretório do projeto e executa o `mvn package`. A flag `-q` é para uma saída mais limpa.

In [None]:
%%bash
if [ "$MAPREDUCE_LANG" == "java" ]; then
    cd booking-recommendation
    mvn package -q
    echo "JAR compilado com sucesso em: target/booking-recommendation-1.0-SNAPSHOT.jar"
fi

## Consultando histórico de Agendamentos com dados de referência

Execute a célula abaixo para se conectar novamente e fazer uma consulta `SELECT` com os dados inseridos anteriormente.

In [None]:
import psycopg2
import os

# As credenciais e o host são baseados no arquivo docker-compose.txt
DB_HOST = "localhost" # Nome do serviço no Docker Compose
DB_NAME = "postgres"
DB_USER = "postgres"
DB_USER_PWD = "postgres"

try:
    conn = psycopg2.connect(host=DB_HOST, dbname=DB_NAME, user=DB_USER, password=DB_USER_PWD)
    cur = conn.cursor()
    
    cur.execute("""SELECT b.pet_id, b.booking_date, br.frequency_days 
                FROM booking b 
                JOIN pet p ON b.pet_id = p.pet_id 
                JOIN booking_reference br ON p.species = br.species AND p.animal_type = br.animal_type AND p.fur_type = br.fur_type 
                WHERE b.status = 'Realizado' AND p.ignore_recommendation = false AND p.nenabled = TRUE AND b.nenabled = TRUE AND br.nenabled = TRUE""")
    rows = cur.fetchall()
    
    print("Agendamentos encontrados:")
    for row in rows:
        print(row)
        
except Exception as e:
    print(f"Ocorreu um erro: {e}")
finally:
    if 'conn' in locals() and conn is not None:
        cur.close()
        conn.close()

## Montar recomendação ao Banho e Tosa com base na frequência média de todos os Pets

In [None]:
import psycopg2
import os
from datetime import datetime

# Database connection details
DB_HOST = "localhost"
DB_NAME = "postgres"
DB_USER = "postgres"
DB_USER_PWD = "postgres"

pipeline_name = 'booking_recommendation'
start_time = datetime.now()
status = 'RUNNING'

try:
    conn = psycopg2.connect(host=DB_HOST, dbname=DB_NAME, user=DB_USER, password=DB_USER_PWD)
    cur = conn.cursor()

    # Insert a new record into the execution_history table
    cur.execute(
        "INSERT INTO execution_history (target_table, start_time, status) VALUES (%s, %s, %s) RETURNING execution_id",
        (pipeline_name, start_time, status)
    )
    execution_id = cur.fetchone()[0]
    conn.commit()

    # Store the execution_id for later use
    os.environ['EXECUTION_ID'] = str(execution_id)

    print(f"Execution started for pipeline: {pipeline_name}")
    print(f"Execution ID: {execution_id}")

except Exception as e:
    print(f"An error occurred: {e}")
finally:
    if 'conn' in locals() and conn is not None:
        cur.close()
        conn.close()

## 1. Ingestão do histórico de Agendamentos com Sqoop

Importar os dados de agendamentos do PostgreSQL para o HDFS. O comando `hdfs dfs -rm` é usado para remover o diretório de destino antes da importação, garantindo que possamos executar esta célula várias vezes sem erros.

In [None]:
%%bash
INPUT_DIR=/petshop/input_booking_recommendation

# Remove o diretório de entrada se ele já existir
hdfs dfs -test -d $INPUT_DIR
if [ $? -eq 0 ]; then
    echo "Removendo diretório HDFS existente: $INPUT_DIR"
    hdfs dfs -rm -r $INPUT_DIR
fi

echo "Iniciando importação com Sqoop..."
sqoop import \
    --connect jdbc:postgresql://localhost:5432/postgres \
    --username postgres \
    --password postgres \
    --query "SELECT b.pet_id, b.booking_date, br.frequency_days \
                FROM booking b \
                JOIN pet p ON b.pet_id = p.pet_id \
                JOIN booking_reference br ON p.species = br.species AND p.animal_type = br.animal_type AND p.fur_type = br.fur_type \
                WHERE b.status = 'Realizado' AND p.ignore_recommendation = false AND p.nenabled = TRUE AND b.nenabled = TRUE AND br.nenabled = TRUE AND \$CONDITIONS" \
    --target-dir $INPUT_DIR \
    --m 1 \
    --split-by p.pet_id

echo "\nImportação concluída. Verificando os dados no HDFS:"
hdfs dfs -ls $INPUT_DIR
hdfs dfs -cat $INPUT_DIR/part-m-00000 | head -n 5

## 2. Execução do Job MapReduce

Com os dados no HDFS, podemos executar nosso job MapReduce. A célula abaixo submete o código Java ou Python para o Hadoop. O resultado será salvo no diretório `/petshop/output_booking_recommendation`.

In [None]:
%%bash
INPUT_DIR=/petshop/input_booking_recommendation
OUTPUT_DIR=/petshop/output_booking_recommendation

# Remove o diretório de saída se ele já existir
hdfs dfs -test -d $OUTPUT_DIR
if [ $? -eq 0 ]; then
    echo "Removendo diretório HDFS de saída existente: $OUTPUT_DIR"
    hdfs dfs -rm -r $OUTPUT_DIR
fi

if [ "$MAPREDUCE_LANG" == "java" ]; then
    JAR_PATH=booking-recommendation/target/booking-recommendation-1.0-SNAPSHOT.jar
   
    echo "Executando o job MapReduce (Java)..."
    hadoop jar $JAR_PATH -D log4j.logger.com.petshop.hadoop.RecommendationMapper=DEBUG $INPUT_DIR $OUTPUT_DIR

elif [ "$MAPREDUCE_LANG" == "python" ]; then
    MAPPER_PATH=booking-recommendation-python/mapper.py
    REDUCER_PATH=booking-recommendation-python/reducer.py
  
    echo "Executando o job MapReduce (Python)..."
    hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \
        -file $MAPPER_PATH -mapper $MAPPER_PATH \
        -file $REDUCER_PATH -reducer $REDUCER_PATH \
        -input $INPUT_DIR \
        -output $OUTPUT_DIR
fi

echo "\nJob concluído!"

## 3. Verificando resultados

Vamos verificar o resultado processado no HDFS. O arquivo `part-r-00000` deve conter o `pet_id`, a `suggested_date` e o `average_frequency_days`.

In [None]:
%%bash
OUTPUT_DIR=/petshop/output_booking_recommendation

echo "Conteúdo do diretório de saída:"
hdfs dfs -ls $OUTPUT_DIR

echo "\nResultado do processamento:"
hdfs dfs -cat $OUTPUT_DIR/part-r-00000

## 4. Gravando e consultando resultados no Redis

A etapa final na arquitetura real seria carregar este resultado no Redis para consulta rápida. O serviço `loader-py` faria isso automaticamente. Abaixo, simulamos como os dados seriam armazenados e consultados usando `redis-cli`.

In [None]:
import redis

redis = redis.Redis(host = 'localhost', port=6379)
redis.ping()

In [None]:
%%bash
OUTPUT_FILE=/petshop/output_booking_recommendation/part-r-00000
REDIS_HOST=localhost

# Verifica se o arquivo de resultado existe
hdfs dfs -test -e $OUTPUT_FILE
if [ $? -ne 0 ]; then
    echo "Erro: Arquivo de resultado não encontrado em $OUTPUT_FILE"
    exit 1
fi

echo "Limpando recomendações antigas no Redis..."
redis-cli -h $REDIS_HOST KEYS "recommendation:booking:pet:*" | xargs -r redis-cli -h $REDIS_HOST DEL

echo "Carregando novas recomendações do HDFS para o Redis..."
# Lê o arquivo do HDFS e processa linha por linha
hdfs dfs -cat $OUTPUT_FILE | while IFS=$'\t' read -r pet_id values; do
    # Extrai os valores (data sugerida e frequência)
    sug_date=$(echo $values | cut -d',' -f1)
    avg_freq=$(echo $values | cut -d',' -f2)
    
    # Monta e executa o comando HSET para o Redis
    echo "Inserindo recomendação para o pet_id: $pet_id"
    redis-cli -h $REDIS_HOST HSET "recommendation:booking:pet:$pet_id" \
        suggested_date "$sug_date" \
        average_frequency_days "$avg_freq"
done

echo "\nCarga de dados concluída."

echo "Todos os registros inseridos:"
# redis-cli -h $REDIS_HOST KEYS "recommendation:booking:pet:*"

for key in $(redis-cli -h $REDIS_HOST KEYS "recommendation:booking:pet:*");

  do echo "\n Key : '$key'" 
     redis-cli -h $REDIS_HOST HGETALL $key;

done

## 5. Gravando resultados no PostgreSQL

Com o resultado processado e validado, a próxima etapa é armazená-lo no PostgreSQL para consumo por outras aplicações. A célula abaixo lê o resultado do HDFS e o insere na tabela `booking_recommendation`.

In [None]:
import psycopg2
import os
from subprocess import Popen, PIPE

# Database connection details
DB_HOST = "localhost"
DB_NAME = "postgres"
DB_USER = "postgres"
DB_USER_PWD = "postgres"

# HDFS output file
output_file = "/petshop/output_booking_recommendation/part-r-00000"

try:
    # Connect to the database
    conn = psycopg2.connect(host=DB_HOST, dbname=DB_NAME, user=DB_USER, password=DB_USER_PWD)
    cur = conn.cursor()

    # Truncate the table before inserting new data
    cur.execute("TRUNCATE TABLE booking_recommendation;")
    print("Table booking_recommendation truncated.")

    # Read the HDFS file
    process = Popen(["hdfs", "dfs", "-cat", output_file], stdout=PIPE)
    (stdout, stderr) = process.communicate()
    exit_code = process.wait()

    if exit_code == 0:
        # Decode the output and split into lines
        lines = stdout.decode("utf-8").strip().split('\n')
        
        print(f"Inserting {len(lines)} records into booking_recommendation...")
        
        # Process each line and insert into the database
        for line in lines:
            if not line:
                continue
                
            pet_id, values = line.split('\t')
            suggested_date, avg_freq_days = values.split(',')
            
            # Prepare and execute the INSERT statement
            cur.execute(
                "INSERT INTO booking_recommendation (pet_id, suggested_date, average_frequency_days) VALUES (%s, %s, %s)",
                (int(pet_id), suggested_date, int(avg_freq_days))
            )
        
        # Commit the transaction
        conn.commit()
        print("Data successfully inserted into booking_recommendation.")

    else:
        print(f"Error reading HDFS file: {stderr}")

except Exception as e:
    print(f"An error occurred: {e}")
finally:
    if 'conn' in locals() and conn is not None:
        cur.close()
        conn.close()

In [None]:
import psycopg2
import os
from datetime import datetime
from subprocess import Popen, PIPE

# Database connection details
DB_HOST = "localhost"
DB_NAME = "postgres"
DB_USER = "postgres"
DB_USER_PWD = "postgres"

# HDFS output file
output_file = "/petshop/output_booking_recommendation/part-r-00000"

# Get the execution_id from the environment variable
execution_id = os.environ.get('EXECUTION_ID')

if execution_id:
    try:
        # Read the HDFS file to count the number of processed records
        process = Popen(["hdfs", "dfs", "-cat", output_file], stdout=PIPE)
        (stdout, stderr) = process.communicate()
        exit_code = process.wait()

        records_processed = 0
        if exit_code == 0:
            lines = stdout.decode("utf-8").strip().split('\\n')
            records_processed = len(lines)

        end_time = datetime.now()
        status = 'COMPLETED'

        conn = psycopg2.connect(host=DB_HOST, dbname=DB_NAME, user=DB_USER, password=DB_USER_PWD)
        cur = conn.cursor()

        # Update the execution_history record
        cur.execute(
            "UPDATE execution_history SET end_time = %s, status = %s, records_processed = %s WHERE execution_id = %s",
            (end_time, status, records_processed, execution_id)
        )
        conn.commit()

        print(f"Execution finished for pipeline with ID: {execution_id}")
        print(f"Records processed: {records_processed}")

    except Exception as e:
        print(f"An error occurred: {e}")
    finally:
        if 'conn' in locals() and conn is not None:
            cur.close()
            conn.close()
else:
    print("Execution ID not found. The final status could not be updated.")

## 6. Consultando dados inseridos no PostgreSQL

Execute a célula abaixo para se conectar novamente e fazer uma consulta `SELECT` para verificar se os dados foram inseridos corretamente na tabela `booking_recommendation`.

In [None]:
try:
    conn = psycopg2.connect(host=DB_HOST, dbname=DB_NAME, user=DB_USER, password=DB_USER_PWD)
    cur = conn.cursor()
    
    cur.execute("SELECT * FROM booking_recommendation;")
    rows = cur.fetchall()
    
    print("Registros encontrados:")
    for row in rows:
        print(row)
        
except Exception as e:
    print(f"Ocorreu um erro: {e}")
finally:
    if 'conn' in locals() and conn is not None:
        cur.close()
        conn.close()