In [1]:
import os
import time
import calendar
import requests
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, ArrayType
from datetime import datetime, timedelta
from dotenv import load_dotenv

In [2]:

# Carregar variáveis de ambiente do arquivo .env
load_dotenv()

# Obter o token da API do ambiente
TMDB_API_TOKEN = os.getenv("TMDB_API_TOKEN")

if not TMDB_API_TOKEN:
    raise ValueError("ERRO: Token da API do TMDB não encontrado. Verifique seu arquivo .env.")

# Obter credenciais do MinIO do ambiente
MINIO_ROOT_USER = os.getenv("MINIO_ROOT_USER")
MINIO_ROOT_PASSWORD = os.getenv("MINIO_ROOT_PASSWORD")
MINIO_SERVER = os.getenv("MINIO_SERVER")

if not MINIO_ROOT_USER or not MINIO_ROOT_PASSWORD or not MINIO_SERVER:
    raise ValueError("ERRO: Credenciais do MinIO não encontradas. Verifique seu arquivo minio.env.")


# Configuração do Spark Session com MinIO
spark = SparkSession.builder \
    .appName("Movies_20_21") \
    .master("spark://spark:7077") \
    .config("spark.executor.memory", "12g")  \
    .config("spark.executor.cores", "2") \
    .config("spark.hadoop.fs.s3a.endpoint", MINIO_SERVER) \
    .config("spark.hadoop.fs.s3a.access.key", MINIO_ROOT_USER) \
    .config("spark.hadoop.fs.s3a.secret.key", MINIO_ROOT_PASSWORD) \
    .config("spark.hadoop.fs.s3a.path.style.access", "true") \
    .config("spark.hadoop.fs.s3a.connection.ssl.enabled", "false") \
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
    .getOrCreate()


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/02/13 17:55:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [3]:
# URL e headers da API
url = "https://api.themoviedb.org/3/discover/movie"
headers = {
    "accept": "application/json",
    "Authorization": f"Bearer {TMDB_API_TOKEN}"
}

# Lista para armazenar os dados de todas as páginas
movies_list = []

# Define o intervalo de anos de 2020 a 2026
start_year = 2020
end_year = 2020

# Loop para cada ano de 2020 a 2026
for year in range(start_year, end_year + 1):
    # Loop para cada mês (de janeiro a dezembro)
    for month in range(1, 13):
        # Define o primeiro e o último dia do mês
        first_day = datetime(year, month, 1)
        last_day = datetime(year, month, calendar.monthrange(year, month)[1])
        
        # Loop para cada dia do mês
        current_day = first_day
        while current_day <= last_day:
            start_date = current_day.strftime("%Y-%m-%d")
            end_date = start_date  # Busca apenas um dia por vez

            page = 1

            while True:
                params = {
                    "include_adult": "false",
                    "include_video": "false",
                    "language": "en-US",
                    "page": page,
                    "sort_by": "popularity.desc",
                    "primary_release_date.gte": start_date,
                    "primary_release_date.lte": end_date
                }

                response = requests.get(url, headers=headers, params=params)

                if response.status_code == 200:
                    data = response.json()
                    movies = data.get("results", [])

                    if not movies:  # Se não houver mais filmes, sai do loop
                        break

                    movies_list.extend(movies)  # Adiciona os filmes à lista

                    total_pages = data.get("total_pages", 1)  # Obtém o número total de páginas
                    print(f"Ano {year}, Mês {month}, Dia {current_day.day} - Página {page} coletada. Total de páginas: {total_pages}")

                    if page >= total_pages:  # Se atingirmos a última página, encerramos o loop
                        break

                    page += 1  # Incrementa a página para a próxima requisição
                else:
                    print(f"Erro ao acessar API ({year}-{month}-{current_day.day} - Página {page}):", response.status_code, response.text)
                    break
                # Adiciona o delay de 1 segundo entre as requisições
                time.sleep(0.25)

            # Avança para o próximo dia
            current_day += timedelta(days=1)

# Definição do schema para o DataFrame do PySpark
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("title", StringType(), True),
    StructField("overview", StringType(), True),
    StructField("release_date", StringType(), True),
    StructField("vote_average", StringType(), True),
    StructField("genre_ids", ArrayType(IntegerType()), True)
])

# Criando o DataFrame apenas se houver dados
if movies_list:
    df = spark.createDataFrame(movies_list, schema=schema)

    # Exibe as primeiras 5 linhas
    df.show(5, truncate=False)

    # Conta o total de linhas com base no ID
    total_count = df.select("id").count()
    print(f"Total de filmes coletados: {total_count}")


Ano 2020, Mês 1, Dia 1 - Página 1 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 2 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 3 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 4 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 5 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 6 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 7 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 8 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 9 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 10 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 11 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 12 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 13 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 14 coletada. Total de páginas: 90
Ano 2020, Mês 1, Dia 1 - Página 15 coletada. Total de páginas: 90
Ano 2020, Mês 1, Di

25/02/13 19:40:41 WARN TaskSetManager: Stage 0 contains a task of very large size (2266 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

+------+------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------------+------------+----------------------+
|id    |title                                     |overview                                                                                                                                                                                                              

25/02/13 19:40:48 WARN TaskSetManager: Stage 1 contains a task of very large size (2266 KiB). The maximum recommended task size is 1000 KiB.

Total de filmes coletados: 34904


                                                                                

In [4]:
# Escreve no MinIO
df.write \
  .format("parquet") \
  .mode("overwrite") \
  .save("s3a://bronze/movie_20_21/")

print("Escrita no MinIO concluída com sucesso!")

# Para verificação, lê os dados escritos
print("Lendo dados do MinIO para verificação...")
df_read = spark.read.parquet("s3a://bronze/movie_20_21/")
df_read.show(5)

spark.stop()

25/02/13 19:40:53 WARN MetricsConfig: Cannot locate configuration: tried hadoop-metrics2-s3a-file-system.properties,hadoop-metrics2.properties
25/02/13 19:40:57 WARN TaskSetManager: Stage 4 contains a task of very large size (2266 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

Escrita no MinIO concluída com sucesso!
Lendo dados do MinIO para verificação...


                                                                                

+------+--------------------+--------------------+------------+------------+---------+
|    id|               title|            overview|release_date|vote_average|genre_ids|
+------+--------------------+--------------------+------------+------------+---------+
|890100|  State of emergency|The world has bec...|  2020-08-01|         0.0|     [99]|
|875871|            Var-hami|                    |  2020-08-01|         0.0|       []|
|829185|  Expatriate Dreamer|A man draws on hi...|  2020-08-01|         0.0|       []|
|820689|Un Ballo in Masch...|                    |  2020-08-01|         0.0|  [10402]|
|819651|            De Berde|A story about peo...|  2020-08-01|         0.0|     [16]|
+------+--------------------+--------------------+------------+------------+---------+
only showing top 5 rows

