In [None]:
# Importações e Bibliotecas
import requests
import pandas as pd
from IPython.display import display

# Exibir todas as colunas e linhas
pd.set_option('display.max_columns', None)  
pd.set_option('display.max_rows', None)     
pd.set_option('display.width', None)        

# Classe para acessar API 
class TMDBClient:
    """
    Cliente para acessar a API do TMDB usando POO.
    """
    def __init__(self, api_key, token, base_url="https://api.themoviedb.org/3"):
        self.api_key = api_key
        self.token = token
        self.base_url = base_url
        self.headers = {
            "Authorization": f"Bearer {self.token}",
            "Content-Type": "application/json;charset=utf-8"
        }

    def get_data(self, endpoint, params=None):
        """
        Faz uma requisição GET a um endpoint específico.
        """
        url = f"{self.base_url}{endpoint}"
        if params is None:
            params = {}
        params["api_key"] = self.api_key  

        response = requests.get(url, headers=self.headers, params=params)

        # Verifica se a requisição foi bem-sucedida
        if response.status_code == 200:
            return response.json()
        else:
            print(f"Erro na API: {response.status_code}")
            print(response.json())
            return None

    def get_popular_movies(self, language="pt-BR", page=1):
        """
        Obtém os filmes populares.
        """
        endpoint = "/movie/popular"
        params = {
            "language": language,
            "page": page
        }
        return self.get_data(endpoint, params)


# Classe para processar dados do API
class TMDBDataProcessor:
    """
    Classe para processar os dados obtidos da API.
    """
    def __init__(self, client):
        self.client = client

    def fetch_all_movies(self, language="pt-BR", save_to_csv=False):
        """
        Busca e processa todos os filmes populares, coletando todas as páginas.
        """
        all_movies = []  
        page = 1         

        while True:
            data = self.client.get_popular_movies(language=language, page=page)
            if data and "results" in data:
                all_movies.extend(data["results"])  
                
                if page >= data["total_pages"]:
                    break
                page += 1  
            else:
                print(f"Erro ou dados ausentes na página {page}.")
                break

        # Cria um DataFrame com todos os filmes coletados
        tabela = pd.DataFrame(all_movies)
        print(f"Total de filmes recebidos: {len(all_movies)}")

        # Exibe e salva os dados
        display(tabela)
        if save_to_csv:
            tabela.to_csv("todos_filmes_populares.csv", index=False, encoding="utf-8")
        return tabela

# Configurações
api_key = "0093c975195a182e35eb7b93c940bbf4"
token = "eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiIwMDkzYzk3NTE5NWExODJlMzVlYjdiOTNjOTQwYmJmNCIsIm5iZiI6MTczMTY3ODc4Ni43NjEwMDIzLCJzdWIiOiI2NzM3NTEzMzQ4ZTlkMmNmMDFhOGE1OWMiLCJzY29wZXMiOlsiYXBpX3JlYWQiXSwidmVyc2lvbiI6MX0.kAHY6-jyeeJBIIQNSOA1-7v9N6rrIia1Z8Wk3-e9YA0"

client = TMDBClient(api_key, token)
processor = TMDBDataProcessor(client)

# Busca e processa todos os filmes
tabela_filmes = processor.fetch_all_movies(language="pt-BR", save_to_csv=True)

In [None]:
# Importações e Bibliotecas
import requests
import pandas as pd
from IPython.display import display

# Classe para acessar API 
class TMDBClient:
    """
    Cliente para acessar a API do TMDB usando POO.
    """
    def __init__(self, api_key, token, base_url="https://api.themoviedb.org/3"):
        self.api_key = api_key
        self.token = token
        self.base_url = base_url
        self.headers = {
            "Authorization": f"Bearer {self.token}",
            "Content-Type": "application/json;charset=utf-8"
        }

    def get_data(self, endpoint, params=None):
        """
        Faz uma requisição GET a um endpoint específico.
        """
        url = f"{self.base_url}{endpoint}"
        if params is None:
            params = {}
        params["api_key"] = self.api_key  # Inclui a chave da API nos parâmetros

        response = requests.get(url, headers=self.headers, params=params)

        # Verifica se a requisição foi bem-sucedida
        if response.status_code == 200:
            return response.json()
        else:
            print(f"Erro na API: {response.status_code}")
            print(response.json())
            return None

    def get_popular_movies(self, language="pt-BR", page=1):
        """
        Obtém os filmes populares.
        """
        endpoint = "/movie/popular"
        params = {
            "language": language,
            "page": page
        }
        return self.get_data(endpoint, params)

# Classe para processar e limpar os dados do API
class TMDBDataProcessor:
    """
    Classe para processar e limpar os dados obtidos da API.
    """
    def __init__(self, client):
        self.client = client

    def fetch_first_100_movies(self, language="pt-BR", save_to_csv=False):
        """
        Busca, filtra e processa os primeiros 100 filmes populares em português.
        """
        all_movies = []  
        page = 1         

        while len(all_movies) < 100:  # Limita a coleta a 100 filmes
            data = self.client.get_popular_movies(language=language, page=page)
            if data and "results" in data:
                all_movies.extend(data["results"]) 
                
                # Verifica se a API já retornou todos os filmes disponíveis
                if page >= data["total_pages"]:
                    break
                
                page += 1  # Próxima página
            else:
                print(f"Erro ou dados ausentes na página {page}.")
                break

        # Limita a lista aos primeiros 100 filmes
        all_movies = all_movies[:100]

        # Cria um DataFrame com os 100 filmes
        tabela = pd.DataFrame(all_movies)
        print(f"Total de filmes recebidos: {len(all_movies)}")

        # Seleciona colunas relevantes
        colunas_relevantes = [
            "id", "title", "release_date", 
            "vote_average", "vote_count", "popularity"
        ]
        tabela = tabela[colunas_relevantes]

        # Renomeia as colunas para português
        tabela.rename(columns={
            "id": "ID",
            "title": "Título",
            "release_date": "Data de Lançamento",
            "vote_average": "Média de Votos",
            "vote_count": "Número de Votos",
            "popularity": "Popularidade"
        }, inplace=True)

        # Conversão de tipos
        tabela["Data de Lançamento"] = pd.to_datetime(tabela["Data de Lançamento"], errors="coerce")

        # Preenchimento de valores ausentes em colunas relevantes
        tabela.fillna({"Média de Votos": 0, "Número de Votos": 0, "Popularidade": 0}, inplace=True)

        # Remoção de linhas específicas: 8, 41, 43, 58, 70, 68, 56, 42, 40
        tabela.reset_index(drop=True, inplace=True)  
        linhas_a_remover = [8, 41, 43, 58, 70, 68, 56, 42, 40]
        tabela = tabela.drop(index=linhas_a_remover, errors="ignore")  

        # Exibe os primeiros dados da tabela para revisão
        display(tabela)

        # Salva a tabela em CSV se necessário, com codificação UTF-8
        if save_to_csv:
            tabela.to_csv("filmes_em_portugues_limpos.csv", index=False, encoding="utf-8")
        
        return tabela


# Configurações
api_key = "0093c975195a182e35eb7b93c940bbf4"
token = "eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiIwMDkzYzk3NTE5NWExODJlMzVlYjdiOTNjOTQwYmJmNCIsIm5iZiI6MTczMTY3ODc4Ni43NjEwMDIzLCJzdWIiOiI2NzM3NTEzMzQ4ZTlkMmNmMDFhOGE1OWMiLCJzY29wZXMiOlsiYXBpX3JlYWQiXSwidmVyc2lvbiI6MX0.kAHY6-jyeeJBIIQNSOA1-7v9N6rrIia1Z8Wk3-e9YA0"

# Inicializa o cliente e o processador
client = TMDBClient(api_key, token)
processor = TMDBDataProcessor(client)

# Busca e processa os primeiros 100 filmes em português
tabela_filmes = processor.fetch_first_100_movies(language="pt-BR", save_to_csv=True)


In [None]:
import psycopg2
import pandas as pd

# Informações de conexão ao banco de dados
db_host = 'localhost'      
db_port = '5432'           
db_name = 'trabalho_final'  
db_user = 'postgres'        
db_password = '123'      

# Conectando ao banco de dados
try:
    conn = psycopg2.connect(
        host=db_host,
        port=db_port,
        database=db_name,
        user=db_user,
        password=db_password
    )
    cursor = conn.cursor()
    print("Conexão ao PostgreSQL estabelecida com sucesso.")
except Exception as e:
    print(f"Erro na conexão com o PostgreSQL: {e}")

# Criar a tabela no banco de dados
create_table_query = '''
CREATE TABLE filmes (
    id SERIAL PRIMARY KEY,
    titulo VARCHAR(255),
    data_lancamento DATE,
    media_votos FLOAT,
    numero_votos INT,
    popularidade FLOAT
);
'''

try:
    cursor.execute(create_table_query)
    conn.commit()
    print("Tabela criada com sucesso.")
except Exception as e:
    print(f"Erro ao criar a tabela: {e}")
    conn.rollback()


# Inserir os dados do DataFrame na tabela PostgreSQL
for index, row in tabela_filmes.iterrows():
    insert_query ='''
    INSERT INTO filmes (titulo, data_lancamento, media_votos, numero_votos, popularidade)
    VALUES (%s, %s, %s, %s, %s)
    '''
    data = (row['Título'], row['Data de Lançamento'], row['Média de Votos'], row['Número de Votos'], row['Popularidade'])

    try:
        cursor.execute(insert_query, data)
        conn.commit()
    except Exception as e:
        print(f"Erro ao inserir dados: {e}")
        conn.rollback()

# Fechar a conexão
cursor.close()
conn.close()
print("Conexão fechada com sucesso.")

In [None]:
# PROBLEMA 1
# Quais fatores determinam o sucesso financeiro de um filme?

tabela_filmes['Intervalo de Votos'] = pd.cut(tabela_filmes['Número de Votos'], bins=10)  

# Calcular a popularidade média para cada intervalo de votos
pop_por_intervalo_votos = tabela_filmes.groupby('Intervalo de Votos', observed=False).agg({'Popularidade': 'mean', 'Número de Votos': 'count'})

# Gráfico de barras
plt.figure(figsize=(12, 6))
sns.barplot(x=pop_por_intervalo_votos.index.astype(str), y=pop_por_intervalo_votos['Popularidade'], color='b')
plt.title("Popularidade Média por Intervalo de Número de Votos")
plt.xlabel("Intervalo de Número de Votos")
plt.ylabel("Popularidade Média")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()