In [None]:
import pandas as pd
import os
import json
from datetime import datetime
import re

In [None]:
def verificar_estrutura_12_meses(json_data):
    # Verificar a estrutura do JSON
    if ("interest_over_time" in json_data and
        isinstance(json_data["interest_over_time"], dict) and
        "timeline_data" in json_data["interest_over_time"] and
        isinstance(json_data["interest_over_time"]["timeline_data"], list) and
        len(json_data["interest_over_time"]["timeline_data"]) > 1):  # Verifica se há pelo menos duas entradas em timeline_data
        for entry in json_data["interest_over_time"]["timeline_data"]:
            if ("values" in entry and isinstance(entry["values"], list) and len(entry["values"]) == 1):
                return True
    return False

def dataframe_12m():
    # Caminho da pasta contendo os arquivos JSON
    folder_path = './data'

    # Lista para armazenar os dados
    data = []

    output_folder = './DataFrames'

    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Iterar sobre todos os arquivos na pasta
    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                try:
                    # Carregar o conteúdo do arquivo JSON
                    json_data = json.load(file)

                    # Verificar a estrutura do JSON
                    if verificar_estrutura_12_meses(json_data):
                        timeline_data = json_data["interest_over_time"]["timeline_data"]

                        # Extraindo os dados
                        for entry in timeline_data:
                            timestamp = entry["timestamp"]
                            for value in entry["values"]:
                                if value["value"] == "Breakout":
                                    value["value"] = 5000
                                data.append({
                                    "timestamp": int(timestamp),
                                    "termo": value["query"],
                                    "valor (%)": value["value"]
                                })
                    else:
                        print(f"O conteúdo de {filename} não está no formato esperado.")
                except json.JSONDecodeError as e:
                    print(f"Erro ao decodificar o arquivo {filename}: {e}")

    # Criar o DataFrame
    df = pd.DataFrame(data)

    # Adicionar coluna de data convertendo o timestamp
    df['Periodo'] = pd.to_datetime(df['timestamp'], unit='s')

    # Remover a coluna timestamp
    df.drop(columns=['timestamp'], inplace=True)

    # Reorganizar as colunas
    df = df[['Periodo', 'termo', 'valor (%)']]
    
    # Remover caracteres específicos da coluna "valor (%)"
    df['valor (%)'] = df['valor (%)'].astype(str).str.replace('%', '').str.replace('+', '').str.replace('.', '').str.replace(',', '')
                
    # Caminho completo do arquivo de saída
    output_file = os.path.join(output_folder, 'df_12m.csv')

    # Salvar o DataFrame em um arquivo CSV
    df.to_csv(output_file, index=False)

    print(f"DataFrame salvo em {output_file}")

In [None]:
def verificar_estrutura_terms_5y(json_data):
    # Verificar a estrutura do JSON
    if ("search_parameters" in json_data and
        isinstance(json_data["search_parameters"], dict) and
        "date" in json_data["search_parameters"] and
        json_data["search_parameters"]["date"] == "today 5-y" and
        "interest_over_time" in json_data and
        isinstance(json_data["interest_over_time"], dict) and
        "timeline_data" in json_data["interest_over_time"] and
        isinstance(json_data["interest_over_time"]["timeline_data"], list)):
        
        # Verificar se há pelo menos uma entrada com mais de um valor em values
        for entry in json_data["interest_over_time"]["timeline_data"]:
            if ("values" in entry and isinstance(entry["values"], list) and len(entry["values"]) > 1):
                return True
    return False

def dataframe_terms_5y():
    # Caminho da pasta contendo os arquivos JSON
    folder_path = './data'

    # Lista para armazenar os dados
    data = []

    output_folder = './DataFrames'

    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Iterar sobre todos os arquivos na pasta
    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                try:
                    # Carregar o conteúdo do arquivo JSON
                    json_data = json.load(file)

                    # Verificar a estrutura do JSON
                    if verificar_estrutura_terms_5y(json_data):
                        timeline_data = json_data["interest_over_time"]["timeline_data"]

                        # Extraindo os dados
                        for entry in timeline_data:
                            timestamp = entry["timestamp"]
                            for value in entry["values"]:
                                if value["value"] == "Breakout":
                                    value["value"] = 5000
                                data.append({
                                    "timestamp": int(timestamp),
                                    "termo": value["query"],
                                    "valor (%)": value["value"]
                                })
                    else:
                        print(f"O conteúdo de {filename} não está no formato esperado.")
                except json.JSONDecodeError as e:
                    print(f"Erro ao decodificar o arquivo {filename}: {e}")

    # Criar o DataFrame
    df = pd.DataFrame(data)

    # Adicionar coluna de data convertendo o timestamp
    df['Periodo'] = pd.to_datetime(df['timestamp'], unit='s')

    # Remover a coluna timestamp
    df.drop(columns=['timestamp'], inplace=True)

    # Reorganizar as colunas
    df = df[['Periodo', 'termo', 'valor (%)']]
    
    # Remover caracteres específicos da coluna "valor (%)" e substituir "<1" por "1"
    df['valor (%)'] = df['valor (%)'].astype(str).str.replace('<1', '1').str.replace('%', '').str.replace('+', '').str.replace('.', '').str.replace(',', '')
                
    # Caminho completo do arquivo de saída
    output_file = os.path.join(output_folder, 'df_terms_5y.csv')

    # Salvar o DataFrame em um arquivo CSV
    df.to_csv(output_file, index=False)

    print(f"DataFrame salvo em {output_file}")

In [None]:
def verificar_estrutura_terms_12m(json_data):
    # Verificar a estrutura do JSON
    if ("search_parameters" in json_data and
        isinstance(json_data["search_parameters"], dict) and
        "date" in json_data["search_parameters"] and
        json_data["search_parameters"]["date"] == "today 12-m" and
        "interest_over_time" in json_data and
        isinstance(json_data["interest_over_time"], dict) and
        "timeline_data" in json_data["interest_over_time"] and
        isinstance(json_data["interest_over_time"]["timeline_data"], list)):
        
        # Verificar se há pelo menos uma entrada com mais de um valor em values
        for entry in json_data["interest_over_time"]["timeline_data"]:
            if ("values" in entry and isinstance(entry["values"], list) and len(entry["values"]) > 1):
                return True
    return False

def dataframe_terms_12m():
    # Caminho da pasta contendo os arquivos JSON
    folder_path = './data'

    # Lista para armazenar os dados
    data = []

    output_folder = './DataFrames'

    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Iterar sobre todos os arquivos na pasta
    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                try:
                    # Carregar o conteúdo do arquivo JSON
                    json_data = json.load(file)

                    # Verificar a estrutura do JSON
                    if verificar_estrutura_terms_12m(json_data):
                        timeline_data = json_data["interest_over_time"]["timeline_data"]

                        # Extraindo os dados
                        for entry in timeline_data:
                            timestamp = entry["timestamp"]
                            for value in entry["values"]:
                                if value["value"] == "Breakout":
                                    value["value"] = 5000
                                data.append({
                                    "timestamp": int(timestamp),
                                    "termo": value["query"],
                                    "valor (%)": value["value"]
                                })
                    else:
                        print(f"O conteúdo de {filename} não está no formato esperado.")
                except json.JSONDecodeError as e:
                    print(f"Erro ao decodificar o arquivo {filename}: {e}")

    # Criar o DataFrame
    df = pd.DataFrame(data)

    # Adicionar coluna de data convertendo o timestamp
    df['Periodo'] = pd.to_datetime(df['timestamp'], unit='s')

    # Remover a coluna timestamp
    df.drop(columns=['timestamp'], inplace=True)

    # Reorganizar as colunas
    df = df[['Periodo', 'termo', 'valor (%)']]
    
    # Remover caracteres específicos da coluna "valor (%)"
    df['valor (%)'] = df['valor (%)'].astype(str).str.replace('%', '').str.replace('+', '').str.replace('.', '').str.replace(',', '')
                
    # Caminho completo do arquivo de saída
    output_file = os.path.join(output_folder, 'df_terms_12m.csv')

    # Salvar o DataFrame em um arquivo CSV
    df.to_csv(output_file, index=False)

    print(f"DataFrame salvo em {output_file}")

In [None]:
def dataframe_related_queries_rising():
    folder_path = './data'
    output_folder = './DataFrames'
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    data = []
    
    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                try:
                    json_data = json.load(file)
                    
                    # Verifica se o arquivo tem a estrutura correta
                    if "related_queries" in json_data and "rising" in json_data["related_queries"]:
                        rising_queries = json_data["related_queries"]["rising"]
                        termo = json_data["search_parameters"]["q"]
                        periodo = json_data["search_parameters"]["date"]
                        
                        if periodo == "today 12-m":
                            periodo = "1 ano"
                        
                        # Cria um DataFrame com os dados relevantes
                        df = pd.DataFrame(rising_queries)
                        df["termo"] = termo
                        df["texto"] = df["query"]
                        df.drop(columns=["query"], inplace=True)
                        
                        # Adiciona a coluna período com o valor "today 12-m"
                        df["período"] = periodo
                        
                        # Renomear ou criar a coluna "valor (%)"
                        if 'value' in df.columns:
                            df.rename(columns={'value': 'valor (%)'}, inplace=True)
                        else:
                            df['valor (%)'] = None
                        
                        # Substituir "Breakout" por 5000
                        df['valor (%)'].replace('Breakout', 5000, inplace=True)
                        
                        # Remover caracteres específicos da coluna "valor (%)"
                        df['valor (%)'] = df['valor (%)'].astype(str).str.replace('%', '').str.replace('+', '').str.replace('.', '').str.replace(',', '')
                        
                        # Adiciona ao resultado final
                        data.append(df)
                
                except json.JSONDecodeError as e:
                    print(f"Erro ao decodificar o arquivo {filename}: {e}")
    
    # Concatena todos os DataFrames
    if data:
        result_df = pd.concat(data, ignore_index=True)
        
        # Nome do arquivo de saída
        output_file = os.path.join(output_folder, 'df_queries_rising.csv')
        
        # Salvar o DataFrame em um arquivo CSV
        result_df.to_csv(output_file, index=False)
        
        print(f"DataFrame salvo em {output_file}")
    else:
        print("Nenhum dado encontrado para criar o DataFrame.")

In [None]:
def dataframe_related_queries_top():
    folder_path = './data'
    output_folder = './DataFrames'
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    data = []
    
    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                try:
                    json_data = json.load(file)
                    
                    # Verifica se o arquivo tem a estrutura correta
                    if "related_queries" in json_data:
                        related_queries = json_data["related_queries"]
                        if "top" in related_queries:
                            top_queries = related_queries["top"]
                            termo = json_data["search_parameters"]["q"]
                            periodo = json_data["search_parameters"]["date"]
                            
                            if periodo == "today 12-m":
                                periodo = "1 ano"
                            
                            # Cria um DataFrame com os dados relevantes
                            df = pd.DataFrame(top_queries)
                            df["termo"] = termo
                            df["texto"] = df["query"]
                            df.drop(columns=["query"], inplace=True)
                            
                            # Renomear ou criar a coluna "valor (%)"
                            if 'value' in df.columns:
                                df.rename(columns={'value': 'valor (%)'}, inplace=True)
                            else:
                                df['valor (%)'] = None
                            
                            # Adiciona a coluna período com o valor de "date"
                            df["período"] = periodo
                            
                            # Substituir "Breakout" por 5000
                            df['valor (%)'].replace('Breakout', 5000, inplace=True)
                            
                            # Remover caracteres específicos da coluna "valor (%)"
                            df['valor (%)'] = df['valor (%)'].astype(str).str.replace('%', '').str.replace('+', '').str.replace('.', '').str.replace(',', '')
                            
                            # Adiciona ao resultado final
                            data.append(df)
                
                except json.JSONDecodeError as e:
                    print(f"Erro ao decodificar o arquivo {filename}: {e}")
    
    # Concatena todos os DataFrames
    if data:
        result_df = pd.concat(data, ignore_index=True)
        
        # Nome do arquivo de saída
        output_file = os.path.join(output_folder, 'df_queries_top.csv')
        
        # Salvar o DataFrame em um arquivo CSV
        result_df.to_csv(output_file, index=False)
        
        print(f"DataFrame salvo em {output_file}")
    else:
        print("Nenhum dado encontrado para criar o DataFrame.")

In [None]:
def dataframe_top_topics():
    data_dir = 'data'
    df = pd.DataFrame()  # DataFrame vazio para armazenar os dados
    
    for filename in os.listdir(data_dir):
        if filename.endswith('.json'):
            json_file = os.path.join(data_dir, filename)
            with open(json_file, 'r', encoding='utf-8') as f:
                try:
                    data = json.load(f)
                    if 'related_topics' in data and 'top' in data['related_topics']:
                        results = []
                        for item in data['related_topics']['top']:
                            if data['search_parameters']['date'] == "today 12-m":
                                periodo = "1 ano"
                            else:
                                periodo = data['search_parameters']['date']
                            
                            if item['value'] == "Breakout":
                                item['value'] = 5000
                            
                            # Remover caracteres específicos da coluna "valor (%)"
                            value = str(item['value']).replace('%', '').replace('+', '').replace('.', '').replace(',', '')
                            
                            result = {
                                'termo': data['search_parameters']['q'],
                                'título': item['topic']['title'],
                                'link': item['link'],
                                'valor (%)': value,
                                'período': periodo
                            }
                            
                            results.append(result)
                        
                        df = pd.concat([df, pd.DataFrame(results)], ignore_index=True)  # Atualiza o DataFrame com novos dados
                        
                        print(f"Dados de top topics do arquivo {filename} adicionados ao DataFrame")
                except json.JSONDecodeError:
                    print(f"Erro ao ler o arquivo JSON {json_file}")
                    continue
    
    if df.empty:
        print("Nenhum arquivo adequado encontrado para top topics")
    else:
        save_path = os.path.join('DataFrames', 'df_top_topics.csv')
        df.to_csv(save_path, index=False)
        print(f"DataFrame de top topics salvo em {save_path}")

In [None]:
def dataframe_rising_topics():
    data_dir = 'data'
    df = pd.DataFrame()  # DataFrame vazio para armazenar os dados
    
    for filename in os.listdir(data_dir):
        if filename.endswith('.json'):
            json_file = os.path.join(data_dir, filename)
            with open(json_file, 'r', encoding='utf-8') as f:
                try:
                    data = json.load(f)
                    if 'related_topics' in data and 'rising' in data['related_topics']:
                        results = []
                        for item in data['related_topics']['rising']:
                            if data['search_parameters']['date'] == "today 12-m":
                                periodo = "1 ano"
                            else:
                                periodo = data['search_parameters']['date']
                            
                            if item['value'] == "Breakout":
                                item['value'] = 5000
                            
                            # Remover caracteres específicos da coluna "valor (%)"
                            value = str(item['value']).replace('%', '').replace('+', '').replace('.', '').replace(',', '')
                            
                            result = {
                                'termo': data['search_parameters']['q'],
                                'título': item['topic']['title'],
                                'link': item['link'],
                                'valor (%)': value,
                                'período': periodo
                            }
                            results.append(result)
                        
                        df = pd.concat([df, pd.DataFrame(results)], ignore_index=True)  # Atualiza o DataFrame com novos dados
                        print(f"Dados de rising topics do arquivo {filename} adicionados ao DataFrame")
                except json.JSONDecodeError:
                    print(f"Erro ao ler o arquivo JSON {json_file}")
                    continue
    
    if df.empty:
        print("Nenhum arquivo adequado encontrado para rising topics")
    else:
        save_path = os.path.join('DataFrames', 'df_rising_topics.csv')
        df.to_csv(save_path, index=False)
        print(f"DataFrame de rising topics salvo em {save_path}")

In [None]:
def dataframe_regions():
    folder_path = './data'
    output_folder = './DataFrames'
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    data = []

    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                try:
                    json_data = json.load(file)
                    
                    # Verifica se o arquivo tem a estrutura correta
                    if "interest_by_region" in json_data:
                        interest_by_region = json_data["interest_by_region"]
                        termo = json_data["search_parameters"]["q"]
                        period = json_data["search_parameters"]["date"]
                        
                        # Ajusta o período
                        if period == "today 12-m":
                            period = "1 ano"
                        
                        # Cria uma lista de dicionários com os dados relevantes
                        region_data = []
                        for region in interest_by_region:
                            region_name = region["location"].split("State of ")[-1]
                            value = region["value"]
                            if value == "Breakout":
                                value = 5000
                            else:
                                # Remover caracteres específicos da coluna "valor (%)"
                                value = str(value).replace('%', '').replace('+', '').replace('.', '').replace(',', '')
                            region_data.append({
                                "região": region_name,
                                "valor (%)": value,
                                "termo": termo,
                                "período": period
                            })
                        
                        # Cria um DataFrame com os dados relevantes
                        df = pd.DataFrame(region_data)
                        
                        # Adiciona ao resultado final
                        data.append(df)
                
                except json.JSONDecodeError as e:
                    print(f"Erro ao decodificar o arquivo {filename}: {e}")
    
    # Concatena todos os DataFrames
    if data:
        result_df = pd.concat(data, ignore_index=True)
        
        # Nome do arquivo de saída
        output_file = os.path.join(output_folder, 'df_region.csv')
        
        # Salvar o DataFrame em um arquivo CSV
        result_df.to_csv(output_file, index=False)
        
        print(f"DataFrame salvo em {output_file}")
    else:
        print("Nenhum dado encontrado para criar o DataFrame.")

In [None]:
dataframe_related_queries_rising()

In [None]:
dataframe_related_queries_top()

In [None]:
dataframe_terms_12m()

In [None]:
dataframe_terms_5y()

In [None]:
dataframe_12m()

In [None]:
dataframe_regions()

In [None]:
dataframe_rising_topics()

In [None]:
dataframe_top_topics()