In [None]:
import pandas as pd
import os
import matplotlib.pyplot as plt # Opcional, para visualizações futuras
import seaborn as sns # Opcional, para visualizações futuras

# Configurações opcionais para melhor visualização no pandas
pd.set_option('display.max_columns', None) # Mostrar todas as colunas
pd.set_option('display.max_colwidth', 100) # Mostrar mais do conteúdo das colunas de texto
pd.set_option('display.width', 1000) # Aumentar a largura da exibição

In [None]:
# Define o nome do arquivo do dataset
dataset_filename = "vaccination_all_tweets.csv" # << substitua pelo nome exato do seu arquivo

# Constrói o caminho para o dataset
# Assumindo que este notebook está em 'analise_tweets_neo4j/notebooks/'
# e o dataset está em 'analise_tweets_neo4j/data/'
try:
    notebook_dir = os.getcwd() # Obtém o diretório atual do notebook
    project_root = os.path.dirname(notebook_dir) # Sobe um nível para a raiz do projeto
    dataset_path = os.path.join(project_root, 'data', dataset_filename)

    print(f"Tentando carregar o dataset de: {dataset_path}")

    # Tenta carregar com UTF-8
    df = pd.read_csv(dataset_path, encoding='utf-8', low_memory=False)
    print(f"\nDataset '{dataset_filename}' carregado com sucesso usando UTF-8.")

except FileNotFoundError:
    print(f"ERRO: Arquivo não encontrado em '{dataset_path}'.")
    print("Verifique se o nome do arquivo está correto e se ele está na pasta 'data/' na raiz do projeto.")
    df = None
except UnicodeDecodeError:
    print(f"AVISO: Falha ao decodificar '{dataset_filename}' com UTF-8. Tentando com latin1...")
    try:
        df = pd.read_csv(dataset_path, encoding='latin1', low_memory=False)
        print(f"Dataset '{dataset_filename}' carregado com sucesso usando latin1.")
    except Exception as e_latin1:
        print(f"ERRO: Não foi possível carregar o dataset com latin1. Erro: {e_latin1}")
        df = None
except Exception as e_general:
    print(f"ERRO: Ocorreu um problema inesperado ao carregar o dataset. Erro: {e_general}")
    df = None

if df is not None:
    print(f"Número de linhas: {df.shape[0]}, Número de colunas: {df.shape[1]}")

In [None]:
if df is not None:
    print("--- Primeiras 5 linhas (head) ---")
    display(df.head()) # 'display()' é preferível a 'print()' para DataFrames em Jupyter
else:
    print("Dataset não carregado. Não é possível mostrar o head.")

In [None]:
if df is not None:
    print("--- Informações do DataFrame (info) ---")
    df.info()
else:
    print("Dataset não carregado.")

In [None]:
if df is not None:
    print("--- Nomes das Colunas ---")
    colunas = list(df.columns)
    print(colunas)
else:
    print("Dataset não carregado.")

In [None]:
if df is not None:
    print("--- Tipos de Dados (dtypes) ---")
    print(df.dtypes)
else:
    print("Dataset não carregado.")

In [None]:
if df is not None:
    print("--- Estatísticas Descritivas para Colunas Numéricas (describe) ---")
    display(df.describe())

    print("\n--- Estatísticas Descritivas para Todas as Colunas (describe(include='all')) ---")
    display(df.describe(include='all'))
else:
    print("Dataset não carregado.")

In [None]:
if df is not None:
    print("--- Formato (shape) [Linhas, Colunas] ---")
    print(df.shape)
else:
    print("Dataset não carregado.")

In [None]:
if df is not None:
    print("--- Valores Ausentes por Coluna (isnull().sum()) ---")
    valores_ausentes = df.isnull().sum()
    print(valores_ausentes[valores_ausentes > 0].sort_values(ascending=False)) # Mostra apenas colunas com valores ausentes
else:
    print("Dataset não carregado.")

In [None]:
if df is not None:
    # TENTATIVA DE IDENTIFICAR A COLUNA DE TEXTO (substitua se souber o nome exato)
    nomes_comuns_coluna_texto = ['text', 'tweet', 'full_text', 'content', 'Tweet Text', 'Tweet', 'Text']
    coluna_texto_identificada = None
    for nome_col in nomes_comuns_coluna_texto:
        if nome_col in df.columns:
            coluna_texto_identificada = nome_col
            print(f"Coluna de texto identificada heuristicamente como: '{coluna_texto_identificada}'")
            break
    
    if coluna_texto_identificada:
        print(f"\n--- Amostra da coluna '{coluna_texto_identificada}' (primeiras 5 e algumas aleatórias) ---")
        display(df[coluna_texto_identificada].head())
        if len(df) > 10: # Só pega amostra aleatória se tiver mais de 10 tweets
            display(df[coluna_texto_identificada].sample(5))
    else:
        print("\nAVISO: Coluna de texto principal não identificada automaticamente.")
        print("Por favor, inspecione a lista de colunas (Célula 5) e substitua 'nome_da_sua_coluna_de_texto' no código para explorá-la.")

    # Explore outras colunas que parecem relevantes, por exemplo, de usuário ou data:
    # Exemplo: coluna_usuario = 'user_screen_name' # Substitua pelo nome real
    # if coluna_usuario in df.columns:
    #     print(f"\n--- Amostra da coluna '{coluna_usuario}' ---")
    #     display(df[coluna_usuario].head())
    #     print(f"Valores únicos (aproximado): {df[coluna_usuario].nunique()}")
    
    # Exemplo: coluna_data = 'created_at' # Substitua pelo nome real
    # if coluna_data in df.columns:
    #     print(f"\n--- Amostra da coluna '{coluna_data}' ---")
    #     display(df[coluna_data].head())
    #     # Tente converter para datetime para ver se o formato é reconhecido
    #     try:
    #         df['data_convertida_teste'] = pd.to_datetime(df[coluna_data])
    #         print("Teste de conversão para datetime bem-sucedido.")
    #         display(df['data_convertida_teste'].head())
    #     except Exception as e_date:
    #         print(f"Não foi possível converter a coluna de data automaticamente para datetime. Erro: {e_date}")
    #         print("Você pode precisar especificar o formato em pd.to_datetime(df[coluna_data], format='%Y-%m-%d %H:%M:%S')")

else:
    print("Dataset não carregado.")