In [1]:
import pandas as pd
import os
import matplotlib.pyplot as plt # Opcional, para visualizações futuras
import seaborn as sns # Opcional, para visualizações futuras

# Configurações opcionais para melhor visualização no pandas
pd.set_option('display.max_columns', None) # Mostrar todas as colunas
pd.set_option('display.max_colwidth', 100) # Mostrar mais do conteúdo das colunas de texto
pd.set_option('display.width', 1000) # Aumentar a largura da exibição

In [2]:
# Define o nome do arquivo do dataset
dataset_filename = "vaccination_all_tweets.csv" # << substitua pelo nome exato do seu arquivo

# Constrói o caminho para o dataset
# Assumindo que este notebook está em 'analise_tweets_neo4j/notebooks/'
# e o dataset está em 'analise_tweets_neo4j/data/'
try:
    notebook_dir = os.getcwd() # Obtém o diretório atual do notebook
    project_root = os.path.dirname(notebook_dir) # Sobe um nível para a raiz do projeto
    dataset_path = os.path.join(project_root, 'data', dataset_filename)

    print(f"Tentando carregar o dataset de: {dataset_path}")

    # Tenta carregar com UTF-8
    df = pd.read_csv(dataset_path, encoding='utf-8', low_memory=False)
    print(f"\nDataset '{dataset_filename}' carregado com sucesso usando UTF-8.")

except FileNotFoundError:
    print(f"ERRO: Arquivo não encontrado em '{dataset_path}'.")
    print("Verifique se o nome do arquivo está correto e se ele está na pasta 'data/' na raiz do projeto.")
    df = None
except UnicodeDecodeError:
    print(f"AVISO: Falha ao decodificar '{dataset_filename}' com UTF-8. Tentando com latin1...")
    try:
        df = pd.read_csv(dataset_path, encoding='latin1', low_memory=False)
        print(f"Dataset '{dataset_filename}' carregado com sucesso usando latin1.")
    except Exception as e_latin1:
        print(f"ERRO: Não foi possível carregar o dataset com latin1. Erro: {e_latin1}")
        df = None
except Exception as e_general:
    print(f"ERRO: Ocorreu um problema inesperado ao carregar o dataset. Erro: {e_general}")
    df = None

if df is not None:
    print(f"Número de linhas: {df.shape[0]}, Número de colunas: {df.shape[1]}")

Tentando carregar o dataset de: C:\Users\Alex_\OneDrive\Área de Trabalho\analise_tweets_neo4j\data\vaccination_all_tweets.csv

Dataset 'vaccination_all_tweets.csv' carregado com sucesso usando UTF-8.
Número de linhas: 33717, Número de colunas: 16


In [3]:
if df is not None:
    print("--- Primeiras 5 linhas (head) ---")
    display(df.head()) # 'display()' é preferível a 'print()' para DataFrames em Jupyter
else:
    print("Dataset não carregado. Não é possível mostrar o head.")

--- Primeiras 5 linhas (head) ---


Unnamed: 0,id,user_name,user_location,user_description,user_created,user_followers,user_friends,user_favourites,user_verified,date,text,hashtags,source,retweets,favorites,is_retweet
0,1340539111971516416,Rachel Roh,"La Crescenta-Montrose, CA","Aggregator of Asian American news; scanning diverse sources 24/7/365. RT's, Follows and 'Likes' ...",2009-04-08 17:52:46,405,1692,3247,False,2020-12-20 06:06:44,Same folks said daikon paste could treat a cytokine storm #PfizerBioNTech https://t.co/xeHhIMg1kF,['PfizerBioNTech'],Twitter for Android,0,0,False
1,1338158543359250433,Albert Fong,"San Francisco, CA","Marketing dude, tech geek, heavy metal & '80s music junkie. Fascinated by meteorology and all th...",2009-09-21 15:27:30,834,666,178,False,2020-12-13 16:27:13,"While the world has been on the wrong side of history this year, hopefully, the biggest vaccinat...",,Twitter Web App,1,1,False
2,1337858199140118533,eli🇱🇹🇪🇺👌,Your Bed,"heil, hydra 🖐☺",2020-06-25 23:30:28,10,88,155,False,2020-12-12 20:33:45,#coronavirus #SputnikV #AstraZeneca #PfizerBioNTech #Moderna #Covid_19 Russian vaccine is create...,"['coronavirus', 'SputnikV', 'AstraZeneca', 'PfizerBioNTech', 'Moderna', 'Covid_19']",Twitter for Android,0,0,False
3,1337855739918835717,Charles Adler,"Vancouver, BC - Canada","Hosting ""CharlesAdlerTonight"" Global News Radio Network. Weeknights 7 Pacific-10 Eastern - Email...",2008-09-10 11:28:53,49165,3933,21853,True,2020-12-12 20:23:59,"Facts are immutable, Senator, even when you're not ethically sturdy enough to acknowledge them. ...",,Twitter Web App,446,2129,False
4,1337854064604966912,Citizen News Channel,,Citizen News Channel bringing you an alternative news source from citizen journalists that haven...,2020-04-23 17:58:42,152,580,1473,False,2020-12-12 20:17:19,Explain to me again why we need a vaccine @BorisJohnson @MattHancock #whereareallthesickpeople #...,"['whereareallthesickpeople', 'PfizerBioNTech']",Twitter for iPhone,0,0,False


In [4]:
if df is not None:
    print("--- Informações do DataFrame (info) ---")
    df.info()
else:
    print("Dataset não carregado.")

--- Informações do DataFrame (info) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33717 entries, 0 to 33716
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id                33717 non-null  int64 
 1   user_name         33717 non-null  object
 2   user_location     25937 non-null  object
 3   user_description  31401 non-null  object
 4   user_created      33717 non-null  object
 5   user_followers    33717 non-null  int64 
 6   user_friends      33717 non-null  int64 
 7   user_favourites   33717 non-null  int64 
 8   user_verified     33717 non-null  bool  
 9   date              33717 non-null  object
 10  text              33717 non-null  object
 11  hashtags          26543 non-null  object
 12  source            33689 non-null  object
 13  retweets          33717 non-null  int64 
 14  favorites         33717 non-null  int64 
 15  is_retweet        33717 non-null  bool  
dtypes: bool(2), int64(

In [5]:
if df is not None:
    print("--- Nomes das Colunas ---")
    colunas = list(df.columns)
    print(colunas)
else:
    print("Dataset não carregado.")

--- Nomes das Colunas ---
['id', 'user_name', 'user_location', 'user_description', 'user_created', 'user_followers', 'user_friends', 'user_favourites', 'user_verified', 'date', 'text', 'hashtags', 'source', 'retweets', 'favorites', 'is_retweet']


In [6]:
if df is not None:
    print("--- Tipos de Dados (dtypes) ---")
    print(df.dtypes)
else:
    print("Dataset não carregado.")

--- Tipos de Dados (dtypes) ---
id                   int64
user_name           object
user_location       object
user_description    object
user_created        object
user_followers       int64
user_friends         int64
user_favourites      int64
user_verified         bool
date                object
text                object
hashtags            object
source              object
retweets             int64
favorites            int64
is_retweet            bool
dtype: object


In [7]:
if df is not None:
    print("--- Estatísticas Descritivas para Colunas Numéricas (describe) ---")
    display(df.describe())

    print("\n--- Estatísticas Descritivas para Todas as Colunas (describe(include='all')) ---")
    display(df.describe(include='all'))
else:
    print("Dataset não carregado.")

--- Estatísticas Descritivas para Colunas Numéricas (describe) ---


Unnamed: 0,id,user_followers,user_friends,user_favourites,retweets,favorites
count,33717.0,33717.0,33717.0,33717.0,33717.0,33717.0
mean,1.363738e+18,114072.7,1309.83489,14707.21,3.257971,14.271673
std,8433470000000000.0,896967.0,6193.351699,41070.15,35.627564,195.005028
min,1.337728e+18,0.0,0.0,0.0,0.0,0.0
25%,1.360706e+18,119.0,141.0,341.0,0.0,0.0
50%,1.366273e+18,575.0,418.0,2077.0,0.0,1.0
75%,1.369708e+18,2957.0,1189.0,10935.0,1.0,4.0
max,1.373215e+18,14879500.0,380428.0,1205878.0,2360.0,22815.0



--- Estatísticas Descritivas para Todas as Colunas (describe(include='all')) ---


Unnamed: 0,id,user_name,user_location,user_description,user_created,user_followers,user_friends,user_favourites,user_verified,date,text,hashtags,source,retweets,favorites,is_retweet
count,33717.0,33717,25937,31401,33717,33717.0,33717.0,33717.0,33717,33717,33717,26543,33689,33717.0,33717.0,33717
unique,,19169,7259,18259,19370,,,,2,33381,33690,12782,149,,,1
top,,Workout Solutions,India,George Tsanis – Workout Solutions Health and Fitness Consultants since 1996 – One-on-one and onl...,2010-09-20 17:01:08,,,,False,2021-03-02 23:02:10,#Covid19 Vaccine Rollout Needs Spark Even More Innovation https://t.co/EBaYqJexm1 #Ergotron #Vac...,['Covaxin'],Twitter Web App,,,False
freq,,402,988,402,402,,,,29729,4,5,1415,10930,,,33717
mean,1.363738e+18,,,,,114072.7,1309.83489,14707.21,,,,,,3.257971,14.271673,
std,8433470000000000.0,,,,,896967.0,6193.351699,41070.15,,,,,,35.627564,195.005028,
min,1.337728e+18,,,,,0.0,0.0,0.0,,,,,,0.0,0.0,
25%,1.360706e+18,,,,,119.0,141.0,341.0,,,,,,0.0,0.0,
50%,1.366273e+18,,,,,575.0,418.0,2077.0,,,,,,0.0,1.0,
75%,1.369708e+18,,,,,2957.0,1189.0,10935.0,,,,,,1.0,4.0,


In [8]:
if df is not None:
    print("--- Formato (shape) [Linhas, Colunas] ---")
    print(df.shape)
else:
    print("Dataset não carregado.")

--- Formato (shape) [Linhas, Colunas] ---
(33717, 16)


In [9]:
if df is not None:
    print("--- Valores Ausentes por Coluna (isnull().sum()) ---")
    valores_ausentes = df.isnull().sum()
    print(valores_ausentes[valores_ausentes > 0].sort_values(ascending=False)) # Mostra apenas colunas com valores ausentes
else:
    print("Dataset não carregado.")

--- Valores Ausentes por Coluna (isnull().sum()) ---
user_location       7780
hashtags            7174
user_description    2316
source                28
dtype: int64


In [10]:
if df is not None:
    # TENTATIVA DE IDENTIFICAR A COLUNA DE TEXTO (substitua se souber o nome exato)
    nomes_comuns_coluna_texto = ['text', 'tweet', 'full_text', 'content', 'Tweet Text', 'Tweet', 'Text']
    coluna_texto_identificada = None
    for nome_col in nomes_comuns_coluna_texto:
        if nome_col in df.columns:
            coluna_texto_identificada = nome_col
            print(f"Coluna de texto identificada heuristicamente como: '{coluna_texto_identificada}'")
            break
    
    if coluna_texto_identificada:
        print(f"\n--- Amostra da coluna '{coluna_texto_identificada}' (primeiras 5 e algumas aleatórias) ---")
        display(df[coluna_texto_identificada].head())
        if len(df) > 10: # Só pega amostra aleatória se tiver mais de 10 tweets
            display(df[coluna_texto_identificada].sample(5))
    else:
        print("\nAVISO: Coluna de texto principal não identificada automaticamente.")
        print("Por favor, inspecione a lista de colunas (Célula 5) e substitua 'nome_da_sua_coluna_de_texto' no código para explorá-la.")

    # Explore outras colunas que parecem relevantes, por exemplo, de usuário ou data:
    # Exemplo: coluna_usuario = 'user_screen_name' # Substitua pelo nome real
    # if coluna_usuario in df.columns:
    #     print(f"\n--- Amostra da coluna '{coluna_usuario}' ---")
    #     display(df[coluna_usuario].head())
    #     print(f"Valores únicos (aproximado): {df[coluna_usuario].nunique()}")
    
    # Exemplo: coluna_data = 'created_at' # Substitua pelo nome real
    # if coluna_data in df.columns:
    #     print(f"\n--- Amostra da coluna '{coluna_data}' ---")
    #     display(df[coluna_data].head())
    #     # Tente converter para datetime para ver se o formato é reconhecido
    #     try:
    #         df['data_convertida_teste'] = pd.to_datetime(df[coluna_data])
    #         print("Teste de conversão para datetime bem-sucedido.")
    #         display(df['data_convertida_teste'].head())
    #     except Exception as e_date:
    #         print(f"Não foi possível converter a coluna de data automaticamente para datetime. Erro: {e_date}")
    #         print("Você pode precisar especificar o formato em pd.to_datetime(df[coluna_data], format='%Y-%m-%d %H:%M:%S')")

else:
    print("Dataset não carregado.")

Coluna de texto identificada heuristicamente como: 'text'

--- Amostra da coluna 'text' (primeiras 5 e algumas aleatórias) ---


0      Same folks said daikon paste could treat a cytokine storm #PfizerBioNTech https://t.co/xeHhIMg1kF
1    While the world has been on the wrong side of history this year, hopefully, the biggest vaccinat...
2    #coronavirus #SputnikV #AstraZeneca #PfizerBioNTech #Moderna #Covid_19 Russian vaccine is create...
3    Facts are immutable, Senator, even when you're not ethically sturdy enough to acknowledge them. ...
4    Explain to me again why we need a vaccine @BorisJohnson @MattHancock #whereareallthesickpeople #...
Name: text, dtype: object

9482     EU COMMISSION SAYS IT HAS REACHED NEW DEAL WITH MODERNA FOR THE SUPPLY OF 300 MLN COVID-19 VACCI...
25834                       #Covaxin being given to poor people in govt hospitals. #IndiaFightsCorona #india
19516    Why taking the #COVID19Vaccine jab by the XYZ politicians are #BreakingNews ? Well, the @PMOIndi...
4140     As promised, my daughter @JenniferNovakMD received the covid vaccine shot number one with no iss...
855      Happy tears ! Got my first dose of Pfizer vaccine today. The only reaction it gave was JOY !#Cov...
Name: text, dtype: object