# Análise de Dados TikTok via BigQuery

Este notebook faz uma análise exploratória dos dados extraídos da API do TikTok e armazenados no Google BigQuery.

In [None]:
print("Iniciando notebook TikTok ETL...")

# Bibliotecas
try:
    from google.cloud import bigquery
    import pandas as pd
    import matplotlib.pyplot as plt
    import seaborn as sns
    import os
    print("Bibliotecas importadas com sucesso.")
except Exception as e:
    print("Erro ao importar bibliotecas:", e)

# Caminho da chave de serviço
try:
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "../gcp_key.json"
    print("Variável de autenticação configurada.")
except Exception as e:
    print("Erro ao configurar autenticação:", e)

KeyboardInterrupt: 

In [None]:
PROJECT_ID = "tiktok-data-pipeline"
DATASET = "tiktok_data"
TABLE = "videos"
client = bigquery.Client(project=PROJECT_ID)


In [None]:
query = f"""
SELECT
  hashtagName,
  uniqueId,
  nickname,
  playCount,
  diggCount,
  shareCount,
  commentCount,
  verified
FROM `{PROJECT_ID}.{DATASET}.{TABLE}`
WHERE playCount IS NOT NULL
"""

df = client.query(query).to_dataframe()
df.head()


In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(10,6))
sns.scatterplot(data=df, x="playCount", y="diggCount", hue="verified")
plt.title("Curtidas vs Visualizações")
plt.xlabel("Visualizações")
plt.ylabel("Curtidas")
plt.show()


In [None]:
top_hashtags = df["hashtagName"].value_counts().head(10)
top_hashtags.plot(kind="bar", title="Top 10 Hashtags", figsize=(10,5))
plt.ylabel("Quantidade de vídeos")
plt.show()


In [None]:
df["engajamento"] = (df["diggCount"] + df["commentCount"] + df["shareCount"]) / df["playCount"]
df.sort_values("engajamento", ascending=False).head(10)
