In [None]:

# !pip install pandas plotly statsmodels scipy


In [46]:
import pandas as pd
import plotly.express as px
import statsmodels.api as sm
from scipy.stats import ttest_1samp
import plotly.io as pio
pio.renderers.default = "colab"



In [35]:
# Carregar o dataset
# Substitua 'tiktok_datasetnovo.csv' pelo caminho correto do seu arquivo
df = pd.read_csv('tiktok_datasetnovo.csv')


In [36]:
# Função para limpeza de dados
def clean_data(df):
    df = df.dropna()  # Remove valores ausentes
    df['likes_per_view'] = df['video_like_count'] / df['video_view_count']
    df['comments_per_view'] = df['video_comment_count'] / df['video_view_count']
    return df

# Aplicar limpeza de dados
df = clean_data(df)

# Visualizar estatísticas descritivas
print("Estatísticas descritivas do dataset limpo:")
print(df.describe())


Estatísticas descritivas do dataset limpo:
                  #      video_id  video_duration_sec  video_view_count  \
count  19084.000000  1.908400e+04        19084.000000      19084.000000   
mean    9542.500000  5.624840e+09           32.423811     254708.558688   
std     5509.220604  2.537030e+09           16.226470     322893.280814   
min        1.000000  1.234959e+09            5.000000         20.000000   
25%     4771.750000  3.425100e+09           18.000000       4942.500000   
50%     9542.500000  5.609500e+09           32.000000       9954.500000   
75%    14313.250000  7.840823e+09           47.000000     504327.000000   
max    19084.000000  9.999873e+09           60.000000     999817.000000   

       video_like_count  video_share_count  video_download_count  \
count      19084.000000       19084.000000          19084.000000   
mean       84304.636030       16735.248323           1049.429627   
std       133420.546814       32036.174350           2004.299894   
min      



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [55]:
# Gráfico de Distribuição de Visualizações
fig = px.histogram(df, x='video_view_count', nbins=50, title="Distribuição de Visualizações")
fig.show()


In [54]:
# Mapa de Correlação
corr = df[['video_view_count', 'video_like_count', 'video_comment_count',
           'video_duration_sec', 'video_download_count', 'video_share_count']].corr().abs()
fig_corr = px.imshow(corr, text_auto=True, color_continuous_scale='Blues',
                     title="Mapa de Correlação Entre Métricas (0 a 1)")
fig_corr.show()


In [39]:
# Seleção de Filtragem
min_views = 1000
min_likes = 500
min_duration = 10
min_downloads = 10
min_shares = 10

filtered_df = df[
    (df['video_view_count'] >= min_views) &
    (df['video_like_count'] >= min_likes) &
    (df['video_duration_sec'] >= min_duration) &
    (df['video_download_count'] >= min_downloads) &
    (df['video_share_count'] >= min_shares)
]

# Exibir vídeos filtrados
print(f"Número de vídeos filtrados: {len(filtered_df)}")
filtered_df.head()


Número de vídeos filtrados: 12218


Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count,likes_per_view,comments_per_view
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0,0.549096,0.004855
2,3,claim,9859838091,31,someone shared with me that american industria...,not verified,active,902185.0,97690.0,2858.0,833.0,329.0,0.108282,0.000365
3,4,claim,1866847991,25,someone shared with me that the metro of st. p...,not verified,active,437506.0,239954.0,34812.0,1234.0,584.0,0.548459,0.001335
4,5,claim,7105231098,19,someone shared with me that the number of busi...,not verified,active,56167.0,34987.0,4110.0,547.0,152.0,0.62291,0.002706
5,6,claim,8972200955,35,someone shared with me that gross domestic pro...,not verified,under review,336647.0,175546.0,62303.0,4293.0,1857.0,0.521454,0.005516


In [47]:
# Gráfico de Distribuição de Visualizações dos Filtrados
fig_filtered = px.histogram(filtered_df, x='video_view_count', nbins=30,
                            title="Distribuição de Visualizações dos Vídeos Filtrados")
fig_filtered.show()


In [53]:
# Teste de Hipóteses
metric = 'likes_per_view'  # Escolha a métrica desejada
pop_mean = 0.1  # Média populacional esperada
sample_data = df[metric]
t_stat, p_value = ttest_1samp(sample_data, pop_mean)

print(f"Resultados do Teste de Hipótese para {metric}:")
print(f"Média da Amostra: {sample_data.mean():.4f}")
print(f"Média Populacional Esperada: {pop_mean}")
print(f"Estatística t: {t_stat:.4f}")
print(f"Valor-p: {p_value:.4f}")
if p_value < 0.05:
    print("Rejeitamos a hipótese nula.")
else:
    print("Não rejeitamos a hipótese nula.")


Resultados do Teste de Hipótese para likes_per_view:
Média da Amostra: 0.2761
Média Populacional Esperada: 0.1
Estatística t: 140.6095
Valor-p: 0.0000
Rejeitamos a hipótese nula.


In [49]:
# Gráfico da Métrica Selecionada
fig_metric = px.histogram(df, x=metric, nbins=30, title=f"Distribuição de {metric}")
fig_metric.show()


In [50]:
# Função para realizar regressão linear
def perform_regression(df, x_col, y_col):
    X = df[x_col]
    y = df[y_col]
    X = sm.add_constant(X)  # Adiciona uma constante para o modelo
    model = sm.OLS(y, X).fit()
    return model


In [51]:
# Aplicação de Regressão Linear
x_col = 'video_like_count'  # Variável independente
y_col = 'video_view_count'  # Variável dependente
model = perform_regression(df, x_col, y_col)

# Resumo do Modelo
print(f"Resumo do Modelo de Regressão (Y: {y_col}, X: {x_col}):")
print(model.summary())


Resumo do Modelo de Regressão (Y: video_view_count, X: video_like_count):
                            OLS Regression Results                            
Dep. Variable:       video_view_count   R-squared:                       0.647
Model:                            OLS   Adj. R-squared:                  0.647
Method:                 Least Squares   F-statistic:                 3.496e+04
Date:                Wed, 04 Dec 2024   Prob (F-statistic):               0.00
Time:                        04:00:34   Log-Likelihood:            -2.5923e+05
No. Observations:               19084   AIC:                         5.185e+05
Df Residuals:                   19082   BIC:                         5.185e+05
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                       coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------

In [52]:
# Gráfico de Regressão Linear
df['prediction'] = model.predict(sm.add_constant(df[x_col]))
fig_regression = px.scatter(df, x=x_col, y=y_col, title="Regressão Linear: Valores Observados vs. Preditos",
                            labels={x_col: x_col, y_col: y_col})
fig_regression.add_scatter(x=df[x_col], y=df['prediction'], mode='lines', name='Linha de Regressão')
fig_regression.show()
