Link Dashboard Tableau : https://public.tableau.com/views/Milestones1_17423934921470/Dashboard1?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link 

# **Perkenalan**

Nama    : Iriel Aureleo

NIM     : 202031209

Analisis ini bertujuan untuk mengidentifikasi faktor yang paling berpengaruh terhadap engagement tren media sosial. Hasilnya diharapkan dapat membantu kreator konten dalam merancang strategi konten yang lebih efektif untuk meningkatkan keterlibatan audiens dan jangkauan secara optimal.

In [None]:
# Mengimport library yang akan digunakan
import pandas as pd
import plotly.express as px 
from scipy.stats import f_oneway

# **Identifikasi Masalah**

## **Topik**

Analisis Faktor yang Mempengaruhi Engagement Tren Media Sosial

## **Latar Belakang**

Media sosial menjadi platform utama bagi kreator, brand, dan individu untuk menjangkau audiens. Namun, tidak semua konten mendapatkan engagement tinggi. Analisis ini menganalisis faktor-faktor seperti platform, jenis konten, dan lokasi wilayah yang memengaruhi viralitas tren media sosial. Hasilnya dapat membantu kreator konten merancang strategi yang lebih efektif.

## **SMART**

**Spesifik**    

Meningkatkan engagement tren media sosial dengan memahami faktor - faktor yang paling berpengaruh.

**Measurable**

Meningkatkan engangement dengan target rata-rata sebesar 20%.

**Achieveble**

 Data tersedia dan dapat dianalisis menggunakan teknik eksplorasi data dan analisis statistik untuk menemukan pola keterlibatan. Strategi peningkatan engagement dapat diterapkan dengan mengoptimalkan jenis konten, pemilihan platform, serta interaksi dengan audiens berdasarkan hasil analisis.

 **Relevant**

 Hasil analisis bermanfaat bagi konten kreator menyusun strategi yang lebih efektif dalam meningkatkan engagement. Peningkatan engagement dapat berdampak pada meningkatnya visibilitas konten, pertumbuhan audiens, serta peluang monetisasi yang lebih besar bagi kreator dan brand.

 **Time-Bound**

 Target peningkatan engagement sebesar 20% diharapkan dapat tercapai dalam 3 setelah strategi yang direkomendasikan diterapkan.


## **Problem Statement**

Engagement tren media sosial tidak merata di berbagai platform, jenis konten, dan lokasi, sehingga konten kreator memerlukan strategi yang lebih efektif. Untuk meningkatkan engagement, perlu dilakukan analisis eksplorasi data dan statistik guna menemukan pola keterlibatan yang berpengaruh. Target yang diharapkan adalah peningkatan engagement sebesar 20% dalam waktu 3 bulan setelah strategi yang direkomendasikan diterapkan. Hasil analisis ini akan membantu dalam mengoptimalkan jenis konten, pemilihan platform, serta interaksi dengan audiens untuk mencapai hasil yang lebih maksimal.


## **Penjabaran Masalah**

- Apa platform yang memiliki engagement tertinggi? (Visualisasi)
- Di mana kategori hashtag dengan engagement tertinggi pada masing-masing platform? (Visualisasi)
- Jenis konten seperti apa yang paling sering mendapatkan engagement tinggi di tiap platform? (Visualisasi)
- Platform mana yang memiliki audiens dengan interaksi tertinggi? (Visualisasi)
- Bagaimana variasi engagement di setiap platform? (Statistik Descriptive)
- Apakah Ada Perbedaan Signifikan dalam Engagement Antar Platform? (Statistik Inferential)

# **Data Loading**

Sumber data : https://www.kaggle.com/datasets/atharvasoundankar/viral-social-media-trends-and-engagement-analysis

In [2]:
#Membaca file data csv 
df = pd.read_csv('Viral_Social_Media_Trends.csv')
df

Unnamed: 0,Post_ID,Platform,Hashtag,Content_Type,Region,Views,Likes,Shares,Comments,Engagement_Level
0,Post_1,TikTok,#Challenge,Video,UK,4163464,339431,53135,19346,High
1,Post_2,Instagram,#Education,Shorts,India,4155940,215240,65860,27239,Medium
2,Post_3,Twitter,#Challenge,Video,Brazil,3666211,327143,39423,36223,Medium
3,Post_4,YouTube,#Education,Shorts,Australia,917951,127125,11687,36806,Low
4,Post_5,TikTok,#Dance,Post,Brazil,64866,171361,69581,6376,Medium
...,...,...,...,...,...,...,...,...,...,...
4995,Post_4996,YouTube,#Education,Video,Japan,4258236,381509,59209,4674,High
4996,Post_4997,Instagram,#Education,Video,UK,4841525,166266,54841,4832,Medium
4997,Post_4998,YouTube,#Fashion,Shorts,USA,2004080,32401,75229,33875,Low
4998,Post_4999,Instagram,#Gaming,Shorts,Canada,2221665,46996,12954,42832,Low


Dataset berisi 5.000 data tentang tren viral di media sosial dengan 10 kolom berupa:

- `Post_ID`         : ID unik untuk setiap postingan.

- `Platform`        : Platform media sosial tempat tren muncul (TikTok, Instagram, Twitter, YouTube).
- `Hashtag`         : Hashtag yang digunakan dalam tren.
- `Content_Type`    : Jenis konten (Video, Shorts, Post, dll.).
- `Region`          : Wilayah asal postingan.
- `Views`           : Jumlah tampilan yang diperoleh.
- `Likes`           : Jumlah suka yang diterima.
- `Shares`          : Jumlah kali postingan dibagikan.
- `Comments`        : Jumlah komentar yang diterima.
- `Engagement_Level`: Kategori keterlibatan (High, Medium, Low).

# **Data Cleaning**

## Ringkasan Data

In [3]:
#Menampilkan ringkasan isi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Post_ID           5000 non-null   object
 1   Platform          5000 non-null   object
 2   Hashtag           5000 non-null   object
 3   Content_Type      5000 non-null   object
 4   Region            5000 non-null   object
 5   Views             5000 non-null   int64 
 6   Likes             5000 non-null   int64 
 7   Shares            5000 non-null   int64 
 8   Comments          5000 non-null   int64 
 9   Engagement_Level  5000 non-null   object
dtypes: int64(4), object(6)
memory usage: 390.8+ KB


Menampilkan informasi ringkasan data. Pada data seluruh tipe data pada masing-masing kolom telah sesuai sehingga tidak diperlukan lagi perubahan tipe data.

## Mengecek Duplikasi Data

In [4]:
# Mengecek jumlah data yang duplikat
df.duplicated().sum()

0

Tidak terdapat duplikat pada data.

## Mengecek Missing Value

In [5]:
df.isnull().sum()

Post_ID             0
Platform            0
Hashtag             0
Content_Type        0
Region              0
Views               0
Likes               0
Shares              0
Comments            0
Engagement_Level    0
dtype: int64

Tidak terdapat missing value pada data.

## Mengecek Standarisasi Data

In [6]:
# Mengecek unique values untuk Platform, Content_Type, Region, dan Engagement_Level
platform_unique = df['Platform'].unique()
content_type_unique = df['Content_Type'].unique()
region_unique = df['Region'].unique()
engagement_level_unique = df['Engagement_Level'].unique()

platform_unique, content_type_unique, region_unique, engagement_level_unique

(array(['TikTok', 'Instagram', 'Twitter', 'YouTube'], dtype=object),
 array(['Video', 'Shorts', 'Post', 'Tweet', 'Live Stream', 'Reel'],
       dtype=object),
 array(['UK', 'India', 'Brazil', 'Australia', 'Japan', 'Germany', 'Canada',
        'USA'], dtype=object),
 array(['High', 'Medium', 'Low'], dtype=object))

Tidak ditemukan variasi yang tidak standar dalam kolom `Platform`, `Content_Type`, `Region`, dan `Engagement_Level`. 

# **Analisis dan Perhitungan**

## Engagement rate pada setiap platform

In [7]:
# Tambahkan kolom Total_Engagement
df["Total_Engagement"] = df["Likes"] + df["Shares"] + df["Comments"]

# Tambahkan kolom Engagement_Rate
df["Engagement_Rate"] = (df["Total_Engagement"] / df["Views"]) * 100

# Menghitung rata-rata engagement rate per platform
engagement_rate_platform = df.groupby("Platform")["Engagement_Rate"].mean().reset_index()

fig = px.bar(
    engagement_rate_platform,
    x="Platform",
    y="Engagement_Rate",
    title="Engagement Rate di Setiap Platform",
    labels={"Engagement_Rate": "Engagement Rate (%)"},
    color="Platform", 
    color_discrete_sequence=px.colors.qualitative.Set1  
)

fig.update_layout(xaxis_title="Platform", yaxis_title="Engagement Rate (%)")

fig.show()

Berdasarkan analisis data, platform dengan engagement rate tertinggi adalah **Instagram**, dengan rata-rata engagement rate sebesar **66.21%**. Hal ini menunjukkan bahwa pengguna Instagram cenderung lebih aktif dalam berinteraksi dengan konten dibandingkan platform lain.

**Perbandingan Engagement Rate per Platform:**
1. **Instagram**: 66.21%
2. **TikTok**: 63.87%
3. **YouTube**: 50.64%
4. **Twitter**: 46.54%

- **Instagram** memiliki engagement rate tertinggi, yang kemungkinan besar disebabkan oleh fitur interaktif seperti Reels, dan komentar yang mendorong partisipasi pengguna.
- **TikTok** menyusul dengan engagement yang juga tinggi, berkat format video pendek yang menarik dan fitur "For You Page" yang meningkatkan eksposur.
- **YouTube** dan **Twitter** memiliki engagement rate yang lebih rendah dibandingkan dua platform di atas, mungkin karena pola konsumsi konten yang lebih pasif di YouTube dan format teks yang dominan di Twitter.

Berdasarkan analisis data, **Instagram** memiliki engagement rate tertinggi (**66.21%**), diikuti oleh **TikTok** (**63.87%**), **YouTube** (**50.64%**), dan **Twitter** (**46.54%**). Platform berbasis visual dan video seperti Instagram dan TikTok cenderung lebih efektif dalam mendorong interaksi dibandingkan platform berbasis teks seperti Twitter. Oleh karena itu, strategi konten sebaiknya berfokus pada Instagram dan TikTok dengan memanfaatkan fitur interaktif seperti shorts video, Reels, dan live streaming untuk meningkatkan engagement.

## Kategori hashtag dengan engagement tertinggi pada masing-masing platform

In [None]:
# Menghitung rata-rata engagement rate berdasarkan platform dan hashtag
hashtag_platform_engagement = df.groupby(["Platform", "Hashtag"])['Engagement_Rate'].mean().reset_index()

# Mengurutkan nilai engagement rate dari yang tertinggi
hashtag_platform_engagement = hashtag_platform_engagement.sort_values(by=["Platform", "Engagement_Rate"], ascending=[True, False])

# Membuat visualisasi dengan Plotly
fig = px.bar(
    hashtag_platform_engagement,
    x="Engagement_Rate",
    y="Hashtag",
    color="Platform",
    orientation="h",
    title="Hashtag dengan Engagement Rate Tertinggi di Masing-Masing Platform",
    labels={"Engagement_Rate": "Engagement Rate (%)", "Hashtag": "Hashtag"},
    hover_data=["Platform", "Engagement_Rate"],
)

fig.update_layout(
    yaxis={'categoryorder': 'total ascending'},
    xaxis_title="Engagement Rate (%)",
    yaxis_title="Hashtag",
    legend_title="Platform",
    height=450
)

fig.show()

Kategori hashtag dengan engagement tertinggi bervariasi di setiap platform, tetapi **#Viral konsisten mendominasi di semua platform**, menunjukkan bahwa tren viral adalah faktor utama dalam meningkatkan interaksi. **#Comedy dan #Gaming memiliki engagement tinggi, terutama di TikTok dan YouTube**, yang dikenal sebagai platform hiburan berbasis video. Sementara itu, hashtag **#Tech dan #Education lebih menonjol di Twitter dan YouTube**, menandakan bahwa pengguna di kedua platform ini lebih tertarik pada konten informatif dan edukatif. **Instagram dan TikTok cenderung lebih kuat dalam kategori #Fashion, #Dance, dan #Challenge**, sejalan dengan sifat visual dan interaktif dari platform tersebut. **Gunakan hashtag yang paling relevan dengan platform dan audiens target** untuk meningkatkan engagement secara signifikan.

## Jenis konten yang paling sering mendapatkan engagement tinggi di tiap platform.

In [9]:
# Mengonversi data untuk Plotly
content_platform_engagement_reset = df.groupby(["Platform", "Content_Type"])["Engagement_Rate"].mean().reset_index()

# Membuat visualisasi
fig = px.bar(content_platform_engagement_reset, 
             x="Platform", 
             y="Engagement_Rate", 
             color="Content_Type", 
             barmode="group", 
             title="Perbandingan Engagement Rate berdasarkan Jenis Konten dan Platform",
             labels={"Engagement_Rate": "Engagement Rate (%)", "Platform": "Platform"},
             hover_name="Content_Type")

fig.show()

Format **Shorts dan Reels** memiliki engagement tertinggi di **TikTok dan Instagram**, menunjukkan bahwa **video pendek lebih efektif dalam menarik perhatian dan interaksi pengguna.** **Live Stream di YouTube** juga memiliki engagement tinggi, sesuai dengan preferensi audiens untuk konten panjang dan interaktif. **Post dan Tweet lebih stabil di Twitter**, menandakan bahwa pengguna lebih aktif dalam membaca dan berdiskusi. **Video reguler tetap mendapat engagement baik di YouTube dan Instagram**, tetapi masih kalah dibandingkan video pendek. **Untuk memaksimalkan engagement, pilih format konten yang sesuai dengan kebiasaan audiens.**

## Platform yang memiliki audiens dengan interaksi tertinggi.

In [10]:
# Menghitung rata-rata jenis interaksi per platform
engagement_types = df.groupby("Platform")[["Likes", "Shares", "Comments"]].mean().reset_index()

# Mengubah data ke dalam format long untuk plotly
engagement_melted = engagement_types.melt(id_vars="Platform", var_name="Interaction_Type", value_name="Average_Count")

# Membuat visualisasi bar chart
fig = px.bar(
    engagement_melted,
    x="Platform",
    y="Average_Count",
    color="Interaction_Type",
    title="Perbandingan Jenis Interaksi (Like, Share, Comment) di Setiap Platform",
    labels={"Average_Count": "Rata-rata Jumlah Interaksi"},
    barmode="group",
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_layout(xaxis_title="Platform", yaxis_title="Rata-rata Jumlah Interaksi")

fig.show()

Likes adalah bentuk interaksi yang paling dominan di semua platform, dengan **Instagram dan TikTok memiliki jumlah like tertinggi**, menunjukkan bahwa pengguna lebih cenderung memberikan reaksi cepat terhadap konten di kedua platform ini. **Shares lebih sering terjadi di Twitter dan TikTok**, menandakan bahwa pengguna lebih aktif dalam membagikan konten dibandingkan hanya menyukai. Sementara itu, **YouTube memiliki jumlah komentar lebih tinggi dibandingkan platform lain**, karena pengguna cenderung lebih banyak berdiskusi di kolom komentar. Untuk memaksimalkan interaksi, fokuslah pada jenis engagement yang paling dominan di setiap platform. Prioritaskan **likes untuk meningkatkan daya tarik konten**, dorong **shares untuk memperluas jangkauan audiens**, dan manfaatkan **komentar untuk membangun komunitas serta meningkatkan keterlibatan pengguna**. Sesuaikan strategi dengan pola interaksi pengguna di masing-masing platform.

## Besaran variasi engagement pada setiap platform

In [11]:
# Menghitung Standard Deviation dan Interquartile Range (IQR) untuk Engagement Rate per Platform
engagement_rate_variance = df.groupby("Platform")["Engagement_Rate"].agg(["std"]).rename(columns={"std": "Standard Deviation"})
engagement_rate_variance["IQR"] = df.groupby("Platform")["Engagement_Rate"].quantile(0.75) - df.groupby("Platform")["Engagement_Rate"].quantile(0.25)

# Menampilkan hasil
print(engagement_rate_variance)

           Standard Deviation        IQR
Platform                                
Instagram          384.386604  21.681008
TikTok             806.774023  17.520127
Twitter            199.391809  19.969400
YouTube            319.694169  18.564410


- TikTok memiliki Standard Deviation tertinggi (806.77), menunjukkan engagement yang paling bervariasi. Artinya ada banyak konten yang sangat viral, tetapi juga banyak yang gagal mendapatkan engagement.

- Instagram memiliki Standard Deviation yang besar (384.39), tetapi IQR lebih tinggi (21.68). Artinya Engagement Rate di Instagram lebih stabil dibanding TikTok, tetapi masih cukup bervariasi.

- YouTube memiliki Standard Deviation lebih rendah dari TikTok & Instagram, tetapi lebih tinggi dari Twitter. Engagement di YouTube lebih stabil dibanding TikTok, tetapi tidak setinggi Instagram.

- Twitter memiliki variasi engagement paling kecil (199.39), menunjukkan bahwa engagement di Twitter lebih konsisten. Namun, IQR Twitter (19.97) cukup besar, artinya masih ada perbedaan engagement antar konten, tetapi tidak seekstrem TikTok & Instagram.

Berdasarkan hasil analisis, TikTok memiliki engagement yang paling bervariasi, menunjukkan potensi viralitas tinggi tetapi tidak stabil. Instagram lebih stabil dibandingkan TikTok, dengan engagement rate tinggi tetapi tetap fluktuatif. Twitter memiliki engagement yang paling konsisten, meskipun lebih rendah dibanding platform lain. YouTube lebih stabil dibandingkan TikTok, namun masih memiliki variasi engagement yang cukup signifikan.

## Pengecekan apakah setiap engagement antar platform memiliki perbedaan signifikan.

In [12]:
# **Tahap 1: Uji ANOVA untuk Mengetahui Perbedaan Engagement Antar Platform**

# Membagi data engagement berdasarkan platform
engagement_instagram = df[df["Platform"] == "Instagram"]["Engagement_Rate"]
engagement_tiktok = df[df["Platform"] == "TikTok"]["Engagement_Rate"]
engagement_twitter = df[df["Platform"] == "Twitter"]["Engagement_Rate"]
engagement_youtube = df[df["Platform"] == "YouTube"]["Engagement_Rate"]

# Melakukan uji ANOVA untuk mengetahui apakah ada perbedaan signifikan antara platform
anova_result = f_oneway(engagement_instagram, engagement_tiktok, engagement_twitter, engagement_youtube)

anova_result

F_onewayResult(statistic=0.48939181578136365, pvalue=0.6896506136976863)

In [13]:
# **Tahap 2: Menampilkan Kesimpulan Uji ANOVA dalam Format yang Lebih Jelas**

# Menyimpan hasil uji ANOVA dalam dictionary
anova_summary = {
    "F-statistic": anova_result.statistic,
    "p-value": anova_result.pvalue,
    "Kesimpulan": "Tidak ada perbedaan signifikan dalam engagement antar platform" if anova_result.pvalue > 0.05 else "Ada perbedaan signifikan dalam engagement antar platform"
}

anova_summary

{'F-statistic': 0.48939181578136365,
 'p-value': 0.6896506136976863,
 'Kesimpulan': 'Tidak ada perbedaan signifikan dalam engagement antar platform'}

- F-statistic = 0.489 → Nilai F yang rendah menunjukkan bahwa variasi engagement antara platform tidak cukup besar dibandingkan dengan variasi dalam platform itu sendiri.

- p-value = 0.689 → Karena p-value lebih besar dari 0.05, maka tidak ada perbedaan signifikan dalam engagement rate antar platform.

Secara statistik, engagement rate di berbagai platform tidak berbeda secara signifikan, Meskipun rata-rata engagement bervariasi, hasil statistik menunjukkan bahwa perbedaan tersebut tidak cukup besar untuk dianggap signifikan.Artinya, engagement di setiap platform lebih dipengaruhi oleh faktor lain, seperti jenis konten, penggunaan hashtag, atau strategi posting, dibandingkan dengan perbedaan platform itu sendiri. Fokuslah pada faktor-fakor tersebut, karena faktor-faktor tersebut lebih berpengaruh terhadap engagement dibandingkan sekadar memilih platform tertentu.

# **Kesimpulan**

Untuk meningkatkan engagement sebesar **20% dalam 3 bulan**, kreator konten perlu menerapkan strategi yang spesifik sesuai dengan pola interaksi pengguna di setiap platform. **Gunakan format video pendek seperti Shorts dan Reels di TikTok dan Instagram**, karena memiliki engagement tertinggi. **Manfaatkan Live Streaming di YouTube** untuk meningkatkan interaksi real-time dengan audiens. **Gunakan Tweet dan Post di Twitter** untuk memaksimalkan engagement berbasis diskusi dan berbagi informasi.

Selain itu, **optimalkan hashtag populer seperti #Viral, #Comedy, dan #Gaming**, karena terbukti memiliki engagement tertinggi di berbagai platform. Untuk memperluas jangkauan audiens yang lebih spesifik, gunakan **#Education dan #Tech di Twitter & YouTube**, serta **#Fashion dan #Dance di TikTok & Instagram**.

Dari sisi interaksi, **dorong Likes sebagai bentuk engagement utama di semua platform**, buat konten yang memancing **Shares di TikTok dan Twitter**, dan ajak audiens untuk aktif berkomentar, terutama di YouTube, yang memiliki engagement tertinggi melalui diskusi di kolom komentar.Evaluasi engagement secara berkala perlu dilakukan untuk menyesuaikan strategi berdasarkan respons audiens.