# **Instagram Reach Analysis**


Instagram merupakan salah satu aplikasi media sosial yang paling populer saat ini. Orang-orang yang menggunakan Instagram secara profesional menggunakannya untuk mempromosikan bisnis mereka, membangun portofolio, membuat blog, dan membuat berbagai jenis konten.

Karena Instagram adalah aplikasi populer yang digunakan oleh jutaan orang dengan *niche* berbeda, Instagram terus berubah untuk menjadikan dirinya lebih baik bagi pembuat konten dan pengguna. Namun karena hal ini terus berubah, ini mempengaruhi jangkauan postingan kami yang memengaruhi kami dalam jangka panjang.

Jadi, jika pembuat konten ingin sukses di Instagram dalam jangka panjang, mereka harus melihat data jangkauan Instagram mereka. Di situlah penggunaan Ilmu Data (*Data Science*) di media sosial masuk. Jika Anda ingin mempelajari cara menggunakan data Instagram kami untuk tugas analisis jangkauan Instagram, artikel ini cocok untuk Anda.


Jika Anda ingin menganalisis jangkauan akun Instagram Anda, Anda harus mengumpulkan data Anda secara manual karena ada beberapa API, tetapi tidak berfungsi dengan baik. Jadi lebih baik mengumpulkan data Instagram Anda secara manual.

Jika Anda seorang mahasiswa ilmu data (*data science*) dan ingin belajar analisis jangkauan (*reach*) Instagram menggunakan Python, Anda dapat menggunakan data dari dataset berikut ini.

https://globalstudio.center/2023/06/11/instagram-reach-analysis/


**Import libraries yang diperlukan dan dataset**.


In [6]:
# import libraries yang diperlukan

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from sklearn.model_selection import train_test_split
from sklearn.linear_model import PassiveAggressiveRegressor


## **J.62DMI00.001.1 - Mengumpulkan Data**


In [7]:
# import dataset

data = pd.read_csv("data_instagram.csv", encoding = 'latin1')
print(data.head())


   Impressions  From Home  From Hashtags  From Explore  From Other  Saves  \
0         3920       2586           1028           619          56     98   
1         5394       2727           1838          1174          78    194   
2         4021       2085           1188             0         533     41   
3         4528       2700            621           932          73    172   
4         2518       1704            255           279          37     96   

   Comments  Shares  Likes  Profile Visits  Follows  \
0         9       5    162              35        2   
1         7      14    224              48       10   
2        11       1    131              62       12   
3        10       7    213              23        8   
4         5       4    123               8        0   

                                             Caption  \
0  Here are some of the most important data visua...   
1  Here are some of the best data science project...   
2  Learn how to train a machine learni

## **J.62DMI00.010.1 - Menentukan Label Data**


In [None]:
# Menampilkan nama kolom (features atau variabel)

print(data.columns)


## **J.62DMI00.007.1 - Menentukan Objek Data**


In [19]:
# Menampilkan data 5 baris teratas

print(data.head())


   Impressions  From Home  From Hashtags  From Explore  From Other  Saves  \
0         3920       2586           1028           619          56     98   
1         5394       2727           1838          1174          78    194   
2         4021       2085           1188             0         533     41   
3         4528       2700            621           932          73    172   
4         2518       1704            255           279          37     96   

   Comments  Shares  Likes  Profile Visits  Follows  \
0         9       5    162              35        2   
1         7      14    224              48       10   
2        11       1    131              62       12   
3        10       7    213              23        8   
4         5       4    123               8        0   

                                             Caption  \
0  Here are some of the most important data visua...   
1  Here are some of the best data science project...   
2  Learn how to train a machine learni

## **J.62DMI00.008.1 - Membersihkan Data**


Sekarang, mari kita lihat apakah kumpulan data (*dataset*) ini berisi nilai nol (null) atau tidak.


In [13]:
data.isnull().sum()


Impressions       0
From Home         0
From Hashtags     0
From Explore      0
From Other        0
Saves             0
Comments          0
Shares            0
Likes             0
Profile Visits    0
Follows           0
Caption           0
Hashtags          0
dtype: int64

Terlihat, tidak ada nilai nol di setiap kolom.


Namun jika ada nilai nol pada suatu kolom, bisa dihilangkan dengan perintah berikut:


In [14]:
data = data.dropna()


## **J.62DMI00.006.1 - Memvalidasi Data**


Dan jangan lupa untuk untuk cek kembali, apakah kumpulan data (dataset) ini sudah tidak berisi nilai nol (null).


In [None]:
data.isnull().sum()


## **J.62DMI00.005.1 - Menelaah Data**


Mari kita lihat tipe data untuk semua kolom.


In [20]:
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119 entries, 0 to 118
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Impressions     119 non-null    int64 
 1   From Home       119 non-null    int64 
 2   From Hashtags   119 non-null    int64 
 3   From Explore    119 non-null    int64 
 4   From Other      119 non-null    int64 
 5   Saves           119 non-null    int64 
 6   Comments        119 non-null    int64 
 7   Shares          119 non-null    int64 
 8   Likes           119 non-null    int64 
 9   Profile Visits  119 non-null    int64 
 10  Follows         119 non-null    int64 
 11  Caption         119 non-null    object
 12  Hashtags        119 non-null    object
dtypes: int64(11), object(2)
memory usage: 12.2+ KB


**Menganalisa instagram reach**


Sekarang mari kita mulai dengan menganalisis jangkauan (*reach*) postingan instagram. Pertama-tama kita akan melihat distribusi tayangan (*impression*) nya.


In [None]:
plt.figure(figsize=(10, 8))
plt.style.use('fivethirtyeight')
plt.title("Distribution of Impressions From Home")
sns.distplot(data['From Home'])
plt.show()


Impression yang diperoleh dari bagian beranda (home) di instagram menunjukkan seberapa banyak postingan yang menjangkau pengikut (follower).

Melihat tayangan (impression) dari beranda (home), kita dapat mengatakan bahwa sulit untuk menjangkau semua pengikut (followers) setiap hari. Sekarang mari kita lihat distribusi impression dari tagar (hashtag):


In [None]:
plt.figure(figsize=(10, 8))
plt.title("Distribution of Impressions From Hashtags")
sns.distplot(data['From Hashtags'])
plt.show()


Tagar (hashtag) adalah alat yang digunakan untuk mengkategorikan postingan di instagram sehingga kreator dapat menjangkau lebih banyak orang berdasarkan jenis konten yang dibuat.

Melihat impresi hashtag menunjukkan bahwa tidak semua postingan dapat dijangkau menggunakan hashtag, namun banyak pengguna baru yang dapat dijangkau dari hashtag. Sekarang mari kita lihat distribusi tayangan yang diterima dari bagian jelajahi (explore) instagram:


In [None]:
plt.figure(figsize=(10, 8))
plt.title("Distribution of Impressions From Explore")
sns.distplot(data['From Explore'])
plt.show()


Bagian jelajahi (explore) instagram adalah sistem rekomendasi instagram, yang merekomendasikan posting kepada pengguna berdasarkan preferensi dan minat mereka.

Dengan melihat impression dari bagian explore, kita dapat mengatakan bahwa instagram tidak terlalu merekomendasikan postingan kami kepada pengguna. Beberapa postingan telah menerima jangkauan (reach) yang baik dari bagian explore, tetapi masih sangat rendah dibandingkan dengan jangkauan (reach) yang diterima dari tagar (hashtag).


Sekarang mari kita lihat persentase impression dari berbagai sumber di Instagram.


In [None]:
home = data["From Home"].sum()
hashtags = data["From Hashtags"].sum()
explore = data["From Explore"].sum()
other = data["From Other"].sum()

labels = ['From Home','From Hashtags','From Explore','Other']
values = [home, hashtags, explore, other]

fig = px.pie(data, values=values, names=labels,
             title='Impressions on Instagram Posts From Various Sources', hole=0.5)
fig.show()


Jadi plot donat di atas menunjukkan bahwa hampir 45 persen jangkauan (reach) berasal dari pengikut (follower), 33,6 persen dari tagar (hastag), 19,2 persen dari bagian explore, dan 3,05 persen dari sumber lain.


**Menganalisa konten**


Sekarang mari kita menganalisis konten posting Instagram. Dua kolom terakhir pada dataset memiliki, yaitu caption dan hashtags, akan membantu kita memahami jenis konten yang diposting di Instagram.

Mari buat wordcloud pada kolom caption untuk melihat kata-kata yang paling sering digunakan pada caption postingan instagram.


In [None]:
text = " ".join(i for i in data.Caption)
stopwords = set(STOPWORDS)
wordcloud = WordCloud(stopwords=stopwords, background_color="white").generate(text)
plt.style.use('classic')
plt.figure( figsize=(12,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()


Sekarang mari buat wordcloud dari kolom hashtags untuk melihat hashtags yang paling banyak digunakan di posting instagram.


In [None]:
text = " ".join(i for i in data.Hashtags)
stopwords = set(STOPWORDS)
wordcloud = WordCloud(stopwords=stopwords, background_color="white").generate(text)
plt.figure( figsize=(12,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()


**Menganalisa relationships**


Sekarang mari kita analisis hubungan untuk menemukan faktor terpenting dari jangkauan instagram yang juga akan membantu kita dalam memahami cara kerja algoritma instagram.

Mari kita lihat hubungan antara jumlah like dan jumlah impression di postingan instagram.


In [None]:
figure = px.scatter(data_frame = data, x="Impressions",
                    y="Likes", size="Likes", trendline="ols",
                    title = "Relationship Between Likes and Impressions")
figure.show()


Ada hubungan linier antara jumlah like dan reach.

Sekarang mari kita lihat hubungan antara jumlah comments dan jumlah impression di postingan instagram.


In [None]:
figure = px.scatter(data_frame = data, x="Impressions",
                    y="Comments", size="Comments", trendline="ols",
                    title = "Relationship Between Comments and Total Impressions")
figure.show()


Sepertinya jumlah comments dari sebuah postingan tidak memengaruhi jangkauan (reach) nya.

Sekarang mari kita lihat hubungan antara share dan jumlah impression.


In [None]:
figure = px.scatter(data_frame = data, x="Impressions",
                    y="Shares", size="Shares", trendline="ols",
                    title = "Relationship Between Shares and Total Impressions")
figure.show()


Jumlah share yang lebih banyak akan menghasilkan jangkauan yang lebih tinggi, tetapi share tidak memengaruhi jangkauan postingan sebanyak yang di-like.

Sekarang mari kita lihat hubungan antara jumlah save dan jumlah impression.


In [None]:
figure = px.scatter(data_frame = data, x="Impressions",
                    y="Saves", size="Saves", trendline="ols",
                    title = "Relationship Between Post Saves and Total Impressions")
figure.show()


Ada hubungan linier antara berapa kali postingan yang disimpan dan jangkauan (reach) postingan instagram.

Sekarang mari kita lihat korelasi semua kolom dengan kolom impression.


In [None]:
# Mengabaikan kolom 'Caption' dan 'Hashtags' untuk korelasi (karena tipe datanya adalah string)

numeric_data = data.drop(['Caption', 'Hashtags'], axis=1)

In [None]:
correlation = numeric_data.corr()
print(correlation["Impressions"].sort_values(ascending=False))


Jadi kita dapat mengatakan bahwa lebih banyak likes dan save akan membantu untuk mendapatkan lebih banyak jangkauan (reach) di instagram.

Jumlah share yang lebih tinggi juga akan membantu untuk mendapatkan lebih banyak jangkauan (reach), tetapi jumlah share yang rendah juga tidak akan mempengaruhi jangkauan (reach).


**Menganalisa conversion rate**


Di Instagram, conversion rate berarti berapa banyak pengikut yang didapatkan dari jumlah kunjungan profil (profile visit) dari sebuah postingan.

Rumus yang digunakan untuk menghitung tingkat konversi (conversion rate) adalah (**Follows/Profile Visits**) * **100**.

Sekarang mari kita lihat tingkat konversi (conversion rate):


In [None]:
conversion_rate = (data["Follows"].sum() / data["Profile Visits"].sum()) * 100
print(conversion_rate)


Jadi tingkat konversi (conversion rate) akun instagram tersebut adalah 41% yang terdengar seperti tingkat konversi yang sangat bagus.

Silakan googling dengan key words "***how much is good conversion rate on instagram***".

Mari kita lihat hubungan antara total kunjungan profil (profile visits) dan jumlah pengikut (followers) yang diperoleh dari semua kunjungan profil.


In [None]:
figure = px.scatter(data_frame = data, x="Profile Visits",
                    y="Follows", size="Follows", trendline="ols",
                    title = "Relationship Between Profile Visits and Followers Gained")
figure.show()


Terlihat hubungan antara kunjungan profil (profile visits) dan pengikut (followers) yang diperoleh juga bersifat linier.

## **J.62DMI00.009.1 - Mengkonstruksi Data**


**Model prediksi instagram reach**


Sekarang di bagian ini, kita akan melatih model pembelajaran mesin (machine learning) untuk memprediksi jangkauan (reach) postingan Instagram.

Mari pisahkan data menjadi set pelatihan (training set) dan pengujian (test set) sebelum melatih model.


In [8]:
x = np.array(data[['Likes', 'Saves', 'Comments', 'Shares',
                   'Profile Visits', 'Follows']])
y = np.array(data["Impressions"])
xtrain, xtest, ytrain, ytest = train_test_split(x, y,
                                                test_size=0.25,
                                                random_state=42)


## **J.62DMI00.013.1 - Membangun Model**


Sekarang inilah cara kita melatih model pembelajaran mesin (machine learning) untuk memprediksi jangkauan (reach) postingan instagram menggunakan Python.


In [9]:
model = PassiveAggressiveRegressor()
model.fit(xtrain, ytrain)


PassiveAggressiveRegressor()

## **J.62DMI00.014.1 - Mengevaluasi Hasil Pemodelan**


In [12]:
model.score(xtest, ytest)


0.6456147099066449

Hasil score masih merupakan angka yang cukup bagus.


Sekarang mari kita prediksi jangkauan (reach) postingan instagram dengan memberikan input ke model pembelajaran mesin.


In [22]:
# Features = [['Likes','Saves', 'Comments', 'Shares', 'Profile Visits', 'Follows']]

features = np.array([[4394, 0, 260, 0, 0, 0]])
model.predict(features)


array([117353.70272313])

**Ringkasan**


Jadi inilah cara kita menganalisis dan memprediksi jangkauan (reach) postingan instagram dengan pembelajaran mesin (machine learning) menggunakan Python.

Jika pembuat konten ingin berhasil di instagram dalam jangka panjang, mereka harus melihat data jangkauan instagram mereka.
