# <b>DATA ANALYSIS WITH PANDAS</b>

<b>Pandas</b> adalah library yang kuat dan fleksibel untuk analisis data, mempermudah akses <b>structure data</b>.

Data structure dan data unstructure adalah dua jenis data yang berbeda dalam cara mereka diorganisir dan disimpan.

<b>Data Terstruktur (Structured Data):</b>
1. Definisi: Data yang diorganisir dalam format yang terdefinisi dengan baik, seperti tabel dalam basis data relasional.
2. Contoh: Spreadsheet Excel, tabel SQL, CSV.
3. Ciri-ciri: Memiliki skema yang jelas, kolom dan baris yang terdefinisi, mudah di-query dan dianalisis menggunakan alat seperti SQL dan Pandas.
4. Keuntungan: Mudah untuk diakses, dianalisis, dan dimanipulasi karena formatnya yang konsisten.

<b>Data Tidak Terstruktur (Unstructured Data):</b>
1. Definisi: Data yang tidak memiliki format atau skema yang terdefinisi dengan baik.
2. Contoh: Teks dokumen, email, video, gambar, posting media sosial.
3. Ciri-ciri: Tidak memiliki struktur yang jelas, sulit untuk di-query dan dianalisis secara langsung tanpa pemrosesan tambahan.
4. Keuntungan: Dapat menyimpan berbagai jenis informasi yang tidak dapat diwakili dalam format terstruktur.
Contoh dalam Pandas:

<b>Data Terstruktur:</b> DataFrame Pandas yang diisi dengan data dari file CSV.<br>
<b>Data Tidak Terstruktur:</b> Kolom dalam DataFrame yang berisi teks panjang atau data JSON yang perlu diproses lebih lanjut untuk ekstraksi informasi.
Dengan memahami perbedaan ini, Anda dapat memilih alat dan teknik yang tepat untuk menganalisis dan memproses data Anda.

In [1]:
# Import library
import pandas as pd # type: ignore

In [2]:
# Data Series
data_series = pd.Series([10, 20, 30, 40], index = ['a', 'b', 'c', 'd'])
print(data_series)

a    10
b    20
c    30
d    40
dtype: int64


In [3]:
# Data Frame
data = {
    'Nama': ['Tom', 'Nick', 'John'],
    'Umur': [28, 25, 22],
    'Kota': ['Jakarta', 'Bandung', 'Surabaya']
}

data_frame = pd.DataFrame(data)
data_frame

Unnamed: 0,Nama,Umur,Kota
0,Tom,28,Jakarta
1,Nick,25,Bandung
2,John,22,Surabaya


# <b>MEMBACA DATA</b>


In [4]:
path = 'C:/Users/Asus/OneDrive - Institut Teknologi Sepuluh Nopember/Desktop/DOCS/BOOM 2024/Data/instagram-users-by-country-2024.csv'

df = pd.read_csv(path)
df

Unnamed: 0,country,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023
0,India,392465000.0,33.1,66.9,229600000
1,United States,172606200.0,55.4,44.6,143400000
2,Indonesia,90183200.0,54.2,45.8,89150000
3,Pakistan,18593301.0,35.1,64.9,12950000
4,Nigeria,12635900.0,46.5,53.5,7100000
...,...,...,...,...,...
221,Saint Pierre and Miquelon,,,,1650
222,Montserrat,,,,1300
223,Falkland Islands,,,,1100
224,Tokelau,,,,100


In [5]:
df.info() # Untuk menampilkan informasi umum dari data frame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 226 entries, 0 to 225
Data columns (total 5 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   country                        226 non-null    object 
 1   InstagramUsers_2024            205 non-null    float64
 2   InstagramUsers_PctFemale_2024  205 non-null    float64
 3   InstagramUsers_PctMale_2024    205 non-null    float64
 4   InstagramUsers2023             226 non-null    int64  
dtypes: float64(3), int64(1), object(1)
memory usage: 9.0+ KB


In [6]:
df.describe() # Untuk menampilkan statistik deskriptif dari data frame

Unnamed: 0,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023
count,205.0,205.0,205.0,226.0
mean,8352472.0,50.350244,49.650244,5320702.0
std,32740250.0,9.245188,9.244875,19851750.0
min,2600.0,19.2,33.9,100.0
25%,127700.0,46.1,43.8,53800.0
50%,1030700.0,54.1,45.9,485550.0
75%,3949200.0,56.2,53.9,2750000.0
max,392465000.0,66.1,80.8,229600000.0


# <b> MENAMPILKAN BARIS DAN KOLOM </b>

In [7]:
# Menampilkan 5 Baris Awal
df.head()

Unnamed: 0,country,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023
0,India,392465000.0,33.1,66.9,229600000
1,United States,172606200.0,55.4,44.6,143400000
2,Indonesia,90183200.0,54.2,45.8,89150000
3,Pakistan,18593301.0,35.1,64.9,12950000
4,Nigeria,12635900.0,46.5,53.5,7100000


In [8]:
# Menampilkan 5 Baris Akhir
df.tail()

Unnamed: 0,country,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023
221,Saint Pierre and Miquelon,,,,1650
222,Montserrat,,,,1300
223,Falkland Islands,,,,1100
224,Tokelau,,,,100
225,Niue,,,,450


In [9]:
# Menampilkan Nama Kolom
df.columns

Index(['country', 'InstagramUsers_2024', 'InstagramUsers_PctFemale_2024',
       'InstagramUsers_PctMale_2024', 'InstagramUsers2023'],
      dtype='object')

# <b>PEMILIHAN DAN PENGINDEKSAN DATA </b>

In [10]:
# Mendapatkan baris pertama
df.loc[0]

country                                India
InstagramUsers_2024              392465000.0
InstagramUsers_PctFemale_2024           33.1
InstagramUsers_PctMale_2024             66.9
InstagramUsers2023                 229600000
Name: 0, dtype: object

In [11]:
# Mendapatkan baris terakhir
df.loc[df.index[-1]]

country                          Niue
InstagramUsers_2024               NaN
InstagramUsers_PctFemale_2024     NaN
InstagramUsers_PctMale_2024       NaN
InstagramUsers2023                450
Name: 225, dtype: object

In [12]:
# Mendapatkan value pada kolom tertentu
df.iloc[0:3,0] # baris, kolom

0            India
1    United States
2        Indonesia
Name: country, dtype: object

# <b>MENAMBAHKAN KOLOM</b>

In [13]:
df['avg_time'] = None # Menambahkan kolom baru
df.head()

Unnamed: 0,country,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023,avg_time
0,India,392465000.0,33.1,66.9,229600000,
1,United States,172606200.0,55.4,44.6,143400000,
2,Indonesia,90183200.0,54.2,45.8,89150000,
3,Pakistan,18593301.0,35.1,64.9,12950000,
4,Nigeria,12635900.0,46.5,53.5,7100000,


# <b> MENGHAPUS KOLOM </b>

In [14]:
df.drop('avg_time', axis=1, inplace=False) # Menghapus kolom avg_time
df.head()

Unnamed: 0,country,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023,avg_time
0,India,392465000.0,33.1,66.9,229600000,
1,United States,172606200.0,55.4,44.6,143400000,
2,Indonesia,90183200.0,54.2,45.8,89150000,
3,Pakistan,18593301.0,35.1,64.9,12950000,
4,Nigeria,12635900.0,46.5,53.5,7100000,


In [15]:
df['avg_time'] = df['InstagramUsers_PctFemale_2024'] + df['InstagramUsers_PctMale_2024'] # Menambahkan Value pada kolom baru
df.head()

Unnamed: 0,country,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023,avg_time
0,India,392465000.0,33.1,66.9,229600000,100.0
1,United States,172606200.0,55.4,44.6,143400000,100.0
2,Indonesia,90183200.0,54.2,45.8,89150000,100.0
3,Pakistan,18593301.0,35.1,64.9,12950000,100.0
4,Nigeria,12635900.0,46.5,53.5,7100000,100.0


In [16]:
# Mengganti nama kolom
df.rename(columns={'country': 'Negara'}, inplace=True)
df.head()

Unnamed: 0,Negara,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023,avg_time
0,India,392465000.0,33.1,66.9,229600000,100.0
1,United States,172606200.0,55.4,44.6,143400000,100.0
2,Indonesia,90183200.0,54.2,45.8,89150000,100.0
3,Pakistan,18593301.0,35.1,64.9,12950000,100.0
4,Nigeria,12635900.0,46.5,53.5,7100000,100.0


# <b> MISSING VALUE </b>

In [17]:
df.isnull() # Mengecek missing value

Unnamed: 0,Negara,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023,avg_time
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
221,False,True,True,True,False,True
222,False,True,True,True,False,True
223,False,True,True,True,False,True
224,False,True,True,True,False,True


In [18]:
df.isnull().sum() # Menampilkan jumlah data yang hilang di setiap kolom

Negara                            0
InstagramUsers_2024              21
InstagramUsers_PctFemale_2024    21
InstagramUsers_PctMale_2024      21
InstagramUsers2023                0
avg_time                         21
dtype: int64

In [19]:
# Menghapus data pada kolom yang memiliki missing value
df.dropna(inplace=True)
df

Unnamed: 0,Negara,InstagramUsers_2024,InstagramUsers_PctFemale_2024,InstagramUsers_PctMale_2024,InstagramUsers2023,avg_time
0,India,392465000.0,33.1,66.9,229600000,100.0
1,United States,172606200.0,55.4,44.6,143400000,100.0
2,Indonesia,90183200.0,54.2,45.8,89150000,100.0
3,Pakistan,18593301.0,35.1,64.9,12950000,100.0
4,Nigeria,12635900.0,46.5,53.5,7100000,100.0
...,...,...,...,...,...,...
208,British Virgin Islands,11200.0,52.7,47.3,10600,100.0
209,Gibraltar,15900.0,53.5,46.5,16800,100.0
210,Monaco,11200.0,56.3,43.8,9550,100.1
213,Saint Martin,6100.0,52.5,47.5,8050,100.0


In [20]:
# Mengisi data yang hilang dengan value tertentu
df.fillna(value=0, inplace=True)

# <b> MENGGABUNGKAN DATA </b>
Dalam analisis data dengan Pandas, ada beberapa fungsi yang sering digunakan untuk menggabungkan data. Berikut adalah beberapa fungsi utama:

1. pd.concat(): Menggabungkan DataFrame atau Series secara vertikal atau horizontal.
2. pd.merge(): Menggabungkan dua DataFrame berdasarkan kolom atau indeks yang sama.
3. DataFrame.join(): Menggabungkan DataFrame menggunakan indeks atau kolom tertentu.


# <b> LATIHAN </b>

1. Buat data frame dari dictionary yang berisi data mahasiswa (Nama, Umur, IPK), lalu lakukan analisis dasar
2. Baca data dari file csv yang diberikan, hitung berapa pertumbuhan pengguna instagram dari tahun 2023 hingga 2024
3. Lakukan pengelompokan dan agregasi pada data frame, kelompokan berdasarkan range pertensasi instagram growth

In [21]:
# Latihan Nomor 1

# Create a dictionary with student data
student_data = {
    'Nama': ['Alice', 'Bob', 'Charlie'],
    'Umur': [23, 24, 22],
    'IPK': [3.5, 3.7, 3.8]
}

# Create a DataFrame from the dictionary
student_df = pd.DataFrame(student_data)

# Display the DataFrame
print(student_df)

# Perform basic analysis
print("\nInformasi DataFrame:")
print(student_df.info())

print("\nStatistik Deskriptif:")
print(student_df.describe())

      Nama  Umur  IPK
0    Alice    23  3.5
1      Bob    24  3.7
2  Charlie    22  3.8

Informasi DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nama    3 non-null      object 
 1   Umur    3 non-null      int64  
 2   IPK     3 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 204.0+ bytes
None

Statistik Deskriptif:
       Umur       IPK
count   3.0  3.000000
mean   23.0  3.666667
std     1.0  0.152753
min    22.0  3.500000
25%    22.5  3.600000
50%    23.0  3.700000
75%    23.5  3.750000
max    24.0  3.800000


In [22]:
# Latihan Nomor 2

# Menghitung pertumbuhan pengguna Instagram dari tahun 2023 hingga 2024
df['InstagramGrowth'] = df['InstagramUsers_2024'] - df['InstagramUsers2023']

# Menampilkan hasil
df[['Negara', 'InstagramUsers2023', 'InstagramUsers_2024', 'InstagramGrowth']]

Unnamed: 0,Negara,InstagramUsers2023,InstagramUsers_2024,InstagramGrowth
0,India,229600000,392465000.0,162865000.0
1,United States,143400000,172606200.0,29206200.0
2,Indonesia,89150000,90183200.0,1033200.0
3,Pakistan,12950000,18593301.0,5643301.0
4,Nigeria,7100000,12635900.0,5535900.0
...,...,...,...,...
208,British Virgin Islands,10600,11200.0,600.0
209,Gibraltar,16800,15900.0,-900.0
210,Monaco,9550,11200.0,1650.0
213,Saint Martin,8050,6100.0,-1950.0


In [23]:
# Latihan Nomor 3 

# Mengelompokkan data berdasarkan range persentase pertumbuhan Instagram
bins = [-float('inf'), 0, 1000000, 10000000, 50000000, float('inf')]
labels = ['Negative Growth', '0-1M', '1M-10M', '10M-50M', '>50M']
df['GrowthRange'] = pd.cut(df['InstagramGrowth'], bins=bins, labels=labels)

# Melakukan agregasi pada data frame
grouped = df.groupby('GrowthRange').agg({
    'InstagramUsers2023': 'sum',
    'InstagramUsers_2024': 'sum',
    'InstagramGrowth': ['sum', 'mean', 'count']
})

# Menampilkan hasil pengelompokan dan agregasi
grouped

Unnamed: 0_level_0,InstagramUsers2023,InstagramUsers_2024,InstagramGrowth,InstagramGrowth,InstagramGrowth
Unnamed: 0_level_1,sum,sum,sum,mean,count
GrowthRange,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Negative Growth,1791350,1725900.0,-65450.0,-4675.0,14
0-1M,138082450,170720706.0,32638256.0,225091.4,145
1M-10M,640469200,784441701.0,143972501.0,3427917.0,42
10M-50M,180100000,221495100.0,41395100.0,20697550.0,2
>50M,229713500,533873300.0,304159800.0,152079900.0,2
