# PREDIKSI GENDER BERDASARKAN NAMA SESEORANG

# Pendahuluan

Dalam era informasi saat ini, data memainkan peran yang sangat penting dalam berbagai aspek kehidupan, termasuk penelitian ilmiah, bisnis, pendidikan, dan lainnya. Salah satu jenis data yang sering digunakan dalam berbagai analisis adalah data demografi, khususnya data yang berkaitan dengan gender. Dataset "gender by name" merupakan kumpulan data yang mengasosiasikan nama individu dengan gender mereka. Analisis terhadap dataset ini dapat memberikan wawasan yang berharga dalam berbagai bidang seperti sosiologi, pemasaran, pengembangan produk, dan teknologi.

Nama seseorang sering kali mengandung informasi sosial dan budaya yang penting. Misalnya, beberapa nama mungkin lebih umum di antara pria atau wanita di masyarakat tertentu, atau bisa juga menunjukkan tren dan perubahan dalam preferensi penamaan seiring waktu. Dengan memahami distribusi gender berdasarkan nama, peneliti dan praktisi dapat memperoleh pandangan yang lebih mendalam tentang dinamika sosial dan demografis.

# Data Understanding

## Sumber Data

Saya mendapatkan Dataset Gender by Name dari UCI Machine Learning Repository (https://archive.ics.uci.edu/dataset/591/gender+by+name)

Gender by Name adalah dataset Nama penduduk yang dikaitkan dengan jenis kelamin penduduk dari beberapa negara:

-US: Baby Names from Social Security Card Applications - National Data, 1880 to 2019
-UK:  Baby names in England and Wales Statistical bulletins, 2011 to 2018
-Canada: British Columbia 100 Years of Popular Baby names, 1918 to 2018
-Australia:  Popular Baby Names, Attorney-General's Department, 1944 to 2019

## Collecting Data

Untuk mengambil data agar dapat diolah kami perlu untuk menginstall package yang telah disediakan oleh UCI Dataset. Instalasi dilakukan berguna untuk menarik data yang berasal dari UCI dataset agar dapat diolah. 

Peritah untuk mengambil data dari UCI dataset dapat di lihat ketika kita menekan tombol import in python pada datase yang kita inginkan dan kita perlu mengikuti perintah tersebut agar data dapat diambil dari UCI dataset.

Contoh pengambilan data dari UCI dataset dapat dilihat pada gambar dan perintah berkut

<img src="image-20240620-142505.png" width="" align="" />

In [1]:
from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
gender_by_name = fetch_ucirepo(id=591) 

# data (as pandas dataframes) 
df_name = gender_by_name.data.features 

Setelah mendapatkan data dari UCI Machine Learning Repository, saya akan menampilkan 5 data teratas agar bisa diamati kolom dan value yang tersimpan

In [2]:
df_name.head()

Unnamed: 0,Name,Gender,Count,Probability
0,James,M,5304407,0.014517
1,John,M,5260831,0.014398
2,Robert,M,4970386,0.013603
3,Michael,M,4579950,0.012534
4,William,M,4226608,0.011567


## Eksplorasi Data

### Visualisasi Data

untuk memudahkan kami dalam memahami dataset ,ada baiknya kita ditampilkan dengan visual yang dapat dipahami oleh semua orang,pada visualisasi data kami melakukan perintah berikut agar tampilan data dapat dipahami dengan lebih mudah.

In [3]:
display(df_name)

Unnamed: 0,Name,Gender,Count,Probability
0,James,M,5304407,1.451679e-02
1,John,M,5260831,1.439753e-02
2,Robert,M,4970386,1.360266e-02
3,Michael,M,4579950,1.253414e-02
4,William,M,4226608,1.156713e-02
...,...,...,...,...
147264,Zylenn,M,1,2.736740e-09
147265,Zymeon,M,1,2.736740e-09
147266,Zyndel,M,1,2.736740e-09
147267,Zyshan,M,1,2.736740e-09


## Struktur Dataset

Setelah diamati, saya akan menampilkan jumlah data yang tersimpan dalam dataset, terdapat 147.269 data pada dataset "Gender by Name"

In [4]:
len(df_name)

147269

Dikarenakan memori deepnot terbatas untuk akun gratis, disini saya akan mengambil 3.000 data tiap gender dari 147.269 data

In [5]:
import pandas as pd

# untuk data n seimbang
df_name_new = df_name.groupby('Gender').apply(lambda x: x.sample(n=3000, random_state=42)).reset_index(drop=True)

df_name_new = df_name_new.sample(frac=1).reset_index(drop=True)
print(len(df_name_new))

6000


Selanjutnya, saya akan menampilkan ada kolom apa saja dalam dataset tersebut

In [6]:
df_name_new.columns

Index(['Name', 'Gender', 'Count', 'Probability'], dtype='object')

Terdapat 4 kolom, yaitu :

Name sebagai nama orang dengan tipe data nominal, 

Gender sebagai jenis kelamin dengan tipe data binary dikarenakan gender hanya ada 2 yaitu Male (M) dan Female (F),

Count sebagai banyaknya nama terpakai dengan tipe data numerik, dan 

Probability sebagai banyaknya kemungkinan pemberian nama pada 1 orang dengan tipe data numerik

In [7]:
df_name_new.dtypes

Name            object
Gender          object
Count            int64
Probability    float64
dtype: object

Selanjutnya, saya akan mengecek apakah terdapat missing value

In [8]:
df_name_new.isnull().sum()

Name           0
Gender         0
Count          0
Probability    0
dtype: int64

Tidak ada missing value setelah pengecekan data menggunakan python

Berikutnya saya akan menampilkan banyaknya data yang memiliki gender Male (M) dan Female (F) untuk memastikan jumlahnya

In [9]:
print(len(df_name_new[df_name_new.Gender == "M"]))

3000


In [10]:
print(len(df_name_new[df_name_new.Gender == "F"]))

3000


Data yang memiliki Gender Male (M) sebanyak 3.000 dan Gender Female (F) sebanyak 3.000

## Identifikasi kualitas data

Dataset yang dipakai ini tidak memiliki outlier karena dataset ini mengklasifikasi gender seseorang berdasarkan namanya.

# Preprocessing

Pada tahap ini, saya akan melakukan preprocessing dara untuk memudahkan dalam mendapatkan hasil dari model. Saya akan menggunakan kolom nama dan gender saja, jadi perlu dilakukan penghapusan kolom Count dan Probability

In [11]:
dfName = df_name_new.drop(['Count', 'Probability'], axis=1)
dfName.reset_index(inplace=True)
dfName.drop('index', axis=1, inplace=True)
dfName

Unnamed: 0,Name,Gender
0,Deshanda,F
1,Trishia,F
2,Eunice,M
3,Lakisha,F
4,Katayi,M
...,...,...
5995,Laquaisha,F
5996,Lashaundra,F
5997,Tionni,F
5998,Gerhardt,M


Ubah value dari gender yang mana F = 0 dan M = 1

In [12]:
dfName.Gender = dfName.Gender.map({'F': 0, 'M': 1})
dfName

Unnamed: 0,Name,Gender
0,Deshanda,0
1,Trishia,0
2,Eunice,1
3,Lakisha,0
4,Katayi,1
...,...,...
5995,Laquaisha,0
5996,Lashaundra,0
5997,Tionni,0
5998,Gerhardt,1


In [13]:
dfName.Gender.unique()

array([0, 1])

In [14]:
dfName.dtypes

Name      object
Gender     int64
dtype: object

Value dari gender telah diubah, dan tipe data dari gender juga berubah menjadi numerik, selanjutnya saya akan meng-convert kolom name menjadi vektor untuk memudahkan dalam melakukan pra processing.

Gunakan CountVectorizer untuk mengubah nama menjadi representasi numerik. CountVectorizer akan membuat kosakata dari semua karakter atau n-gram karakter dalam nama dan menghitung frekuensi kemunculan karakter tersebut dalam setiap nama.

Frekuensi kemunculan karakter dalam setiap nama nantinya akan digunakan dalam modeling.

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

X_fitur = dfName['Name']
cv = CountVectorizer(analyzer="char")
X_cv = cv.fit_transform(X_fitur)

In [16]:
print(X_cv)

  (0, 9)	2
  (0, 10)	1
  (0, 24)	1
  (0, 13)	1
  (0, 6)	2
  (0, 19)	1
  (1, 24)	1
  (1, 13)	1
  (1, 6)	1
  (1, 25)	1
  (1, 23)	1
  (1, 14)	2
  (2, 10)	2
  (2, 19)	1
  (2, 14)	1
  (2, 26)	1
  (2, 8)	1
  (3, 24)	1
  (3, 13)	1
  (3, 6)	2
  (3, 14)	1
  (3, 17)	1
  (3, 16)	1
  (4, 6)	2
  (4, 25)	1
  :	:
  (5995, 22)	1
  (5996, 9)	1
  (5996, 24)	1
  (5996, 13)	1
  (5996, 6)	3
  (5996, 19)	1
  (5996, 23)	1
  (5996, 26)	1
  (5996, 17)	1
  (5997, 19)	2
  (5997, 25)	1
  (5997, 14)	2
  (5997, 20)	1
  (5998, 9)	1
  (5998, 10)	1
  (5998, 13)	1
  (5998, 6)	1
  (5998, 25)	1
  (5998, 23)	2
  (5998, 12)	1
  (5999, 13)	2
  (5999, 6)	2
  (5999, 19)	1
  (5999, 14)	1
  (5999, 18)	1


# Modelling dengan Klasifikasi Multinomial Naive Bayes

Modeling merupakan proses pembuatan dan pengujian model statistik atau matematis yang digunakan untuk menggambarkan dan menganalisis pola atau hubungan dalam data. Tujuan utama dari pemodelan dalam data mining adalah untuk mengidentifikasi pola yang berguna atau prediksi yang akurat dari data yang tersedia.Untuk modelling kali ini bertujuan untuk menentukan class pada suatu data inputan .Data akan dibagi menjadi 2 tipe yaitu data test dan data train dan pemodelan kali ini menggunakan metode Multinomial Naive Bayes.

Kita akan menentukan class dari data yang akan kita inputkan apakah termasuk class Male (M) atau Female (F).

cara kalkulasi MultinomialNB dapat melalui tahap berikut:

1. Bagi Dataset menjadi data test dan data train

ada dua jenis pembagian rasio dataset yang sering digunakan yaitu 

- 80% data train dan 20% data test

- 70% data train dan 30% data test

Untuk kali ini kita akan menggunkan raiso 80% data train dan 20% data test,namun kalian bisa mengubahnya tergantung situasi dan kondisi dilapangan nantinya

2. Mengghitung Probabilitas pada data train

lakukan perhitungan probabilitas dari masing-masing kelas sesuai dengan jumlah data train pada kelas tersebut kemudian dibagi dengan banyaknya total data train

<img src="image-20240620-154800.png" width="" align="" />

3. Menghitung Frekuensi Karakter dari Setiap Nama per Kelas pada Data Train

hitung frekuensi karakter yang muncul dalam data train

4. Menghitung Probabilitas Kondisional pada Data Train

hitung probabilitas kondisional berdasarkan frekuensi karakter yang muncul pada data train dengan rumus berikut

<img src="image-20240620-211219.png" width="" align="" />

<img src="image-20240620-211442.png" width="" align="" />

6. Hasil Perhitungan Berdasarkan Perhitungan dari Probabilitas dan Probabilitas Kondisional

hitung skor dengan mengalikan probabilitas a priori kelas dengan probabilitas kondisional dari setiap karakter dalam tiap data pada data train, rumusnya sebagai berikut :

<img src="image-20240620-212047.png" width="" align="" />

<img src="image-20240620-212503.png" width="" align="" />

MODEL

berikut model yang telah kita buat untuk memprediksi gender

In [17]:
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

# fitur
X = X_cv.toarray()
# label
y = dfName.Gender

# split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=20)

# tampilkan train dan test
print("---------------------------Data X Train---------------------------".center(100))
print(X_train)
print("---------------------------Data y Train---------------------------".center(100))
print(y_train)
print("---------------------------Data  X Test---------------------------".center(100))
print(X_test)
print("---------------------------Data  y Test---------------------------".center(100))
print(y_test)

# membuat model MNB
clf = MultinomialNB()
 
# Melatih model dengan menggunakan data latih
clf.fit(X_train, y_train)

#mendapatkan hasil akurasi dari model yang dilatih
print("Accuracy Model :",clf.score(X_test, y_test)*100,"%")

                 ---------------------------Data X Train---------------------------                 
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 1 0]
 ...
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]]
                 ---------------------------Data y Train---------------------------                 
78      1
5158    1
4784    1
2355    1
4805    1
       ..
5910    0
3915    1
1428    0
4367    1
2522    0
Name: Gender, Length: 4800, dtype: int64
                 ---------------------------Data  X Test---------------------------                 
[[0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
                 ---------------------------Data  y Test---------------------------                 
3500    0
5875    1
1589    1
1443    0
5756    1
       ..
131     0
2836    1
2901    0
3971    1
4666    0
Name: Gender, Length: 1200, dtype: int64
Accuracy Model : 64.75 %


In [24]:
import pickle

model_filename = "GenderMultinomialNB.pkl"
with open(model_filename, 'wb') as file:
    pickle.dump(clf, file)

Hasil dari pelatihan model ketika di test dengan data test didapatkan akurasi sebesar 64.75%, lalu simpan model menggunakan pickle dengan nama "GenderMultinomialNB.pkl"

Sample Prediction

Saya akan mencoba hasil prediksi dari model yang telah dibuat sebelumnya menggunakan data inputan, saya akan mencoba nama seseorang yaitu "John" dan "Angeline"

In [18]:
sample_name = ["John"]
vect = cv.transform(sample_name).toarray()
result = clf.predict(vect)

# Membuat dictionary untuk pemetaan hasil prediksi
gender_map = {1: 'Male (M)', 0: 'Female (F)'}

# Mengubah hasil prediksi menjadi label string
result = gender_map[result[0]]
print("Gender dari nama", sample_name[0], "adalah", result)

Gender dari nama John adalah Male (M)


In [19]:
sample_name = ["Angeline"]
vect = cv.transform(sample_name).toarray()
result = clf.predict(vect)

# Membuat dictionary untuk pemetaan hasil prediksi
gender_map = {1: 'Male (M)', 0: 'Female (F)'}

# Mengubah hasil prediksi menjadi label string
result = gender_map[result[0]]
print("Gender dari nama", sample_name[0], "adalah", result)

Gender dari nama Angeline adalah Female (F)


# Evaluasi

Dari model yang dipakai sebelumnya yaitu Multinomial Naive Bayes, dikarenakan data yang digunakan untuk melatih model terbatas menjadi 6.000 data dari 147.269 data sehingga akurasi model yang dipakai menjadi 64.75%

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=13e8aaf7-6bc3-4b78-9e05-c46ba534828c' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>