# **Data Cleaning**

In [1]:
import pandas as pd

In [46]:
dataset = pd.read_csv('dataset.csv')
dataset

Unnamed: 0,id,name,description,skills
0,1,Back-end Developer Internship,Job Descriptions Merancang dan membuat API den...,
1,2,Website Developer,<p><strong>Kualifikasi :</strong>&nbsp;</p><ul...,"['Komunikasi', 'Kreatif', 'Pemahaman Industri'..."
2,3,Software Architect Intern,<p>To help architect team on demonstration of ...,"['Komunikasi', 'Kreatif', 'Desain Grafis', 'Co..."


## **Combine Data**

In [47]:
import ast

In [48]:
dataset['skills'] = dataset['skills'].apply(lambda x: ast.literal_eval(x) if pd.notna(x) else '')

dataset['skills'] = dataset['skills'].apply(lambda x: ', '.join(x) if isinstance(x, list) else x)

dataset['combined_text'] = dataset['name'] + ' ' + dataset['skills'].astype(str) + ' ' + dataset['description']

dataset['combined_text']

0    Back-end Developer Internship  Job Description...
1    Website Developer Komunikasi, Kreatif, Pemaham...
2    Software Architect Intern Komunikasi, Kreatif,...
Name: combined_text, dtype: object

In [49]:
print(dataset['combined_text'][1])

Website Developer Komunikasi, Kreatif, Pemahaman Industri, Manajemen Proyek, Kreativitas, Kerjasama Tim, Keahlian Teknologi, Pemasaran Produk <p><strong>Kualifikasi :</strong>&nbsp;</p><ul><li>Wajib memiliki laptop sendiri.</li><li>Mampu membuat website dan landing page sesuai dengan kebutuhan perusahaan </li><li>Mampu  Optimasi SEO</li><li>Masa magang minimum 3 bulan dengan jam kerja normal</li><li>Harus menyertakan portofolio</li></ul><p><br></p><p><br></p><p><strong>Benefit :</strong></p><ul><li>Sertifikat Magang&nbsp;</li><li>Konversi Nilai</li><li>Sistem WFH</li></ul><p><strong>Kualifikasi :</strong>&nbsp;</p><ul><li>Wajib memiliki laptop sendiri.</li><li>Mampu membuat website dan landing page sesuai dengan kebutuhan perusahaan </li><li>Mampu  Optimasi SEO</li><li>Masa magang minimum 3 bulan dengan jam kerja normal</li><li>Harus menyertakan portofolio</li></ul><p><br></p><p><br></p><p><strong>Benefit :</strong></p><ul><li>Sertifikat Magang&nbsp;</li><li>Konversi Nilai</li><li>Sist

## **Case Folding**

In [50]:
dataset['result_case_folding_data'] = dataset['combined_text'].apply(lambda x: x.casefold())
dataset[['id', 'combined_text','result_case_folding_data']]

Unnamed: 0,id,combined_text,result_case_folding_data
0,1,Back-end Developer Internship Job Description...,back-end developer internship job description...
1,2,"Website Developer Komunikasi, Kreatif, Pemaham...","website developer komunikasi, kreatif, pemaham..."
2,3,"Software Architect Intern Komunikasi, Kreatif,...","software architect intern komunikasi, kreatif,..."


In [51]:
print(dataset['result_case_folding_data'][1])

website developer komunikasi, kreatif, pemahaman industri, manajemen proyek, kreativitas, kerjasama tim, keahlian teknologi, pemasaran produk <p><strong>kualifikasi :</strong>&nbsp;</p><ul><li>wajib memiliki laptop sendiri.</li><li>mampu membuat website dan landing page sesuai dengan kebutuhan perusahaan </li><li>mampu  optimasi seo</li><li>masa magang minimum 3 bulan dengan jam kerja normal</li><li>harus menyertakan portofolio</li></ul><p><br></p><p><br></p><p><strong>benefit :</strong></p><ul><li>sertifikat magang&nbsp;</li><li>konversi nilai</li><li>sistem wfh</li></ul><p><strong>kualifikasi :</strong>&nbsp;</p><ul><li>wajib memiliki laptop sendiri.</li><li>mampu membuat website dan landing page sesuai dengan kebutuhan perusahaan </li><li>mampu  optimasi seo</li><li>masa magang minimum 3 bulan dengan jam kerja normal</li><li>harus menyertakan portofolio</li></ul><p><br></p><p><br></p><p><strong>benefit :</strong></p><ul><li>sertifikat magang&nbsp;</li><li>konversi nilai</li><li>sist

## **Remove Html Tags**

In [52]:
from lxml import etree

In [55]:
def remove_html_tags(text):
    parser = etree.HTMLParser()
    tree = etree.fromstring(text, parser)
    return etree.tostring(tree, encoding='unicode', method='text')

dataset['result_remove_html_tags'] = dataset['result_case_folding_data'].apply(remove_html_tags)
dataset[['id', 'result_case_folding_data' ,'result_remove_html_tags']]

Unnamed: 0,id,result_case_folding_data,result_remove_html_tags
0,1,back-end developer internship job description...,back-end developer internship job description...
1,2,"website developer komunikasi, kreatif, pemaham...","website developer komunikasi, kreatif, pemaham..."
2,3,"software architect intern komunikasi, kreatif,...","software architect intern komunikasi, kreatif,..."


In [56]:
print(dataset['result_remove_html_tags'][1])

website developer komunikasi, kreatif, pemahaman industri, manajemen proyek, kreativitas, kerjasama tim, keahlian teknologi, pemasaran produk kualifikasi : wajib memiliki laptop sendiri.mampu membuat website dan landing page sesuai dengan kebutuhan perusahaan mampu  optimasi seomasa magang minimum 3 bulan dengan jam kerja normalharus menyertakan portofoliobenefit :sertifikat magang konversi nilaisistem wfhkualifikasi : wajib memiliki laptop sendiri.mampu membuat website dan landing page sesuai dengan kebutuhan perusahaan mampu  optimasi seomasa magang minimum 3 bulan dengan jam kerja normalharus menyertakan portofoliobenefit :sertifikat magang konversi nilaisistem wfh


## **Remove Non-Alphanumeric Character**

In [57]:
import re

In [58]:
dataset['result_remove_non-alphanumeric_character'] = dataset['result_remove_html_tags'].apply(lambda x: re.sub(r"(@\[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?", "", x))
dataset[['id', 'result_remove_html_tags', 'result_remove_non-alphanumeric_character']]

Unnamed: 0,id,result_remove_html_tags,result_remove_unicode_character
0,1,back-end developer internship job description...,backend developer internship job descriptions...
1,2,"website developer komunikasi, kreatif, pemaham...",website developer komunikasi kreatif pemahaman...
2,3,"software architect intern komunikasi, kreatif,...",software architect intern komunikasi kreatif d...


In [59]:
print(dataset['result_remove_unicode_character'][1])

website developer komunikasi kreatif pemahaman industri manajemen proyek kreativitas kerjasama tim keahlian teknologi pemasaran produk kualifikasi wajib memiliki laptop sendirimampu membuat website dan landing page sesuai dengan kebutuhan perusahaan mampu  optimasi seomasa magang minimum 3 bulan dengan jam kerja normalharus menyertakan portofoliobenefit sertifikat magangkonversi nilaisistem wfhkualifikasi wajib memiliki laptop sendirimampu membuat website dan landing page sesuai dengan kebutuhan perusahaan mampu  optimasi seomasa magang minimum 3 bulan dengan jam kerja normalharus menyertakan portofoliobenefit sertifikat magangkonversi nilaisistem wfh
