# Penggunaan pandas untuk melakukan EDA

Pertama sekali dimulai dengan mengimpor data dari berkas CSV menggunakan pustaka pandas dan melihat waktu eksekusinya.

In [1]:
import pandas as pd
%time data = pd.read_csv("./train.csv", delimiter=',', index_col=0)

Wall time: 475 ms


Menampilkan beberapa sampel data dengan perintah berikut.

In [2]:
data.sample(5)

Unnamed: 0_level_0,name_of_drug,use_case_for_drug,review_by_patient,effectiveness_rating,drug_approved_by_UIC,number_of_times_prescribed,base_score
patient_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
42476,Concerta,ADHD,"""34 years old diagnosed back in Oct 14 started...",5,17-Aug-15,12,4.205096
196490,Eszopiclone,Insomnia,"""I am a professional program designer and had ...",8,7-Aug-11,22,7.940428
148657,Mirena,Birth Control,"""I had it inserted on last month 15 sept. Was ...",6,1-Nov-16,0,0.899076
145109,Etonogestrel,Birth Control,"""I have had only good expiriences with this bi...",10,5-Nov-15,4,8.358951
71178,Viberzi,Irritable Bowel Syndrome,"""Started this medication today after being on ...",6,6-Mar-16,23,5.619342


Menampilkan statistik deskriptif dengan perintah berikut.

In [3]:
data.describe()

Unnamed: 0,effectiveness_rating,number_of_times_prescribed,base_score
count,32165.0,32165.0,32165.0
mean,6.998912,27.893207,6.664261
std,3.274781,35.819035,1.588699
min,1.0,0.0,0.899076
25%,5.0,6.0,6.109307
50%,8.0,16.0,6.788245
75%,10.0,36.0,7.90079
max,10.0,771.0,8.992453


Kemudian memeriksa nilai yang hilang. Kami hanya akan mencetak 10 fitur secara berurut dengan lebih dari 10% nilai yang hilang.

In [4]:
total = data.isnull().sum().sort_values(ascending=False)

percent = (data.isnull().sum()/data.isnull().count()) \
.sort_values(ascending=False)

missing_data = pd.concat([total, percent], axis=1, \
                        keys=['Total', 'Missing Percent'])

missing_data['Missing Percent'] = \
missing_data['Missing Percent'].apply(lambda x: x*100)

missing_data.loc[missing_data['Missing Percent']>10][:10]

Unnamed: 0,Total,Missing Percent


Ditemukan bahwa pada dataset yang kami gunakan tidak terdapat missing value.

Selanjutnya digunakan pandas-profiling untuk dapat menampilkan informasi secara dinamis dan mudah.
Pandas-profiling menyatukan semua elemen-elemen yang tersedia untuk membentuk EDA yang lengkap: nilai yang paling sering muncul, nilai yang hilang, korelasi, statistik kuantitatif dan deskriptif, panjang data dan banyak lagi. Berkat metrik ini, Anda akan dengan cepat melihat distribusi dan disparitas data Anda. Informasi ini penting untuk mengetahui apakah data dapat diolah di proses yang selanjutnya atau tidak.

In [6]:
import pandas_profiling

data_fifa = pd.read_csv('./train.csv')
profile = data_fifa.profile_report(title='Pandas Profiling Report')
profile.to_file(output_file="drugs_pandas_profiling.html")

HBox(children=(FloatProgress(value=0.0, description='Summarize dataset', max=22.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Generate report structure', max=1.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Render HTML', max=1.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Export report to file', max=1.0, style=ProgressStyle(desc…




Berkas drugs_pandas_profiling.html menyajikan bagian “ikhtisar” dari laporan. Bagian ini secara
singkat menyajikan informasi tentang jenis variabel, nilai yang hilang, atau ukuran data set.

# Penggunaan Seaborn untuk melakukan EDA

Menyertakan beberapa pustaka pendukung seperti numpy dan matplotlib terlebih dahulu.

In [7]:
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import Image
%matplotlib inline

impor pustaka seaborn

In [8]:
import seaborn as sns

Untuk melakukan EDA, mari menggunakan data set yang berisi informasi tentang kondisi dari pasien. Data set ini akan memuatnya ke dalam pandas DataFrame:

In [14]:
drugs = pd.read_csv('./train.csv')

In [15]:
drugs.shape

(32165, 8)

In [16]:
drugs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32165 entries, 0 to 32164
Data columns (total 8 columns):
patient_id                    32165 non-null int64
name_of_drug                  32165 non-null object
use_case_for_drug             32165 non-null object
review_by_patient             32165 non-null object
effectiveness_rating          32165 non-null int64
drug_approved_by_UIC          32165 non-null object
number_of_times_prescribed    32165 non-null int64
base_score                    32165 non-null float64
dtypes: float64(1), int64(3), object(4)
memory usage: 2.0+ MB


Menganalisis Variabel Secara Individual

In [17]:
numerical_vars = ['effectiveness_rating', 'drug_approved_by_UIC', 'number_of_times_prescribed', 'base_score']
categorical_vars = ['name_of_drug', 'use_case_for_drug', 'review_by_patient']

In [19]:
drugs = drugs[numerical_vars+categorical_vars]

In [20]:
drugs.shape

(32165, 7)