In [1]:
# Kütüphaneler
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [2]:
# Veri yüklemek

veriler = pd.read_csv('veriler/veriler.csv')
veriler

Unnamed: 0,ulke,boy,kilo,yas,cinsiyet
0,tr,130,30,10,e
1,tr,125,36,11,e
2,tr,135,34,10,k
3,tr,133,30,9,k
4,tr,129,38,12,e
5,tr,180,90,30,e
6,tr,190,80,25,e
7,tr,175,90,35,e
8,tr,177,60,22,k
9,us,185,105,33,e


In [3]:
# Sadece boy sütununu çekmek istiyorum.

boy = veriler[['boy']]
# boykilo = veriler[['boy','kilo']] # Sadece boy ve kilo sütunlarını çekiyorum.
boy

Unnamed: 0,boy
0,130
1,125
2,135
3,133
4,129
5,180
6,190
7,175
8,177
9,185


## Eksik Veriler (Missing Values)
**bu kısımda oluşturduğum döküman'da "veri ön işleme" kısmına bak ve ondan sonra devam et** 

In [4]:
eksikveriler = pd.read_csv('veriler/eksikveriler.csv')
eksikveriler

Unnamed: 0,ulke,boy,kilo,yas,cinsiyet
0,tr,130,30,10.0,e
1,tr,125,36,11.0,e
2,tr,135,34,10.0,k
3,tr,133,30,9.0,k
4,tr,129,38,12.0,e
5,tr,180,90,30.0,e
6,tr,190,80,25.0,e
7,tr,175,90,35.0,e
8,tr,177,60,22.0,k
9,us,185,105,33.0,e


**12 ve 16'ncı satırdaki kişilerin yaş verileri eksik/silinmiş**

In [5]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')  # burada oluşturduğumuz şey; missing_values(eksik veriler)= np.nan(nan olan değerler) ile neyi değiştirmek istiyorsak onu strategy kısmına yazıyoruz, biz burada ortalama ile değiştirmek istediğimiz için 'mean' yaptık 
Yas = eksikveriler.iloc[:,1:4].values  # burada iloc metodu ile verileri çekeceğiz. Tüm satırlardan(:), 1'den 4'e kadar olan sütunları(1:4) al 'Yas' değerinin içine aktar.
imputer = imputer.fit(Yas[:,1:4]) # Burada fit fonksiyonunu kullanıyoruz. fit fonksiyonu öğrenme fonksiyonudur, burada yas'ın 1'den 4'e kadar olan kolonlarını öğrenmesini söylüyoruz
Yas[:,1:4] = imputer.transform(Yas[:,1:4])  # aslında öğrenmemiz simple'da ki stratejimiz olan ortalama olduğu için bu belirlediğimiz kolonların ortalamasını öğrenecek, öğrendikten sonra da 'nan' değerlere dönüştürmesini isteyeceğiz bunun için de transform fonksiyonunu kullanacağım.
Yas
# yani fit'le öğretip transform ile öğrendiğini uygulamasını istiyoruz.

array([[130.  ,  30.  ,  10.  ],
       [125.  ,  36.  ,  11.  ],
       [135.  ,  34.  ,  10.  ],
       [133.  ,  30.  ,   9.  ],
       [129.  ,  38.  ,  12.  ],
       [180.  ,  90.  ,  30.  ],
       [190.  ,  80.  ,  25.  ],
       [175.  ,  90.  ,  35.  ],
       [177.  ,  60.  ,  22.  ],
       [185.  , 105.  ,  33.  ],
       [165.  ,  55.  ,  27.  ],
       [155.  ,  50.  ,  44.  ],
       [160.  ,  58.  ,  28.45],
       [162.  ,  59.  ,  41.  ],
       [167.  ,  62.  ,  55.  ],
       [174.  ,  70.  ,  47.  ],
       [193.  ,  90.  ,  28.45],
       [187.  ,  80.  ,  27.  ],
       [183.  ,  88.  ,  28.  ],
       [159.  ,  40.  ,  29.  ],
       [164.  ,  66.  ,  32.  ],
       [166.  ,  56.  ,  42.  ]])

## Kategorik Veriler
* Kullandığımız veri kümesinde "ulke" kolonu kategorik verilerin bulunduğu kolondur. Bu kategorik verileri sayısal formata dönüştürmeyi yapacağız.

In [6]:
ulke = veriler.iloc[:,0:1].values
ulke

array([['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['us'],
       ['us'],
       ['us'],
       ['us'],
       ['us'],
       ['us'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr']], dtype=object)

In [7]:
from sklearn import preprocessing

le = preprocessing.LabelEncoder() # preprocessing altından LabelEncoder'i çağırıyorum, labelEncoder() fonksiyonu sayısal etiketlemeyi yapar.
# Yukarıda fit ve transformu ayrı ayrı çağırmıştım, yani makine öğrenmesinin öğrendiği süreci fit daha sonrada makine öğrenmesinin uygulandığı süreci transformla çağırmıştık, burada ikisini birlikte çağırıyoruz.
ulke[:,0] = le.fit_transform(veriler.iloc[:,0]) # ilk kolonu alıyoruz ve bu kolonu transform ediyoruz.
ulke

array([[1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [2],
       [2],
       [2],
       [2],
       [2],
       [2],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0]], dtype=object)

In [8]:
ohe = preprocessing.OneHotEncoder() # preprocessing altından OneHotEncoder'i çağırıyorum. OneHotEncoder() fonksiyonu, Sayısal kategorik verileri içeren sütunu, o sütunda bulunan kategori sayısına bağlı olarak birçok sütuna bölmeyi ifade eder . Her sütun, yerleştirildiği sütuna karşılık gelen "0" veya "1" içerir.
ulke = ohe.fit_transform(ulke).toarray()
ulke

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.]])

## Verilerin Birleştirilmesi ve DataFrame Oluşturulması
* **Yukarıda yaptığımız işlemleri tek bir DataFrame'da birleştireceğiz.**

In [9]:
# ilk olarak düzenleyip "ulke" değişkenine attığımız verilerin DataFrame'ini oluşturuyoruz
sonuc = pd.DataFrame(data = ulke, index = range(22), columns=['fr','tr','us'])
sonuc

Unnamed: 0,fr,tr,us
0,0.0,1.0,0.0
1,0.0,1.0,0.0
2,0.0,1.0,0.0
3,0.0,1.0,0.0
4,0.0,1.0,0.0
5,0.0,1.0,0.0
6,0.0,1.0,0.0
7,0.0,1.0,0.0
8,0.0,1.0,0.0
9,0.0,0.0,1.0


In [10]:
# sonra düzenleyip "Yas" değişkenine attığımız verilerin DataFrame'ini oluşturuyoruz.
sonuc2 = pd.DataFrame(data=Yas, index=range(22), columns=['boy','kilo','yas'])
sonuc2

Unnamed: 0,boy,kilo,yas
0,130.0,30.0,10.0
1,125.0,36.0,11.0
2,135.0,34.0,10.0
3,133.0,30.0,9.0
4,129.0,38.0,12.0
5,180.0,90.0,30.0
6,190.0,80.0,25.0
7,175.0,90.0,35.0
8,177.0,60.0,22.0
9,185.0,105.0,33.0


In [11]:
# sonra Cinsiyet verilerini alıp, bu verilerin DataFrame'ini oluşturuyoruz.
cinsiyet = veriler.iloc[:,-1].values
sonuc3 = pd.DataFrame(data = cinsiyet, index= range(22), columns= ['cinsiyet'])
sonuc3

Unnamed: 0,cinsiyet
0,e
1,e
2,k
3,k
4,e
5,e
6,e
7,e
8,k
9,e


In [12]:
# Şimdi ise bu verilerin hepsini tek bir DF içinde birleştirelim.
s = pd.concat([sonuc,sonuc2], axis=1) # Bu veriyi sonra kullanacağımız için oluşturdum
s2 = pd.concat([sonuc,sonuc2,sonuc3], axis=1) # contac fonksiyonu DF'leri birleştirmemize yarar, içindeki axis işlemi ise dikeyde mi, yatayda mı ekleme yapacağımızı belirlediğimiz yer.
s2

Unnamed: 0,fr,tr,us,boy,kilo,yas,cinsiyet
0,0.0,1.0,0.0,130.0,30.0,10.0,e
1,0.0,1.0,0.0,125.0,36.0,11.0,e
2,0.0,1.0,0.0,135.0,34.0,10.0,k
3,0.0,1.0,0.0,133.0,30.0,9.0,k
4,0.0,1.0,0.0,129.0,38.0,12.0,e
5,0.0,1.0,0.0,180.0,90.0,30.0,e
6,0.0,1.0,0.0,190.0,80.0,25.0,e
7,0.0,1.0,0.0,175.0,90.0,35.0,e
8,0.0,1.0,0.0,177.0,60.0,22.0,k
9,0.0,0.0,1.0,185.0,105.0,33.0,e


## Veri Kümesinin Eğitim ve Test Olarak Bölünmesi
* **Boy, Kilo ve yaştan cinsiyetin tahmin edilmesini istiyoruz ve dolayısıyla ülke, boy, kilo ve yaşı ayrı bir DF'de, cinsiyeti ise ayrı bir DF'de bölebilmek.**

In [16]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(s, sonuc3, test_size=0.33, random_state=0) # s verisini x_train ve x_test için, sonuc3 verisini y_train ve y_test için kullanıyoruz."test_size" ile oranı belirtiyoruz, "random_state" ile rastgele verileri dağıtma işlemini belirtiyoruz.

In [40]:
x_train # ülke, boy, kilo, yaş verilerinin %67'si yani kabaca 3'te 2'sini eğitim verisi için ayırıyoruz.

Unnamed: 0,fr,tr,us,boy,kilo,yas
8,0.0,1.0,0.0,177.0,60.0,22.0
6,0.0,1.0,0.0,190.0,80.0,25.0
16,1.0,0.0,0.0,193.0,90.0,28.45
4,0.0,1.0,0.0,129.0,38.0,12.0
2,0.0,1.0,0.0,135.0,34.0,10.0
5,0.0,1.0,0.0,180.0,90.0,30.0
17,1.0,0.0,0.0,187.0,80.0,27.0
9,0.0,0.0,1.0,185.0,105.0,33.0
7,0.0,1.0,0.0,175.0,90.0,35.0
18,1.0,0.0,0.0,183.0,88.0,28.0


In [41]:
x_test # ülke, boy, kilo, yaş verilerinin %33'ü yani kabaca 3'te 1'ini test verisi için ayırıyoruz.

Unnamed: 0,fr,tr,us,boy,kilo,yas
20,1.0,0.0,0.0,164.0,66.0,32.0
10,0.0,0.0,1.0,165.0,55.0,27.0
14,0.0,0.0,1.0,167.0,62.0,55.0
13,0.0,0.0,1.0,162.0,59.0,41.0
1,0.0,1.0,0.0,125.0,36.0,11.0
21,1.0,0.0,0.0,166.0,56.0,42.0
11,0.0,0.0,1.0,155.0,50.0,44.0
19,1.0,0.0,0.0,159.0,40.0,29.0


In [18]:
y_train # cinsiyet verisinin %67'si yani kabaca 3'te 2'sini eğitim verisi için ayırıyoruz.

Unnamed: 0,cinsiyet
8,k
6,e
16,e
4,e
2,k
5,e
17,e
9,e
7,e
18,e


In [43]:
y_test # cinsiyet verilerinin %33'ü yani kabaca 3'te 1'ini test verisi için ayırıyoruz.

Unnamed: 0,cinsiyet
20,k
10,k
14,k
13,k
1,e
21,k
11,k
19,k


In [28]:
# Burada yaptığım işlem ile tüm tabloları yan yana görüntüleyebiliriz.

from IPython.core.display import display, HTML

def display_side_by_side(dfs:list, captions:list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes("style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

display_side_by_side([x_train,x_test,y_train,y_test],['x_train','x_test','y_train','y_test'])

Unnamed: 0,fr,tr,us,boy,kilo,yas
8,0,1,0,177,60,22.0
6,0,1,0,190,80,25.0
16,1,0,0,193,90,28.45
4,0,1,0,129,38,12.0
2,0,1,0,135,34,10.0
5,0,1,0,180,90,30.0
17,1,0,0,187,80,27.0
9,0,0,1,185,105,33.0
7,0,1,0,175,90,35.0
18,1,0,0,183,88,28.0

Unnamed: 0,fr,tr,us,boy,kilo,yas
20,1,0,0,164,66,32
10,0,0,1,165,55,27
14,0,0,1,167,62,55
13,0,0,1,162,59,41
1,0,1,0,125,36,11
21,1,0,0,166,56,42
11,0,0,1,155,50,44
19,1,0,0,159,40,29

Unnamed: 0,cinsiyet
8,k
6,e
16,e
4,e
2,k
5,e
17,e
9,e
7,e
18,e

Unnamed: 0,cinsiyet
20,k
10,k
14,k
13,k
1,e
21,k
11,k
19,k


## Öznitelik Ölçekleme

In [19]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler() # preprocessing altından StandardScaler'i çağırıyorum. StandardScaler() fonksiyonu, ortalamayı çıkararak (merkezleme olarak adlandırılır) ve dağılımı ortalamaya sıfır ve standart sapma bir olacak şekilde kaydırmak için standart sapmaya bölerek her girdi değişkenini ayrı ayrı ölçeklendirir.
X_train = sc.fit_transform(x_train)
X_test = sc.fit_transform(x_test)

In [20]:
X_test

array([[ 1.29099445, -0.37796447, -1.        ,  0.47240026,  1.32853794,
        -0.24991255],
       [-0.77459667, -0.37796447,  1.        ,  0.54952683,  0.20439045,
        -0.64977262],
       [-0.77459667, -0.37796447,  1.        ,  0.70377998,  0.91975703,
         1.58944379],
       [-0.77459667, -0.37796447,  1.        ,  0.31814711,  0.61317136,
         0.46983559],
       [-0.77459667,  2.64575131, -1.        , -2.53553608, -1.73731884,
        -1.92932485],
       [ 1.29099445, -0.37796447, -1.        ,  0.6266534 ,  0.30658568,
         0.5498076 ],
       [-0.77459667, -0.37796447,  1.        , -0.2217389 , -0.30658568,
         0.70975163],
       [ 1.29099445, -0.37796447, -1.        ,  0.08676739, -1.32853794,
        -0.48982859]])

In [21]:
X_train

array([[-0.63245553,  0.8660254 , -0.40824829,  0.45049444, -0.29657884,
        -0.24717129],
       [-0.63245553,  0.8660254 , -0.40824829,  1.00824945,  0.5096549 ,
         0.03416189],
       [ 1.58113883, -1.15470054, -0.40824829,  1.13696215,  0.91277178,
         0.35769504],
       [-0.63245553,  0.8660254 , -0.40824829, -1.6089087 , -1.18343596,
        -1.18494855],
       [-0.63245553,  0.8660254 , -0.40824829, -1.35148331, -1.34468271,
        -1.372504  ],
       [-0.63245553,  0.8660254 , -0.40824829,  0.57920713,  0.91277178,
         0.50305051],
       [ 1.58113883, -1.15470054, -0.40824829,  0.87953676,  0.5096549 ,
         0.22171734],
       [-0.63245553, -1.15470054,  2.44948974,  0.79372829,  1.51744708,
         0.78438369],
       [-0.63245553,  0.8660254 , -0.40824829,  0.36468597,  0.91277178,
         0.97193914],
       [ 1.58113883, -1.15470054, -0.40824829,  0.70791983,  0.8321484 ,
         0.31549506],
       [-0.63245553,  0.8660254 , -0.40824829, -1.