<a href="https://colab.research.google.com/github/jeffheaton/t81_558_deep_learning/blob/master/t81_558_class_02_2_pandas_cat.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Part 2.2: Categorical and Continuous Values

Sinir ağları, girdilerinin sabit sayıda sütun olmasını gerektirir. Bu giriş biçimi, elektronik tablo verilerine çok benzer. Bu giriş tamamen sayısal olmalıdır.

Verileri, sinir ağının ondan eğitebileceği şekilde temsil etmek çok önemlidir.Verileri önceden işlemek için daha fazla yol göreceğiz. Şimdilik, bir sinir ağı için verileri dönüştürmenin en temel yollarından birkaçına bakacağız.

Verileri önceden işlemenin belirli yollarına bakmadan önce, [[Cite: stevens1946theory]] (http://psychology.okstate.edu/faculty/jgrice/psyc3214/Stevens_FourScales_1946 tarafından tanımlanan dört temel veri türünü dikkate almak önemlidir. pdf). İstatistikçiler genellikle [ölçü seviyeleri] (https://en.wikipedia.org/wiki/Level_of_measurement) olarak adlandırılır:

* Character Data (strings)
    * ** Nominal **- Ayrı ayrı öğeler, sıra yok. Örneğin renk, posta kodu, şekil.
    * ** Ordinal ** - Ayrı ayrı öğelerin zımni bir sırası vardır. Örneğin sınıf seviyesi, iş unvanı, Starbucks (tm) kahve boyutu (tall,vente, grande)
* Numeric Data
    * ** Interval ** - Sayısal değerler, tanımlı başlangıç ​​yok. Örneğin sıcaklık. Asla "dün bugünün iki katı sıcaktı" demezsiniz.
    * ** Ratio ** - Sayısal değerler, açıkça tanımlanmış başlangıç. Örneğin hız. "İlk araba ikincinin iki katı hızlı gidiyor" derdiniz.

### Encoding Continuous Values

Yaygın bir dönüşüm, girdileri normalleştirmektir. Programın bu iki değeri kolayca karşılaştırabilmesi için sayısal girişlerin standart bir formda olması bazen normalleştirme açısından değerlidir. Bir arkadaşınızın size 10 dolarlık bir indirim aldığını söyleyip söylemediğini düşünün. Bu iyi bir anlaşma mı? Olabilir. Ancak maliyet normalleştirilmemiştir. Arkadaşınız bir araba satın aldıysa, indirim o kadar iyi değil. Arkadaşınız akşam yemeği satın aldıysa, bu mükemmel bir indirimdir!

Yüzdeler, yaygın bir normalleştirme biçimidir. Arkadaşınız size% 10 indirim aldıklarını söylerse, bunun% 5'ten daha iyi bir indirim olduğunu biliyoruz. Satın alma fiyatının ne kadar olduğu önemli değil. Yaygın bir makine öğrenimi normalleştirmesi Z-Skorudur:

$z = \frac{x - \mu}{\sigma} $

Z-Puanını hesaplamak için, ortalama ($ \ mu $) ve standart sapmayı ($ \ sigma $) da hesaplamanız gerekir. Ortalama şu şekilde hesaplanır:
$\mu = \bar{x} = \frac{x_1+x_2+\cdots +x_n}{n}$

Standart sapma şu şekilde hesaplanır:

$\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}, {\rm \ \ where\ \ } \mu = \frac{1}{N} \sum_{i=1}^N x_i$

Aşağıdaki Python kodu mpg'yi bir z-skoru ile değiştirir. Ortalama MPG'ye sahip arabalar sıfıra yakın olacak, sıfırın üstü ortalamanın üzerinde ve sıfırın altında ortalamanın altında olacak. -3 / 3'ün üzerindeki / altındaki Z-Skorları çok nadirdir, bunlar uç değerlerdir.

In [1]:
import os
import pandas as pd
from scipy.stats import zscore

df = pd.read_csv(
    "auto-mpg.csv",
    na_values=['NA','?'])

df['mpg'] = zscore(df['mpg'])
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,-0.706439,8,307.0,130.0,3504,12.0,70,1,chevrolet chevelle malibu
1,-1.090751,8,350.0,165.0,3693,11.5,70,1,buick skylark 320
2,-0.706439,8,318.0,150.0,3436,11.0,70,1,plymouth satellite
3,-0.962647,8,304.0,150.0,3433,12.0,70,1,amc rebel sst
4,-0.834543,8,302.0,140.0,3449,10.5,70,1,ford torino


### Encoding Categorical Values as Dummies
Kategorik değerleri kodlamanın geleneksel yolu, onları kukla değişkenler yapmaktır. Bu tekniğe aynı zamanda tek sıcak kodlama da denir. Aşağıdaki veri setini düşünün.

In [3]:
import pandas as pd

df = pd.read_csv(
    "jh-simple-dataset.csv",
    na_values=['NA','?'])

df.head()

Unnamed: 0,id,job,area,...,retail_dense,crime,product
0,1,vv,c,...,0.492126,0.0711,b
1,2,kd,c,...,0.34252,0.400809,c
2,3,pe,c,...,0.724409,0.207723,b
3,4,11,c,...,0.444882,0.361216,b
4,5,kl,d,...,0.661417,0.068033,a


In [4]:
areas = list(df['area'].unique())
print(f'Number of areas: {len(areas)}')
print(f'Areas: {areas}')
# hangi değerler eşsiz onları buluyoruz aslında 

Number of areas: 4
Areas: ['c', 'd', 'a', 'b']


Alanlar sütununda dört benzersiz değer vardır. Bunları kukla değişkenlere kodlamak için, her biri alanlardan birini temsil eden dört sütun kullanırdık. Her satır için, bir sütunun değeri bir, geri kalanı sıfır olacaktır. Bu nedenle, bu tür kodlamaya bazen tek çalışırken kodlama denir. Aşağıdaki kod, "a" ile "d" arasındaki değerleri nasıl kodlayabileceğinizi gösterir. A değeri [1,0,0,0] olur ve B değeri [0,1,0,0] olur.

In [4]:
dummies = pd.get_dummies(['a','b','c','d'],prefix='area')
print(dummies)
# burada dummy değişkeni oluşturmuş olduk, prefix ise adlandırmak için yapılan bir şey

   area_a  area_b  area_c  area_d
0       1       0       0       0
1       0       1       0       0
2       0       0       1       0
3       0       0       0       1


In [5]:
dummies = pd.get_dummies(df['area'],prefix='area')
print(dummies[0:10]) # Sadece ilk 10'u göster

    area_a  area_b  area_c  area_d
0        0       0       1       0
1        0       0       1       0
..     ...     ...     ...     ...
8        0       0       1       0
9        1       0       0       0

[10 rows x 4 columns]


In [6]:
df = pd.concat([df,dummies],axis=1)

In [7]:
df.head()

Unnamed: 0,id,job,area,...,area_b,area_c,area_d
0,1,vv,c,...,0,1,0
1,2,kd,c,...,0,1,0
2,3,pe,c,...,0,1,0
3,4,11,c,...,0,1,0
4,5,kl,d,...,0,0,1


"area" sütununu kodlamak için aşağıdakileri kullanıyoruz. Bu mankenlerin veri çerçevesine geri birleştirilmesi gerektiğine dikkat edin.

In [8]:
df.head()

Unnamed: 0,id,job,area,...,area_b,area_c,area_d
0,1,vv,c,...,0,1,0
1,2,kd,c,...,0,1,0
2,3,pe,c,...,0,1,0
3,4,11,c,...,0,1,0
4,5,kl,d,...,0,0,1


Genellikle, orijinal sütunu ('area') kaldırırsınız, çünkü amaç, veri çerçevesinin sinir ağı için tamamen sayısal olmasını sağlamaktır.

In [10]:
df.drop('area', axis=1, inplace=True)
display(df[['id','job','income','area_a',
                  'area_b','area_c','area_d']])

KeyError: "['area'] not found in axis"

### Target Encoding for Categoricals

Hedef kodlama bazen bir makine öğrenimi modelinin tahmin gücünü artırabilir. Bununla birlikte, aşırı uyum riskini de önemli ölçüde artırır. Bu risk nedeniyle, bu yöntemi kullanıyorsanız dikkatli olmalısınız. Hedef kodlama, Kaggle yarışmaları için popüler bir tekniktir.

Genel olarak, hedef kodlama yalnızca makine öğrenimi modelinin çıktısı sayısal olduğunda (regresyon) kategorik bir özellik üzerinde kullanılabilir.

Hedef kodlama kavramı basittir. Her kategori için, o kategori için ortalama hedef değeri hesaplarız. Daha sonra kodlamak için, kategorik değerin sahip olduğu kategoriye karşılık gelen yüzdeyi değiştiririz. Hedef kodlamalı her kategori için bir sütununuz olan kukla değişkenlerin aksine, programın yalnızca tek bir sütuna ihtiyacı vardır. Bu şekilde, hedef kodlama kukla değişkenlerden daha etkilidir

In [11]:
# Küçük bir örnek veri kümesi oluşturun
import pandas as pd
import numpy as np

np.random.seed(43)
df = pd.DataFrame({
    'cont_9': np.random.rand(10)*100,
    'cat_0': ['dog'] * 5 + ['cat'] * 5,
    'cat_1': ['wolf'] * 9 + ['tiger'] * 1,
    'y': [1, 0, 1, 1, 1, 1, 0, 0, 0, 0]
})

df.head()
# cat-0 köpek ve kedi, cat-1 ise kurt ve tiger 

Unnamed: 0,cont_9,cat_0,cat_1,y
0,11.505457,dog,wolf,1
1,60.906654,dog,wolf,0
2,13.339096,dog,wolf,1
3,24.058962,dog,wolf,1
4,32.713906,dog,wolf,1


"dog" ve "cat" için kukla değişkenler oluşturmak yerine, onu bir sayı ile değiştirmek istiyoruz. cat için 0, dog için 1 kullanabiliriz. Ancak bundan daha fazla bilgiyi kodlayabiliriz. Basit 0 veya 1 aynı zamanda yalnızca bir hayvan için işe yarar. Kedi ve köpek için ortalama hedef değerin ne olduğunu düşünün.

In [14]:
means0 = df.groupby('cat_0')['y'].mean().to_dict()
means0

{'cat': 0.2, 'dog': 0.8}

Tehlike şu anda eğitim için hedef değeri kullanıyoruz. Bu teknik potansiyel olarak aşırı uyuma yol açacaktır. Belirli bir kategorinin az sayıda olması durumunda aşırı uyum olasılığı daha da fazladır. Bunun olmasını önlemek için bir ağırlıklandırma faktörü kullanıyoruz. Ağırlık ne kadar güçlüyse, az sayıda değere sahip kategorilerden daha fazlası, y'nin genel ortalamasına yönelecektir. Bu hesaplamayı aşağıdaki şekilde yapabilirsiniz.

In [13]:
df['y'].mean()

0.5

Hedef kodlamayı aşağıdaki gibi uygulayabilirsiniz. Hedef Kodlama hakkında daha fazla bilgi için makaleye bakın ["Target Encoding Done the Right Way"](https://maxhalford.github.io/blog/target-encoding-done-the-right-way/), bu kodu temel aldığım için.

In [17]:
counts

NameError: name 'counts' is not defined

In [15]:
def calc_smooth_mean(df1, df2, cat_name, target, weight):
    # Global ortalamayı hesaplayın
    mean = df[target].mean()

    # Değerlerin sayısını ve her grubun ortalamasını hesaplayın
    agg = df.groupby(cat_name)[target].agg(['count', 'mean'])
    counts = agg['count']
    means = agg['mean']

    # "Düzeltilmiş" araçları hesaplayın
    smooth = (counts * means + weight * mean) / (counts + weight)

    # Her bir değeri uygun düzleştirilmiş ortalamayla değiştirin
    if df2 is None:
        return df1[cat_name].map(smooth)
    else:
        return df1[cat_name].map(smooth),df2[cat_name].map(smooth.to_dict())

Aşağıdaki kod bu iki kategoriyi kodlamaktadır.

In [19]:
WEIGHT = 5
df['cat_0_enc'] = calc_smooth_mean(df1=df, df2=None, 
    cat_name='cat_0', target='y', weight=WEIGHT)
df['cat_1_enc'] = calc_smooth_mean(df1=df, df2=None, 
    cat_name='cat_1', target='y', weight=WEIGHT)

df.tail()

Unnamed: 0,cont_9,cat_0,cat_1,y,cat_0_enc,cat_1_enc
5,85.913749,cat,wolf,1,0.35,0.535714
6,66.609021,cat,wolf,0,0.35,0.535714
7,54.116221,cat,wolf,0,0.35,0.535714
8,2.901382,cat,wolf,0,0.35,0.535714
9,73.37483,cat,tiger,0,0.35,0.416667


### Encoding Categorical Values as Ordinal

Tipik olarak kategorikler kukla değişkenler olarak kodlanacaktır. Bununla birlikte, kategorikleri sayısal hale dönüştürmek için başka teknikler de olabilir. Kategoriklere herhangi bir emir verildiğinde, bir numara kullanılmalıdır. Bir bireyin mevcut eğitim seviyesini tanımlayan bir kategorikiniz olup olmadığını düşünün.

* Kindergarten (0)
* First Grade (1)
* Second Grade (2)
* Third Grade (3)
* Fourth Grade (4)
* Fifth Grade (5)
* Sixth Grade (6)
* Seventh Grade (7)
* Eighth Grade (8)
* High School Freshman (9)
* High School Sophomore (10)
* High School Junior (11)
* High School Senior (12)
* College Freshman (13)
* College Sophomore (14)
* College Junior (15)
* College Senior (16)
* Graduate Student (17)
* PhD Candidate (18)
* Doctorate (19)
* Post Doctorate (20)

Yukarıdaki listede 21 seviye vardır. Bu 21 dummy variable alacaktır. Ancak, bunu sadece dummy'lerle kodlamak sipariş bilgilerini kaybedecektir. Belki de en kolay yaklaşım, onları basitçe numaralandırmak ve kategoriye yukarıdaki parantez içindeki değere eşit olan tek bir sayı atamaktır. Ancak daha da iyisini yapabiliriz. Yüksek lisans öğrencisi muhtemelen bir yıldan fazladır, bu nedenle birden fazla değeri artırabilirsiniz.