#### Kategorik Değişkenler
Kategorik değişkenlerle çalışmanın temel yollarından biri, 0 ve 1 kodlamalarını kullanmaktır. Bu teknikte, her kategorik değişken seviyesi için yeni bir sütun oluşturulur. Bu yaklaşımın avantajları şunları içerir:

* Her seviyenin yanıt üzerinde farklı etkileri olabilme yeteneği.
* Kategorilerin sıralamasını zorlamazsınız.
* Diğer kodlamalara göre sonuçları daha kolay yorumlama yeteneği.
###### Bu yaklaşımın dezavantajları ise modele büyük bir etki grubu eklemenizdir. Büyük sayıda kategorik değişkeniniz veya büyük sayıda seviyesi olan kategorik değişkenleriniz varsa, ancak büyük bir örneklem boyutunuz yoksa, bu değişkenlerin her birinin yanıt değişkeniniz üzerindeki etkisini tahmin edemeyebilirsiniz. Modelinize eklediğiniz her değişken için 10 veri noktası öneren temel kural hâkimdir. Bu, her sütun için 10 satır demektir. Bu makul bir alt sınırdır, ancak örneklem büyüdükçe (temsilci olduğunu varsayarsak), daha iyidir.

Şimdi, modelimize kategorik değişkenler için dummy değişkenleri eklemeyi deneyelim. İyileştirmeyi, yalnızca nicel değişkenleri kullanan orijinal modele karşı karşılaştıracağız.

#### Başlamak için aşağıdaki iki hücreyi çalıştırın."

In [1]:
# Gerekli kütüphaneleri içe aktarın
import numpy as np  # Sayısal hesaplamalar için
import pandas as pd  # Veri çerçeveleriyle çalışmak için
import matplotlib.pyplot as plt  # Grafikler çizmek için
from sklearn.linear_model import LinearRegression  # Doğrusal regresyon modeli için
from sklearn.model_selection import train_test_split  # Veriyi eğitim ve test kümelerine bölmek için
from sklearn.metrics import r2_score, mean_squared_error  # Performans metrikleri için
import test3 as t  # Test dosyasını içe aktar
import seaborn as sns  # Görselleştirmeler için
%matplotlib inline

# Veri setini 'survey_results_public.csv' dosyasından okuyun
df = pd.read_csv('./survey_results_public.csv')

# Veri setinin başlangıçtaki birkaç satırını görüntüle
df.head()

Unnamed: 0,Respondent,Professional,ProgramHobby,Country,University,EmploymentStatus,FormalEducation,MajorUndergrad,HomeRemote,CompanySize,...,StackOverflowMakeMoney,Gender,HighestEducationParents,Race,SurveyLong,QuestionsInteresting,QuestionsConfusing,InterestedAnswers,Salary,ExpectedSalary
0,1,Student,"Yes, both",United States,No,"Not employed, and not looking for work",Secondary school,,,,...,Strongly disagree,Male,High school,White or of European descent,Strongly disagree,Strongly agree,Disagree,Strongly agree,,
1,2,Student,"Yes, both",United Kingdom,"Yes, full-time",Employed part-time,Some college/university study without earning ...,Computer science or software engineering,"More than half, but not all, the time",20 to 99 employees,...,Strongly disagree,Male,A master's degree,White or of European descent,Somewhat agree,Somewhat agree,Disagree,Strongly agree,,37500.0
2,3,Professional developer,"Yes, both",United Kingdom,No,Employed full-time,Bachelor's degree,Computer science or software engineering,"Less than half the time, but at least one day ...","10,000 or more employees",...,Disagree,Male,A professional degree,White or of European descent,Somewhat agree,Agree,Disagree,Agree,113750.0,
3,4,Professional non-developer who sometimes write...,"Yes, both",United States,No,Employed full-time,Doctoral degree,A non-computer-focused engineering discipline,"Less than half the time, but at least one day ...","10,000 or more employees",...,Disagree,Male,A doctoral degree,White or of European descent,Agree,Agree,Somewhat agree,Strongly agree,,
4,5,Professional developer,"Yes, I program as a hobby",Switzerland,No,Employed full-time,Master's degree,Computer science or software engineering,Never,10 to 19 employees,...,,,,,,,,,,


In [4]:
# Yalnızca kategorik sütunları içeren bir dataframe oluşturun.
# Bu kod ile kategorik değişkenler filtrelenir.
cat_df = df.select_dtypes(include=['object']).copy()

# Dataframe kaç adet kategorik sütun olduğunu yazdırırız.
cat_df.shape[1]

147

#### Question 2

**2.** Use **cat_df** and the cells below to fill in the dictionary below the correct value for each statement.

In [4]:
cat_df.isnull().mean()[cat_df.isnull().mean()>0.75].shape[0]

6

In [5]:
cat_df.isnull().mean()[cat_df.isnull().mean()>0.5].shape[0]# Cell for your work here

49

## Örnek Veri tabanı ile çalışma

In [6]:
dummy_var_df = pd.DataFrame({'col1': ['a', 'a', 'b', 'b', 'a', np.nan, 'b', np.nan],
                             'col2': [1, np.nan, 3, np.nan, 5, 6, 7, 8] 
})
                            
dummy_var_df

Unnamed: 0,col1,col2
0,a,1.0
1,a,
2,b,3.0
3,b,
4,a,5.0
5,,6.0
6,b,7.0
7,,8.0


In [7]:
# bu kod satırı col1 kategorik sütunu için 0 1 değişimi yapar.
pd.get_dummies(dummy_var_df['col1'])

Unnamed: 0,a,b
0,1,0
1,1,0
2,0,1
3,0,1
4,1,0
5,0,0
6,0,1
7,0,0


dummy_na ile boş değişkenleri de bir kategori olarak gösterebilirsin

In [8]:
# 'col1' sütunu için üç tane kukla değişken sütunu oluşturun
dummy_cols_df = pd.get_dummies(dummy_var_df['col1'], dummy_na=True)

# Sonucunuza bakın
dummy_cols_df

Unnamed: 0,a,b,nan
0,1,0,0
1,1,0,0
2,0,1,0
3,0,1,0
4,1,0,0
5,0,0,1
6,0,1,0
7,0,0,1


#### Question 5

**5.** We could use either of the above to begin creating an X matrix that would (potentially) allow us to predict better than just the numeric columns we have been using thus far.

First, complete the **create_dummy_df**.  Follow the instructions in the document string to assist as necessary.

In [9]:
# Kategorik sütun isimlerini bir liste olarak alın
cat_cols_lst = cat_df.columns

# Dummy değişken çerçevesi oluşturan bir fonksiyon tanımlayın
def create_dummy_df(df, cat_cols, dummy_na):
    for col in  cat_cols:
        try:
            # Her bir kategorik sütun için kukla değişken ekleyin, orijinal sütunu çıkarın
            df = pd.concat([df.drop(col, axis=1), pd.get_dummies(df[col], prefix=col, prefix_sep='_', drop_first=True, dummy_na=dummy_na)], axis=1)
        except:
            continue
    return df

df.drop(col, axis=1): Orijinal veri çerçevesinden, dönüştürülecek kategorik sütunu (col) çıkarır. axis=1 parametresi, sütunun çıkarılacağını belirtir.

* **pd.get_dummies(df[col], prefix=col, prefix_sep='_', drop_first=True, dummy_na=dummy_na):** Kategorik sütunu kukla değişkenlere dönüştürür. get_dummies fonksiyonu kullanılarak dönüşüm gerçekleştirilir. 
* **prefix** parametresi, dummy değişken sütunlarına ön ek eklemeyi sağlar. 
* **prefix_sep parametresi**, dummy değişken adı ön ekleri ile sütun adı arasına alt çizgi ekler. 
* **drop_first parametresi**, ilk sütunun düşürülmesini sağlar. 
* **dummy_na** parametresi ise eksik değerleri dikkate alan dummy değişken oluşturmayı sağlar.

* **pd.concat([...], axis=1):** İki dataframe'i yan yana birleştirir. Bir tarafta, kategorik sütunu çıkarmış olan orijinal dataframe (df.drop(col, axis=1)) bulunurken, diğer tarafta kukla değişkenleri içeren yeni veri çerçevesi (pd.get_dummies(...)) bulunur. axis=1 parametresi, sütun bazlı birleştirme yapılacağını belirtir.

Sonuç olarak, bu satır, kategorik sütunu kukla değişkenlere dönüştürerek orijinal sütunu çıkartan bir işlem gerçekleştirir. Elde edilen kukla değişkenler, modellemeyi veya analizi daha uygun hale getirebilir.

In [10]:
#Salary sütunundaki na değeri olan satırları siler.
df  = df.dropna(subset=['Salary'], axis=0)

#Kategorik değişken sütunlarının isimlerini cat_df'ye atar.
cat_df = df.select_dtypes(include=['object'])
#Listeye dönüştürür.
cat_cols_lst = cat_df.columns

#Üst satırda oluşturduğun fonksiyonu tüm kategorik değişkenleri dummy versiyonları ile değiştiren satırdır.
df_new = create_dummy_df(df, cat_cols_lst, dummy_na=False) 

#İşe yarayıp yaramadığını kontrol et.
print(df_new.shape)

(5009, 11938)


# Veri analizi
Sonuç olarak modelimizi elde etmek istersek aşağıdaki fonksiyonu **(clean_fit_linear_mod)** yazıp en alt satırda çalıştırırız.

In [16]:
def clean_fit_linear_mod(df, response_col, cat_cols, dummy_na, test_size=.3, rand_state=42):
    '''
    GİRDİ:
    df - İlgili tüm değişkenleri içeren bir DATAFRAME
    response_col - Sütunun adını içeren bir dize, yanıt sütunu adını temsil eder
    cat_cols - Kategorik sütun adlarını içeren bir dize listesi
    dummy_na - Kategorik sütunların NA değerlerini kukla değişkenlere dönüştürüp dönüştürmeyeceğini belirten bir Bool değeri
    test_size - [0,1] aralığında bir kesir, verilerin ne kadarının test veri kümesinde olması gerektiğini belirtir
    rand_state - Veriyi eğitim ve test olarak bölmek için sağlanan bir tamsayı, rastgele durumu belirler
    
    ÇIKIŞ:
    test_score - Float - Test verisi üzerindeki r2 skoru
    train_score - Float - Eğitim verisi üzerindeki r2 skoru
    lm_model - sklearn'den model nesnesi
    X_train, X_test, y_train, y_test - En iyi model için kullanılan sklearn train test ayrımından gelen çıktılar
    
    Fonksiyonunuzun yaptıkları:
    1. Eksik yanıt değerlerine sahip satırları çıkarır.
    2. Tüm değerleri NaN olan sütunları çıkarır.
    3. Kategorik sütunları kukla değişkenlere dönüştürmek için create_dummy_df fonksiyonunu kullanır.
    4. Eksik değerler için sütun ortalamasını doldurur.
    5. Verilerinizi X matrisi ve yanıt vektörü y olarak ayırır.
    6. Eğitim ve test veri setleri oluşturur.
    7. Normalleştirilmiş veri ile bir LinearRegression modeli oluşturur.
    8. Modelinizi eğitim verisine uydurur.
    9. Eğitim verisi ve test verisi için yanıtı tahmin eder.
    10. Eğitim ve test verileri için rsquared değerini elde eder.
    '''

    #Drop the rows with missing response values
    df  = df.dropna(subset=[response_col], axis=0)

    #Drop columns with all NaN values
    df = df.dropna(how='all', axis=1)

    #Dummy categorical variables
    df = create_dummy_df(df, cat_cols, dummy_na)

    # Mean function
    fill_mean = lambda col: col.fillna(col.mean())
    # Fill the mean
    df = df.apply(fill_mean, axis=0)

    #Split into explanatory and response variables
    X = df.drop(response_col, axis=1)
    y = df[response_col]

    #Split into train and test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=rand_state)

    lm_model = LinearRegression(normalize=True) # Instantiate
    lm_model.fit(X_train, y_train) #Fit

    #Predict using your model
    y_test_preds = lm_model.predict(X_test)
    y_train_preds = lm_model.predict(X_train)

    #Score using your model
    test_score = r2_score(y_test, y_test_preds)
    train_score = r2_score(y_train, y_train_preds)

    return test_score, train_score, lm_model, X_train, X_test, y_train, y_test


#Test your function with the above dataset
test_score, train_score, lm_model, X_train, X_test, y_train, y_test = clean_fit_linear_mod(df_new, 'Salary', cat_cols_lst, dummy_na=False)

In [17]:
#Print training and testing score
print("The rsquared on the training data was {}.  The rsquared on the test data was {}.".format(train_score, test_score))

The rsquared on the training data was 1.0.  The rsquared on the test data was 0.45302723304174586.


### BU ÖRNEKTE YAŞANAN TAM OLARAK OVERFITTING