In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings(action="ignore")

titanic_df = pd.read_csv("titanic_train.csv")
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [12]:
titanic_df.dropna(inplace=True)
titanic_df["Sex"] = titanic_df.Sex.replace({'male':0,'female':1})
Y = titanic_df['Survived']
X = titanic_df[['Sex','Age','SibSp','Parch']]
log_reg = LogisticRegression()
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 465)


In [13]:
log_reg.fit(X_train, y_train)

LogisticRegression()

In [16]:
egitim_dogruluk = log_reg.score(X_train, y_train)
test_dogruluk = log_reg.score(X_test, y_test)
print('One-vs-rest', '-'*20, 
      'Modelin eğitim verisindeki doğruluğu : {:.2f}'.format(egitim_dogruluk), 
      'Modelin test verisindeki doğruluğu   : {:.2f}'.format(test_dogruluk), sep='\n')

One-vs-rest
--------------------
Modelin eğitim verisindeki doğruluğu : 0.79
Modelin test verisindeki doğruluğu   : 0.76


In [17]:
log_reg_mnm = LogisticRegression(multi_class='multinomial', solver='lbfgs')
log_reg_mnm.fit(X_train, y_train)
egitim_dogruluk = log_reg_mnm.score(X_train, y_train)
test_dogruluk = log_reg_mnm.score(X_test, y_test)
print('Multinomial (Softmax)', '-'*20, 
      'Modelin eğitim verisindeki doğruluğu : {:.2f}'.format(egitim_dogruluk), 
      'Modelin test verisindeki doğruluğu   : {:.2f}'.format(test_dogruluk), sep='\n')

Multinomial (Softmax)
--------------------
Modelin eğitim verisindeki doğruluğu : 0.79
Modelin test verisindeki doğruluğu   : 0.68


**Softmax ve one-vs-rest sonuçlarına baktığımızda eğitim doğrulukları aynı fakat softmax de test doğruluğu çok düşük. Yani one-vs-rest daha iyi sonuç verdi.**

In [19]:
tahmin_değerleri = np.array([[0,35.0,0,0] , [1,38.0,1,0]])
print(log_reg.predict(tahmin_değerleri))

[0 1]


**Özellik ekleyerek tekrar bakalım.**

In [21]:
titanic_df.Embarked.unique()

array(['C', 'S', 'Q'], dtype=object)

In [22]:
titanic_df.dropna(inplace=True)
titanic_df["Sex"] = titanic_df.Sex.replace({'male':0,'female':1})
titanic_df["Embarked"] = titanic_df.Embarked.replace({'C':0,'S':1,'Q':2})
Y = titanic_df['Survived']
X = titanic_df[['Sex','Age','SibSp','Parch','Embarked','Fare']]
log_reg = LogisticRegression()
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 465)

In [23]:
log_reg.fit(X_train, y_train)

LogisticRegression()

In [24]:
egitim_dogruluk = log_reg.score(X_train, y_train)
test_dogruluk = log_reg.score(X_test, y_test)
print('One-vs-rest', '-'*20, 
      'Modelin eğitim verisindeki doğruluğu : {:.2f}'.format(egitim_dogruluk), 
      'Modelin test verisindeki doğruluğu   : {:.2f}'.format(test_dogruluk), sep='\n')

One-vs-rest
--------------------
Modelin eğitim verisindeki doğruluğu : 0.78
Modelin test verisindeki doğruluğu   : 0.70


In [25]:
log_reg_mnm = LogisticRegression(multi_class='multinomial', solver='lbfgs')
log_reg_mnm.fit(X_train, y_train)
egitim_dogruluk = log_reg_mnm.score(X_train, y_train)
test_dogruluk = log_reg_mnm.score(X_test, y_test)
print('Multinomial (Softmax)', '-'*20, 
      'Modelin eğitim verisindeki doğruluğu : {:.2f}'.format(egitim_dogruluk), 
      'Modelin test verisindeki doğruluğu   : {:.2f}'.format(test_dogruluk), sep='\n')

Multinomial (Softmax)
--------------------
Modelin eğitim verisindeki doğruluğu : 0.77
Modelin test verisindeki doğruluğu   : 0.68


**Özellikler eklenince modelin performansının düştüğü gözlemlendi.** **Şimdi de özellik çıkartalım.**

In [38]:
titanic_df.dropna(inplace=True)
titanic_df["Sex"] = titanic_df.Sex.replace({'male':0,'female':1})
Y = titanic_df['Survived']
X = titanic_df[['Sex','Age','SibSp']]
log_reg = LogisticRegression()
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 465)

In [39]:
log_reg.fit(X_train, y_train)

LogisticRegression()

In [40]:
egitim_dogruluk = log_reg.score(X_train, y_train)
test_dogruluk = log_reg.score(X_test, y_test)
print('One-vs-rest', '-'*20, 
      'Modelin eğitim verisindeki doğruluğu : {:.2f}'.format(egitim_dogruluk), 
      'Modelin test verisindeki doğruluğu   : {:.2f}'.format(test_dogruluk), sep='\n')

One-vs-rest
--------------------
Modelin eğitim verisindeki doğruluğu : 0.79
Modelin test verisindeki doğruluğu   : 0.73


In [36]:
log_reg_mnm = LogisticRegression(multi_class='multinomial', solver='lbfgs')
log_reg_mnm.fit(X_train, y_train)
egitim_dogruluk = log_reg_mnm.score(X_train, y_train)
test_dogruluk = log_reg_mnm.score(X_test, y_test)
print('Multinomial (Softmax)', '-'*20, 
      'Modelin eğitim verisindeki doğruluğu : {:.2f}'.format(egitim_dogruluk), 
      'Modelin test verisindeki doğruluğu   : {:.2f}'.format(test_dogruluk), sep='\n')

Multinomial (Softmax)
--------------------
Modelin eğitim verisindeki doğruluğu : 0.79
Modelin test verisindeki doğruluğu   : 0.73


**İlk modelin hepsinden daha iyi olduğu gözlemlendi.**

-------------------------------------

## Lojistik Regresyon'un avantaj ve dezavantajlarını araştırın.

AVANTAJLARI
1) Lojistik regresyon modeli yalnızca bir sınıflandırma modeli olarak hareket etmekle kalmaz, aynı zamanda olasılıklar da verir. Bu, yalnızca son sınıflandırmayı sağlayabilecekleri diğer modellere göre büyük bir avantajdır. 

2) Lojistik Regresyon, bir tahmin edicinin (katsayı boyutu) ne kadar alakalı olduğuna dair bir ölçü vermekle kalmaz, aynı zamanda onun ilişki yönünü de (pozitif veya negatif) verir. Lojistik regresyonun daha kolay uygulanması, yorumlanması ve eğitilmesinin çok verimli olduğunu görüyoruz.

3) Lojistik Regresyon, veri kümesi doğrusal olarak ayrılabilir özelliklere sahip olduğunda çok verimli olduğunu kanıtlar.

4) Yeterli eğitim örneklerine sahip düşük boyutlu bir veri setinde, lojistik regresyon aşırı uyuma daha az eğilimlidir.

DEZAVANTAJLARI

1) Lojistik gerileme, tam ayrılıktan zarar görebilir. İki sınıfı mükemmel şekilde ayıran bir özellik varsa, lojistik regresyon modeli artık eğitilemez. Bunun nedeni, bu özelliğin ağırlığının yakınsamamasıdır. Bu gerçekten biraz talihsiz bir durum çünkü böyle bir özellik gerçekten çok kullanışlıdır.

2) Lojistik regresyon aşırı uyuma daha az meyillidir, ancak yüksek boyutlu veri kümelerine aşırı sığabilir.

3) karmaşık ilişkiyi lojistik regresyon kullanarak yakalamak zor . Sinir Ağları gibi daha güçlü ve karmaşık algoritmalar, bu algoritmadan kolayca daha iyi performans gösterebilir.