### Kategorik Değişken Kırılımında Değer Atama

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

In [3]:
def load():
    data = pd.read_csv("titanic.csv")
    return data

df = load()
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


* AMAÇ: Veri setinde varolan bazı kategorik değişkenleri kırılım olarak ele almak ve bu kırılımlar neticesindeki değerleri ilgili değerlere atamak.

In [4]:
# Yaşın cinsiyete göre ortalaması:
df.groupby("Sex")["Age"].mean()

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

In [5]:
# Yaşın ortalaması:
df["Age"].mean()

29.69911764705882

* DİKKAT: Bütün eksikliklere 29 değerini atamak yerine sanki cinsiyete göre bir kırsak yani eğer kadınlarda eksiklik varsa bunlara farklı erkeklerde eksiklik varsa bunlara farklı bir değer atasak daha doğru olmaz mı? Evet daha doğru olacaktır. İşte buradaki temel motivasyonumuz da bu, bunu programatk şekilde nasıl yapabileceğimiz sorusunu da hemen ele alalım: Yaş değişkenini cinsiyete göre veri setini groupby'a al ve daha sonra yaş değişkenini seçerek yaş değişkeninin ortalamasını aynı groupby kırılımında ilgili yerlere yaz diyerek dolduruyoruz. 
* DİKKAT: fillna bölümüne kadar ki bölümü biliyoruz... Peki bundan sonra ne oluyor? Diyoruz ki yaştaki kadınlara yönelik eksiklikleri dolu olan kadınlardan alalım, erkeklerin eksikliklerini ise dolu olan erkeklerden alalım. Dolayısıyla bunun içinönce kadın ve errkeğe göre groupby'a alıp yaş ortalamasını hesaplamalıyız, bu yaş ortalamasına göre de eksiklik gördüğümüz yerleri cinsiyet kırılımında dolduralım. İşte bunu yapmanın yolu aşağıdaki koddur:

In [6]:
df["Age"].fillna(df.groupby("Sex")["Age"].transform("mean")).isnull().sum()

0

In [7]:
# Açık şekilde yazarsak:
# Yaş değişkeninde eksiklik olup cinsiyeti kadın olanları getirelim:
df.loc[(df["Age"].isnull()) & (df["Sex"] == "female")]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C
32,33,1,3,"Glynn, Miss. Mary Agatha",female,,0,0,335677,7.75,,Q
47,48,1,3,"O'Driscoll, Miss. Bridget",female,,0,0,14311,7.75,,Q
82,83,1,3,"McDermott, Miss. Brigdet Delia",female,,0,0,330932,7.7875,,Q
109,110,1,3,"Moran, Miss. Bertha",female,,1,0,371110,24.15,,Q
128,129,1,3,"Peter, Miss. Anna",female,,1,1,2668,22.3583,F E69,C
140,141,0,3,"Boulos, Mrs. Joseph (Sultana)",female,,0,2,2678,15.2458,,C
166,167,1,1,"Chibnall, Mrs. (Edith Martha Bowerman)",female,,0,1,113505,55.0,E33,S


In [8]:
# groupby kırılımında uygun değerleri uygun yerlere atamaya çalışıyorduk...
# Aşağıdaki kod bir kenarda dursun:
df.groupby("Sex")["Age"].mean()

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

In [9]:
# Şimdi bu groupby'a göre ortalama işleminin kadınlar için olan bölümüne erişmek istersek ne yapmalıyız?
df.groupby("Sex")["Age"].mean()["female"]

27.915708812260537

In [10]:
# Kadınlar için atama işlemi yaptık:
df.loc[(df["Age"].isnull()) & (df["Sex"] == "female"), "Age"] = df.groupby("Sex")["Age"].mean()["female"]

In [11]:
# Erkekler için atama işlemi:
df.loc[(df["Age"].isnull()) & (df["Sex"] == "male"), "Age"] = df.groupby("Sex")["Age"].mean()["male"]

In [12]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64