# PANDAS İLE VERİ ANALİZİ

## Pandas Nedir?

Pandas, veri analizini daha verimli bir şekilde gerçekleştirmeye yardımcı olan çeşitli araçlar sunan çok popüler bir açık kaynaklı Python kitaplığıdır. Pandas paketi esas olarak veri temizleme, işleme ve dönüştürme gibi veri ön işleme amaçları için kullanılır. Bu nedenle, veri bilimcileri ve analistler için çok kullanışlı bir araçtır.

- NumPy kütüphanesi üzerine inşa edilmiştir.

- Veri manipülasyonu veya veri analizi dendiğinde akla ilk gelen Python kütüphanelerinden birisidir.

- Öncelikle ekonometrik ve finansal işlemleri gerçekleştirmek için ortaya çıkmıştır. Daha sonra veri analitiğinde en çok kullanılan kütüphane konumuna gelmiştir.

- Birçok farklı kaynaktan veri okuma yeteneğine sahiptir.

## Pandas Serileri vs Pandas DataFrame

- *Pandas serileri* ve *Pandas dataframe* en yaygın kullanılan Pandas veri yapılarıdır. Her ikisi de **indeks bilgisi** barındırır.

- Pandas serileri **tek boyutlu**, Pandas dataframe ise **çok boyutlu** bir veri tipidir.

- Pandas serileri **homojen**dir; elemanları aynı veri türündedir. Pandas dataframe ise **heterojen**dir; elemanları farklı veri türlerinde olabilir.

- Pandas serilerinin **boyutu** oluşturulduktan sonra **değiştirilemez**. Pandas dataframeninde ise öyle bir kısıtlama yoktur; mevcut bir dataframedeki **elemanları silebilir** ya da **yeni elemanlar ekleyebilirsiniz**.

### Örnek:

In [7]:
import pandas as pd

#Bir pandas serisi oluşturup bir değişkene atayalım
s = pd.Series([3, 7, 4, 12, 45])
s

0     3
1     7
2     4
3    12
4    45
dtype: int64

In [8]:
#Serinin veri türüne bakalım
type(s)

pandas.core.series.Series

In [10]:
#Serimizin index bilgisini görelim (start indexi dahil, stop dahil değildir.)
s.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
#Değerlerin veri türünü görmek için
s.dtype

dtype('int64')

In [13]:
#Eleman sayısı içinse,
s.size

5

In [14]:
#Boyut bilgisini görelim (Hatırlatma: Pandas serileri tek boyutludur.)
s.ndim

1

In [15]:
#Değerlerin kendisine ulaşmak için
s.values

array([ 3,  7,  4, 12, 45], dtype=int64)

**UYARI:** _s.values_ metodu Pandas serisinin yalnızca değerlerini (indeksler yok) döndüreceği için tip sorgulaması yaptığımızda _Numpy array_ görürüz.

In [17]:
type(s.values)

numpy.ndarray

In [19]:
#Serinin ilk 3 (argüman yazmazsak 5) elemanını görmek için
s.head(3)

0    3
1    7
2    4
dtype: int64

In [20]:
#Serinin son 2 (argüman yazmazsak 5) elemanını görmek için
s.tail(2)

3    12
4    45
dtype: int64

## Veri Okuma

Pandas csv, txt, excel gibi birçok dosya formatını okuyabilir.

**Örnek:** Bir csv dosyasındaki veriyi çekelim. Boyut birden fazla olacağından seri değil dataframe kullanmalıyız.

In [12]:
import pandas as pd

#csv dosyasını okuyalım ve df adında bir dataframe'e atayalım
df = pd.read_csv("datasets/advertising.csv")

#Okunan dosyayı tablo şeklinde görelim (satır sayısı fazla old. yalnızca ilk ve son 5 satırını gösterir)
df

Unnamed: 0,TV,radio,newspaper,sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9
...,...,...,...,...
196,38.2,3.7,13.8,7.6
197,94.2,4.9,8.1,9.7
198,177.0,9.3,6.4,12.8
199,283.6,42.0,66.2,25.5


## Veriye Hızlı Bakış

In [16]:
import seaborn as sns

#Seaborn içerisindeki örnek bir veri setini çalışmamıza dahil edelim
df = sns.load_dataset("titanic")

In [17]:
#Veri setindeki ilk 5 (default) değeri çekelim
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [3]:
#Veri setindeki son 5 (default) değeri çekelim
df.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [4]:
#Data frame'in boyut bilgisini öğrenelim; çıktı: (satır_sayısı, sütun_sayısı)
df.shape

(891, 15)

In [15]:
#Değişkenler ve bunların tipleri gibi bilgilere bakalım
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


**NOT:** dtype (veri tipi) int veya float olanlar sayısal, object veya category olanlarsa kategorik değişkenlerdir.

In [8]:
#Değişken isimlerine ulaşmak için
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [9]:
#İndeks bilgisi için
df.index

RangeIndex(start=0, stop=891, step=1)

In [10]:
#Özet betimsel istatistik bilgilerine ulaşmak için (.T ile daha okunabilir sonuçlar elde ederiz.)
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292



**NOT:** Bir dataframe'den istediğimiz değişkeni seçmek için köşeli parantez kullanırız. Değişken adını tırnak işaretleri arasına aldığımıza dikkat edin.

In [25]:
df["sex"].head()

0      male
1    female
2    female
3    female
4      male
Name: sex, dtype: object

In [18]:
#Kategorik bir değişkende her kategoride kaç öğe olduğunu öğrenmek için
df["sex"].value_counts()

male      577
female    314
Name: sex, dtype: int64

## Pandas Seçim İşlemleri

In [25]:
import seaborn as sns

#Seaborn içerisindeki örnek bir veri setini çalışmamıza dahil edelim
df = sns.load_dataset("titanic")

In [26]:
#Veri setindeki ilk 7 değeri çekelim
df.head(7)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True


In [27]:
#İndeks bilgisini öğrenelim
df.index

RangeIndex(start=0, stop=891, step=1)

In [28]:
#Slicing ile istenilen aralıktaki satırları çekelim (son index dahil değil!)
df[5:12]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True


### Satır ve Sütun Silme

In [29]:
#3. indekse sahip satırı değişiklikleri uygulamadan (preview modunda) silelim. axis 0 (veya 'index') satırları, 1 (veya 'columns') ise sütunları temsil eder.
df.drop(3, axis=0).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True


In [30]:
#İndeks listesindeki indekslere sahip satırları değişiklikleri uygulamadan silelim
deleted_indexes = [1,2,4,7]
df.drop(deleted_indexes, axis='index').head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
13,0,3,male,39.0,1,5,31.275,S,Third,man,True,,Southampton,no,False


**Silinme işlemini kalıcı hale getirmek için iki yöntem var:**

In [31]:
# 1) Data frame nesnesine yeniden atama yapmak
df = df.drop("deck", axis=1)

In [32]:
#2) inplace parametresini True değerine set ederek (varsayılan değeri: False)
df.drop("survived", axis=1, inplace=True)
df.head()

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone
0,3,male,22.0,1,0,7.25,S,Third,man,True,Southampton,no,False
1,1,female,38.0,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False
2,3,female,26.0,0,0,7.925,S,Third,woman,False,Southampton,yes,True
3,1,female,35.0,1,0,53.1,S,First,woman,False,Southampton,yes,False
4,3,male,35.0,0,0,8.05,S,Third,man,True,Southampton,no,True


### Bir sütunu seçmenin iki yolu

In [33]:
df["embark_town"].head()    #1

0    Southampton
1      Cherbourg
2    Southampton
3    Southampton
4    Southampton
Name: embark_town, dtype: object

In [34]:
df.embark_town.head()       #2

0    Southampton
1      Cherbourg
2    Southampton
3    Southampton
4    Southampton
Name: embark_town, dtype: object

### Değişkeni indekse çevirmek

In [54]:
#Df mimizi orijinal haline döndürelim
df = sns.load_dataset("titanic")

#index verisini "age" değişkeninin değerlerine dönüştürelim
df.index = df["age"]
df.index

Float64Index([22.0, 38.0, 26.0, 35.0, 35.0,  nan, 54.0,  2.0, 27.0, 14.0,
              ...
              33.0, 22.0, 28.0, 25.0, 39.0, 27.0, 19.0,  nan, 26.0, 32.0],
             dtype='float64', name='age', length=891)

In [55]:
# "age" değişkenini indekse çevirdiğimize göre artık ona ihtiyacımız yok.
# Sildiğimizde veri setimizin nasıl görüneceğine bakalım
df.drop("age", axis=1).head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [56]:
#Şimdi de kalıcı olarak data frame'den silelim
df.drop("age", axis='columns', inplace=True)
df.head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


### İndeksi Değişkene Çevirmek

In [57]:
#İndeks bilgisini şu şekilde alıyorduk:
df.index

Float64Index([22.0, 38.0, 26.0, 35.0, 35.0,  nan, 54.0,  2.0, 27.0, 14.0,
              ...
              33.0, 22.0, 28.0, 25.0, 39.0, 27.0, 19.0,  nan, 26.0, 32.0],
             dtype='float64', name='age', length=891)

**Çevrim işlemi iki şekilde yapılabilir.**

**1.** Dictionary'lere yeni bir key: value ekleme yöntemine benzer. Değişken varsa eski değerler index değerleri ile değiştirilir. Değişken yoksa yeni bir sütun oluşturulup indeks değerleri ona değer olarak atanır.

In [58]:
df["age"] = df.index
df.age

age
22.0    22.0
38.0    38.0
26.0    26.0
35.0    35.0
35.0    35.0
        ... 
27.0    27.0
19.0    19.0
NaN      NaN
26.0    26.0
32.0    32.0
Name: age, Length: 891, dtype: float64

In [59]:
#Tablomuzun mevcut halini hatırlayalım
df.head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False,22.0
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,38.0
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,26.0
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,35.0
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True,35.0


**2.** reset_index() metodu

In [62]:
#Hata almamak için öncelikle "age" değişkenini silelim
df.drop("age", axis=1, inplace=True)

df.reset_index(inplace=True)
df.head()

Unnamed: 0,age,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


## Değişkenler Üzerinde İşlemler

In [21]:
import pandas as pd
import seaborn as sns

#Gösterilecek max sütun sayısını ayarlamak. None yazarsak tümü görünür.
pd.set_option('display.max_columns', None)
df = sns.load_dataset("titanic")

In [23]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [26]:
#Data framemizde "age" adında bir değişken var mı?
"age" in df

True

In [28]:
#Yalnızca istenilen değişkene ait değerleri görmek için
df["embark_town"].head()
#veya
df.embark_town.head()

0    Southampton
1      Cherbourg
2    Southampton
3    Southampton
4    Southampton
Name: embark_town, dtype: object

### **Çok önemli bir konu...**

Bir değişken seçerken sonucu seri ya da dataframe olarak almak isteyebiliriz.

**1. Seri olarak almak için**

In [30]:
df["age"].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [31]:
type(df["age"])

pandas.core.series.Series

**2. Data frame olarak almak için**

In [32]:
df[["age"]].head()

Unnamed: 0,age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0


In [33]:
type(df[["age"]])

pandas.core.frame.DataFrame

**SONUÇ:** Değişken değerlerini seri olarak almak için TEK, dataframe olarak almak içinse ÇİFT köşeli parantez kullanırız.

### Birden fazla değişken seçmek

- Köşeli parantez içerisinde değişken adları listesini yazabiliriz. Tablo şeklinde (2D) görünmesini istediğimiz için dataframe seçimi yaptığımıza dikkat edin.

In [36]:
df[["age", "alive"]].head()

Unnamed: 0,age,alive
0,22.0,no
1,38.0,yes
2,26.0,yes
3,35.0,yes
4,35.0,no


- Daha önce oluşturduğumuz, içerisinde değişken adlarını barındıran bir listenin adını yazabiliriz.

In [38]:
col_names = ["age", "alive", "alone"]
df[col_names].head()

Unnamed: 0,age,alive,alone
0,22.0,no,False
1,38.0,yes,False
2,26.0,yes,True
3,35.0,yes,False
4,35.0,no,True


### Dataframe'e yeni bir değişken eklemek

In [43]:
df["died"] = (1 + df["survived"]) % 2

In [44]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1


In [48]:
df["age3"] = df["age"] / 3

In [49]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died,age3
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1,7.333333
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0,12.666667
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0,8.666667
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0,11.666667
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1,11.666667


### Değişken Silme İşlemleri

In [50]:
#Son eklediğimiz değişkeni silelim
df.drop("age3", axis=1, inplace=True)

In [51]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1


Birden fazla değişken silmek istersek silinecek değişken adlarını bir listeye eklemeliyiz.

In [58]:
#Önce silmek için bir kaç değişken ekleyelim
df["age3"] = df["age"] / 3
df["age2"] = df["age"] + 2
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died,age3,age2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1,7.333333,24.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0,12.666667,40.0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0,8.666667,28.0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0,11.666667,37.0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1,11.666667,37.0


In [59]:
#Şimdi bir liste oluşturup silme fonksiyonuna argüman olarak ekleyelim
deleted = ["age2", "age3"]
df.drop(deleted, axis=1, inplace=True)
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1


### İstenilen ifadeyi içeren tüm sütunları seçmek

**loc** metodunu kullanabiliriz.

In [61]:
#İlk önce "age" ifadesini içeren iki değişken ekleyelim
df["age3"] = df["age"] / 3
df["age2"] = df["age"] + 2
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died,age3,age2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1,7.333333,24.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0,12.666667,40.0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0,8.666667,28.0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0,11.666667,37.0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1,11.666667,37.0


In [62]:
#Şimdi de içerisinde "age" barındıran tüm değişkenleri seçelim
df.loc[:, df.columns.str.contains("age")].head()

Unnamed: 0,age,age3,age2
0,22.0,7.333333,24.0
1,38.0,12.666667,40.0
2,26.0,8.666667,28.0
3,35.0,11.666667,37.0
4,35.0,11.666667,37.0


In [65]:
#Bu sefer de "age" İÇERMEYEN tüm değişkenleri seçelim
df.loc[:, ~df.columns.str.contains("age")].head()

Unnamed: 0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,died
0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0
2,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0
3,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0
4,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True,1


## Loc & Iloc

- Dataframe üzerinde seçim işlemleri yapmak amacıyla kullanılır.

- loc label, iloc ise indeks bazında seçim yapmamızı sağlar.

### iloc

- Tamsayı bazında seçim yapmamızı sağlar (integer based selection).
- Klasik slicing kullanımı ve mantığı geçerlidir; yani, verilen aralıkta ilk index dahil, son index hariç tutulur.

In [2]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
#0 (inclusive) ile 3 (exclusive) aralığındaki tüm satırları çekelim
df.iloc[:3]    # df[:3] ile eşdeğer

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


In [8]:
#0. satır, 9. sütundaki değeri seç
df.iloc[0,9]

'man'

### loc

- Etiket bazında seçim yapmamızı sağlar (label based selection).
- İster index istersek de değişken adı belirtebiliriz.
- Index kullanımında iloc metodunun aksine her iki sınır da seçime dahil olur.
- loc metodunda indeksler yerine sütun adlarını kullanabiliriz. Hatta bunu yaparken index aralığı belirtmede olduğu gibi iki nokta (:) kullanabiliriz. Böylece bu iki değişken ve aralarındaki tüm değişkenler (sütunlar) seçilmiş olur.

In [12]:
#Benzer işlemleri loc ile yapalım. Bu sefer 3. indekse sahip satırın da dahil edildiğine dikkat edin
df.loc[:3]    # df[:4] ile eşdeğer

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False


In [19]:
#İstediğimiz aralıkta 3 satır ve tek bir sütun seçmek için
df.loc[100:102, "fare"]

100     7.8958
101     7.8958
102    77.2875
Name: fare, dtype: float64

In [20]:
#Bu sefer tek bir sütun değil sütun aralığı çekelim
df.loc[100:102, "who":"embark_town"]

Unnamed: 0,who,adult_male,deck,embark_town
100,woman,False,,Southampton
101,man,True,,Southampton
102,man,True,D,Southampton


In [21]:
#İstediğimiz sütunları tek tek almak için fancy index kullanabiliriz.
col_names = ["sex", "age", "embarked", "alive"]
df.loc[505:510, col_names]

Unnamed: 0,sex,age,embarked,alive
505,male,18.0,C,no
506,female,33.0,S,yes
507,male,,S,yes
508,male,28.0,S,no
509,male,26.0,S,yes
510,male,29.0,Q,yes


## Koşullu Seçim

In [13]:
#Yaşı 50'den büyük olan ilk 5 kişiyi seçelim
df[df["age"] > 50].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
15,1,2,female,55.0,0,0,16.0,S,Second,woman,False,,Southampton,yes,True
33,0,2,male,66.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
54,0,1,male,65.0,0,1,61.9792,C,First,man,True,B,Cherbourg,no,False


In [24]:
#60 yaş üstü kaç kişi var?
df[df["age"] > 60]["age"].count()

22

In [32]:
#Listenin son 5 kadın yolcusunu seçelim
df[df["who"]=="woman"].tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
880,1,2,female,25.0,0,1,26.0,S,Second,woman,False,,Southampton,yes,False
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False


In [33]:
#Yaşı 40'tan küçük olan yolcuların yaş ve sınıf bilgisini alalım (şarta uyan ilk 5 kişi)
df.loc[df["age"] < 40, ["age", "class"]].head()

Unnamed: 0,age,class
0,22.0,Third
1,38.0,First
2,26.0,Third
3,35.0,First
4,35.0,Third


In [16]:
#Yaşı 50'den büyük olan ve "Southampton" dan binen yolcuları seçelim
df.loc[(df["age"] > 50) & (df["embark_town"] == "Southampton"), ["embark_town", "age", "alive"]].head()

Unnamed: 0,embark_town,age,alive
6,Southampton,54.0,no
11,Southampton,58.0,yes
15,Southampton,55.0,yes
33,Southampton,66.0,no
94,Southampton,59.0,no


**DİKKAT:** Birden fazla koşul ifadesi yazacağımız zaman her bir koşulu **parantez** içerisine almamız gerekiyor. Ayrıca mantıksal operatör olarak VE işlemi için **and** değil de **&**, VEYA işlemi için de **or** değil de **|** kullanmamız gerektiğine dikkat edin.

**NOT:** Bir değişkenin değerlerinin frekanslarını (görülme sayılarını) öğrenmek için **value_counts()** metodunu kullanabiliriz.

In [20]:
df["embark_town"].value_counts()

Southampton    644
Cherbourg      168
Queenstown      77
Name: embark_town, dtype: int64

In [12]:
#Dataframe'e çeşitli filtreler uygulayarak bu şekliyle başka bir dataframe nesnesine atayalım
df_new = df.loc[(df["age"] > 50) 
                & (df["sex"] == "male") 
                & ((df["embark_town"] == "Southampton") | (df["embark_town"] == "Queenstown")),
                ["age", "class", "embark_town"]]

In [22]:
df_new["embark_town"].value_counts()

Southampton    35
Queenstown      3
Name: embark_town, dtype: int64

## Unique (Eşsiz) Değer Sayısı

Değişken(ler)in sahip olduğu unique değer sayısını farklı metotlar yardımıyla bulabiliriz.

### value_counts() metodu

Bir önceki konuda işlediğimiz value_counts() metodu, bir veri setinde belirtilen değişkenlerin her bir ayrık değerinin kaç kez tekrarlandığı bilgisini veriyordu. O halde bu ayrık değerlerin toplamda kaç tane olduğunu da bu metodu işe koşarak öğrenebiliriz.
returns the count of all unique values in the specified column.

*Syntax: Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)*

In [17]:
# Tek bir değişkenin eşsiz değer sayısını bulalım
len(list(df['pclass'].value_counts()))

3

In [18]:
# Tüm değişkenler için unique değer sayısını bulalım
for col in df.columns:
    print(col+"\t: " + str(len(list(df[col].value_counts()))))

survived	: 2
pclass	: 3
sex	: 2
age	: 88
sibsp	: 7
parch	: 7
fare	: 248
embarked	: 3
class	: 3
who	: 3
adult_male	: 2
deck	: 7
embark_town	: 3
alive	: 2
alone	: 2


### nunique() metodu

Belirtilen eksendeki (satır ya da sütun) eşsiz değer sayısını döndürür.

*Syntax: Dataframe.nunique (axis=0/1, dropna=True/False)*

In [19]:
# Tek bir değişkenin eşsiz değer sayısını bulalım
df['pclass'].nunique()

3

In [20]:
# Birden fazla değişkenin eşsiz değer sayılarını bulalım
df[['pclass', 'parch']].nunique()

pclass    3
parch     7
dtype: int64

In [21]:
# Tüm değişkenler için unique değer sayısını bulalım
df.nunique()

survived         2
pclass           3
sex              2
age             88
sibsp            7
parch            7
fare           248
embarked         3
class            3
who              3
adult_male       2
deck             7
embark_town      3
alive            2
alone            2
dtype: int64

### Pandas unique() metodu

In [23]:
# Eşsiz değerleri görmek için
pd.unique(df['pclass'])

array([3, 1, 2], dtype=int64)

In [24]:
# Kaç eşsiz değer var?
len(pd.unique(df['pclass']))

3

### set() metodu

Bilindiği üzere set veri türü içerisinde eşsiz değerleri barındırır. Tekrar eden değerleri siler. İşte tam da bu yönünden faydalanarak değişkenlerin eşsiz değerlerini ve sayılarını bulabiliriz.

In [26]:
# Bir değişkende bulunan biricik değerleri görelim
set(df['who'].values)

{'child', 'man', 'woman'}

In [27]:
# Şimdi de kaç adet olduğu bilgisini alalım
len(set(df['pclass'].values))

3

## Toplulaştırma & Gruplama (Aggregation & Grouping)

### Nedir?

**Toplulaştırma**, bir veri yapısında bulunan değerleri bütünsel bir şekilde temsil etmektir. Veri yapısı hakkında özet istatistiksel bilgiler verir.

In [47]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [50]:
#yolcuların yaş ortalamalarını bulmak için
df["age"].mean()

29.69911764705882

Erkeklerin ve kadınların ayrı ayrı yaş ortalamalarını öğrenmek için **groupby()** metodunu kullanabiliriz.

In [52]:
#Cinsiyete göre yaş ortalamalarını bulalım
df.groupby("sex")["age"].mean()

sex
female    27.915709
male      30.726645
Name: age, dtype: float64

Aynı işlemi **agg()** (yani, aggregation) metodu ile de yapabilirdik. Üstelik bu yöntem bir öncekine göre daha fazla seçenek verir ve şiddetle tavsiye edilmektedir.

In [27]:
df.groupby("sex").agg({"age": "mean"})

Unnamed: 0_level_0,age
sex,Unnamed: 1_level_1
female,27.915709
male,30.726645


**NOT:** agg() fonksiyonu bizden temelde iki argüman ister: **agg(değişken, uygulanacak_fonksiyon(lar))** Bu argümanları bir key: value (dictionary) yapısında yazarız. Şayet uygulamak istediğimiz fonksiyonlar birden fazlaysa bu fonksiyonları bir liste yapısında yazabiliriz.

In [54]:
#Şimdi de ortalamanın yanında toplam bilgisini de alalım
df.groupby("sex").agg({"age": ["mean", "sum"]})

Unnamed: 0_level_0,age,age
Unnamed: 0_level_1,mean,sum
sex,Unnamed: 1_level_2,Unnamed: 2_level_2
female,27.915709,7286.0
male,30.726645,13919.17


### Fonksiyonları birden fazla değişkene uygulamak

In [61]:
#Veri setinde cinsiyet bazında yaş ve çıkış limanı değişkenlerinin değerleri üzerinde çeşitli işlemler yapalım.
df.groupby("sex").agg({"age": ["mean", "median", "std"],
                      "embark_town": "count"})

Unnamed: 0_level_0,age,age,age,embark_town
Unnamed: 0_level_1,mean,median,std,count
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,27.915709,27.0,14.110146,312
male,30.726645,29.0,14.678201,577


In [24]:
#Garibanın yüzü gülür mü ^b^
df.groupby("sex").agg({"age": ["mean", "sum"],
                      "survived": "mean"})

Unnamed: 0_level_0,age,age,survived
Unnamed: 0_level_1,mean,sum,mean
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,27.915709,7286.0,0.742038
male,30.726645,13919.17,0.188908


### Birden fazla değişkene göre gruplandırmak

Tahmin edilebileceği gibi değişken adlarını *liste* şeklinde yazarız.

In [28]:
df.groupby(["sex", "embark_town"]).agg({"age": "mean",
                                       "survived": "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,age,survived
sex,embark_town,Unnamed: 2_level_1,Unnamed: 3_level_1
female,Cherbourg,28.344262,0.876712
female,Queenstown,24.291667,0.75
female,Southampton,27.771505,0.689655
male,Cherbourg,32.998841,0.305263
male,Queenstown,30.9375,0.073171
male,Southampton,30.29144,0.174603


In [71]:
#Bir değişken daha ekleyelim, ayrıca her gruptaki kişi sayısını görelim
df.groupby(["sex", "embark_town", "class"]).agg({"age": "mean",
                                                "survived": "mean",
                                                "sex": "count"})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,age,survived,sex
sex,embark_town,class,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,Cherbourg,First,36.052632,0.976744,43
female,Cherbourg,Second,19.142857,1.0,7
female,Cherbourg,Third,14.0625,0.652174,23
female,Queenstown,First,33.0,1.0,1
female,Queenstown,Second,30.0,1.0,2
female,Queenstown,Third,22.85,0.727273,33
female,Southampton,First,32.704545,0.958333,48
female,Southampton,Second,29.719697,0.910448,67
female,Southampton,Third,23.223684,0.375,88
male,Cherbourg,First,40.111111,0.404762,42


## Pivot Table

- **pivot_table()** fonksiyonu bir veri setini hesap tablosu stilinde gösterir.

- Pivot table, groupby işlemlerine benzer şekilde, veri setini kırılımlar bazında değerlendirme ve ilgilendiğimiz özet istatistikleri bu kırılımlar açısından görme imkanı sağlar.

- Pivot table'ın ön tanımlı değeri ortalamadır (**mean**). İstersek **aggfunc** parametresine uygun değeri göndererek başka hesaplamalar yaptırabiliriz.

In [26]:
#pivot_table(fonk_uyg_değişken, satır, sütun)
df.pivot_table("survived", "sex", "embark_town")

embark_town,Cherbourg,Queenstown,Southampton
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.876712,0.75,0.689655
male,0.305263,0.073171,0.174603


In [73]:
#Şimdi ortalama yerine standart sapma bilgisi alalım
df.pivot_table("survived", "sex", "embark_town", aggfunc="std")

embark_town,Cherbourg,Queenstown,Southampton
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.331042,0.439155,0.463778
male,0.462962,0.263652,0.380058


Dilersek satır ve sütunlara birden fazla değişken ekleyebiliriz. Böylece boyut sayısını artırmış oluruz.

In [74]:
df.pivot_table("survived", "sex", ["embarked", "class"])

embarked,C,C,C,Q,Q,Q,S,S,S
class,First,Second,Third,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
female,0.976744,1.0,0.652174,1.0,1.0,0.727273,0.958333,0.910448,0.375
male,0.404762,0.2,0.232558,0.0,0.0,0.076923,0.35443,0.154639,0.128302


### Sayısal değişkeni kategorik değişkene dönüştürmek

Diyelim ki bu tabloya yaş değişkenini de eklemek istiyorum. Ancak şöyle bir sorun var: yaş değişkeni sayısal değerlere sahip. O halde bu tabloda kullanabilmek için öncelikle kategorik değişkene çevirmem gerekir. Bu amaçla **Pandas** kütüphanesinde yaygın bir şekilde kullanılan iki fonksiyon var: **cut()** ve **qcut()**.

Sayısal değişkeni hangi kategorilere bölmek istediğimizi biliyorsak **cut()**, bilmiyorsak ve çeyreklik dilimlere göre bölmek istiyorsak **qcut()** (*quick-cut*) fonksiyonunu kullanırız.

Birçok senaryoda sayısal değişkenimizin değerlerini hangi aralıklara bölmek istediğimizi bilmeyeceğimiz ve bu işlemin otomatik yapılmasını isteyeceğimiz için **qcut()** fonksiyonunu kullanırız.

Şimdi yaş değişkeninin değerlerini 5 kategoriye (aralığa) bölelim:

In [29]:
#pd.cut(kullanılacak_değişken, aralıklar)
df["age_range"] = pd.cut(df["age"], [0, 10, 18, 25, 40, 90])
df.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_range
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,"(18.0, 25.0]"
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,"(25.0, 40.0]"
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,"(25.0, 40.0]"
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,"(25.0, 40.0]"
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,"(25.0, 40.0]"
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,"(40.0, 90.0]"
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,"(0.0, 10.0]"
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,"(25.0, 40.0]"
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,"(10.0, 18.0]"


Şimdi oluşturduğumuz bu yeni kategorik değişkeni pivot table'da sütun olarak kullanalım:

In [80]:
df.pivot_table("survived", "sex", "age_range")

age_range,"(0, 10]","(10, 18]","(18, 25]","(25, 40]","(40, 90]"
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,0.612903,0.72973,0.759259,0.802198,0.770833
male,0.575758,0.131579,0.12037,0.22093,0.176471


In [81]:
#Daha fazla sınıflandırma kriteri ekleyelim
df.pivot_table("survived", ["sex", "class"], "age_range")

Unnamed: 0_level_0,age_range,"(0, 10]","(10, 18]","(18, 25]","(25, 40]","(40, 90]"
sex,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,First,0.0,1.0,0.941176,1.0,0.961538
female,Second,1.0,1.0,0.933333,0.90625,0.846154
female,Third,0.5,0.52381,0.5,0.464286,0.111111
male,First,1.0,0.666667,0.333333,0.513514,0.28
male,Second,1.0,0.0,0.047619,0.071429,0.095238
male,Third,0.363636,0.103448,0.115385,0.172043,0.064516


**İPUCU:** Çıktının yatay düzlemde max kaç pikselde gösterileceğini, yani tablo genişliğini ayarlayabiliriz. Bunun için **pd.set_option("display_width", _value_)** metodunu kullanabiliriz. Örnek: _pd.set_option("display_width", 500)_

### Object türünde değişkeni kategorik değişkene dönüştürmek

- Kategoriler gerçekten bir dinamik numaralandırma biçimidir.
- Olası değerlerin aralığı sabit ve sonlu olduğunda çok faydalıdır.

In [29]:
# Tüm değişkenlerin türlerine bakalım
df.dtypes

survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

In [30]:
# Şimdi de object türünde olan 'embarked' değişkeninin veri türünü kategorik yapalım
df.embarked = df.embarked.astype('category')

In [31]:
# Bakalım değiştirebilmiş miyiz,
df['embarked'].dtype

CategoricalDtype(categories=['C', 'Q', 'S'], ordered=False)

## Apply ve Lambda

- **apply()** satır ve sütunlarda otomatik olarak bir fonksiyonu çalıştırmak için kullanılır.

- **lambda** bir fonksiyon tanımlama şeklidir. Normal fonksiyonlardan farkı kullan-at mantığında olmasıdır.

In [31]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset("titanic")

Örneğin, bir değişkenin tüm değerlerini değiştirmek istediğimizi düşünelim. Bunu birkaç farklı yolla yapabiliriz:

In [32]:
#1
df["age2"] = df["age"] * 2
df["age3"] = df["age"] / 10
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,44.0,2.2
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,76.0,3.8
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,52.0,2.6
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,70.0,3.5
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,70.0,3.5


In [33]:
#2: Döngü kullanarak. Öncelikle sütunları seçebildiğimizi teyit edelim
for col in df.columns:
    if "age" in col:
        print(col)

age
age2
age3


In [34]:
#Şimdi de bu sütunlardaki tüm değerleri 10'a bölüp tekrar atama yapalım
for col in df.columns:
    if "age" in col:
        df[col] /= 10
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,2.2,1,0,7.25,S,Third,man,True,,Southampton,no,False,4.4,0.22
1,1,1,female,3.8,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,7.6,0.38
2,1,3,female,2.6,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,5.2,0.26
3,1,1,female,3.5,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,7.0,0.35
4,0,3,male,3.5,0,0,8.05,S,Third,man,True,,Southampton,no,True,7.0,0.35


Şimdi benzer işlemi **apply** ve **lambda** ile nasıl yapabiliriz, ona bakalım.

In [35]:
#Değişikliklere kaydetmeden sonucu görelim
df[["age", "age2", "age3"]].apply(lambda a: a*10).head()

Unnamed: 0,age,age2,age3
0,22.0,44.0,2.2
1,38.0,76.0,3.8
2,26.0,52.0,2.6
3,35.0,70.0,3.5
4,35.0,70.0,3.5


In [36]:
#Değişken adlarını tek tek yazmak yerine kritere uyanları seçme yoluyla bunu yapalım. Gene değişiklikleri df'ye uygulamıyoruz
df.loc[:, df.columns.str.contains("age")].apply(lambda x: x*10).head()

Unnamed: 0,age,age2,age3
0,22.0,44.0,2.2
1,38.0,76.0,3.8
2,26.0,52.0,2.6
3,35.0,70.0,3.5
4,35.0,70.0,3.5


İşlemleri birazcık karmaşık hale getirelim. "age" içeren tüm sütunlardaki değişkenlerin aritmetik ortalamadan farkını alıp standart sapmaya bölelim ve sonucu yeni değer olarak ekleyelim. *(Gene preview modunda)*

In [124]:
#1) lambda kullanarak
df.loc[:, df.columns.str.contains("age")].apply(lambda p: (p-p.mean()) / p.std()).head()

Unnamed: 0,age,age2,age3
0,-0.530005,-0.530005,-0.530005
1,0.57143,0.57143,0.57143
2,-0.254646,-0.254646,-0.254646
3,0.364911,0.364911,0.364911
4,0.364911,0.364911,0.364911


In [125]:
#2) Kullanıcı tanımlı bir fonksiyon kullanarak
def standard_scaler(col_name):
    return (col_name-col_name.mean()) / col_name.std()

df.loc[:, df.columns.str.contains("age")].apply(standard_scaler).head()

Unnamed: 0,age,age2,age3
0,-0.530005,-0.530005,-0.530005
1,0.57143,0.57143,0.57143
2,-0.254646,-0.254646,-0.254646
3,0.364911,0.364911,0.364911
4,0.364911,0.364911,0.364911


Değişiklikleri dataframe'e yansıtalım:

In [126]:
#Tablomuzun önceki hali
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,2.2,1,0,7.25,S,Third,man,True,,Southampton,no,False,4.4,0.22
1,1,1,female,3.8,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,7.6,0.38
2,1,3,female,2.6,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,5.2,0.26
3,1,1,female,3.5,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,7.0,0.35
4,0,3,male,3.5,0,0,8.05,S,Third,man,True,,Southampton,no,True,7.0,0.35


In [127]:
df.loc[:, df.columns.str.contains("age")] = df.loc[:, df.columns.str.contains("age")].apply(standard_scaler)

Şimdi de dataframe'in güncel halini görelim.

In [128]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,-0.530005,1,0,7.25,S,Third,man,True,,Southampton,no,False,-0.530005,-0.530005
1,1,1,female,0.57143,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0.57143,0.57143
2,1,3,female,-0.254646,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,-0.254646,-0.254646
3,1,1,female,0.364911,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0.364911,0.364911
4,0,3,male,0.364911,0,0,8.05,S,Third,man,True,,Southampton,no,True,0.364911,0.364911


## Birleştirme (Join) işlemleri

İki dataframe'i birleştirmek için kullanılır. Bu amaçla kullanabileceğimiz iki yöntem mevcut:

- **concat()** metodu seri, pratik ve yaygın kullanım alanına sahip bir metottur. _(concatenate: birleştirmek, birbirine bağlamak)_

- Diğer yöntem ise **merge()** metodudur. _(merge: birleş(tir)mek)_

In [38]:
import numpy as np
import pandas as pd

In [39]:
#Öncelikle, rasgele sayılardan oluşan 5x3'lük bir numpy array oluşturalım
m = np.random.randint(1, 30, size=(5,3))

#İlk dataframe'i bu array'ı kullanarak oluşturalım. pd.DataFrame() sıfırdan dataframe oluşturmamızı sağlar.
df1 = pd.DataFrame(m, columns=["var1", "var2", "var3"])
df2 = df1 + 99

In [40]:
df1.head()

Unnamed: 0,var1,var2,var3
0,17,3,11
1,11,3,29
2,8,27,3
3,7,13,16
4,11,12,8


### concat() ile birleştirme

In [41]:
df2.head()

Unnamed: 0,var1,var2,var3
0,116,102,110
1,110,102,128
2,107,126,102
3,106,112,115
4,110,111,107


In [42]:
#Şimdi de bu iki dataframe'i uç uca ekleyelim. Köşeli parantez kullanımına dikkat!
pd.concat([df1, df2])

Unnamed: 0,var1,var2,var3
0,17,3,11
1,11,3,29
2,8,27,3
3,7,13,16
4,11,12,8
0,116,102,110
1,110,102,128
2,107,126,102
3,106,112,115
4,110,111,107


Burada, dikkat edilirse ikinci df eklenirken indeksleri de olduğu gibi geldi. Bu istemediğimiz bir durum. Bunu önlemek için,

In [43]:
pd.concat([df1, df2], ignore_index=1) #1 yerine True da yazabiliriz

Unnamed: 0,var1,var2,var3
0,17,3,11
1,11,3,29
2,8,27,3
3,7,13,16
4,11,12,8
5,116,102,110
6,110,102,128
7,107,126,102
8,106,112,115
9,110,111,107


**ÖNEMLİ:** Alt alta değil de yan yana birleştirme yapmak istersek varsayılan olarak 0 olan **axis** argümanını 1 olarak yazarız (axis=1).

### merge() ile birleştirme

In [150]:
#Öncelikle iki tane dataframe tanımlayalım
df1 = pd.DataFrame({'employees': ['john', 'dennis', 'mark', 'maria'],
                    'group': ['accounting', 'engineering', 'engineering', 'hr']})
df2 = pd.DataFrame({'employees': ['mark', 'john', 'dennis', 'maria'],
                    'start_date': [2010, 2009, 2014, 2019]})

In [151]:
#Şimdi de bunları yan yana birleştirelim
pd.merge(df1, df2)

Unnamed: 0,employees,group,start_date
0,john,accounting,2009
1,dennis,engineering,2014
2,mark,engineering,2010
3,maria,hr,2019


Dikkat edilirse, hangi değişkene göre birleştirme yapacağı bilgisini vermediğimiz halde kendisi her iki dataframe'de de bulunan (ortak) çalışanlar değişkenine göre birleştirdi.

Bunu özellikle belirtmek istersek **on** argümanını set edebiliriz.
**pd.merge(df1, df2, on="employees")**

In [155]:
#Bu birleştirilmiş yapıyı kaybetmemek için bir df nesnesine atayalım
df3 = pd.merge(df1, df2)

In [156]:
#Her birimin müdür bigisini taşıyan bir df tanımlayalım
df4 = pd.DataFrame({'group': ['accounting', 'engineering', 'hr'],
                    'manager': ['Caner', 'Mustafa', 'Berkcan']})

**Amaç:** Her çalışanın müdürünün bilgisine erişmek. _df3_ ve _df4_'ü birleştirmemiz lazım. Her ikisinde ortak olarak **group** değişkeni olduğundan birleştirme yaparken bu değişkeni baz alabiliriz.

In [158]:
df5 = pd.merge(df3, df4, on='group')

In [159]:
#Veeee.. Bingooo!..
df5

Unnamed: 0,employees,group,start_date,manager
0,john,accounting,2009,Caner
1,dennis,engineering,2014,Mustafa
2,mark,engineering,2010,Mustafa
3,maria,hr,2019,Berkcan


## Missing (Eksik) Değerler

Veri setinde eksik değer olması istenmeyen durumlardan birisidir. Eksik değer içeren satırları silmek ise geçerli bir çözüm değildir. Bunun yerine eksik değerleri mod, medyan, ortalama gibi değerlerle doldurmayı tercih edebiliriz.

In [33]:
#Veri setinde hiç eksik değer var mı?
df.isnull().values.any()

True

**HATIRLATMA:** _.values_ dediğimizde bir NumPy array elde ederiz.

In [34]:
#Her bir değişkende kaçar eksik değer var?
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [35]:
#Peki toplamda kaç eksik değer var?
df.isnull().values.sum()

869

### UYGULAMA - I

*deck* değişkenindeki boş değerleri deck değişkenin en çok tekrar eden değeri *(mode)* ile doldurunuz.

In [37]:
# Mevcut halini görelim
df.deck.head(10)

0    NaN
1      C
2    NaN
3      C
4    NaN
5    NaN
6      E
7    NaN
8    NaN
9    NaN
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

In [38]:
# 'deck' değişkeninin değerinin eksik (boş) olduğu satırları ve 'deck' sütununu seçelim
# Ardından bu hücreleri 'deck' değişkeninin modu ile dolduralım
df.loc[df["deck"].isnull(), 'deck'] = df.mode()['deck'][0]

In [39]:
# Bakalım yapabilmiş miyiz
df['deck'].head(10)

0    C
1    C
2    C
3    C
4    C
5    C
6    E
7    C
8    C
9    C
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

### UYGULAMA - II

*age* değişkenindeki boş değerleri age değişkenin medyanı ile doldurunuz.

In [40]:
# Bakalım age değişkeninde hiç eksik değer var mı
df.age.isnull().values.any()

True

In [41]:
# Peki, kaç eksik değer var?
df.age.isnull().sum()

177

In [42]:
# 'age' sütunundaki boş satırları bu değişken değerlerinin medyanı ile dolduralım
df.loc[df['age'].isnull(), 'age'] = df['age'].median()

In [48]:
# #1 KONTROL
df.age.isnull().values.any()

False

In [49]:
# #2 KONTROL
df.age.isnull().sum()

0