# PANDAS

- Pandas Series
- Veri Okuma (Reading Data)
- Veriye Hızlı Bakış (Quick Look at Data)
- Pandas'ta Seçim İşlemleri (Selection in Pandas)
- Toplulaştırma ve Gruplama (Aggregation & Grouping)
- Apply ve Lambda
- Birleştirme (Join) İşlemleri

----

## Pandas Series

Veri manipülasyonu ve analizi için tasarlanmış güçlü bir kütüphanedir. Pandas, özellikle tablo benzeri veri yapılarıyla (DataFrame) çalışmak için tasarlanmıştır. Veri analizi, veri temizleme, veri keşfi ve veri manipülasyonu gibi çeşitli görevlerde kullanılmaktadır.

Pandas'ın temel bileşenleri şunlardır:

1. **DataFrame:** Pandas'ın en önemli veri yapısı olan DataFrame, iki boyutlu bir tablo olarak düşünülebilir. Satırlar ve sütunlar içeren etiketli bir veri yapısıdır. Veritabanlarındaki tablolara veya Excel elektronik tablolarına benzer.

2. **Series:** DataFrame'in temel veri yapısı olan Series, tek boyutlu bir diziyi temsil eder. Her bir eleman, bir etiketle birleştirilmiş bir değeri içerir. Pandas DataFrame'in sütunları, aslında birer Series olarak düşünülebilir.

3. **Veri İndeksleme ve Seçme:** Pandas, verileri indeksleme ve seçme konusunda esnek bir yapı sunar. Sütunlar, satırlar veya belirli koşullara göre veri seçme işlemleri kolayca gerçekleştirilebilir.

4. **Veri Temizleme:** Pandas, eksik verilerle başa çıkmak, veri dönüştürmek ve çeşitli veri temizleme işlemleri yapmak için fonksiyonlar sunar. Bu, veri setinin daha tutarlı ve analiz için hazır olmasını sağlar.

5. **Gruplama ve Toplulaştırma:** Pandas, veriyi belirli bir kritere göre gruplamak ve gruplar üzerinde toplulaştırma işlemleri yapmak için olanak tanıyan güçlü bir gruplama aracına sahiptir.

6. **Veri İşlemleri:** Pandas, matematiksel ve istatistiksel işlemleri kolayca gerçekleştirebileceğiniz geniş bir araç seti sunar. Ayrıca, veri setlerinde dönüşümler ve manipülasyonlar yapmak için çeşitli fonksiyonlar içerir.

Pandas, genellikle NumPy, Matplotlib ve SciPy gibi diğer veri bilimi ve bilimsel hesaplama kütüphaneleriyle birlikte kullanılarak Python tabanlı veri bilimi projelerinde yaygın olarak tercih edilir.

In [1]:
import pandas as pd

# Pandas Serisi oluşturma
s = pd.Series([10, 77, 12, 4, 5])
s

0    10
1    77
2    12
3     4
4     5
dtype: int64

In [2]:
# Seri tipini kontrol etme
type(s)

pandas.core.series.Series

In [3]:
# Serinin indekslerini kontrol etme
s.index

RangeIndex(start=0, stop=5, step=1)

In [4]:
# Serinin veri tipini kontrol etme
s.dtype

dtype('int64')

In [5]:
# Serinin eleman sayısını kontrol etme
s.size

5

In [6]:
# Serinin boyutunu kontrol etme
s.ndim

1

In [7]:
# Serinin değerlerini kontrol etme
s.values

array([10, 77, 12,  4,  5], dtype=int64)

In [8]:
# Serinin değerlerinin veri tipini kontrol etme
type(s.values)

numpy.ndarray

In [9]:
# Serinin ilk 3 elemanını gösterme
s.head(3)

0    10
1    77
2    12
dtype: int64

In [10]:
# Serinin son 3 elemanını gösterme
s.tail(3)

2    12
3     4
4     5
dtype: int64

## Veri Okuma (Reading Data)

Pandas kütüphanesini kullanarak bir CSV dosyasını okur ve bir DataFrame'e yükler.

- `pd.read_csv("datasets/advertising.csv")`: "advertising.csv" adlı CSV dosyasını okur ve bir DataFrame'e yükler. `datasets` klasörü içinde bulunması varsayılmıştır.
- `df.head()`: DataFrame'in ilk 5 satırını gösterir. `head()` fonksiyonunun içine bir sayı verilerek, o kadar satır gösterilebilir. Varsayılan olarak, ilk 5 satır gösterilir.


In [11]:
import pandas as pd

# "advertising.csv" adlı CSV dosyasını okuma ve bir DataFrame'e yükleme
df = pd.read_csv("datasets/advertising.csv")

# DataFrame'in ilk 5 satırını gösterme
df.head()

Unnamed: 0,TV,radio,newspaper,sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


## Veriye Hızlı Bakış (Quick Look at Data)

In [12]:
import pandas as pd
import seaborn as sns

# "titanic" veri setini yükleme
df = sns.load_dataset("titanic")
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [13]:
# DataFrame'in ilk 5 satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [14]:
# DataFrame'in son 5 satırını gösterme
df.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [15]:
# DataFrame'in şeklini (satır ve sütun sayısı) kontrol etme
df.shape

(891, 15)

In [16]:
# DataFrame hakkında genel bilgileri kontrol etme
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [17]:
# DataFrame'in sütun isimlerini kontrol etme
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [18]:
# DataFrame'in indeksini kontrol etme
df.index

RangeIndex(start=0, stop=891, step=1)

In [19]:
# DataFrame'in betimsel istatistiklerini gösterme ve transpozunu alma
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [20]:
# DataFrame'deki herhangi bir hücrenin eksik (NaN) olup olmadığını kontrol etme
df.isnull().values.any()

True

In [21]:
# Her sütundaki eksik değer sayılarını kontrol etme
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [22]:
# "sex" sütununu kontrol etme ve ilk 5 değeri gösterme
df["sex"].head()

0      male
1    female
2    female
3    female
4      male
Name: sex, dtype: object

In [23]:
# "sex" sütunundaki değerlerin sayısını kontrol etme
df["sex"].value_counts()

sex
male      577
female    314
Name: count, dtype: int64

## Pandas'ta Seçim İşlemleri (Selection in Pandas)

Bu kod bloğu, "titanic" veri setini yükleyen bir Pandas DataFrame oluşturur ve DataFrame üzerinde indeksleme ve satır silme işlemlerini gösterir. 

In [24]:
import pandas as pd
import seaborn as sns

# "titanic" veri setini yükleme
df = sns.load_dataset("titanic")
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [25]:
# DataFrame'in ilk 5 satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [26]:
# DataFrame'in indeksini kontrol etme
df.index

RangeIndex(start=0, stop=891, step=1)

In [27]:
# Belirli indeks aralığını seçme
df[0:13]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [28]:
# Belirli indeksi içeren satırı silme (indeks: 0)
df.drop(0, axis=0).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True


In [29]:
# Belirli indeks listesini içeren satırları silme
delete_indexes = [1, 3, 5, 7]
df.drop(delete_indexes, axis=0).head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
13,0,3,male,39.0,1,5,31.275,S,Third,man,True,,Southampton,no,False


In [30]:
# inplace parametresi ile DataFrame üzerine değişiklikleri uygulama
# df.drop(delete_indexes, axis=0, inplace=True)

## Değişkeni Indexe Çevirmek

Bu kod bloğu, "titanic" veri setini yükleyen bir Pandas DataFrame oluşturur ve DataFrame üzerinde sütun seçme, indeks değiştirme ve sütun silme işlemlerini gösterir. İşte bu kodun açıklamalarla birlikte anlatımı:


In [31]:
# "age" sütununu seçme
df["age"].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [32]:
df.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [33]:
# DataFrame'in indeksini "age" sütunu olarak değiştirme
df.index = df["age"]
df.head()

Unnamed: 0_level_0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
22.0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
38.0,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
26.0,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
35.0,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
35.0,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [34]:
# "age" sütununu silme (geçici olarak)
df.drop("age", axis=1).head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [35]:
# "age" sütununu kalıcı olarak silme
# inplace=True olduğundan dolayı kalıcı olarak değiştirir.
df.drop("age", axis=1, inplace=True)

In [36]:
df.head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [37]:
# inplace parametresi ile DataFrame üzerine değişiklikleri uygulama
# df.drop("age", axis=1, inplace=True)

## Indexi Değişkene Çevirmek

In [38]:
# DataFrame'in indeksini kontrol etme
df.index

Index([22.0, 38.0, 26.0, 35.0, 35.0,  nan, 54.0,  2.0, 27.0, 14.0,
       ...
       33.0, 22.0, 28.0, 25.0, 39.0, 27.0, 19.0,  nan, 26.0, 32.0],
      dtype='float64', name='age', length=891)

In [39]:
# "age" sütununu indekse eşitleme
df["age"] = df.index
df.head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False,22.0
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,38.0
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,26.0
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,35.0
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True,35.0


In [40]:
# "age" sütununu kalıcı olarak silme
df.drop("age", axis=1, inplace=True)
df.head()

Unnamed: 0_level_0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [41]:
# DataFrame'i indeksi sıfırlayarak görüntüleme (geçici olarak)
df.reset_index().head()

Unnamed: 0,age,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,22.0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,26.0,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,35.0,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,35.0,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [42]:
# DataFrame'in indeksini sıfırlama ve kalıcı olarak değişikliği uygulama
df = df.reset_index()
df

Unnamed: 0,age,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,22.0,0,3,male,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,38.0,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,26.0,1,3,female,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,35.0,1,1,female,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,35.0,0,3,male,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,27.0,0,2,male,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,19.0,1,1,female,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,,0,3,female,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,26.0,1,1,male,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## Değişkenler Üzerinde İşlemler

In [43]:
import pandas as pd
import seaborn as sns

# Pandas'ın tüm sütunları gösterme seçeneğini ayarlama
pd.set_option('display.max_columns', None)

# "titanic" veri setini yükleme
df = sns.load_dataset("titanic")

# DataFrame'in ilk beş satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [44]:
# "age" sütununun DataFrame içinde olup olmadığını kontrol etme
is_age_in_df = "age" in df
is_age_in_df

True

In [45]:
# "age" sütununu seçme ve ilk beş değeri gösterme
df["age"].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [46]:
# Aynı sütunu seçme, farklı bir syntax kullanımı
df.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [47]:
# "age" sütununu seçme ve tipini kontrol etme
type(df["age"].head())

pandas.core.series.Series

In [48]:
# "age" sütununu DataFrame içinde bir DataFrame olarak seçme
df[["age"]].head()

Unnamed: 0,age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0


In [49]:
# "age" sütununu DataFrame içinde bir DataFrame olarak seçme ve tipini kontrol etme
type(df[["age"]].head())

pandas.core.frame.DataFrame

In [50]:
# Birden fazla sütunu seçme
df[["age", "alive"]]

Unnamed: 0,age,alive
0,22.0,no
1,38.0,yes
2,26.0,yes
3,35.0,yes
4,35.0,no
...,...,...
886,27.0,no
887,19.0,yes
888,,no
889,26.0,yes


In [51]:
# Belirli sütun adlarını içeren bir liste ile sütunları seçme
col_names = ["age", "adult_male", "alive"]
df[col_names]

Unnamed: 0,age,adult_male,alive
0,22.0,True,no
1,38.0,False,yes
2,26.0,False,yes
3,35.0,False,yes
4,35.0,True,no
...,...,...,...
886,27.0,True,no
887,19.0,False,yes
888,,False,no
889,26.0,True,yes


In [52]:
# Yeni bir "age2" sütunu oluşturma
df["age2"] = df["age"] ** 2
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,484.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1444.0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,676.0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1225.0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1225.0


In [53]:
# "age" sütununu "age2" sütunu ile bölerek yeni bir "age3" sütunu oluşturma
df["age3"] = df["age"] / df["age2"]
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,484.0,0.045455
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1444.0,0.026316
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,676.0,0.038462
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1225.0,0.028571
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1225.0,0.028571


In [54]:
# "age3" sütununu geçici olarak silme
# axis=1 sütunlara göre silme yapılacağı zaman kullanılır
df.drop("age3", axis=1).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,484.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1444.0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,676.0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1225.0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1225.0


In [55]:
# Belirli sütunları silme
df.drop(col_names, axis=1).head()

Unnamed: 0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,deck,embark_town,alone,age2,age3
0,0,3,male,1,0,7.25,S,Third,man,,Southampton,False,484.0,0.045455
1,1,1,female,1,0,71.2833,C,First,woman,C,Cherbourg,False,1444.0,0.026316
2,1,3,female,0,0,7.925,S,Third,woman,,Southampton,True,676.0,0.038462
3,1,1,female,1,0,53.1,S,First,woman,C,Southampton,False,1225.0,0.028571
4,0,3,male,0,0,8.05,S,Third,man,,Southampton,True,1225.0,0.028571


In [56]:
# "age" ifadesini içermeyen sütunları seçme
# contains, verilen ifadenin olup olmadığını kontrol eder
# "~" değildir anlamına geldiğinden içerisinde 'age' ifadesi bulunmayanları seçmemizi sağlar

df.loc[:, ~df.columns.str.contains("age")].head()

Unnamed: 0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


## iloc & loc

In [57]:
# Pandas'ın tüm sütunları gösterme seçeneğini ayarlama
pd.set_option('display.max_columns', None)

# "titanic" veri setini yükleme
df = sns.load_dataset("titanic")

# DataFrame'in ilk beş satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [58]:
# iloc: integer based selection (pozisyon bazlı seçim)
# İlk üç satırı seçme
df.iloc[0:3]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


In [59]:
# İlk satırın ilk sütununu seçme
df.iloc[0, 0]

0

In [60]:
# loc: label based selection (etiket bazlı seçim)
# "loc" kullanarak string bazlı bir seçim yapılamaz
# İlk dört satırı seçme
df.loc[0:3]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False


In [61]:
# İlk üç satırın ilk üç sütununu seçme
df.iloc[0:3, 0:3]

Unnamed: 0,survived,pclass,sex
0,0,3,male
1,1,1,female
2,1,3,female


In [62]:
# İlk dört satırın "age" sütununu seçme
df.loc[0:3, "age"]

0    22.0
1    38.0
2    26.0
3    35.0
Name: age, dtype: float64

In [63]:
# Belirli sütun adlarını içeren bir liste ile belirli satırları ve sütunları seçme
col_names = ["age", "embarked", "alive"]
df.loc[0:3, col_names]

Unnamed: 0,age,embarked,alive
0,22.0,S,no
1,38.0,C,yes
2,26.0,S,yes
3,35.0,S,yes


## Koşullu Seçim (Conditional Selection)

In [64]:
# 50 yaşından büyük olan yolcuları seçme ve ilk beş satırını gösterme
df[df["age"] > 50].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
15,1,2,female,55.0,0,0,16.0,S,Second,woman,False,,Southampton,yes,True
33,0,2,male,66.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
54,0,1,male,65.0,0,1,61.9792,C,First,man,True,B,Cherbourg,no,False


In [65]:
# 50 yaşından büyük olan yolcuların sayısını bulma
df[df["age"] > 50]["age"].count()

64

In [66]:
# 50 yaşından büyük olan ve belirli sütunları seçme
df.loc[df["age"] > 50, ["age", "class"]].head()

Unnamed: 0,age,class
6,54.0,First
11,58.0,First
15,55.0,Second
33,66.0,Second
54,65.0,First


In [67]:
# 50 yaşından büyük, cinsiyeti erkek olan ve belirli sütunları seçme
df.loc[(df["age"] > 50) & (df["sex"] == "male"), ["age", "class"]].head()

Unnamed: 0,age,class
6,54.0,First
33,66.0,Second
54,65.0,First
94,59.0,Third
96,71.0,First


In [68]:
# "embark_town" sütunundaki değerlerin sayısını bulma
df["embark_town"].value_counts()

embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64

In [69]:
# Filtreleme yapılarak yeni bir DataFrame oluşturma ve 
# "embark_town" sütunundaki değerleri bulma
df_new = df.loc[(df["age"] > 50) & (df["sex"] == "male")
       & ((df["embark_town"] == "Cherbourg") 
       | (df["embark_town"] == "Southampton")),
       ["age", "class", "embark_town"]]

# yeni DataFrame içindeki "embark_town" değerlerini saydırdık.
df_new["embark_town"].value_counts()

embark_town
Southampton    35
Cherbourg       9
Name: count, dtype: int64

## Toplulaştırma ve Gruplama (Aggregation & Grouping)


- count()
- first()
- last()
- mean()
- median()
- min()
- max()
- std()
- var()
- sum()
- pivot table

In [70]:
# "age" sütununun ortalamasını bulma
df["age"].mean()

29.69911764705882

In [71]:
# Cinsiyete göre yaş ortalamasını bulma
# groupby, kullanarak cinsiyete göre grup oluşturduk ve ortalamasını aldık
df.groupby("sex")["age"].mean()

sex
female    27.915709
male      30.726645
Name: age, dtype: float64

In [72]:
# Cinsiyete göre yaşın ortalama ve toplam değerlerini bulma
# agg fonksiyonu ile yaşın ortalaması ve toplamını hesaplattık.
df.groupby("sex").agg({"age": ["mean", "sum"]})

Unnamed: 0_level_0,age,age
Unnamed: 0_level_1,mean,sum
sex,Unnamed: 1_level_2,Unnamed: 2_level_2
female,27.915709,7286.0
male,30.726645,13919.17


In [73]:
# Cinsiyete göre gruplandırdıktan sonra
# agg ile yaşa göre ortalama ve toplamı hesaplandıktan sonra
# survived değişkeninin ise ortalamasını hesapladık
df.groupby("sex").agg({"age": ["mean", "sum"],"survived": "mean"})
                                                  

Unnamed: 0_level_0,age,age,survived
Unnamed: 0_level_1,mean,sum,mean
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,27.915709,7286.0,0.742038
male,30.726645,13919.17,0.188908


In [74]:
# 2 seviyeli gruplandırma;

# Cinsiyet ve "embark_town" sütunlarına göre yaşın ve "survived" sütununun 
# ortalama değerini bulma
df.groupby(["sex", "embark_town"]).agg({"age": ["mean"], "survived": "mean"})                                                                             

Unnamed: 0_level_0,Unnamed: 1_level_0,age,survived
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,mean
sex,embark_town,Unnamed: 2_level_2,Unnamed: 3_level_2
female,Cherbourg,28.344262,0.876712
female,Queenstown,24.291667,0.75
female,Southampton,27.771505,0.689655
male,Cherbourg,32.998841,0.305263
male,Queenstown,30.9375,0.073171
male,Southampton,30.29144,0.174603


In [75]:
# 3 seviyeli gruplandırma;

# Cinsiyet, "embark_town" ve "class" sütunlarına göre yaşın ve "survived" sütununun 
# ortalama değerini bulma
df.groupby(["sex", "embark_town", "class"]).agg({"age": ["mean"],"survived": "mean"})                                                                                      

  df.groupby(["sex", "embark_town", "class"]).agg({"age": ["mean"],"survived": "mean"})


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,age,survived
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,mean
sex,embark_town,class,Unnamed: 3_level_2,Unnamed: 4_level_2
female,Cherbourg,First,36.052632,0.976744
female,Cherbourg,Second,19.142857,1.0
female,Cherbourg,Third,14.0625,0.652174
female,Queenstown,First,33.0,1.0
female,Queenstown,Second,30.0,1.0
female,Queenstown,Third,22.85,0.727273
female,Southampton,First,32.704545,0.958333
female,Southampton,Second,29.719697,0.910448
female,Southampton,Third,23.223684,0.375
male,Cherbourg,First,40.111111,0.404762


In [76]:
# Cinsiyet, "embark_town" ve "class" sütunlarına göre yaşın ortalama değerini, "survived" sütununun ortalama değerini
# ve cinsiyet sütununun toplam sayısını bulma
df.groupby(["sex", "embark_town", "class"]).agg({
    "age": ["mean"],
    "survived": "mean",
    "sex": "count"})

  df.groupby(["sex", "embark_town", "class"]).agg({


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,age,survived,sex
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,mean,count
sex,embark_town,class,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,Cherbourg,First,36.052632,0.976744,43
female,Cherbourg,Second,19.142857,1.0,7
female,Cherbourg,Third,14.0625,0.652174,23
female,Queenstown,First,33.0,1.0,1
female,Queenstown,Second,30.0,1.0,2
female,Queenstown,Third,22.85,0.727273,33
female,Southampton,First,32.704545,0.958333,48
female,Southampton,Second,29.719697,0.910448,67
female,Southampton,Third,23.223684,0.375,88
male,Cherbourg,First,40.111111,0.404762,42


**NOT**

Yukarıda görüldüğü gibi cinsiyeti kadın olanların yaş ortalaması ve şehri farketmeksizin eğer birinci veya ikinci sınıf yoldu ise hayatta kalma oranı çok yüksek iken üçüncü kadın yolcuların hayatta kalma oranı daha düşük.

Hatta çok önemli bir detay Cherbourg şehrinden binen üçüncü sınıf kadınların yaş ortalaması 14 olmasına rağmen hayatta kalma oranları hepsinden az. Bu durum da sınıf ayrımını açık şekilde ortaya çıkarmaktadır.

## Pivot table

In [77]:
# "sex" ve "embarked" sütunlarına göre "survived" sütununun ortalamasını bulma ve pivot tablosu oluşturma
# Ön tanımlı değer ortalama olduğu için, başka bişey belirtmezsek ortalama alır
df.pivot_table("survived", "sex", "embarked")

embarked,C,Q,S
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.876712,0.75,0.689655
male,0.305263,0.073171,0.174603


In [78]:
# "sex" ve "class" sütunlarına göre "survived" sütununun ortalamasını bulma ve pivot tablosu oluşturma
df.pivot_table("survived", "sex", ["embarked", "class"])

embarked,C,C,C,Q,Q,Q,S,S,S
class,First,Second,Third,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
female,0.976744,1.0,0.652174,1.0,1.0,0.727273,0.958333,0.910448,0.375
male,0.404762,0.2,0.232558,0.0,0.0,0.076923,0.35443,0.154639,0.128302


In [79]:
# Genişlik seçeneğini ayarlama
pd.set_option('display.width', 500)

# Yeni bir "new_age" sütunu oluşturma ve yaş aralıklarına göre "survived" sütununun ortalamasını bulma
# pd.cut fonksiyonu sayesinde yaş değişkenini istenen aralıklarda sınıf oluşturduk

df["new_age"] = pd.cut(df["age"], [0, 10, 18, 25, 40, 90])
df.pivot_table("survived", "sex", ["new_age", "class"])

new_age,"(0, 10]","(0, 10]","(0, 10]","(10, 18]","(10, 18]","(10, 18]","(18, 25]","(18, 25]","(18, 25]","(25, 40]","(25, 40]","(25, 40]","(40, 90]","(40, 90]","(40, 90]"
class,First,Second,Third,First,Second,Third,First,Second,Third,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
female,0.0,1.0,0.5,1.0,1.0,0.52381,0.941176,0.933333,0.5,1.0,0.90625,0.464286,0.961538,0.846154,0.111111
male,1.0,1.0,0.363636,0.666667,0.0,0.103448,0.333333,0.047619,0.115385,0.513514,0.071429,0.172043,0.28,0.095238,0.064516


Yukarıdaki örnek sayesinde belirlediğimiz yaş aralıklarına göre kadın ve erkek yolcuların hayatta kalma ortalamalarını gördük.

## Apply ve Lambda

In [80]:
import pandas as pd
import seaborn as sns

# Pandas'ın tüm sütunları gösterme seçeneğini ve genişlik seçeneğini ayarlama
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 500)

# "titanic" veri setini yükleme
df = sns.load_dataset("titanic")

# DataFrame'in ilk beş satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [81]:
# "age" sütununun iki katını ve beş katını içeren yeni sütunlar oluşturma
df["age2"] = df["age"] * 2
df["age3"] = df["age"] * 5
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,44.0,110.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,76.0,190.0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,52.0,130.0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,70.0,175.0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,70.0,175.0


In [82]:
# "age", "age2" ve "age3" sütunlarını 10'a bölen ve ilk beş satırını gösteren işlemler
(df["age"]/10).head()

0    2.2
1    3.8
2    2.6
3    3.5
4    3.5
Name: age, dtype: float64

In [83]:
(df["age2"]/10).head()

0    4.4
1    7.6
2    5.2
3    7.0
4    7.0
Name: age2, dtype: float64

In [84]:
(df["age3"]/10).head()

0    11.0
1    19.0
2    13.0
3    17.5
4    17.5
Name: age3, dtype: float64

Yukarıda ki işlemi döngü kurarak yapacak olursak;

In [85]:
# "age" içeren sütun adlarını bulma ve her birini 10'a bölerek gösterme
for col in df.columns:
    if "age" in col:
        print(col)
        print((df[col]/10).head())

age
0    2.2
1    3.8
2    2.6
3    3.5
4    3.5
Name: age, dtype: float64
age2
0    4.4
1    7.6
2    5.2
3    7.0
4    7.0
Name: age2, dtype: float64
age3
0    11.0
1    19.0
2    13.0
3    17.5
4    17.5
Name: age3, dtype: float64


Az önce sadece ekrana yazdırdık bunu şimdi kalıcı hale getirelim;

In [86]:
# "age" içeren sütunları bulma ve her birini 10'a bölerek DataFrame'e ekleme
for col in df.columns:
    if "age" in col:
        df[col] = df[col]/10

# DataFrame'in ilk beş satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,2.2,1,0,7.25,S,Third,man,True,,Southampton,no,False,4.4,11.0
1,1,1,female,3.8,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,7.6,19.0
2,1,3,female,2.6,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,5.2,13.0
3,1,1,female,3.5,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,7.0,17.5
4,0,3,male,3.5,0,0,8.05,S,Third,man,True,,Southampton,no,True,7.0,17.5


Şimdi ise döngü kurmak yerine daha kolay bir yöntem olarak apply ve lambda kullanarak aynı işlemi gerçekleştirelim;

In [87]:
# "age", "age2" ve "age3" sütunlarını lambda fonksiyonu ile 10'a bölerek DataFrame'e uygulama
df[["age", "age2", "age3"]] = df[["age", "age2", "age3"]].apply(lambda x: x/10)
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,0.22,1,0,7.2500,S,Third,man,True,,Southampton,no,False,0.44,1.10
1,1,1,female,0.38,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0.76,1.90
2,1,3,female,0.26,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,0.52,1.30
3,1,1,female,0.35,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,0.70,1.75
4,0,3,male,0.35,0,0,8.0500,S,Third,man,True,,Southampton,no,True,0.70,1.75
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,0.27,0,0,13.0000,S,Second,man,True,,Southampton,no,True,0.54,1.35
887,1,1,female,0.19,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,0.38,0.95
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,,
889,1,1,male,0.26,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,0.52,1.30


"age" içeren sütunları tek tek seçmek yerine "loc" fonksiyonu ile bu sütunları belirleyerek standartlaştırma işlemi yaptık;

In [103]:
# "age" içeren sütunları seçme ve lambda fonksiyonu ile standardizasyon uygulama
df.loc[:, df.columns.str.contains("age")].apply(lambda x: (x - x.mean()) / x.std()).head()

# seçilen sütunları ekrana yazdır.
df.loc[:, df.columns.str.contains("age")].head()

Unnamed: 0,age,age2,age3
0,-0.530005,-0.530005,-0.530005
1,0.57143,0.57143,0.57143
2,-0.254646,-0.254646,-0.254646
3,0.364911,0.364911,0.364911
4,0.364911,0.364911,0.364911


In [89]:
# Standart ölçekleme işlemini gerçekleştiren bir fonksiyon oluşturma
def standart_scaler(col_name):
    return (col_name - col_name.mean()) / col_name.std()

In [90]:
# "age" içeren sütunları seçme ve standart ölçekleme fonksiyonunu uygulama
df.loc[:, df.columns.str.contains("age")].apply(standart_scaler).head()

Unnamed: 0,age,age2,age3
0,-0.530005,-0.530005,-0.530005
1,0.57143,0.57143,0.57143
2,-0.254646,-0.254646,-0.254646
3,0.364911,0.364911,0.364911
4,0.364911,0.364911,0.364911


In [91]:
# "age" içeren sütunlara standart ölçekleme fonksiyonunu uygulama
df.loc[:, df.columns.str.contains("age")] = df.loc[:, df.columns.str.contains("age")].apply(standart_scaler)

# DataFrame'in ilk beş satırını gösterme
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age2,age3
0,0,3,male,-0.530005,1,0,7.25,S,Third,man,True,,Southampton,no,False,-0.530005,-0.530005
1,1,1,female,0.57143,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0.57143,0.57143
2,1,3,female,-0.254646,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,-0.254646,-0.254646
3,1,1,female,0.364911,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0.364911,0.364911
4,0,3,male,0.364911,0,0,8.05,S,Third,man,True,,Southampton,no,True,0.364911,0.364911


## Birleştirme (Join) İşlemleri

In [92]:
import numpy as np
import pandas as pd

# 1 ile 30 arasında rastgele sayılardan oluşan 5x3 boyutunda bir NumPy matrisi oluşturma
m = np.random.randint(1, 30, size=(5, 3))
m

array([[25, 20,  4],
       [25, 28, 19],
       [27,  9,  7],
       [27, 28, 14],
       [24, 18, 19]])

In [93]:
# NumPy matrisini kullanarak ilk DataFrame'i oluşturma
df1 = pd.DataFrame(m, columns=["var1", "var2", "var3"])
df1

Unnamed: 0,var1,var2,var3
0,25,20,4
1,25,28,19
2,27,9,7
3,27,28,14
4,24,18,19


In [94]:
# İlk DataFrame'e 99 ekleyerek ikinci bir DataFrame'i oluşturma
df2 = df1 + 99
df2

Unnamed: 0,var1,var2,var3
0,124,119,103
1,124,127,118
2,126,108,106
3,126,127,113
4,123,117,118


In [95]:
# İki DataFrame'i birleştirme (concatenate) ve index'i koruma
concatenated_df = pd.concat([df1, df2])
concatenated_df

Unnamed: 0,var1,var2,var3
0,25,20,4
1,25,28,19
2,27,9,7
3,27,28,14
4,24,18,19
0,124,119,103
1,124,127,118
2,126,108,106
3,126,127,113
4,123,117,118


Yukarıda görebiliceğiniz gibi iki DataFrame'in de index bilgisini tuttuğu için index bilgisi 4 den sonra tekrar sıfırlanıyor. Şimdi bu durumu düzeltelim

In [96]:
# İki DataFrame'i birleştirme (concatenate) ve index'i sıfırlama (ignore_index=True kullanarak)
concatenated_df_reset_index = pd.concat([df1, df2], ignore_index=True)
concatenated_df_reset_index

Unnamed: 0,var1,var2,var3
0,25,20,4
1,25,28,19
2,27,9,7
3,27,28,14
4,24,18,19
5,124,119,103
6,124,127,118
7,126,108,106
8,126,127,113
9,123,117,118


## Merge ile Birleştirme İşlemleri

In [97]:
import pandas as pd

# İlk DataFrame'i oluşturma
df1 = pd.DataFrame({'employees': ['john', 'dennis', 'mark', 'maria'],
                    'group': ['accounting', 'engineering', 'engineering', 'hr']})

# İkinci DataFrame'i oluşturma
df2 = pd.DataFrame({'employees': ['mark', 'john', 'dennis', 'maria'],
                    'start_date': [2010, 2009, 2014, 2019]})

In [98]:
# İki DataFrame'i "employees" sütunu üzerinde birleştirme (merge)
merged_df_on_employees = pd.merge(df1, df2)
print(merged_df_on_employees)

  employees        group  start_date
0      john   accounting        2009
1    dennis  engineering        2014
2      mark  engineering        2010
3     maria           hr        2019


In [99]:
# İki DataFrame'i "employees" sütunu üzerinde birleştirme, explicit olarak belirtme
merged_df_explicit_on_employees = pd.merge(df1, df2, on="employees")
print(merged_df_explicit_on_employees)

  employees        group  start_date
0      john   accounting        2009
1    dennis  engineering        2014
2      mark  engineering        2010
3     maria           hr        2019


In [100]:
# İki DataFrame'i birleştirme ve tüm bilgileri içeren yeni bir DataFrame oluşturma
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employees,group,start_date
0,john,accounting,2009
1,dennis,engineering,2014
2,mark,engineering,2010
3,maria,hr,2019


In [101]:
# Üçüncü bir DataFrame oluşturma
df4 = pd.DataFrame({'group': ['accounting', 'engineering', 'hr'],
                    'manager': ['Caner', 'Mustafa', 'Berkcan']})
df4

Unnamed: 0,group,manager
0,accounting,Caner
1,engineering,Mustafa
2,hr,Berkcan


In [102]:
# İki DataFrame'i "group" sütunu üzerinde birleştirme
final_merged_df = pd.merge(df3, df4)
print(final_merged_df)

  employees        group  start_date  manager
0      john   accounting        2009    Caner
1    dennis  engineering        2014  Mustafa
2      mark  engineering        2010  Mustafa
3     maria           hr        2019  Berkcan
