<a href="https://colab.research.google.com/github/furkaanasik/Pandas-temel/blob/main/PandasNotes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Pandas**

## **Pandas nedir?**

Pandas veri okuma, veri analizi ve veri temizlemede kullanılan açık kaynak kodlu python kütüphanesidir. Numpy alternatifi değildir, Numpy özelliklerini kullanıp genişletir.

## **Nasıl kurulur?**

```
pip install pandas
```

## **Projeye entegre edilmesi**

In [1]:
# Artık pandas kütüphanesi pd ile adlandırılacaktır.
import pandas as pd 

## **Pandas sürümünü kontrol etmek**


In [2]:
pd.__version__

'1.3.5'

# **Pandas veri yapıları**

*   Series
*   DataFrames

## **Series**

Seriler, etiketlerden (indeks) oluşan tek boyutlu bir veri yapısıdır.

### Seri oluşturma

Pandas kütüphanesi içerisindeki Series methodunu kullanabilirz. Series methodu içerisine **data** vermemiz gerekmekte bu data değer, liste, Numpy dizisi veya sözlükler (dictionary) olabilir.

In [3]:
series = pd.Series([10, 20, 30, 40, 50])

print(series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


**Bir etiket vermediğimizden için etiketlerimiz otomatik olarak 0'dan başlayarak atandı. **

### **Etiket (indeks) bilgileri**

Serilerin etiket (indeks) bilgilerine erişmek için axes kullanılabilir.

In [4]:
series.axes

[RangeIndex(start=0, stop=5, step=1)]

*Burada 0'dan başlayıp 5'e kadar gitmiş ve birer birer artmıştır*

### **Değerler ile ilgili bilgi almak**

Değerler ile ilgili bilgi almak istediğimizde dtype kullanabiliriz.

In [5]:
series.dtype

dtype('int64')

### **Öğe sayısını almak**

In [6]:
series.size

5

### **Dizi şeklinde değerlere erişmek**

Serileri dizi şeklinde değerlerine erişmek istersek values özelliğini kullanabiliriz. values özelliği serileri türüne bağlı olarak ndarray (Numpy array) şeklinde geri döndürür.

In [7]:
series.values

array([10, 20, 30, 40, 50])

### **İlk belirli bir elemana erişmek**

Bir serinin ilk belirli elemanına erişmek istersek head methodunu kullanabiliriz. head methodu içerisine yazdığımız değer kadar elemanı bize geri döndürür.

In [8]:
series.head()

0    10
1    20
2    30
3    40
4    50
dtype: int64

*Default değer 5 atandığı için head içerisine bir şey yazmadığımızda ilk 5 elemanı bizlere getirecektir.*

In [9]:
series.head(3)

0    10
1    20
2    30
dtype: int64

### **Seri içerisindeki değerleri toplamak (sum)**

Serimizin içerisindeki değerleri toplamak istersen sum methodunu kullanabiliriz.

In [10]:
summation = series.sum()

print(summation)

150


### **Seri içerisindeki en büyük değere ulaşmak (max)**

Seri içerisinde en büyük değere ulaşmak için max methodunu kullanabiliriz.

In [11]:
maximum = series.max()

print(maximum)

50


### **Seri içerisindeki en küçük değere ulaşmak (min)**

Seri içerisinde en küçük değere ulaşmak için min methodunu kullanabiliriz.

In [12]:
minimum = series.min()

print(minimum)

10


### **Serinin ortalamasını bulmak (mean)**

Serinin ortalamasını bulmak için mean methodunu kullanabiliriz.

In [13]:
average = series.mean()

print(average)

30.0


### **Etiket isimlendirme**

Etiket isimlendirme işleminde seri oluştururken Series methoduna bir index paramatresi göndererek etiketleme işlemini yapabiliriz.

In [14]:
series = pd.Series([11, 32, 45, 62, 71], index = [1, 3, 5, 7, 9])

print(series)

1    11
3    32
5    45
7    62
9    71
dtype: int64


*Etiketleri elimizle index ifadesine verdiğimiz için artık serimizin etiketleri bizim verdiğimiz değerler olacaktır.*

In [15]:
series = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])

print(series)

a    11
b    32
c    45
d    62
e    71
dtype: int64


*Etiket verme işleminde illa tam sayı olacak diye bir koşul yok string değer de verebiliriz.*

### **Etikete göre elemana erişme**

Serinin etiketine göre elemana erişmek istersek sözlük (dictionary) mantığını gibi kullanabiliriz.

In [16]:
series = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])

first_element = series["a"] # ilk etiket "a" olduğu için bu şekilde kullandık
last_element = series["e"]

print(first_element)
print(last_element)

11
71


### **Serinin belirli bir aralığına erişme**

Serinin belirli bir aralığına erişmek için kullanılan etikete göre elemana erişme işleminden sonra gidilecek yeri söyleyerek bir aralığa erişebiliriz.

In [17]:
series = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])

intermittent_values = series["a": "c"] # dizinin "a" etiketinden "c" etiketi dahil olmak üzere belirlenen aralığı getirir

print(intermittent_values)

a    11
b    32
c    45
dtype: int64


### **İki seriyi birleştirme**

İki seriyi birleştirmek için pandas kütüphanesinden concat methodu kullanılabilir. concat methodu kullanılırken içine verilecek değerleri bir listenin içerisinde yazmamız gerekmektedir.

In [18]:
series1 = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])
series2 = pd.Series([1, 2, 3, 4, 5, 6])

compound_series = pd.concat([series1, series2])

print(compound_series)

a    11
b    32
c    45
d    62
e    71
0     1
1     2
2     3
3     4
4     5
5     6
dtype: int64


### **Serinin etiketlerine erişmek**

Bir serinin etiketlerine erişmek istersek index özelliğini kullanabiliriz.

In [19]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

print(series.index)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


### Serinin değerlerine erişmek

Bir serinin değerlerine erişmek istersek keys özelliğini kullanabiliriz.

In [20]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

print(series.keys)

<bound method Series.keys of a    1
b    2
c    3
d    4
e    5
dtype: int64>


### **Seriyi listeye dönüştürme**

Bir seriyi listeye dönüştürmek istersek items methodu ile bir liste şekline sonra da list methodu ile listeye çevirebiliriz.

In [21]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

sample_list = list(series.items())

print(sample_list)

[('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)]


### **Fancy ile elemana erişmek**

In [22]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

sample_fancy = series[["a", "d"]]

print(sample_fancy)

a    1
d    4
dtype: int64


*Serimizin içerisine istediğimiz değerleri liste şeklinde gönderip fancy yardımıyla bu değerlere erişmiş olduk.*

### Etiketin değerini değiştirmek

In [23]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

series["a"] = 10

print(series)

a    10
b     2
c     3
d     4
e     5
dtype: int64


*Serimizin içerisindeki "a" değerine erişip bu değişkene 10 değeri ile değiştirme işlemi yaptık.*

## **DataFrame**

DataFrame veri çerçevesi anlamına gelir. Sql tablosuna benzer bir yapıdadır. DataFrameler veriyi daha kolay işleme imkanı sunar.

### **DataFrame oluşturma**

Pandas kütüphanesinin içerisinde yer alan DataFrame ile oluşturulabilir. DataFrame içerisine bir data ve index gibi bir çok özellik alır. Eğer index değişkenine atama yapmazsak otomatik 0'dan başlayarak artar. Eğer columns değerini girersek oluşacak olan DataFrame yapısının column ismini ayarlar.

In [24]:
df = pd.DataFrame([10, 20, 30, 40, 50], columns=["column 1"])

df

Unnamed: 0,column 1
0,10
1,20
2,30
3,40
4,50


*DataFrame içerisindeki data parametresi yerine sözlük (Dictionary), Numpy dizisi veya başka bir DataFrame koyabiliriz.*

### **DataFrame sütunları isimlendirmek**

DataFrame kullanırken sütunlara erişmek veya bu sütunlarin isimlerini değiştirmek istediğimizde columns özelliğini kullanabiliriz.

In [25]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"])

print(df.columns) # DataFrame içerisinde yer alan sütunların isimlerini geri döndürür

print("-" * 30)
df.columns = ("sutün 1", "sütun 2", "sütun 3") # Sütünlar otomatik atadığımız değişkenlerle değiştir tekrar yeni bir değişkene atama işlemimize gerek yoktur.

df

Index(['column 1', 'column 2', 'column 3'], dtype='object')
------------------------------


Unnamed: 0,sutün 1,sütun 2,sütun 3
0,10,20,30
1,1,2,3


*Numpy dizilerini kullanarak iki boyutlu ve üç elemanlı bir dizi oluşturduk. Oluşan bu diziyi ise DataFrame data özelliği olarak verdik ve sütun isimlendirilmesi yaptık.*

### **DataFrame içserisindeki değerleri çekme**

DataFrame içerisinde değerleri çekmek için values özelliği kullanılabilir. Fakat values özelliği bir numpy dizisi geri döndürür.

In [26]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"])

print(df.values) # Diz içerisindeki verilere ulaşma işlemi
print("-" * 30)
print(type(df.values)) # ndarray şeklinde bir numpy dizisi geri döndürür

[[10 20 30]
 [ 1  2  3]]
------------------------------
<class 'numpy.ndarray'>


### **DataFrame index değiştirmek**

DataFrame index değiştirme işlemi için index özelliğine yeni indeks değerleri atanabilir.

In [27]:
import numpy as np

arr1 = np.random.randint(10, size=5)
arr2 = np.random.randint(10, size=5)

dictionary = {
    "pro1" : arr1,
    "pro2" : arr2
}

# Sözlük kullanarak bir DataFrame oluşturduk.
df = pd.DataFrame(dictionary)

# DataFrame ilk hali
print(df)
print("-" * 30)

df.index = ["a", "b", "c", "d", "e"]

# DataFrame son hali
print(df)

   pro1  pro2
0     2     7
1     8     3
2     7     3
3     1     9
4     4     5
------------------------------
   pro1  pro2
a     2     7
b     8     3
c     7     3
d     1     9
e     4     5


### **DataFrame indeks ile satırlara erişmek**

In [28]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

rows = df["a": "b"]

rows

Unnamed: 0,column 1,column 2,column 3
a,10,20,30
b,1,2,3


*DataFrame içerisinden indekse göre satırlara erişmek istediğimizden bu şekilde kullanabiliriz.*

### **DataFrame içerisinden satır silme**

DataFrame içerisinden bir satırı silmek istediğimizde drop methodunu kullanabiliriz.

In [29]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

# DataFrame içerisindeki etiketi "b" olan satırı silme işlemi.
df.drop("b", axis=0, inplace = True)

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 1  column 2  column 3
a        10        20        30
c        40        50        60


*drop methodunun ilk parametresi neyi silmek istediğimizi belirtir ikinci parametresi olan axis parametresini eğer 0 olarak atama yaparsak DataFrame içerisinde satırları belirtir, eğer axis parametresini 1 olarak atama yaparsak sütunları belirtir. drop fonksiyonun üçüncü parametresi olan inplace özelliği bizim değişiklik yaptığımız DataFrame üzerinde değişiklik yapılmasını kontrol eder. Varsayılan olarak inplace özelliği False olarak ayarlanmıştır yani bir satır silmek istediğimizde ve inplace özelliğine False değerini atamış olursak varsayılan DataFrame herhangi bir değişikliğe uğramayacaktır.*

In [30]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

# DataFrame içerisindeki etiketi "column 1" olan sütünu silme işlemi.
df.drop("column 1", axis=1, inplace = True)

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 2  column 3
a        20        30
b         2         3
c        50        60


*drop fonksiyonunun ilk parametresini neyi silmek istediğimizi verdik, ikinci parametrede satır mı sütun mu bunu belirttik (0 = Satır, 1 = sütun), üçüncü parametresinde ise DataFrame üzerinde bir değişiklik yapılacağını inplace özelliğini True atayarak yapmış olduk.*

birden fazla satır veya sütun silme işlemi;

In [31]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

# DataFrame içerisindeki etiketi "column 1" olan sütünu silme işlemi.
df.drop(["a", "b"], axis=0, inplace = True)

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 1  column 2  column 3
c        40        50        60


*Burada birden fazla satır silme işlemi yapmak için fancy kullandık yani drop methodumuza bu sefer tek bir elemanı sil demedik birden fazla elemani liste şeklinde gönderdik.*

### DataFrame içerisine yeni bir sütun oluşturmak

Listeye eleman ekleme yapısı gibi atama işlemi yapabiliriz.

In [32]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

df["column 4"] = df["column 1"] + df["column 2"]

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 1  column 2  column 3  column 4
a        10        20        30        30
b         1         2         3         3
c        40        50        60        90


*Burada "column 4" sütununu oluşturmak istiyoruz ve listeye eleman ekleme işlemi gibi uyguluyoruz.*

### **DataFrame üzerinde veri seçme işlemleri**

*   loc
*   iloc

#### **loc**

In [33]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

print(df)
print("-" * 30)

locate = df.loc[1:5]
locate

    a   b   c   d   e
0  43  71  40  18  80
1  90  92  63  19  66
2  14  83  36  43  45
3  77  24  69  95  37
4  96  98  61  28  12
5  72  35  20  87  93
6  29  40  85  12  99
7  67  67  13  92  35
8  76  97  31  54  27
9  83  32  76  24  88
------------------------------


Unnamed: 0,a,b,c,d,e
1,90,92,63,19,66
2,14,83,36,43,45
3,77,24,69,95,37
4,96,98,61,28,12
5,72,35,20,87,93


*Burada oluşturmuş olduğumuz 10 satırlı bir DataFrame içerisindeki 1. elemandan ve 5. elemana (dahil) kadar bir veri seçme işlemi gerçekleştirdik.*

#### **iloc**

In [34]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

print(df)
print("-" * 30)

locate = df.iloc[1:5]

locate

    a   b   c   d   e
0  20  69  97   7  43
1  80   9   1  24  27
2  24   4  41  78  89
3  69  89  46  61   9
4  81  36   2  81  73
5   3  74  14  65  67
6  41   9  73  69  13
7  77  40  21  64  85
8  26  39  93  32  65
9  93  93  70  81  39
------------------------------


Unnamed: 0,a,b,c,d,e
1,80,9,1,24,27
2,24,4,41,78,89
3,69,89,46,61,9
4,81,36,2,81,73


#### **iloc ile loc arasında aralıklı veri seçim farkı**

iloc ile loc temel farkını satır ve sütun veri seçme işleminde göreceğiz.

loc kullandığımızda verdiğimiz aralığın ikisini de kapsar fakat iloc kullandığımızda verilen aralığın ilki dahil ikindisi dahil olmayaktır. Örneğim 5 satırlık bir DataFrame oluşturduk ve biz bu DataFrame içerisinden ilk 1. satırdan 3. satıra (dahil değil) kadar olan verilere erişmek istiyoruz. Burada iki farklı yolumuz vardır;

*   loc ifadesi ile = df.loc[1:2] 
*   iloc ifadesi ile = df.iloc[1:3]

Eğer loc ile iloc aralığını aynı verirsek farkı daha iyi anlayabiliriz. Örnek olarak;

In [35]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

# Oluşturduğumuz DataFrame
print("Oluşturduğumuz DataFrame")
print(df)
print("-" * 30)

# loc ile veriye erişmek
print("loc ile veriye erişmek")
locate = df.loc[1:3]
print(locate)
print("-" * 30)

# iloc ile veriye erişmek
print("iloc ile veriye erişmek")
locate = df.iloc[1:3]
print(locate)
print("-" * 30)

Oluşturduğumuz DataFrame
    a   b   c   d   e
0  51  99  17  55  27
1  73  15  82  89  84
2  37  46  43  23  72
3  28  34  77  74  75
4  31  12  90  88  84
------------------------------
loc ile veriye erişmek
    a   b   c   d   e
1  73  15  82  89  84
2  37  46  43  23  72
3  28  34  77  74  75
------------------------------
iloc ile veriye erişmek
    a   b   c   d   e
1  73  15  82  89  84
2  37  46  43  23  72
------------------------------


*Burada gördüğünüz üzere loc ve iloc aralığını aynı verdiğimizde, loc son aralık değerini dahil etti fakat iloc dahil etmedi.*

#### **Satır ve sütun veri seçme işlemi**

In [36]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

locate = df.iloc[0:3, 0:2]
locate

Unnamed: 0,a,b
0,84,60
1,84,30
2,52,12


*Burada veri seçme işlemi için dilersek iloc dilersek de loc kullanabiliriz. iloc veya loc içerisine verilen ilk aralık(0:3) satırları, ikinci aralık(0:2) ise sütunları temsil eder.*

**ÖNEMLİ**

**iloc ile direkt sütun işlemi yapılmaz indeks işlemi yapılır**

Örneğin;

In [37]:
import numpy as np
import logging
import traceback

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

try:
  locate = df.iloc[0:3, "a"]
  print(locate)
except Exception as e:
  logging.error(traceback.format_exc())

ERROR:root:Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 754, in _has_valid_tuple
    self._validate_key(k, i)
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 1426, in _validate_key
    raise ValueError(f"Can only index by location with a [{self._valid_types}]")
ValueError: Can only index by location with a [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array]

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "<ipython-input-37-4cd83f647b7b>", line 9, in <module>
    locate = df.iloc[0:3, "a"]
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 925, in __getitem__
    return self._getitem_tuple(key)
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 1506, in _getitem_tuple
    self._has_valid_tuple(tup)
  File "/usr/loca

*Burada eğer bir aralık vermeyip istediğimiz satırı veya sütunun değerini verirsek indeks bazlı veri seçmek olacak fakat iloc index bazlı seçim yapamaz burada iloc yerine loc kullanabiliriz.*

In [38]:
import numpy as np
import logging
import traceback

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

try:
  locate = df.loc[0:3, "a"]
  print(locate)
except Exception as e:
  logging.error(traceback.format_exc())

0    11
1    44
2    22
3    65
Name: a, dtype: int64


**Burada direkt bir sütunun değerini veya satırın değerini verdiğimiz için loc ifadesi ile veri seçme işlemimizi gerçekleştirmiş olduk**

####**iloc ile sütun seçme işlemi**

In [39]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

locate = df.iloc[0:3]["a"]

locate

0    50
1    58
2     5
Name: a, dtype: int64

*Burada iloc ile sütun seçme işlemi yaptık burada satır olarak 0'dan 3'e kadar olan satırları seçtik ve bu satırladın da sahip olduğu a sütununu aldık.*

Birden fazla sütun seçmek istersek fancy kullanabiliriz. Örneğin;

In [40]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

locate = df.iloc[0:3][["a", "d", "e"]]

locate

Unnamed: 0,a,d,e
0,9,14,88
1,54,90,9
2,87,79,28


*Burada fancy yardımıyla birden fazla sütun seçme işlemini yapabildik.*

#### **Koşullu eleman seçme işlemi**


In [41]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

df[df.a > 15]

Unnamed: 0,a,b,c,d,e
2,29,3,24,22,13
3,18,4,1,22,19
8,27,18,19,26,8
9,17,3,28,13,4


*Burada a sütunundaki değerlerin 15'den büyük olma koşulunu verdik. DataFrame içerisindeki sütuna erişmek için df.a ifadesini kullandık.*

Birden fazla koşul girmek;

In [42]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

df[(df.a > 15) & (df.d > 5)]

Unnamed: 0,a,b,c,d,e
3,22,5,27,27,1
5,21,24,26,20,15
8,21,12,2,6,12


*Burada a sütunundaki değerlerin 15'den büyük olduğu ve d sütunundaki değerlerin 5'den büyük olduğu değerleri aldık.*

### DataFrame sütunları değiştirmek

DataFrame içerisindeki sütunları değiştirmek istersek columns kullanabiliriz.

In [43]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df = pd.DataFrame(random_arr, columns=["a", "b", "c"])

df.columns = ["A", "B", "C"]

df

Unnamed: 0,A,B,C
0,24,11,8
1,13,26,29
2,7,14,3
3,4,20,17
4,16,20,17


### DataFrame birleştirme işlemleri (concat)

DataFrame birleştirme işlemleri için concat methodunu kullanabiliriz

In [44]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df1 = pd.DataFrame(random_arr, columns=["a", "b", "c"])
df2 = df1 * 2 # Oluşturulan df1 değerini 2 ile çarpıp df2 değişkenine atanma işlemi

print("Oluşturulan ilk DataFrame")
print(df1)
print("-" * 30)
print("Oluşturulan ikinci DataFrame")
print(df2)
print("-" * 30)

concat_df = pd.concat([df1, df2])
print("df1 ve df2 DataFrame birleştirme işlemi")
print(concat_df)

Oluşturulan ilk DataFrame
    a   b   c
0  18  13  21
1  28  13   1
2  15  26  19
3   6  22  17
4   6  23  28
------------------------------
Oluşturulan ikinci DataFrame
    a   b   c
0  36  26  42
1  56  26   2
2  30  52  38
3  12  44  34
4  12  46  56
------------------------------
df1 ve df2 DataFrame birleştirme işlemi
    a   b   c
0  18  13  21
1  28  13   1
2  15  26  19
3   6  22  17
4   6  23  28
0  36  26  42
1  56  26   2
2  30  52  38
3  12  44  34
4  12  46  56


*Burada indeksleri birleştirme işlemi sonrasında indeksleri incelediğimizde bir hata görüyoruz. İndeksler 0'dan başlayıp 5'e kadar ilerlemiş fakat tekrar 0'dan başlayıp 5'e kadar ilerlemiş.*

Bu sorunu çözmek için;

In [45]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df1 = pd.DataFrame(random_arr, columns=["a", "b", "c"])
df2 = df1 * 2 # Oluşturulan df1 değerini 2 ile çarpıp df2 değişkenine atanma işlemi

print("Oluşturulan ilk DataFrame")
print(df1)
print("-" * 30)
print("Oluşturulan ikinci DataFrame")
print(df2)
print("-" * 30)

concat_df = pd.concat([df1, df2], ignore_index=True)
print("df1 ve df2 DataFrame birleştirme işlemi")
print(concat_df)

Oluşturulan ilk DataFrame
    a   b   c
0  20   1  13
1  11   8  29
2   7  28  26
3   5  12   7
4  24  13  28
------------------------------
Oluşturulan ikinci DataFrame
    a   b   c
0  40   2  26
1  22  16  58
2  14  56  52
3  10  24  14
4  48  26  56
------------------------------
df1 ve df2 DataFrame birleştirme işlemi
    a   b   c
0  20   1  13
1  11   8  29
2   7  28  26
3   5  12   7
4  24  13  28
5  40   2  26
6  22  16  58
7  14  56  52
8  10  24  14
9  48  26  56


*Burada concat methodunun içerisine ignore_index parametresine True atadığımızda indeks problemimiz ortadan kalktı.*

#### **Farklı sütünlara sahip olan DataFrame birleştirme işlemi**

In [46]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df1 = pd.DataFrame(random_arr, columns=["a", "b", "c"])
random_arr = np.random.randint(1,30, size = (5,3))
df2 = pd.DataFrame(random_arr, columns=["Column 1", "Column 2", "c"])

pd.concat([df1, df2],  ignore_index=True)

Unnamed: 0,a,b,c,Column 1,Column 2
0,23.0,2.0,29,,
1,15.0,3.0,1,,
2,29.0,9.0,19,,
3,10.0,1.0,21,,
4,6.0,14.0,27,,
5,,,13,14.0,2.0
6,,,6,1.0,4.0
7,,,25,9.0,1.0
8,,,23,3.0,24.0
9,,,6,28.0,17.0


*Burada görülen NaN ifadeleri birinci DataFrame ile ikinci DataFrame eşleşmediğinden ortaya çıkmıştır. Görüldüğü gibi sütun c iki DataFramede eşleştiği için otomatik c ifadesinin bulunduğu sütuna yazılmıştır.*

In [47]:
pd.concat([df1, df2], join="inner", ignore_index=True)

Unnamed: 0,c
0,29
1,1
2,19
3,21
4,27
5,13
6,6
7,25
8,23
9,6


*Burada iki DataFramede ortak sütun olanları birleştirdik.*

### **İleri Birleştirme işlemleri (merge)**

*   Birebir (one to one) birleştirme
*   Çoktan bire (many to one) birleştirme



#### **Birebir (one to one) birleştirme**

In [48]:
students = {
    "name": ["Furkan", "Özlem", "Kardem", "Doga"],
    "department": ["Bilgisayar", "Kimya", "Yazılım", "Yazılım"]
}

student_department = pd.DataFrame(students)

student_department

Unnamed: 0,name,department
0,Furkan,Bilgisayar
1,Özlem,Kimya
2,Kardem,Yazılım
3,Doga,Yazılım


In [49]:
graduation = {
    "name" : ["Furkan", "Özlem", "Kardem", "Doga"],
    "year" : ["2023", "2023", "2024", "2021"]
}

graduation_year = pd.DataFrame(graduation)

graduation_year

Unnamed: 0,name,year
0,Furkan,2023
1,Özlem,2023
2,Kardem,2024
3,Doga,2021


In [50]:
pd.merge(student_department, graduation_year)

Unnamed: 0,name,department,year
0,Furkan,Bilgisayar,2023
1,Özlem,Kimya,2023
2,Kardem,Yazılım,2024
3,Doga,Yazılım,2021


*student_department ile graduation_year DataFramelerimizi birleştirmek istedik ve merge ifadesi kullanılarak bu işlemi gerçekleştirdik. merge methodou otomatik olarak ortak olan sütuna göre birleştirme işlemi yapar.*

#### **Çoktan teke (many to one) birleştirme işlemi**

In [51]:
students = {
    "name": ["Furkan", "Özlem", "Kardem", "Doga"],
    "department": ["Bilgisayar", "Kimya", "Yazılım", "Yazılım"]
}

graduation = {
    "name" : ["Furkan", "Özlem", "Kardem", "Doga"],
    "year" : ["2023", "2023", "2024", "2021"]
}

student_department = pd.DataFrame(students)
graduation_year = pd.DataFrame(graduation)

school = pd.merge(student_department, graduation_year)
school

Unnamed: 0,name,department,year
0,Furkan,Bilgisayar,2023
1,Özlem,Kimya,2023
2,Kardem,Yazılım,2024
3,Doga,Yazılım,2021


In [52]:
department = {
    "department" : ["Bilgisayar", "Yazılım", "Kimya"],
    "head" : ["Raif", "Volkan", "Asım"]
}

department_heads = pd.DataFrame(department)

department_heads

Unnamed: 0,department,head
0,Bilgisayar,Raif
1,Yazılım,Volkan
2,Kimya,Asım


In [53]:
pd.merge(school, department_heads)

Unnamed: 0,name,department,year,head
0,Furkan,Bilgisayar,2023,Raif
1,Özlem,Kimya,2023,Asım
2,Kardem,Yazılım,2024,Volkan
3,Doga,Yazılım,2021,Volkan


*Burada bölümün başkanlarını belirten bir DataFrame oluşuturduk. Bu DataFrame ile daha önceden Öğrenci-Bölüm DataFrame ve Öğrenci-Mezuniyet yılını birleştirdiğimiz DataFrame ile birleştirme işlemi yaptık. Burada department her ikisi için olduğundan otomatik olarak birleştirme işlemi gerçekleşti. Görüleceği gibi yazılım bölümünün birden fazla bulunmaktadır.*

#### **Çoktan çoka (many to many) birleştirme**

In [54]:
students = {
    "name": ["Furkan", "Özlem", "Kardem", "Doga"],
    "department": ["Bilgisayar", "Kimya", "Yazılım", "Yazılım"]
}

graduation = {
    "name" : ["Furkan", "Özlem", "Kardem", "Doga"],
    "year" : ["2023", "2023", "2024", "2021"]
}

student_department = pd.DataFrame(students)
graduation_year = pd.DataFrame(graduation)

school = pd.merge(student_department, graduation_year)
school

Unnamed: 0,name,department,year
0,Furkan,Bilgisayar,2023
1,Özlem,Kimya,2023
2,Kardem,Yazılım,2024
3,Doga,Yazılım,2021


In [55]:
department = {
    "department" : ["Bilgisayar", "Yazılım", "Kimya"],
    "head" : ["Raif", "Volkan", "Asım"]
}

department_heads = pd.DataFrame(department)

department_heads

Unnamed: 0,department,head
0,Bilgisayar,Raif
1,Yazılım,Volkan
2,Kimya,Asım


In [56]:
departments = pd.merge(school, department_heads)

departments

Unnamed: 0,name,department,year,head
0,Furkan,Bilgisayar,2023,Raif
1,Özlem,Kimya,2023,Asım
2,Kardem,Yazılım,2024,Volkan
3,Doga,Yazılım,2021,Volkan


In [57]:
department_skills = {
    "department" : ["Bilgisayar", "Bilgisayar", "Kimya", "Yazılım", "Yazılım"],
    "skills" : ["Kodlama", "Linux", "Çözelti hazırlama", "Kodlama", "Database"]
}

skills = pd.DataFrame(department_skills)

skills


Unnamed: 0,department,skills
0,Bilgisayar,Kodlama
1,Bilgisayar,Linux
2,Kimya,Çözelti hazırlama
3,Yazılım,Kodlama
4,Yazılım,Database


In [58]:
pd.merge(departments, skills)

Unnamed: 0,name,department,year,head,skills
0,Furkan,Bilgisayar,2023,Raif,Kodlama
1,Furkan,Bilgisayar,2023,Raif,Linux
2,Özlem,Kimya,2023,Asım,Çözelti hazırlama
3,Kardem,Yazılım,2024,Volkan,Kodlama
4,Kardem,Yazılım,2024,Volkan,Database
5,Doga,Yazılım,2021,Volkan,Kodlama
6,Doga,Yazılım,2021,Volkan,Database


*Burada department_skills tablosunda olan bölümün yetenekleri belirtilmiştir. Bu tablo ile departments tablosundaki verileri birleştirme işlemi uyguladık. Son çıkan tablomuzda bir departman birden fazla yeteneğe sahip olabileceğinden bir kişiden iki tane görüyoruz.*

### **Toplulaştırma (Aggregation)**

*   count()
*   first()
*   last()
*   mean()
*   meadian()
*   min()
*   max()
*   std()
*   var()
*   sum()

In [59]:
import seaborn as sns

*seaborn kütüphanesi içindeki hazır verisetlerini kullanacağız.*

In [60]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


*seaborn kütüphanesindeki "planets" verisetini değişkenimize atıyoruz ve ekrana bastırıyoruz.*

In [61]:
df.shape

(1035, 6)

*Yüklediğimiz datasetinde 1035 satır ve 6 sütun var olduğunu gözlemledik.*

In [62]:
df.count()

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

*Her bir sütündan kaç tane olduğunu belirten count methodunu kullandık.*

In [63]:
df.mean()

  """Entry point for launching an IPython kernel.


number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

*Her bir sütunun ortalamasını belirten mean methodunu kullandık.*

Eğer tek bir sütunun ortalamasını almak istersek;

In [64]:
df["number"].mean()

1.7855072463768116

*Burada ise sadece number sütununun ortalamasını aldık.*

In [65]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


Burada count, mean, std, min, 25%, 50%, 75% ve max methodlarını her bir sütun için uygulanmış tabloyu görüyoruz.

In [66]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


*Okunabilirliği arttırmak adına describe methodunun transpozunu aldık.*

In [67]:
df.dropna()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.30000,7.100,77.40,2006
1,Radial Velocity,1,874.77400,2.210,56.95,2008
2,Radial Velocity,1,763.00000,2.600,19.84,2011
3,Radial Velocity,1,326.03000,19.400,110.62,2007
4,Radial Velocity,1,516.22000,10.500,119.47,2009
...,...,...,...,...,...,...
640,Radial Velocity,1,111.70000,2.100,14.90,2009
641,Radial Velocity,1,5.05050,1.068,44.46,2013
642,Radial Velocity,1,311.28800,1.940,17.24,1999
649,Transit,1,2.70339,1.470,178.00,2013


*Burada verisetimizde var olan verilerden eksik olanları çıkarttık ve ortaya 784 sütun çıktı.*

Toplulaştırma başlığı altında verilen methodları kendiniz kullanabilirsiniz. 


### **Gruplama (groupby)**

In [68]:
data = {
    "Class" : ["a", "b", "c", "a", "b", "c"],
    "student exam result" : [20, 13, 32, 40, 32, 11]
}

df = pd.DataFrame(data, columns = ["Class", "student exam result"])
df

Unnamed: 0,Class,student exam result
0,a,20
1,b,13
2,c,32
3,a,40
4,b,32
5,c,11


*Burada sınıflar ve sınıflardaki herhangi bir kişinin aldığı not belirtilmektedir. Herhangi bir sınıf için bakılmak istenirse groupby kullanılabilir.*

In [69]:
df.groupby("Class").mean()

Unnamed: 0_level_0,student exam result
Class,Unnamed: 1_level_1
a,30.0
b,22.5
c,21.5


*Burada ise gruplanan sınıflara göre ortalama notu görmekteyiz.*

In [70]:
df.groupby("Class").sum()

Unnamed: 0_level_0,student exam result
Class,Unnamed: 1_level_1
a,60
b,45
c,43


*Burada ise gruplanan sınıflardaki öğrencilerin toplam notlarını görmekteyiz.*

Toplulaştırmada kullanılan veriseti üzerinde gruplama;

In [71]:
import seaborn as sns

df = sns.load_dataset("planets")
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


*Burada method sütunu bir kategorik değişken olduğu için bu sütunu gruplayabiliriz.*

In [72]:
df.groupby("method").describe()

Unnamed: 0_level_0,number,number,number,number,number,number,number,number,orbital_period,orbital_period,...,distance,distance,year,year,year,year,year,year,year,year
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Astrometry,2.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,2.0,631.18,...,19.3225,20.77,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,1.666667,0.5,1.0,1.0,2.0,2.0,2.0,9.0,4751.644444,...,500.0,500.0,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,1.315789,0.933035,1.0,1.0,1.0,1.0,4.0,12.0,118247.7375,...,132.6975,165.0,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,1.173913,0.387553,1.0,1.0,1.0,1.0,2.0,7.0,3153.571429,...,4747.5,7720.0,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,1.666667,0.57735,1.0,1.5,2.0,2.0,2.0,3.0,0.709307,...,1180.0,1180.0,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,2.2,1.095445,1.0,1.0,3.0,3.0,3.0,5.0,7343.021201,...,1200.0,1200.0,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,1.0,,1.0,1.0,1.0,1.0,1.0,1.0,1170.0,...,,,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,1.721519,1.157141,1.0,1.0,1.0,2.0,6.0,553.0,823.35468,...,59.2175,354.0,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,1.95466,1.399119,1.0,1.0,1.0,2.0,7.0,397.0,21.102073,...,650.0,8500.0,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2.25,0.5,2.0,2.0,2.0,2.25,3.0,3.0,79.7835,...,1487.0,2119.0,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


*Burada her bir sütun için describe methodu çağırılıyor.*

Tek bir sütun için toplulaştırma;

In [73]:
df.groupby("method")["number"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
Eclipse Timing Variations,9.0,1.666667,0.5,1.0,1.0,2.0,2.0,2.0
Imaging,38.0,1.315789,0.933035,1.0,1.0,1.0,1.0,4.0
Microlensing,23.0,1.173913,0.387553,1.0,1.0,1.0,1.0,2.0
Orbital Brightness Modulation,3.0,1.666667,0.57735,1.0,1.5,2.0,2.0,2.0
Pulsar Timing,5.0,2.2,1.095445,1.0,1.0,3.0,3.0,3.0
Pulsation Timing Variations,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Radial Velocity,553.0,1.721519,1.157141,1.0,1.0,1.0,2.0,6.0
Transit,397.0,1.95466,1.399119,1.0,1.0,1.0,2.0,7.0
Transit Timing Variations,4.0,2.25,0.5,2.0,2.0,2.0,2.25,3.0


*Burada method sütununu gruplaştırdık ve bu gruplaştırmadan sonra number sütününün describe methodunu çağırdık.*

### **İleri toplulaştırma işlemleri (aggregate, filter, transform, apply)**

*    Aggregate
*    filter
*    transform
*    apply

Kullanacağımız veriseti;

In [74]:
import pandas as pd
import numpy as np

dictionary = {
    "class" : ["a", "b", "c", "a", "b", "c"],
    "students_id" : [35, 27, 15, 41, 80, 9],
    "exam_result" : [100, 20, 40, 50, 14, 90]
}

df = pd.DataFrame(dictionary)

df

Unnamed: 0,class,students_id,exam_result
0,a,35,100
1,b,27,20
2,c,15,40
3,a,41,50
4,b,80,14
5,c,9,90


#### **Aggregate**

In [75]:
df.groupby("class").aggregate(["min", np.median, "max"])

Unnamed: 0_level_0,students_id,students_id,students_id,exam_result,exam_result,exam_result
Unnamed: 0_level_1,min,median,max,min,median,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
a,35,38.0,41,50,75.0,100
b,27,53.5,80,14,17.0,20
c,9,12.0,15,40,65.0,90


*Burada verisetimizi class sütununa göre grupladık ve sonrasında aggregate methodu ile bu gruplanan tablodan min, median ve max değerletini getirdik.*

In [76]:
query = {
    "students_id" : np.median,
    "exam_result" : ["min", "max"] 
}

df.groupby("class").aggregate(query)

Unnamed: 0_level_0,students_id,exam_result,exam_result
Unnamed: 0_level_1,median,min,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,38.0,50,100
b,53.5,14,20
c,12.0,40,90


*Burada farklı sütunlara farklı işlemler uyguladık. students_id sütununa median işlemini exam_result sütununa da min ve max işlemini uyguladık*

#### **Filter**

Kendi yazdığımız fonksiyonlarımızı DataFrame üzerinde filtrelemeye yarar.

In [77]:
def filter_func(df):
  return df["exam_result"].std() > 9

In [78]:
df.groupby("class").filter(filter_func)

Unnamed: 0,class,students_id,exam_result
0,a,35,100
2,c,15,40
3,a,41,50
5,c,9,90


*Burada class sütununa göre bir gruplama işlemi yaptık. Bu sütunlama işleminin ardından kendi yazdığımız fonksiyona göre filtreleme işlemi yaptık. Burada fonksiyonumuz exam_result tablosundaki standart sapması 9 dan büyük olanları geri döndürdu*

#### **Transform**

Değişkenlerin hepsinde gezip istediğimiz fonksiyonu uygulayan method.

In [79]:
change_df = df.iloc[:, 1:3]

change_df.transform(lambda value: value - value.mean())

Unnamed: 0,students_id,exam_result
0,0.5,47.666667
1,-7.5,-32.333333
2,-19.5,-12.333333
3,6.5,-2.333333
4,45.5,-38.333333
5,-25.5,37.666667


*Burada class sütunu bir kategorik değişken olduğundan dolayı, biz bu sütunu almayıp yeni bir değişkene atıyoruz. Ardından değerlerden değerlerin ortalamasını çıkaran bir fonksiyon yazdık.*

#### **Apply**

DataFramedeki değişkenlerin üzerinde gezen ve toplulaştırma amacıyla kullanılan method.

In [80]:
change_df = df.iloc[:, 1:3]

change_df

Unnamed: 0,students_id,exam_result
0,35,100
1,27,20
2,15,40
3,41,50
4,80,14
5,9,90


*Burada class olan sütunumuzu almayıp students_id ve exam_result sütununu farklı bir değişkene atadık.*

In [81]:
change_df.apply(np.sum)

students_id    207
exam_result    314
dtype: int64

*Burada değerlerin üzerinde gezip students_id ve exam_result değerlerinin toplamını buldu.*