<a href="https://colab.research.google.com/github/furkaanasik/Pandas-temel/blob/main/PandasNotes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Pandas**

## **Pandas nedir?**

Pandas veri okuma, veri analizi ve veri temizlemede kullanılan açık kaynak kodlu python kütüphanesidir. Numpy alternatifi değildir, Numpy özelliklerini kullanıp genişletir.

## **Nasıl kurulur?**

```
pip install pandas
```

## **Projeye entegre edilmesi**

In [1]:
# Artık pandas kütüphanesi pd ile adlandırılacaktır.
import pandas as pd 

## **Pandas sürümünü kontrol etmek**


In [2]:
pd.__version__

'1.3.5'

# **Pandas veri yapıları**

*   Series
*   DataFrames

## **Series**

Seriler, etiketlerden (indeks) oluşan tek boyutlu bir veri yapısıdır.

### Seri oluşturma

Pandas kütüphanesi içerisindeki Series methodunu kullanabilirz. Series methodu içerisine **data** vermemiz gerekmekte bu data değer, liste, Numpy dizisi veya sözlükler (dictionary) olabilir.

In [3]:
series = pd.Series([10, 20, 30, 40, 50])

print(series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


**Bir etiket vermediğimizden için etiketlerimiz otomatik olarak 0'dan başlayarak atandı. **

### **Etiket (indeks) bilgileri**

Serilerin etiket (indeks) bilgilerine erişmek için axes kullanılabilir.

In [4]:
series.axes

[RangeIndex(start=0, stop=5, step=1)]

*Burada 0'dan başlayıp 5'e kadar gitmiş ve birer birer artmıştır*

### **Değerler ile ilgili bilgi almak**

Değerler ile ilgili bilgi almak istediğimizde dtype kullanabiliriz.

In [5]:
series.dtype

dtype('int64')

### **Öğe sayısını almak**

In [6]:
series.size

5

### **Dizi şeklinde değerlere erişmek**

Serileri dizi şeklinde değerlerine erişmek istersek values özelliğini kullanabiliriz. values özelliği serileri türüne bağlı olarak ndarray (Numpy array) şeklinde geri döndürür.

In [7]:
series.values

array([10, 20, 30, 40, 50])

### **İlk belirli bir elemana erişmek**

Bir serinin ilk belirli elemanına erişmek istersek head methodunu kullanabiliriz. head methodu içerisine yazdığımız değer kadar elemanı bize geri döndürür.

In [8]:
series.head()

0    10
1    20
2    30
3    40
4    50
dtype: int64

*Default değer 5 atandığı için head içerisine bir şey yazmadığımızda ilk 5 elemanı bizlere getirecektir.*

In [9]:
series.head(3)

0    10
1    20
2    30
dtype: int64

### **Seri içerisindeki değerleri toplamak (sum)**

Serimizin içerisindeki değerleri toplamak istersen sum methodunu kullanabiliriz.

In [10]:
summation = series.sum()

print(summation)

150


### **Seri içerisindeki en büyük değere ulaşmak (max)**

Seri içerisinde en büyük değere ulaşmak için max methodunu kullanabiliriz.

In [11]:
maximum = series.max()

print(maximum)

50


### **Seri içerisindeki en küçük değere ulaşmak (min)**

Seri içerisinde en küçük değere ulaşmak için min methodunu kullanabiliriz.

In [12]:
minimum = series.min()

print(minimum)

10


### **Serinin ortalamasını bulmak (mean)**

Serinin ortalamasını bulmak için mean methodunu kullanabiliriz.

In [13]:
average = series.mean()

print(average)

30.0


### **Etiket isimlendirme**

Etiket isimlendirme işleminde seri oluştururken Series methoduna bir index paramatresi göndererek etiketleme işlemini yapabiliriz.

In [14]:
series = pd.Series([11, 32, 45, 62, 71], index = [1, 3, 5, 7, 9])

print(series)

1    11
3    32
5    45
7    62
9    71
dtype: int64


*Etiketleri elimizle index ifadesine verdiğimiz için artık serimizin etiketleri bizim verdiğimiz değerler olacaktır.*

In [15]:
series = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])

print(series)

a    11
b    32
c    45
d    62
e    71
dtype: int64


*Etiket verme işleminde illa tam sayı olacak diye bir koşul yok string değer de verebiliriz.*

### **Etikete göre elemana erişme**

Serinin etiketine göre elemana erişmek istersek sözlük (dictionary) mantığını gibi kullanabiliriz.

In [16]:
series = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])

first_element = series["a"] # ilk etiket "a" olduğu için bu şekilde kullandık
last_element = series["e"]

print(first_element)
print(last_element)

11
71


### **Serinin belirli bir aralığına erişme**

Serinin belirli bir aralığına erişmek için kullanılan etikete göre elemana erişme işleminden sonra gidilecek yeri söyleyerek bir aralığa erişebiliriz.

In [17]:
series = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])

intermittent_values = series["a": "c"] # dizinin "a" etiketinden "c" etiketi dahil olmak üzere belirlenen aralığı getirir

print(intermittent_values)

a    11
b    32
c    45
dtype: int64


### **İki seriyi birleştirme**

İki seriyi birleştirmek için pandas kütüphanesinden concat methodu kullanılabilir. concat methodu kullanılırken içine verilecek değerleri bir listenin içerisinde yazmamız gerekmektedir.

In [18]:
series1 = pd.Series([11, 32, 45, 62, 71], index = ["a", "b", "c", "d", "e"])
series2 = pd.Series([1, 2, 3, 4, 5, 6])

compound_series = pd.concat([series1, series2])

print(compound_series)

a    11
b    32
c    45
d    62
e    71
0     1
1     2
2     3
3     4
4     5
5     6
dtype: int64


### **Serinin etiketlerine erişmek**

Bir serinin etiketlerine erişmek istersek index özelliğini kullanabiliriz.

In [19]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

print(series.index)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


### Serinin değerlerine erişmek

Bir serinin değerlerine erişmek istersek keys özelliğini kullanabiliriz.

In [20]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

print(series.keys)

<bound method Series.keys of a    1
b    2
c    3
d    4
e    5
dtype: int64>


### **Seriyi listeye dönüştürme**

Bir seriyi listeye dönüştürmek istersek items methodu ile bir liste şekline sonra da list methodu ile listeye çevirebiliriz.

In [21]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

sample_list = list(series.items())

print(sample_list)

[('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)]


### **Fancy ile elemana erişmek**

In [22]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

sample_fancy = series[["a", "d"]]

print(sample_fancy)

a    1
d    4
dtype: int64


*Serimizin içerisine istediğimiz değerleri liste şeklinde gönderip fancy yardımıyla bu değerlere erişmiş olduk.*

### Etiketin değerini değiştirmek

In [23]:
series = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

series["a"] = 10

print(series)

a    10
b     2
c     3
d     4
e     5
dtype: int64


*Serimizin içerisindeki "a" değerine erişip bu değişkene 10 değeri ile değiştirme işlemi yaptık.*

## **DataFrame**

DataFrame veri çerçevesi anlamına gelir. Sql tablosuna benzer bir yapıdadır. DataFrameler veriyi daha kolay işleme imkanı sunar.

### **DataFrame oluşturma**

Pandas kütüphanesinin içerisinde yer alan DataFrame ile oluşturulabilir. DataFrame içerisine bir data ve index gibi bir çok özellik alır. Eğer index değişkenine atama yapmazsak otomatik 0'dan başlayarak artar. Eğer columns değerini girersek oluşacak olan DataFrame yapısının column ismini ayarlar.

In [111]:
df = pd.DataFrame([10, 20, 30, 40, 50], columns=["column 1"])

df

Unnamed: 0,column 1
0,10
1,20
2,30
3,40
4,50


*DataFrame içerisindeki data parametresi yerine sözlük (Dictionary), Numpy dizisi veya başka bir DataFrame koyabiliriz.*

### **DataFrame sütunları isimlendirmek**

DataFrame kullanırken sütunlara erişmek veya bu sütunlarin isimlerini değiştirmek istediğimizde columns özelliğini kullanabiliriz.

In [113]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"])

print(df.columns) # DataFrame içerisinde yer alan sütunların isimlerini geri döndürür

print("-" * 30)
df.columns = ("sutün 1", "sütun 2", "sütun 3") # Sütünlar otomatik atadığımız değişkenlerle değiştir tekrar yeni bir değişkene atama işlemimize gerek yoktur.

df

Index(['column 1', 'column 2', 'column 3'], dtype='object')
------------------------------


Unnamed: 0,sutün 1,sütun 2,sütun 3
0,10,20,30
1,1,2,3


*Numpy dizilerini kullanarak iki boyutlu ve üç elemanlı bir dizi oluşturduk. Oluşan bu diziyi ise DataFrame data özelliği olarak verdik ve sütun isimlendirilmesi yaptık.*

### **DataFrame içserisindeki değerleri çekme**

DataFrame içerisinde değerleri çekmek için values özelliği kullanılabilir. Fakat values özelliği bir numpy dizisi geri döndürür.

In [27]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"])

print(df.values) # Diz içerisindeki verilere ulaşma işlemi
print("-" * 30)
print(type(df.values)) # ndarray şeklinde bir numpy dizisi geri döndürür

[[10 20 30]
 [ 1  2  3]]
------------------------------
<class 'numpy.ndarray'>


### **DataFrame index değiştirmek**

DataFrame index değiştirme işlemi için index özelliğine yeni indeks değerleri atanabilir.

In [32]:
import numpy as np

arr1 = np.random.randint(10, size=5)
arr2 = np.random.randint(10, size=5)

dictionary = {
    "pro1" : arr1,
    "pro2" : arr2
}

# Sözlük kullanarak bir DataFrame oluşturduk.
df = pd.DataFrame(dictionary)

# DataFrame ilk hali
print(df)
print("-" * 30)

df.index = ["a", "b", "c", "d", "e"]

# DataFrame son hali
print(df)

   pro1  pro2
0     5     5
1     8     0
2     8     3
3     5     2
4     5     1
------------------------------
   pro1  pro2
a     5     5
b     8     0
c     8     3
d     5     2
e     5     1


### **DataFrame indeks ile satırlara erişmek**

In [110]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

rows = df["a": "b"]

rows

Unnamed: 0,column 1,column 2,column 3
a,10,20,30
b,1,2,3


*DataFrame içerisinden indekse göre satırlara erişmek istediğimizden bu şekilde kullanabiliriz.*

### **DataFrame içerisinden satır silme**

DataFrame içerisinden bir satırı silmek istediğimizde drop methodunu kullanabiliriz.

In [42]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

# DataFrame içerisindeki etiketi "b" olan satırı silme işlemi.
df.drop("b", axis=0, inplace = True)

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 1  column 2  column 3
a        10        20        30
c        40        50        60


*drop methodunun ilk parametresi neyi silmek istediğimizi belirtir ikinci parametresi olan axis parametresini eğer 0 olarak atama yaparsak DataFrame içerisinde satırları belirtir, eğer axis parametresini 1 olarak atama yaparsak sütunları belirtir. drop fonksiyonun üçüncü parametresi olan inplace özelliği bizim değişiklik yaptığımız DataFrame üzerinde değişiklik yapılmasını kontrol eder. Varsayılan olarak inplace özelliği False olarak ayarlanmıştır yani bir satır silmek istediğimizde ve inplace özelliğine False değerini atamış olursak varsayılan DataFrame herhangi bir değişikliğe uğramayacaktır.*

In [44]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

# DataFrame içerisindeki etiketi "column 1" olan sütünu silme işlemi.
df.drop("column 1", axis=1, inplace = True)

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 2  column 3
a        20        30
b         2         3
c        50        60


*drop fonksiyonunun ilk parametresini neyi silmek istediğimizi verdik, ikinci parametrede satır mı sütun mu bunu belirttik (0 = Satır, 1 = sütun), üçüncü parametresinde ise DataFrame üzerinde bir değişiklik yapılacağını inplace özelliğini True atayarak yapmış olduk.*

birden fazla satır veya sütun silme işlemi;

In [109]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

# DataFrame içerisindeki etiketi "column 1" olan sütünu silme işlemi.
df.drop(["a", "b"], axis=0, inplace = True)

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 1  column 2  column 3
c        40        50        60


*Burada birden fazla satır silme işlemi yapmak için fancy kullandık yani drop methodumuza bu sefer tek bir elemanı sil demedik birden fazla elemani liste şeklinde gönderdik.*

### DataFrame içerisine yeni bir sütun oluşturmak

Listeye eleman ekleme yapısı gibi atama işlemi yapabiliriz.

In [46]:
import numpy as np

arr = np.array([[10, 20, 30], [1, 2, 3], [40, 50, 60]])

df = pd.DataFrame(arr, columns=["column 1", "column 2", "column 3"], index = ["a", "b", "c"])

print(df)
print("-" * 30)

df["column 4"] = df["column 1"] + df["column 2"]

print(df)

   column 1  column 2  column 3
a        10        20        30
b         1         2         3
c        40        50        60
------------------------------
   column 1  column 2  column 3  column 4
a        10        20        30        30
b         1         2         3         3
c        40        50        60        90


*Burada "column 4" sütununu oluşturmak istiyoruz ve listeye eleman ekleme işlemi gibi uyguluyoruz.*

### **DataFrame üzerinde veri seçme işlemleri**

*   loc
*   iloc

#### **loc**

In [63]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

print(df)
print("-" * 30)

locate = df.loc[1:5]
locate

    a   b   c   d   e
0  91  81  24   1  69
1  32  11  59  42  30
2  80  33  90  66  15
3  99  34  44  57  95
4  17  54  85  13  77
5   1  19  28  28  32
6  50   2  61  22  95
7  17  28  45  45  10
8  95  25  22  15  40
9  37   7  98  36  84
------------------------------
    a   b   c   d   e
1  32  11  59  42  30
2  80  33  90  66  15
3  99  34  44  57  95
4  17  54  85  13  77
5   1  19  28  28  32


*Burada oluşturmuş olduğumuz 10 satırlı bir DataFrame içerisindeki 1. elemandan ve 5. elemana (dahil) kadar bir veri seçme işlemi gerçekleştirdik.*

#### **iloc**

In [64]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

print(df)
print("-" * 30)

locate = df.iloc[1:5]

locate

    a   b   c   d   e
0  60  49  40  16  37
1  71  23  48  31  22
2  31  85  14  56  42
3  83  23  56  35  69
4   3  21  93  36  48
5  94  25  23  87  35
6  31  36   1  65  86
7  51  43  13  69  71
8  70  94  35   7  21
9  26  94  71  67  37
------------------------------
    a   b   c   d   e
1  71  23  48  31  22
2  31  85  14  56  42
3  83  23  56  35  69
4   3  21  93  36  48


#### **iloc ile loc arasında aralıklı veri seçim farkı**

iloc ile loc temel farkını satır ve sütun veri seçme işleminde göreceğiz.

loc kullandığımızda verdiğimiz aralığın ikisini de kapsar fakat iloc kullandığımızda verilen aralığın ilki dahil ikindisi dahil olmayaktır. Örneğim 5 satırlık bir DataFrame oluşturduk ve biz bu DataFrame içerisinden ilk 1. satırdan 3. satıra (dahil değil) kadar olan verilere erişmek istiyoruz. Burada iki farklı yolumuz vardır;

*   loc ifadesi ile = df.loc[1:2] 
*   iloc ifadesi ile = df.iloc[1:3]

Eğer loc ile iloc aralığını aynı verirsek farkı daha iyi anlayabiliriz. Örnek olarak;

In [71]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

# Oluşturduğumuz DataFrame
print("Oluşturduğumuz DataFrame")
print(df)
print("-" * 30)

# loc ile veriye erişmek
print("loc ile veriye erişmek")
locate = df.loc[1:3]
print(locate)
print("-" * 30)

# iloc ile veriye erişmek
print("iloc ile veriye erişmek")
locate = df.iloc[1:3]
print(locate)
print("-" * 30)

Oluşturduğumuz DataFrame
    a   b   c   d   e
0  44  34  47  94  40
1  79  18  82  92  23
2   2  44  38  28  15
3  11  68  56  34  99
4  91  79  86  71  37
------------------------------
loc ile veriye erişmek
    a   b   c   d   e
1  79  18  82  92  23
2   2  44  38  28  15
3  11  68  56  34  99
------------------------------
iloc ile veriye erişmek
    a   b   c   d   e
1  79  18  82  92  23
2   2  44  38  28  15
------------------------------


*Burada gördüğünüz üzere loc ve iloc aralığını aynı verdiğimizde, loc son aralık değerini dahil etti fakat iloc dahil etmedi.*

#### **Satır ve sütun veri seçme işlemi**

In [76]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

locate = df.iloc[0:3, 0:2]
locate

    a   b
0  25  39
1  80  89
2  14  64


*Burada veri seçme işlemi için dilersek iloc dilersek de loc kullanabiliriz. iloc veya loc içerisine verilen ilk aralık(0:3) satırları, ikinci aralık(0:2) ise sütunları temsil eder.*

**ÖNEMLİ**

**iloc ile direkt sütun işlemi yapılmaz indeks işlemi yapılır**

Örneğin;

In [85]:
import numpy as np
import logging
import traceback

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

try:
  locate = df.iloc[0:3, "a"]
  print(locate)
except Exception as e:
  logging.error(traceback.format_exc())

ERROR:root:Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 754, in _has_valid_tuple
    self._validate_key(k, i)
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 1426, in _validate_key
    raise ValueError(f"Can only index by location with a [{self._valid_types}]")
ValueError: Can only index by location with a [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array]

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "<ipython-input-85-4cd83f647b7b>", line 9, in <module>
    locate = df.iloc[0:3, "a"]
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 925, in __getitem__
    return self._getitem_tuple(key)
  File "/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py", line 1506, in _getitem_tuple
    self._has_valid_tuple(tup)
  File "/usr/loca

*Burada eğer bir aralık vermeyip istediğimiz satırı veya sütunun değerini verirsek indeks bazlı veri seçmek olacak fakat iloc index bazlı seçim yapamaz burada iloc yerine loc kullanabiliriz.*

In [106]:
import numpy as np
import logging
import traceback

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

try:
  locate = df.loc[0:3, "a"]
  print(locate)
except Exception as e:
  logging.error(traceback.format_exc())

0    73
1    55
2    96
3    29
Name: a, dtype: int64


**Burada direkt bir sütunun değerini veya satırın değerini verdiğimiz için loc ifadesi ile veri seçme işlemimizi gerçekleştirmiş olduk**

####**iloc ile sütun seçme işlemi**

In [93]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

locate = df.iloc[0:3]["a"]

locate

0    74
1    95
2    17
Name: a, dtype: int64


*Burada iloc ile sütun seçme işlemi yaptık burada satır olarak 0'dan 3'e kadar olan satırları seçtik ve bu satırladın da sahip olduğu a sütununu aldık.*

Birden fazla sütun seçmek istersek fancy kullanabiliriz. Örneğin;

In [103]:
import numpy as np

random_arr = np.random.randint(1, 100, size = (5, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

locate = df.iloc[0:3][["a", "d", "e"]]

locate

Unnamed: 0,a,d,e
0,43,77,72
1,95,24,67
2,14,48,92


*Burada fancy yardımıyla birden fazla sütun seçme işlemini yapabildik.*

#### **Koşullu eleman seçme işlemi**


In [102]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

df[df.a > 15]

Unnamed: 0,a,b,c,d,e
0,18,21,26,8,6
3,21,10,18,12,13
4,20,11,11,20,2
5,25,22,10,16,14
9,18,29,28,14,18


*Burada a sütunundaki değerlerin 15'den büyük olma koşulunu verdik. DataFrame içerisindeki sütuna erişmek için df.a ifadesini kullandık.*

Birden fazla koşul girmek;

In [118]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (10, 5))
df = pd.DataFrame(random_arr, columns=["a", "b", "c", "d", "e"])

df[(df.a > 15) & (df.d > 5)]

Unnamed: 0,a,b,c,d,e
0,23,9,1,27,14
1,17,1,5,28,7
4,26,13,9,14,22
5,29,22,26,12,5
6,17,18,4,24,23
7,27,22,19,27,5
9,17,7,2,18,6


*Burada a sütunundaki değerlerin 15'den büyük olduğu ve d sütunundaki değerlerin 5'den büyük olduğu değerleri aldık.*

### DataFrame sütunları değiştirmek

DataFrame içerisindeki sütunları değiştirmek istersek columns kullanabiliriz.

In [130]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df = pd.DataFrame(random_arr, columns=["a", "b", "c"])

df.columns = ["A", "B", "C"]

df

Unnamed: 0,A,B,C
0,13,12,27
1,16,18,5
2,15,26,17
3,17,26,17
4,6,9,27


### DataFrame birleştirme işlemleri (concat)

DataFrame birleştirme işlemleri için concat methodunu kullanabiliriz

In [127]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df1 = pd.DataFrame(random_arr, columns=["a", "b", "c"])
df2 = df1 * 2 # Oluşturulan df1 değerini 2 ile çarpıp df2 değişkenine atanma işlemi

print("Oluşturulan ilk DataFrame")
print(df1)
print("-" * 30)
print("Oluşturulan ikinci DataFrame")
print(df2)
print("-" * 30)

concat_df = pd.concat([df1, df2])
print("df1 ve df2 DataFrame birleştirme işlemi")
print(concat_df)

Oluşturulan ilk DataFrame
    a   b   c
0   8  17  24
1  22  29  29
2  19  10  18
3   2  27  24
4  24  19   7
------------------------------
Oluşturulan ikinci DataFrame
    a   b   c
0  16  34  48
1  44  58  58
2  38  20  36
3   4  54  48
4  48  38  14
------------------------------
df1 ve df2 DataFrame birleştirme işlemi
    a   b   c
0   8  17  24
1  22  29  29
2  19  10  18
3   2  27  24
4  24  19   7
0  16  34  48
1  44  58  58
2  38  20  36
3   4  54  48
4  48  38  14


*Burada indeksleri birleştirme işlemi sonrasında indeksleri incelediğimizde bir hata görüyoruz. İndeksler 0'dan başlayıp 5'e kadar ilerlemiş fakat tekrar 0'dan başlayıp 5'e kadar ilerlemiş.*

Bu sorunu çözmek için;

In [128]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df1 = pd.DataFrame(random_arr, columns=["a", "b", "c"])
df2 = df1 * 2 # Oluşturulan df1 değerini 2 ile çarpıp df2 değişkenine atanma işlemi

print("Oluşturulan ilk DataFrame")
print(df1)
print("-" * 30)
print("Oluşturulan ikinci DataFrame")
print(df2)
print("-" * 30)

concat_df = pd.concat([df1, df2], ignore_index=True)
print("df1 ve df2 DataFrame birleştirme işlemi")
print(concat_df)

Oluşturulan ilk DataFrame
    a   b   c
0   1  27  16
1   6  21   8
2  13   8  12
3   5   2  27
4  15   3  16
------------------------------
Oluşturulan ikinci DataFrame
    a   b   c
0   2  54  32
1  12  42  16
2  26  16  24
3  10   4  54
4  30   6  32
------------------------------
df1 ve df2 DataFrame birleştirme işlemi
    a   b   c
0   1  27  16
1   6  21   8
2  13   8  12
3   5   2  27
4  15   3  16
5   2  54  32
6  12  42  16
7  26  16  24
8  10   4  54
9  30   6  32


*Burada concat methodunun içerisine ignore_index parametresine True atadığımızda indeks problemimiz ortadan kalktı.*

#### **Farklı sütünlara sahip olan DataFrame birleştirme işlemi**

In [138]:
import numpy as np

random_arr = np.random.randint(1, 30, size = (5, 3))
df1 = pd.DataFrame(random_arr, columns=["a", "b", "c"])
random_arr = np.random.randint(1,30, size = (5,3))
df2 = pd.DataFrame(random_arr, columns=["Column 1", "Column 2", "c"])

pd.concat([df1, df2],  ignore_index=True)

Unnamed: 0,a,b,c,Column 1,Column 2
0,18.0,26.0,27,,
1,15.0,3.0,9,,
2,25.0,10.0,29,,
3,10.0,17.0,29,,
4,21.0,4.0,6,,
5,,,2,17.0,15.0
6,,,26,6.0,26.0
7,,,22,21.0,25.0
8,,,22,20.0,26.0
9,,,10,7.0,15.0


*Burada görülen NaN ifadeleri birinci DataFrame ile ikinci DataFrame eşleşmediğinden ortaya çıkmıştır. Görüldüğü gibi sütun c iki DataFramede eşleştiği için otomatik c ifadesinin bulunduğu sütuna yazılmıştır.*

In [141]:
pd.concat([df1, df2], join="inner", ignore_index=True)

Unnamed: 0,c
0,27
1,9
2,29
3,29
4,6
5,2
6,26
7,22
8,22
9,10


*Burada iki DataFramede ortak sütun olanları birleştirdik.*

### **İleri Birleştirme işlemleri (merge)**

*   Birebir (one to one) birleştirme
*   Çoktan bire (many to one) birleştirme



#### **Birebir (one to one) birleştirme**

In [147]:
students = {
    "name": ["Furkan", "Özlem", "Kardem", "Doga"],
    "department": ["Bilgisayar", "Kimya", "Yazılım", "Yazılım"]
}

student_department = pd.DataFrame(students)

student_department

Unnamed: 0,name,department
0,Furkan,Bilgisayar
1,Özlem,Kimya
2,Kardem,Yazılım
3,Doga,Yazılım


In [148]:
graduation = {
    "name" : ["Furkan", "Özlem", "Kardem", "Doga"],
    "year" : ["2023", "2023", "2024", "2021"]
}

graduation_year = pd.DataFrame(graduation)

graduation_year

Unnamed: 0,name,year
0,Furkan,2023
1,Özlem,2023
2,Kardem,2024
3,Doga,2021


In [149]:
pd.merge(student_department, graduation_year)

Unnamed: 0,name,department,year
0,Furkan,Bilgisayar,2023
1,Özlem,Kimya,2023
2,Kardem,Yazılım,2024
3,Doga,Yazılım,2021


*student_department ile graduation_year DataFramelerimizi birleştirmek istedik ve merge ifadesi kullanılarak bu işlemi gerçekleştirdik. merge methodou otomatik olarak ortak olan sütuna göre birleştirme işlemi yapar.*

#### **Çoktan teke (many to one) birleştirme işlemi**

In [150]:
students = {
    "name": ["Furkan", "Özlem", "Kardem", "Doga"],
    "department": ["Bilgisayar", "Kimya", "Yazılım", "Yazılım"]
}

graduation = {
    "name" : ["Furkan", "Özlem", "Kardem", "Doga"],
    "year" : ["2023", "2023", "2024", "2021"]
}

student_department = pd.DataFrame(students)
graduation_year = pd.DataFrame(graduation)

school = pd.merge(student_department, graduation_year)
school

Unnamed: 0,name,department,year
0,Furkan,Bilgisayar,2023
1,Özlem,Kimya,2023
2,Kardem,Yazılım,2024
3,Doga,Yazılım,2021
