# **Pandas**
* '**Panel Data**'nın kısaltılmasıdır
* NumPy'ın alternatifi değildir, NumPy'ın özelliklerini kullanan ve bunu genişleten bir kütüphanedir
* En büyük farklarından birisi: NumPy'da 'Fixed Type' varken Pandas'ta farklı veri tipleri barınabilir
* **Panel Data** nedir peki?
> Pandas temelinde ekonometrik ve finansal çalışmalar için doğmuştur.  
>  * Panel Data: Kesit veri ve zaman verisinin bir arada olduğu veri tipidir.  
>  * Klasik veri yerine zaman verisini daha önemseyen bir yapıdır
* Temeli 2008 yılında atılmıştır
* R DataFrame yapısını Python dünyasına taşımıs ve DataFrame'ler üzerinde hızlı ve etkili çalışabilme imkani sağlamıştır.

***
### **Pandas Serisi Oluşturmak**
* import pandas as pd
* Değerleri onların indexleri ile beraber tutar
  > mySeries.axes -> Bize index bilgilerini verir (start=0, stop=5 step=1)  
  > mySeries.ndim  
  > mySeries.size  
  > mySeries.values -> İçerisindeki değerleri numpy array'i gibiymişçesine bize array çevirir  
  > mySeries.head(4) -> İlk 4 elemanı verir

In [8]:
import numpy as np
import pandas as pd
mySeries = pd.Series([11,12,13,14,15])

<hr style="border: 1px solid blue;">

#### **Index İsimlendirme**
* Kendisi default olarka indexleri 0dan başlayarak tutar ama biz istersek indexlerin isimlerindirebiliriz
  > pd.Series([199,22,332,94,51], index = ["a",3,5,7,9]) 

In [44]:
pd.Series([199,22,332,94,51], index = ["a",3,5,7,9]) 

a    199
3     22
5    332
7     94
9     51
dtype: int64

<hr style="border: 1px solid blue;">

#### **Sözlük ile pandas serisi oluşturma**
* Önce sözlük tanımlayıp sonra içine yerleştirelim:
  > dict = {"reg":10, "log":11, "cart": 12}  
    mySeries = pd.Series(dict)
  
* Yine bunun aynısını numpy arrayleri ile de yapabiliriz:
  > a = np.array([99,88,34,67])
    series = pd.Series(a)

In [51]:
dict = {"reg":10, "log":11, "cart": 12}
mySeries = pd.Series(dict)
mySeries

reg     10
log     11
cart    12
dtype: int64

<hr style="border: 1px solid blue;">

#### **Pandas'ın Önemli Fonksiyonları**
#### **Birleştirme**
* pd.concat([seri1, seri2])

<hr style="border: 1px solid blue;">

#### **Eleman Sorgulama**
* "reg" in mySeries -> mySeries serisinde "reg" **index**'i varsa true döner.

In [10]:
s = pd.Series([1,2,3,4],
             index = ["e", "r", "a", "y"])
print('3' in s)
print('r' in s)
print(3, "s")

False
True
3 s


<hr style="border: 4px solid red;">

## **Pandas DataFrame**
* Pandas kütüphanesi içerisinde yer alır.
* **Nedir?** Yapısal bir veri tipidir. Excel veri yapısına benzerdir.
* **NumPy varken neden DataFrame'ine ihtiyacımız var?** NumPy fix type veri tipidir.
* Satır = **Gözlem**
* Sütun = **Değişken**
##### **Nasıl oluşturulur:** 
* Bir Boyutlu:
  > pd.DataFrame([1,3,56,44], columns = ["My Var"])
  > * Tabi istersek np array ile de oluşturabiliriz:
  >> pd.DataFrame(np.array([1,4,9,7]), columns=["Numbers"])
* İki boyutlu:
  > m = np.arange(1,10).reshape((3,3))  
  > pd.DataFrame(m , columns=["Var1", "Var2", "Var3"])

##### **Nasıl Erişilir:**

In [202]:
import pandas as pd
import numpy as np
pd.DataFrame([1,2,39,34], columns = ["My Var"])

Unnamed: 0,My Var
0,1
1,2
2,39
3,34


In [204]:
m = np.arange(1,10).reshape((3,3))
pd.DataFrame(m , columns=["Var1", "Var2", "Var3"])

Unnamed: 0,Var1,Var2,Var3
0,1,2,3
1,4,5,6
2,7,8,9


<hr style="border: 1px solid blue;">

##### **Kolon isimlendirmeleri nasıl değiştirilir:**
  > df = pd.DataFrame(m , columns=["Var1", "Var2", "Var3"])  
    df.columns -> Kolon isimlerini verir  
    df.columns = ("deg1", "deg2", "deg3")

In [2]:
df = pd.DataFrame(m , columns=["Var1", "Var2", "Var3"])
print(df.columns)
df.columns = ("deg1", "deg2", "deg3")
df

NameError: name 'pd' is not defined

<hr style="border: 1px solid red;">

## **Eleman İşlemleri**
* s1 = np.random.randint(10, size=5)  
  s2 = np.random.randint(10, size=5)  
  s3 = np.random.randint(10, size=5)
  
* dictinory = {"var1": s1 , "var2": s2 , "var3": s3}

* Şimdi DataFrame oluşturalım:  
  df = pd.DataFrame(dictionary)

* Eğer pandas index isimlerini değiştirmek de istersek onu da yapabiliyorduk hatırlarsak:
  df.index = ["a", "b", "c", "d", "e"]

In [123]:
s1 = np.random.randint(10, size=5)
s2 = np.random.randint(10, size=5)
s3 = np.random.randint(10, size=5)
dictionary = {"var1": s1 , "var2": s2 , "var3": s3}

df = pd.DataFrame(dictionary)
df.index = ["a", "b", "c", "d", "e"]
df

Unnamed: 0,var1,var2,var3
a,8,9,9
b,0,5,3
c,4,4,3
d,2,5,0
e,7,1,1


<hr style="border: 1px solid blue;">

#### **Çağırma**
* df["var1"]["a"] -> Bu bize 6 ifadesini verir
* Tüm sütunu çağırmak istersek:
  > df["var1"]

In [81]:
df["var1"]["a"]

6

<hr style="border: 1px solid blue;">

#### **Silme**
##### **Satır:**
* df.drop("var1", axis=1)  **-> Tek sütun silmek**  
  df.drop(["var1", "var2"], axis=1)  **-> Birden fazla sütun silmek**

##### **Sütun:**
* df.drop("a", axis=0)  **-> Tek satır silmek**  
  df.drop(["a", "b"], axis=0)  **-> Birden fazla satır silmek**

##### **Eleman:**
* Pandas'ta tek bil elemanı silmek diye bir şey **yoktur** Pandas DataFrame'ler matris benzeri bir yapıdadır.
* Eksik değerler veya silmek istediğimiz değer yerine **NaN** barındırabilir:
  > df.at["b", "var2"] = np.nan **-> b. satır var2. sütununu**

##### **Inplace:**
* Bu yukarıdaki yapılan değişiklikler ana DataFrame yapısı üzerinde değişikliğe neden olmaz sadece istersek başka bir değişkene atayabiliriz.
* Eğer ana DataFrame üzerinde değişikliklerin kaydedilmesini istiyorsak **inplace=True** yapmalıyız

In [125]:
df.drop("a", axis=0)
print(df, "\n")

df.drop("a", axis=0, inplace=True)
print(df, "\n")

df.drop("var1", axis=1, inplace=True)
print(df)

   var1  var2  var3
a     8     9     9
b     0     5     3
c     4     4     3
d     2     5     0
e     7     1     1 

   var1  var2  var3
b     0     5     3
c     4     4     3
d     2     5     0
e     7     1     1 

   var2  var3
b     5     3
c     4     3
d     5     0
e     1     1


<hr style="border: 1px solid blue;">

#### **Ekleme**
##### **Satır Ekleme:**
* df.loc["f"] = [8, 2, 2] -> 'f' adında yeni bir satır oluşturur ve kolonlara 8,2,2 değerlerini verir.
  > Eğer kolon sayısından az veya fazla eleman yazarsak error verir

##### **Sütun Ekleme:**
* df["var4"] = [8,2,3,4,5,6] -> Eğer 'var4' adında bir sütun yoksa yeni elemanlar ile o sütunu oluşturur
  > Yok eğer 'var4' adında bir sütun varsa o dütundaki elemanların değerlerini yeni elemanlarla değiştirir
* df = df.assign(var4=[8,2,1,2,3,4]) -> Yine önceki gibi 'var4' adında bir sütun yoksa yeni elemanlar ile o sütunu oluşturur
* df.insert(1, "var0", [0, 0, 0, 0, 0, 0]) -> Belirtmiş olduğumuz sayıdaki sütuna ekleme yapar. Yani birinci sütundan hemen sonra ikinci bir sütun ekler.

##### **Belirli Hücreye Eleman Ekleme/Güncelleme:**
* df.loc["b", "var2"] = 99
* df.at["c", "var3"] = 100
* df.iloc[2, 1] = 50  **-> Index bazlı eleman ekler yani 2. satır, 1. sütundaki değeri günceller**

<div style="background-color:yellow; padding:10px; border-radius:5px;">
    Peki satır veya sütun eklerken eleman sayılarını nasıl öğrenicez de doğru gireceğiz:<br>
  <strong>Satır Eklemek İçin Sütun Sayısı:</strong>  <br>
  * sütun_sayısı = df.shape[1] <br>
    sütun_sayısı = len(df.columns) <br>
  <br>
  <strong>Sütun Eklemek İçin Satır Sayısı:</strong>  <br>
    * satır_sayısı = df.shape[0] <br>
      satır_sayısı = len(df.index)
</div>

In [297]:
s1 = np.random.randint(10, size=5)
s2 = np.random.randint(10, size=5)
s3 = np.random.randint(10, size=5)
dictionary = {"var1": s1 , "var2": s2 , "var3": s3}

df = pd.DataFrame(dictionary)
df.index = ["a", "b", "c", "d", "e"]

df.loc["f"] = [8,2,3]
df["var4"] = [8,2,3,4,5,6]

df = df.assign(var4=[8,2,1,2,3,4])
df.insert(1, "var0", [0, 0, 0, 0, 0, 0])


df

Unnamed: 0,var1,var0,var2,var3,var4
a,6,0,2,3,8
b,0,0,4,9,2
c,4,0,1,8,1
d,7,0,4,9,2
e,2,0,6,2,3
f,8,0,2,3,4


<hr style="border: 1px solid red;">

### **Koşullu Eleman İşlemleri**

#### **Koşullu Listeleme:**
* df[df.var1 > 5] **->** 'var1' sütunundaki 5'ten büyük olan **tüm sütunları** listeler sadece var1'i değil
* df[df.var1 > 5]["var1"] **->** **var1 altındaki** de 5ten büyük olan var1 altındaki değerleri listeler
* df.loc[(df.var1>5), ["var1", "var2"]] **->** var1 sütunundaki 5'ten büyük olan değelerin bulunduğu var1 ve var2 sütununu listeler
* df[df.var1>5][["var1", "var2"]] **->** Yukarıdaki işlemle aynı
> ***
* df[(df.var1 > 5) & (df.var4 >2)] **->** Birden fazla koşul ekleyebiliriz

#### **Ekleme/Güncelleme:**
* df.loc[df["var1"] > 5, "var3"] = -1  **->** 'var1' sütununda değeri 5'ten büyük olan satırların 'var3' sütununu -1 yap

In [314]:
df[df.var1>5][["var1", "var3"]]

Unnamed: 0,var1,var3
a,6,3
d,7,9
f,8,3


In [341]:
m = np.random.randint(1,30, (5,3))
df = pd.DataFrame(m, columns=["var1", "var2", "var3"]) # Sonraki adımlar için df'yi güncelledim

<hr style="border: 1px solid blue;">

#### **Index Bazlı Birleştirme (Join)**
* **Index bazlı birleştirme yapar**
* df2 = df + 99  **->** df'nin tüm elemanlarına 99 ekler ve bu iki DataFrame'i birleştirmek istersek:
  > pd.concat([df, df2])
  >> Ama burada şöyle bir sorun var, iki DF'i de aynı indexlerle birleştirir yani iki defa 0'dan 4'e gider: **ignore_index**
  >> * pd.concat([df, df2], ignore_index=True)

* Peki iki arrayde de aynı kolon ismine sahip değilse veya birisi 3x5 diğeri 4x4 ise ne olacak:
  > pd.concat([df, df2], join="inner") **->** iki DF arasındaki aynı olan kolon isimlerini birleştirir

In [352]:
df2 = df + 5
pd.concat([df, df2])
pd.concat([df, df2], ignore_index=True)
pd.concat([df, df2], join="inner")

Unnamed: 0,var1,var2,var3
0,26,9,17
1,6,19,21
2,1,13,16
3,8,10,11
4,14,21,19
0,31,14,22
1,11,24,26
2,6,18,21
3,13,15,16
4,19,26,24


* Tüm Sütunları Birleştirmek:
  > pd.concat( [df, df2], join="outer", axis=0 ) **->** Aynı isimde olsun olmasın tüm kolonları basar ve kesişmeyenlere 'NaN'
 yazar

* Belirli Sütunları Birleştirmek:
  > pd.concat( [df, df2.reindex(columns=df.columns)], axis=0 ) **->** Yine kesişen elemanları birleştirir ama onların dışında 'df' DF'inin tüm kolonlarını yazdırır, ve kesişmeyen kısımlara 'NaN' yazdırır.

In [387]:
df2.columns = ["var1", "var2", "clm"] #Burada pd2'nin kolon isimlerini değiştirdik.

pd.concat( [df, df2.reindex(columns=df.columns)], axis=0 )

Unnamed: 0,var1,var2,var3
0,26,9,17.0
1,6,19,21.0
2,1,13,16.0
3,8,10,11.0
4,14,21,19.0
0,31,14,
1,11,24,
2,6,18,
3,13,15,
4,19,26,


<hr style="border: 1px solid blue;">

#### **Sütun Bazlı Birleştirme (merge)**
* Birleştirmelerin hangi değişkene göre yapılacağını kendisi anlıyor
  > pd.merge(df1, df2) **->** Ortak olan sütunun yanına ortak olmayan sütunları da ekler

* Eğer birleştirilecek değişkeni belirtmek istersek:
  > pd.merge(df1, df2, on='employees')

In [466]:
df1 = pd.DataFrame( {'Employees': ['Eray', 'Salih', 'Selin', 'Gizem'],
                   'Department': ['IT', 'IT', 'HR', 'Finance']} )

df2 = pd.DataFrame( {'Employees': ['Eray', 'Salih', 'Selin', 'Gizem'],
                   'Salaries': ['59000', '45000', '32000', '54000']} )

pd.merge(df1, df2)

Unnamed: 0,Employees,Department,Salaries
0,Eray,IT,59000
1,Salih,IT,45000
2,Selin,HR,32000
3,Gizem,Finance,54000


***
##### **Many to One Birleştirme:**
* Aynı sayıda eleman içerese de ortak olanları yine de birleştirir. Mesela aşadıda Salih'in Manager bilhisi girilmemesine rağmen IT departmanında olduğu için, ve biz de 'Department' üzerinden bir merge yaptığımız için, IT departmanında çalışan tüm kişilerin 'Manager'ini Caner yapar

In [468]:
df3 = pd.merge(df1, df2)
df4 = pd.DataFrame( {'Department': ['IT', 'HR', 'Finance'],
                    'Manager': ['Caner', 'Melike', 'Eray']} )

pd.merge(df3, df4, on='Department') 

Unnamed: 0,Employees,Department,Salaries,Manager
0,Eray,IT,59000,Caner
1,Salih,IT,45000,Caner
2,Selin,HR,32000,Melike
3,Gizem,Finance,54000,Eray


***
##### **Many to One Birleştirme:**
* Birleştirek istediğimiz DF'lerden birisinde bizim üzerine birleştirme yapacağımız kolon üzerinde birden fazla aynı isimlendirmeye sahip satır olabilir. Birleştirme yaparsak aynı isimden birden fazla sayıda verir

In [475]:
df5 = pd.DataFrame( {'Department': ['Finance', 'Finance', 'IT', 'IT', 'HR'],
                    'Skills': ['Math', 'Excel', 'Python', 'C#', 'Miring']} )
pd.merge(df1, df5)

Unnamed: 0,Employees,Department,Skills
0,Eray,IT,Python
1,Eray,IT,C#
2,Salih,IT,Python
3,Salih,IT,C#
4,Selin,HR,Miring
5,Gizem,Finance,Math
6,Gizem,Finance,Excel


<hr style="border: 1px solid red;">

## **Toplulaştırma ve Gruplama (Aggregation & Grouping)**
* Öncelikle aşağıda 'Seaborn' kütüphanesini import edeceğiz
* Ve seaborn üzerinden 'Planet' veri setini yükleyeceğiz
  > * Yükleyebileceğimiz veri setlerini aşağıdaki siteden bulabiliriz:
      https://github.com/nwaskon/seaborn-data

#### **Basit Aggregation Fonksiyonları:**
* count() **->** Her bir değişken için kaç tane değer olduğunu verir
* first()
* last()
* mean() **->** Her bir değerin ortalamasını verir. İstersek df["mass"].mean() yaparak belirli bir değerin ortalamasını da alabiliriz
* median()
* min()
* max()
* std() **->** Standart sapması
* var() **->** Varyansı
#####
* İşte bunların hepsini tek bir fonksiyon ile de alabiliriz: **df.describe()**
  > İstersek tabloyu ters çevirerek(Transpose) daha okunaklı bir hale de getirebiliriz: df.describe().T

In [68]:
import seaborn as sns
df = sns.load_dataset("planets")
df["mass"].count()

513

In [72]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


<hr style="border: 1px solid blue;">

#### **Basit Grouping İşlemleri:**
* Aşağıdaki yapacağımız işlemlerde A,B ve C şubelerinden ikişer öğrencinin notları elimizde olan bir DataFrame olacak
* İşte burada gruplama yapalım:
  > df.groupby("şubeler")
* İşte bu yukarıda yaptığımız groupby() işlemi bir gruplamadır ama Aggregation olmadan anlamsızdır o yüzden her şubenin ortalamasını bulmak için aggregation işlemi de yapalım
  > df.groupby("şubeler").mean()
>
* Basit bir örnek üzerinden konuyu anladığımıza göre yularıdaki planet veri setinden her 'Method'un 'orbital_period' ortalamasını alalım:
  > df.groupby("method")["orbital_period"].mean()

In [64]:
import pandas as pd
df = pd.DataFrame({'şubeler': ['A', 'B', 'C', 'A', 'B', 'C'], 'veri': [60,11,52,23,43,55]}, columns=['şubeler', 'veri'])
df.groupby("şubeler").mean()

Unnamed: 0_level_0,veri
şubeler,Unnamed: 1_level_1
A,41.5
B,27.0
C,53.5


<hr style="border: 1px solid blue;">

### **İleri Aggregation İşlemleri (Filter, Transform, Apply)**
