# Pandas - Panel Data

__Kaynak:__ Mustafa Vahit'in (50+ Saat) Python A-Z™: Veri Bilimi ve Machine Learning videolarından çıkarılmış notlardır. https://www.udemy.com/course/python-egitimi/

## Pandas Serisi Oluşturmak

In [2]:
import pandas as pd # Pandas'ı kullanabilmeniz için pandas kütüphanesini dahil ediyoruz.
import numpy as np # Numpy arraylerini de kullanacağımız için numpy kütüphanesini de dahil ediyoruz.
pd.Series([10,88,3,4,5]) # Pandas verileri indexleri ayrı bir bileşen olarak veri tipinin içinde tutulur.

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [4]:
seri = pd.Series([10,88,3,4,5])
type(seri)

pandas.core.series.Series

Pandas'da serinin içinde indexin olmasının önemi ne? Yani numpy ve listelerde değişken[0] olarak erişebiliyorduk. Serinin içinde olmasının faydası ve nedeni ne?

In [6]:
seri.axes # Serinin özelliklerini vermiş. 0'dan başlayıp 5'te bitmiş ve 1'er 1'er artmış.
# Başlangıç değeri, bitiş değeri ve artış miktarı.

[RangeIndex(start=0, stop=5, step=1)]

In [7]:
seri.dtype # Serinin hangi veri tipini tuttuğunu gösteriyor.

dtype('int64')

In [8]:
seri.size # Toplam kaç tane eleman olduğunu gösteriyor.

5

In [9]:
seri.ndim # Serinin kaç boyutlu olduğunu gösteriyor.

1

In [10]:
seri.values # Serinin içinde yer alan değerleri gösterir.

array([10, 88,  3,  4,  5], dtype=int64)

In [11]:
seri.head(3) # ilk üç etiketi ve değerini getirir.

0    10
1    88
2     3
dtype: int64

In [15]:
seri.tail(3) # sondan etiket ve değerleri göstermek içinde tail kullanıyoruz.

2    3
3    4
4    5
dtype: int64

In [16]:
# Index isimlerini değiştirmek için index parametresi kullanıyoruz ve index değerlerini yazıyoruz.
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])

In [18]:
seri

a     99
b     22
c    332
d     94
e      5
dtype: int64

In [21]:
# Index değerlerimizi değiştirdiğimiz için bu şekilde de ulaşabiliriz.
seri["a"]

99

In [22]:
# Normal bir şekilde de değerlere ulaşabiliriz.
seri[0] 

99

In [24]:
seri["a":"c"] # a'dan c'ye kadar değerleri al.

a     99
b     22
c    332
dtype: int64

In [25]:
# Yukarıda hep listede seriler oluşturduk, şimdi gelin sözlüklerle de seri oluşturalım.
sozluk = {"reg":10, "log":11, "cart": 12} # İlk önce bir sözlük oluşturduk. (Key, Value)
seri = pd.Series(sozluk) # Daha sonra pandas serisi içine sözlüğümüzü yolladık.
seri

reg     10
log     11
cart    12
dtype: int64

In [26]:
pd.concat([seri,seri]) # İki seriyi birleştirerek tek bir seriye değerleri concat() fonksiyonu sayesinde alabiliriz.

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## Eleman İşlemleri

In [29]:
a = np.array([1,2,33,444,75])
seri = pd.Series(a)
seri

0      1
1      2
2     33
3    444
4     75
dtype: int32

In [30]:
seri = pd.Series([121,200,150,99], 
                 index = ["reg","loj","cart","rf"])
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [35]:
seri.index # Seride hangi indexler var bu şekilde görebiliriz.

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [36]:
seri.keys # Seride hangi index ve değerler var görebiliriz.

<bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

In [39]:
list(seri.items())
# List yazarak index ve değerleri ayrı ayrı ayırabiliriz.

[('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]

In [40]:
seri.values # Seride hangi elemanlar var görebiliriz.

array([121, 200, 150,  99], dtype=int64)

In [42]:
"reg" in seri # Seri değişkeninde "reg" var mı diye kontrol ettirdik, varsa True dönecek yoksa false

True

In [44]:
seri[["rf", "reg"]] # Fancy ile yazdığımız index'in değerlerini getirdik.

rf      99
reg    121
dtype: int64

In [48]:
seri["reg"] = 130 # 121 olan değer artık değişti, yerine 130 yazıldı.
seri["reg"]

130

In [49]:
seri["reg":"loj"] # Slice işlemi ile belirttiğimiz indexlerin değerlerini getirtebiliriz.

reg    130
loj    200
dtype: int64

## DataFrame Oluşturma
* Excell programına benzer tablolamayı sağlar.

In [3]:
l = [1,2,39,67,90] # Bir tane liste oluşturduk dataframe için.
pd.DataFrame(l, columns = ["sütun_adi"]) # Parametre olarak ilk önce listemizi ekledik daha sonra sütun ismini belirttik.

Unnamed: 0,sütun_adi
0,1
1,2
2,39
3,67
4,90


In [4]:
# Şimdi bu işlemi iki boyutlu arraylerle yapalım.
m = np.arange(1,10).reshape((3,3))
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [5]:
pd.DataFrame(m, columns = ["sütun1","sütun2","sütun3"]) 
# Parametre olarak ilk önce listemizi ekledik daha sonra sütun isimlerini belirttik.

Unnamed: 0,sütun1,sütun2,sütun3
0,1,2,3
1,4,5,6
2,7,8,9


In [8]:
df = pd.DataFrame(m, columns = ["sütun1","sütun2","sütun3"]) # Üstte oluşturduğumuz dataframe'i bir değişkene atadık.
df.columns # Bu değişkenle birlikte sütunların ismine ulaşabiliyoruz.
# O zaman sütunların isimlerini oluştururken değil, sonra da oluturabiliriz. O zaman deneyelim.
df.columns = ("stn1","stn2","stn3")
df.head()

Unnamed: 0,stn1,stn2,stn3
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
type(df)

pandas.core.frame.DataFrame

__Hatırlayalım:__
* __df.axes =__ Satır ve sütun bilgilerini verir.
* __df.shape =__ Boyut bilgisini verir.
* __df.ndim =__ Kaç boyutlu olduğunu gösteriyor.
* __df.size =__ Toplam eleman sayısını verir.
* __df.values =__ Arraydeki değerleri geri döndürür.

In [10]:
df.ndim

2

Hatırlayalım:
* __df.head() =__ Seriyi baştan değerlere erişiyoruz. Fonksiyonun içine bir değer yazdığımızda yukarıdan aşağıya ne kadar gitmesini istiyorsak onu belirtiyoruz.
* __df.tail() =__ Seriyi aşağıdan değerlere erişiyoruz. Yukarıdaki yapılan işlemin tam zıttını yapar.

In [11]:
df.head()

Unnamed: 0,stn1,stn2,stn3
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
df.tail() # Seri oluşturmada zaten anlatmıştık. Şimdi yine tekrarlamak için isterseniz bir değer yazalım ve tamamen anlayalım.

Unnamed: 0,stn1,stn2,stn3
0,1,2,3
1,4,5,6
2,7,8,9


In [16]:
df.tail(1) # Gördüğünüz üzere aşağıdan değere ulaşmış olduk.

Unnamed: 0,stn1,stn2,stn3
2,7,8,9


In [21]:
a = np.array([1,4,6,56,34,66])
pd.DataFrame(a, columns = ["sut1"])

Unnamed: 0,sut1
0,1
1,4
2,6
3,56
4,34
5,66


## Eleman İşlemleri

In [57]:
# Sözlüğün valuelerine numpy'dan ürettiğimiz değerleri atıyoruz.
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)
sozluk = {"var1": s1, "var2": s2, "var3": s3}
df = pd.DataFrame(sozluk)
df

Unnamed: 0,var1,var2,var3
0,8,2,3
1,6,2,1
2,4,9,3
3,7,7,9
4,2,6,2


In [58]:
df[0:1] # Slicing işlemlerinde bunu yaptığımız için geriye ne döndüreceğini biliyoruzdur değil mi?

Unnamed: 0,var1,var2,var3
0,8,2,3


In [59]:
df.index
# Dataframe'de hangi indexler olduğunu gördük.

RangeIndex(start=0, stop=5, step=1)

__SORU: RangeIndex nedir?__
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.RangeIndex.html

In [60]:
# Dataframe indexlerini kendi istediğimiz şekilde değiştirebiliriz.
df.index = ("a","b","c","d","e") # a,b,c,d,e örnek olarak ekledik, buraya istediğinizi yazabilirsiniz.
df

Unnamed: 0,var1,var2,var3
a,8,2,3
b,6,2,1
c,4,9,3
d,7,7,9
e,2,6,2


In [61]:
# Değiştirdiğimiz indexlere bir daha bakalım, RangeIndex iken Index'e dönmüş olduğunu gördük.
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [62]:
df["c":"e"] # Slicing ile belirttiğimiz indexdeki değerleri getirdi.

Unnamed: 0,var1,var2,var3
c,4,9,3
d,7,7,9
e,2,6,2


In [63]:
# Ekleme işlemlerini hep gördük, peki ya tablodan veri silmek istersek? Bunun içinde drop kullanıyoruz.
df.drop("a", axis = 0)
# a index'i, satırları temsil ettiği için axis 0 yazıldı. Ve o satırda yer alan değerler silindi.
# Eğer 1 yazılsaydı program hata verecekti!

Unnamed: 0,var1,var2,var3
b,6,2,1
c,4,9,3
d,7,7,9
e,2,6,2


In [64]:
df.drop("var1", axis = 1)
# üsttekinden farklı olarak 1 yazdık, çünkü var1 sütunları temsil ediyor. Sütundaki değerleri silmek için 1 yazdık.

Unnamed: 0,var2,var3
a,2,3
b,2,1
c,9,3
d,7,9
e,6,2


In [65]:
# Drop işlemi yaptığımızda tablodan verileri kalıcı olarak silmediğini görüyoruz.
df
# Peki, kalıcı olarak nasıl silebiliriz? O zaman, aşağıdaki örnekte yer alan parametreye dikkat edin.

Unnamed: 0,var1,var2,var3
a,8,2,3
b,6,2,1
c,4,9,3
d,7,7,9
e,2,6,2


In [66]:
df.drop("b", axis = 0, inplace = True)
# inplace, dataframe üzerinde yapılan değişikliğin kalıcı olmasını sağlıyor. Yani, dataframe'i güncellemiş gibi oluyoruz.
# Şimdi tekrar tablomuz bir göz atalım.
df

Unnamed: 0,var1,var2,var3
a,8,2,3
c,4,9,3
d,7,7,9
e,2,6,2


In [68]:
l = ["c","e"] # fancy ile tablodan verileri silebiliriz.
df.drop(l, axis = 0)

Unnamed: 0,var1,var2,var3
a,8,2,3
d,7,7,9


In [75]:
df["var1"] # Var1 sütununda yer alan değerler ve indexleri gösteriyor.

a    8
c    4
d    7
e    2
Name: var1, dtype: int32

In [78]:
# var4 diye bir sütun oluştur ve bunun içindeki değerlere var1 ve var2'nin bölümünden kalan değerleri atıyoruz.
df["var4"] = df["var1"] / df["var2"]
df
# Tablomuzu ekrana yazdırdığımızda, var4 diye bir sütunun eklendiğini görmüş olacaksınız.

Unnamed: 0,var1,var2,var3,var4
a,8,2,3,4.0
c,4,9,3,0.444444
d,7,7,9,1.0
e,2,6,2,0.333333


In [79]:
# Son eklediğimiz tabloyu silelim ve tablonun son haline bir bakalım.
df.drop("var4", axis = 1, inplace = True)
df

Unnamed: 0,var1,var2,var3
a,8,2,3
c,4,9,3
d,7,7,9
e,2,6,2


## Gözlem ve Değişken Seçimi: loc & iloc

In [80]:
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,4,18,27
1,20,29,20
2,27,12,5
3,13,9,13
4,2,26,21
5,22,29,22
6,15,2,5
7,10,22,22
8,18,6,1
9,12,27,9


In [81]:
# Daha önce belirli bir aralık belirttiğimizde dahili olarak son değeri alamıyorduk. Loc ile son belirttiğimiz indexi de alır.
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,4,18,27
1,20,29,20
2,27,12,5
3,13,9,13


In [83]:
# iloc klasık aralık belirttiğimizde alınan indexler diyebiliriz. Son belirtilen index dahil değil!
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,4,18,27
1,20,29,20
2,27,12,5


In [85]:
#0. index'den 3.index'e kadar ve var3 sütunundaki değerleri al dedik.
df.loc[0:3, "var3"]

0    27
1    20
2     5
3    13
Name: var3, dtype: int32

In [None]:
# Üstteki işlemi iloc ile yaptığımızda hata ile karşılaşırız.
df.iloc[0:3, "var3"]

## Koşullu Eleman İşlemleri

In [88]:
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["sutun1","sutun2","sutun3"])
df

Unnamed: 0,sutun1,sutun2,sutun3
0,15,9,1
1,2,20,14
2,10,27,25
3,23,22,10
4,4,26,20
5,2,21,27
6,21,3,14
7,2,22,9
8,4,11,28
9,3,3,5


In [90]:
df["sutun1"] # Sütun1'de olan tüm değerleri getirir.

0    15
1     2
2    10
3    23
4     4
5     2
6    21
7     2
8     4
9     3
Name: sutun1, dtype: int32

In [95]:
df.sutun1 # Yukarıdaki işlemin bir diğer kullanımı da bu şekildedir.

0    15
1     2
2    10
3    23
4     4
5     2
6    21
7     2
8     4
9     3
Name: sutun1, dtype: int32

In [96]:
# DataFrame'deki bilgileri, sutun1'in 15'den yüksek olan değerlerine göre getir dedik.

df[df.sutun1 > 15]

Unnamed: 0,sutun1,sutun2,sutun3
3,23,22,10
6,21,3,14


In [102]:
df

Unnamed: 0,sutun1,sutun2,sutun3
0,15,9,1
1,2,20,14
2,10,27,25
3,23,22,10
4,4,26,20
5,2,21,27
6,21,3,14
7,2,22,9
8,4,11,28
9,3,3,5


In [103]:
# İlk sutun1'deki 15'den büyük değerleri alıyor, daha sonra ikinci koşulda sutun2'deki 5'den küçük değerleri alıyor.
# 1.Adım: Sutun1'deki 15'den büyük değerlere bakalım 23 ve 21. Bu koşula göre sütun2'deki değerler ise 22 ve 3 olmuş oldu.
# 2.Adım: Sutun2'deki 5'den küçük değerlerde ise geriye sadece 3 kalmış olduğu için 6. indexin değerleri yazdırılıyor.
df[(df.sutun1 > 15) & (df.sutun2 < 5)]

Unnamed: 0,sutun1,sutun2,sutun3
6,21,3,14


In [104]:
# sutun1'in 15'den büyük değerleri, sadece sutun1 ve sutun2'nin değerlerini al demiş olduk.
df.loc[(df.sutun1 > 15), ["sutun1","sutun2"]]

Unnamed: 0,sutun1,sutun2
3,23,22
6,21,3


## Birleştirme (Join) İşlemleri

In [3]:
m = np.random.randint(1,30, size = (5,3))
df1 = pd.DataFrame(m, columns = ["sutun1","sutun2","sutun3"])
df1

Unnamed: 0,sutun1,sutun2,sutun3
0,19,18,8
1,18,27,18
2,25,16,1
3,17,29,12
4,2,10,11


In [5]:
# İkinci DataFrame için ilk DataFrame'in üzerine 99 eklenerek oluşturduk.
df2 = df1 + 99
df2

Unnamed: 0,sutun1,sutun2,sutun3
0,118,117,107
1,117,126,117
2,124,115,100
3,116,128,111
4,101,109,110


In [6]:
# concat ile iki DataFrame'i alt alta birleştirmiş olduk.
pd.concat([df1,df2])

Unnamed: 0,sutun1,sutun2,sutun3
0,19,18,8
1,18,27,18
2,25,16,1
3,17,29,12
4,2,10,11
0,118,117,107
1,117,126,117
2,124,115,100
3,116,128,111
4,101,109,110


In [7]:
# Alt alta birleştirdik ama indexlerde bir problem oldu. Bunun çözümü çok basit, yeni bir parametre eklememiz gerekiyor.
# Eğer hiçbir değer göndermeseydik, ignore_index = False olarak parametreyi kullanır.
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,sutun1,sutun2,sutun3
0,19,18,8
1,18,27,18
2,25,16,1
3,17,29,12
4,2,10,11
5,118,117,107
6,117,126,117
7,124,115,100
8,116,128,111
9,101,109,110


In [13]:
df2.columns = ["sutun1","sutun2","deg3"]
df2

Unnamed: 0,sutun1,sutun2,deg3
0,118,117,107
1,117,126,117
2,124,115,100
3,116,128,111
4,101,109,110


In [15]:
# Farklı sütunlar birleştirmeye çalışırsanız hata ile karşılaşırsınız.
pd.concat([df1, df2])

Unnamed: 0,sutun1,sutun2,sutun3,deg3
0,19,18,8.0,
1,18,27,18.0,
2,25,16,1.0,
3,17,29,12.0,
4,2,10,11.0,
0,118,117,,107.0
1,117,126,,117.0
2,124,115,,100.0
3,116,128,,111.0
4,101,109,,110.0


In [17]:
pd.concat([df1, df2], join = "inner")

Unnamed: 0,sutun1,sutun2
0,19,18
1,18,27
2,25,16
3,17,29
4,2,10
0,118,117
1,117,126
2,124,115
3,116,128
4,101,109
