## **Pandas Serisi Oluşturmak**

Pandas içerisinde yer alan veri tipleri değerleri, indeksleri ile beraber tutar.

In [1]:
import pandas as pd

In [2]:
pd.Series([10,88,3,4,5]) #pandas serisi olusturmak.

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [3]:
 seri = pd.Series([10,88,3,4,5])

In [4]:
type(seri)

pandas.core.series.Series

In [5]:
seri.axes #Serinin index bilgisine ulasiriz.

[RangeIndex(start=0, stop=5, step=1)]

In [6]:
seri.dtype

dtype('int64')

In [9]:
seri.size #eleman sayisi

5

In [10]:
seri.ndim #boyutu

1

In [11]:
seri.values #vektor formunda sadece degerlere ulasiriz.

array([10, 88,  3,  4,  5], dtype=int64)

In [7]:
seri.head() #ilk 5 eleman

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [8]:
seri.head(3) #ilk 3 eleman

0    10
1    88
2     3
dtype: int64

In [9]:
seri.tail(3) #son 3 eleman

2    3
3    4
4    5
dtype: int64

**Index İsimlendirmesi**

In [10]:
pd.Series([23,24,25,26,27], index = [2,4,6,8,10])

2     23
4     24
6     25
8     26
10    27
dtype: int64

In [11]:
seri = pd.Series([23,24,25,26,27], index = ["a","b","c","d","e"])

In [13]:
seri

a    23
b    24
c    25
d    26
e    27
dtype: int64

In [14]:
seri["a"] #elemana erisme

23

In [15]:
seri["a":"c"] #serilerde slice islemi

a    23
b    24
c    25
dtype: int64

**Sözlük üzerinden seri oluşturmak**

In [16]:
sozluk={"reg":10, "log":11, "cart":12}

In [18]:
seri = pd.Series(sozluk)

In [19]:
seri

reg     10
log     11
cart    12
dtype: int64

**İki Seriyi Birleştirerek Seri Oluşturma**

In [20]:
pd.concat([seri, seri])

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## **Eleman İşlemleri**

In [23]:
import numpy as np
a = np.array([15,233,34,52,64])
seri = pd.Series(a) #NumPy Array'i uzerinden seri olusturalim
seri

0     15
1    233
2     34
3     52
4     64
dtype: int32

In [24]:
seri[0] #0 indexli eleman

15

In [25]:
seri[0:3] #3'e kadar olan elemanlar

0     15
1    233
2     34
dtype: int32

In [27]:
seri = pd.Series([133,244,355,467,234], index = ["reg","log","cart","pcv","rf"])
seri

reg     133
log     244
cart    355
pcv     467
rf      234
dtype: int64

In [29]:
seri.index #sadece indexler

Index(['reg', 'log', 'cart', 'pcv', 'rf'], dtype='object')

In [30]:
seri.keys #seri'nin key'lerini gosterir

<bound method Series.keys of reg     133
log     244
cart    355
pcv     467
rf      234
dtype: int64>

In [31]:
list(seri.items()) #key degerine karsilik gelen value'lari bir araya getirerek list olusturur.

[('reg', 133), ('log', 244), ('cart', 355), ('pcv', 467), ('rf', 234)]

In [32]:
seri.values #seri'nin sadece degerlerini gosterir

array([133, 244, 355, 467, 234], dtype=int64)

**Eleman Sorgulama**

In [33]:
"reg" in seri

True

In [34]:
"a" in seri

False

In [35]:
seri["reg"]

133

**Fancy Eleman**

In [37]:
seri[["rf","reg"]] #fancy ile eleman secme

rf     234
reg    133
dtype: int64

**Eleman Değiştirme**

In [39]:
seri["reg"] = 111
seri #atama yontemi ile tekrardan eleman atayabiliriz.

reg     111
log     244
cart    355
pcv     467
rf      234
dtype: int64

## **Pandas DataFrame Oluşturma**

Pandas DataFrame yapısal bir veri tipidir.

In [2]:
import pandas as pd
l = [5,12,37,62,14] #list olusturduk
l

[5, 12, 37, 62, 14]

pd.DataFrame(l, columns = ["degisken_ismi"]) #DataFrame olusturma

In [5]:
import numpy as np
m = np.arange(1,10).reshape(3,3)
m #3x3'luk bir matris

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
pd.DataFrame(m, columns=["var1","var2","var3"]) #2 boyutlu DataFrame

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


**Yapay zeka ve Veri Biliminde en çok kullanacağımız veri tipi DataFrame'dir.**

**DataFrame İsimlendirme**

In [7]:
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [8]:
df.columns = ("col1","col2","col3") #Sutunlari yeniden isimlendirme
df

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


**DataFrame Özellikleri**

In [9]:
type(df)

pandas.core.frame.DataFrame

In [10]:
df.axes #Satir ve sutun bilgisi

[RangeIndex(start=0, stop=3, step=1),
 Index(['col1', 'col2', 'col3'], dtype='object')]

In [11]:
df.shape #boyut bilgisi

(3, 3)

In [12]:
df.ndim #boyut sayisi

2

In [13]:
df.size #eleman sayisi

9

In [14]:
df.values #DataFrame tipindeki veri yapisinin icersinden
          #Degerleri array tipinde aliyor.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [15]:
type(df.values)

numpy.ndarray

In [17]:
df.tail(1) #sondan 1. index

Unnamed: 0,col1,col2,col3
2,7,8,9


Diğer veri tiplerinde veri oluşturmak için çeşitli formatlar kullandık.<br>
Örneğin; NumPy array'i üzerinden oluşturduk list üzerinden oluşturduk ve buna<br>
benzer farklı formatlardan oluşturduk. Bu işlemler DataFrame için de geçerlidir.

In [18]:
a = np.array([1,2,3,4,5])

In [21]:
pd.DataFrame(a, columns = ["deg1"]) #numpy array'i ile df olusturduk.

Unnamed: 0,deg1
0,1
1,2
2,3
3,4
4,5


## **DataFrame Eleman İşlemleri**

In [1]:
import numpy as np
s1 = np.random.randint(10, size=5)
s2 = np.random.randint(10, size=5)
s3 = np.random.randint(10, size=5)

In [2]:
sozluk={"var1":s1,"var2":s2,"var3":s3} #array'lerden sozluk
sozluk

{'var1': array([0, 6, 2, 5, 7]),
 'var2': array([2, 1, 7, 6, 2]),
 'var3': array([3, 2, 3, 2, 3])}

In [4]:
import pandas as pd
df = pd.DataFrame(sozluk) #sozluk'den df
df

Unnamed: 0,var1,var2,var3
0,0,2,3
1,6,1,2
2,2,7,3
3,5,6,2
4,7,2,3


In [7]:
df[0:2] #0'dan 2'ye kadar

Unnamed: 0,var1,var2,var3
0,0,2,3
1,6,1,2


In [8]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
df.index = ["a","b","c","d","e"]

In [11]:
df

Unnamed: 0,var1,var2,var3
a,0,2,3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [12]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [15]:
df["a":"c"]

Unnamed: 0,var1,var2,var3
a,0,2,3
b,6,1,2
c,2,7,3


**Eleman Silme**

In [22]:
df.drop("a", axis=0) #0 ekseninden "a" indexli satiri sil.

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [17]:
df #sildi ancak kaydetmedi.

Unnamed: 0,var1,var2,var3
a,0,2,3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [23]:
df.drop("a", axis=0, inplace=True) #inplace argumani kalici olsun mu? anlamındadir.

In [24]:
df #kalici olarak silindi.

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


**Fancy**

In [26]:
l = ["c","e"]

In [27]:
df.drop(l, axis=0) #c ve e silindi

Unnamed: 0,var1,var2,var3
b,6,1,2
d,5,6,2


**Degiskenler icin**

In [31]:
df

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [32]:
"var1" in df

True

In [35]:
l = ["var1","var4","var2"]

In [37]:
for i in l:
    print(i in df) 

True
False
True


Bir değişken oluşturmak isteyelim fakat bu değişkenimizi DataFrame içinde <br>var olan değişkenlerden yapmak istediğimizi düşünelim.

In [38]:
df

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [39]:
df["var4"] = df["var1"] / df["var2"]

In [40]:
df

Unnamed: 0,var1,var2,var3,var4
b,6,1,2,6.0
c,2,7,3,0.285714
d,5,6,2,0.833333
e,7,2,3,3.5


**Değişken Silme**

In [43]:
df

Unnamed: 0,var1,var2,var3,var4
b,6,1,2,6.0
c,2,7,3,0.285714
d,5,6,2,0.833333
e,7,2,3,3.5


In [44]:
df.drop("var4", axis=1, inplace=True)
df

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [47]:
l = ["var1","var2"]
df.drop(l, axis=1)  #Fancy ile silme

Unnamed: 0,var3
b,2
c,3
d,2
e,3


## **Gözlem ve Değişken Seçimi: loc & iloc**

In [1]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,9,23,14
1,17,12,5
2,4,14,8
3,14,27,6
4,21,28,25
5,3,9,20
6,15,3,18
7,16,27,14
8,9,23,24
9,19,12,14


**loc:** tanımlandığı şekliyle seçim yapmak için kullanılır

In [None]:
df.loc[0:3] #veri setinin ilk halindeki indexlemeye sadik kalacak sekilde secim imkani verir.

**iloc:** alışık olduğumuz index'leme mantığıyla seçim yapar.

In [4]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,9,23,14
1,17,12,5
2,4,14,8


In [5]:
df.iloc[0,0]

9

In [10]:
df.iloc[:3,:2]

Unnamed: 0,var1,var2
0,9,23
1,17,12
2,4,14


In [11]:
df.loc[:3,"var3"]

0    14
1     5
2     8
3     6
Name: var3, dtype: int32

In [None]:
df.iloc[:3,"var3"] # hata verir.

Eğer değişken ya da satırlar ile ilgili mutlak bir değer işaretlemesi yapacaksak<br>
bu durumda **loc** kullanmamız gerekiyor.

Yani değişken ismi ile işaretleme yapacaksak **loc** kullanmalıyız.<br>
Index'lere göre işaretleme yapacaksak **iloc** kullanmalıyız.

In [13]:
df.iloc[:3,1:3]

Unnamed: 0,var2,var3
0,23,14
1,12,5
2,14,8


In [14]:
df.iloc[:3]["var3"]

0    14
1     5
2     8
Name: var3, dtype: int32

## **Koşullu Eleman İşlemleri**

In [1]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,8,14,15
1,5,10,11
2,8,26,10
3,21,8,10
4,24,21,2
5,2,12,9
6,21,28,21
7,25,17,14
8,4,14,11
9,11,19,18


In [2]:
df.var1

0     8
1     5
2     8
3    21
4    24
5     2
6    21
7    25
8     4
9    11
Name: var1, dtype: int32

In [4]:
df[df.var1 > 15]["var1"]

3    21
4    24
6    21
7    25
Name: var1, dtype: int32

In [5]:
df[(df.var1 > 15) & (df.var3 < 5)]

Unnamed: 0,var1,var2,var3
4,24,21,2


In [8]:
df.loc[(df.var1 > 15),["var1","var2"]]

Unnamed: 0,var1,var2
3,21,8
4,24,21
6,21,28
7,25,17


In [9]:
df[(df.var1 > 15)][["var1","var2"]]

Unnamed: 0,var1,var2
3,21,8
4,24,21
6,21,28
7,25,17


## **Birleştirme (Join) İşlemleri**

In [3]:
import pandas as pd
import numpy as np
m = np.random.randint(1,30, size=(5,3))
df1 = pd.DataFrame(m, columns=["var1","var2","var3"])
df1

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19


In [5]:
df2 = df1 + 99
df2

Unnamed: 0,var1,var2,var3
0,111,108,104
1,104,114,111
2,101,127,101
3,119,111,105
4,113,124,118


In [6]:
pd.concat([df1,df2])

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19
0,111,108,104
1,104,114,111
2,101,127,101
3,119,111,105
4,113,124,118


Birleştirme işlemi yaptık fakat indexlerde bir karmaşıklık oldu.

In [9]:
pd.concat([df1,df2],ignore_index = True)

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19
5,111,108,104
6,104,114,111
7,101,127,101
8,119,111,105
9,113,124,118


In [12]:
df2.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [14]:
df2.columns = ["var1","var2","deg3"]
df2

Unnamed: 0,var1,var2,deg3
0,111,108,104
1,104,114,111
2,101,127,101
3,119,111,105
4,113,124,118


In [15]:
df1

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19


In [16]:
pd.concat([df1, df2])

Unnamed: 0,var1,var2,var3,deg3
0,12,9,5.0,
1,5,15,12.0,
2,2,28,2.0,
3,20,12,6.0,
4,14,25,19.0,
0,111,108,,104.0
1,104,114,,111.0
2,101,127,,101.0
3,119,111,,105.0
4,113,124,,118.0


Bir veri setinin diğerinde karşılığı olmadığı için böyle bir sorun yaşıyoruz.

Bu sorunu kısmi olarak aşabiliriz.

**join = "inner"** argümanı ile veri setlerinin kesişimlerini alabiliriz.

In [17]:
pd.concat([df1,df2], join="inner") #kesisimlerini alir.

Unnamed: 0,var1,var2
0,12,9
1,5,15
2,2,28
3,20,12
4,14,25
0,111,108
1,104,114
2,101,127
3,119,111
4,113,124


In [57]:
pd.concat([df1, df2], axis=1).reindex(df1.index)

Unnamed: 0,var1,var2,var3,var1.1,var2.1,deg3
0,12,9,5,111,108,104
1,5,15,12,104,114,111
2,2,28,2,101,127,101
3,20,12,6,119,111,105
4,14,25,19,113,124,118


## **İleri Birleştirme İşlemleri**

**Birebir Birleştirme**: <br>Tüm elemanların iki veri setinde de birebir yer alması durumudur.

In [1]:
import pandas as pd
df1 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayse","Fatma"],
                "grup":["Muhasebe","Muhendislik","Muhendislik","IK"]})
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,IK


In [2]:
df2 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayse","Fatma"],
                "ilk_giris":[2010,2009,2014,2019]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ali,2010
1,Veli,2009
2,Ayse,2014
3,Fatma,2019


In [3]:
pd.merge(df1,df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


**Merge()** Fonksiyonu birleştirme işleminin hangi değişkene göre yapılacağını kendisi anlıyor. <br>Eğer bunu belirtmek istersek **on** argümanı aracılığı ile belirtebiliriz.<br>
Her iki veri setinde de calisanlar olduğu için bu veri setlerini calisanlar’a göre birleştirdi.


In [8]:
pd.merge(df1, df2, on="calisanlar")

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


**Many to one** (Çoktan teke)

In [9]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


In [10]:
df4 = pd.DataFrame({"grup":["Muhasebe","Muhendislik","IK"],
                   "mudur":["Caner","Mustafa","Berkcan"]})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,IK,Berkcan


In [14]:
pd.merge(df3,df4) #Many to one birlestirme.

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2010,Caner
1,Veli,Muhendislik,2009,Mustafa
2,Ayse,Muhendislik,2014,Mustafa
3,Fatma,IK,2019,Berkcan


**Many to Many** (Çoktan çoka)

In [19]:
df5 = pd.DataFrame({'grup' : ['Muhasebe','Muhasebe','Muhendislik','Muhendislik','IK','IK'],
                   'yetenekler' : ['Matematik','Excel','Kodlama','Linux','Excel','Yonetim']})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,Matematik
1,Muhasebe,Excel
2,Muhendislik,Kodlama
3,Muhendislik,Linux
4,IK,Excel
5,IK,Yonetim


In [17]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,IK


In [21]:
pd.merge(df1,df5) #Many to Many

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,Matematik
1,Ali,Muhasebe,Excel
2,Veli,Muhendislik,Kodlama
3,Veli,Muhendislik,Linux
4,Ayse,Muhendislik,Kodlama
5,Ayse,Muhendislik,Linux
6,Fatma,IK,Excel
7,Fatma,IK,Yonetim


## **Aggregation & Grouping** (Toplulaştırma ve Gruplama)



Basit toplulaştırma fonksiyonları:
* count()
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()
* sum()