# Pandas Serisi Oluşturmak

In [1]:
import pandas as pd

In [2]:
pd.Series([1,2,3,4,5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

* Bu bir Pandas Series'tir. İlk sütunda görülenlerler **index bilgisi** ikinci sütunda yer alanlar ise içindeki **değerlerdir.**

In [4]:
seri = pd.Series([10,88,3,4,5])

In [5]:
type(seri)

pandas.core.series.Series

* Bununla beraber bu elimzideki yeni bir veri tipi bu veri tipinin bazı özelliklerini temel yapısal özelliklerine erişebiliyoruz.
* seri.axes -> Serinin index bilgilerine erişiyoruz, start=0 sıfırdan başlamış, stop=5 Beşe kadar gitmiş ve step=1 birer birer artmış
* seri.dtype -> veri tipi
* seri.size -> toplam eleman sayısı
* seri.ndim -> boyutunu değerlendirebiliyoruz, tek boyutlu array gibi düşünebiliriz.
* seri.values -> array formunda sadece değer bilgisinede erişebiliriz.
* seri.head() -> serinin ilk 5 elemanını getirir
* seri.tail() -> serinin son 5 elemanını getirir
* seri.concat -> seri birleştirme

In [7]:
# axes -> serinin index bilgilerine erişiyoruz.
seri.axes

[RangeIndex(start=0, stop=5, step=1)]

In [9]:
# dtype -> serinin içirisindeki değerlerle ilgili bilgi almak için
seri.dtype

dtype('int64')

In [10]:
# size -> içerisindeki eleman sayısını veriyor.
seri.size

5

In [11]:
# ndim -> boyutunu değerlendirebiliyoruz, tek boyutlu array gibi düşünebiliriz
seri.ndim

1

In [43]:
# values -< bir array formunda sadece değer bilgisinede erişebiliriz.
seri.values

array([10, 11, 12], dtype=int64)

In [44]:
# head -> serinin ilk 5 elemanına erişebiliriz.
seri.head()

reg     10
loj     11
cart    12
dtype: int64

In [45]:
# tail -> serinin içindeki son 5 elemanı getirir.
seri.tail()

reg     10
loj     11
cart    12
dtype: int64

### İndex isimlendirmesi, index değiştirme

In [21]:
pd.Series([99,22,332,94,5])

0     99
1     22
2    332
3     94
4      5
dtype: int64

In [26]:
# index argümanı ile index isimlerini değiştirebiliriz.
pd.Series([99,22,332,94,5], index = [1,3,5,7,9])

1     99
3     22
5    332
7     94
9      5
dtype: int64

In [46]:
# İsimlendirmeleri kategorik değerlerde kullanabiliriz.
pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])

a     99
b     22
c    332
d     94
e      5
dtype: int64

In [28]:
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])

In [29]:
seri["a"]

99

In [31]:
# içerisinde slice işlemleride yapabiliyoruz
seri["a":"c"]

a     99
b     22
c    332
dtype: int64

In [32]:
# sozluk üzerinden pandas series'i oluşturma

In [35]:
sozluk = {"reg":10, "loj":11, "cart":12}
seri = pd.Series(sozluk)
seri

reg     10
loj     11
cart    12
dtype: int64

In [40]:
seri["reg":"loj"]

reg    10
loj    11
dtype: int64

In [41]:
# iki seriyi birleştirerek seri oluşturma

In [42]:
pd.concat([seri, seri])

reg     10
loj     11
cart    12
reg     10
loj     11
cart    12
dtype: int64

# Eleman İşlemleri

* Ne yaptık, öncelikle bir PANDAS serisini yapısal olarak ele aldık ve index bileşenine ve değerler bileşenine ayrı ayrı erişebileceğimizi öğrendik. (seri.index), (seri.value)
* Bunun dışında klasik anlamdaki büyün index işlemlerini yapabileceğimizi öğrendik
* Eleman sorgulama, fancy ve slice işlemlerinin burada geçerli olduğunu gördük.

In [1]:
import pandas as pd
import numpy as np
a = np.array([1,2,33,444,75])
seri = pd.Series(a)
seri

0      1
1      2
2     33
3    444
4     75
dtype: int32

In [3]:
seri[0]

1

In [2]:
seri[0:3]

0     1
1     2
2    33
dtype: int32

In [26]:
# Eğer gerçek hayatta Pandas serisi ile çalışıyorsak genelde elimizde bu şekilde bir veri olur
seri = pd.Series([121,200,150,99], index = ["reg","loj","cart","rf"])
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [12]:
#seri.index = ["a","b","c","d"]
#seri

In [13]:
seri.index

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [14]:
seri.keys

<bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

In [17]:
# her bir key değerine karşılık gelen value değerlerini vermiş, bu şekilde bir görünüm istersek kullanabiliriz
list(seri.items())

[('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]

In [18]:
seri.values

array([121, 200, 150,  99], dtype=int64)

### Eleman sorgulama

In [19]:
# reg ifadesinin bu seri içinde yer alıp almadığını sorgulama
"reg" in seri

True

In [20]:
"a" in seri

False

In [21]:
seri["reg"]

121

### Fancy ile eleman seçme

In [22]:
seri[["rf","reg"]]

rf      99
reg    121
dtype: int64

In [23]:
seri["reg"] = 130
seri

reg     130
loj     200
cart    150
rf       99
dtype: int64

In [24]:
# slice işlemi ile 

In [25]:
seri["reg":"loj"]

reg    130
loj    200
dtype: int64

# PANDAS DataFrame Oluşturma

In [34]:
import pandas as pd
import numpy as np

* DataFrame'ler bizim için Veri Bilimi ve Yapay Zeka kapsamında en sık kullancak olduğumuz veri yapılarıdır, bu sebeple DataFrame'ler üzerinde veri manipulasyonları anlamında diğer veri tiplerinden çok daha fazla durucucaz, bizim için kilit roldeki veri yapısı veri tipi PANDAS DataFrame'ler ve ana rolü oynuyacak olan operatif işlemlerde Pandas işelemleridir.

In [32]:
# bir liste üzerinden oluşturalım
l = [1,2,39,67,90]
print(l)

[1, 2, 39, 67, 90]


In [33]:
pd.DataFrame(l, columns = ["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,39
3,67
4,90


In [35]:
m = np.arange(1,10).reshape((3,3))
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [38]:
pd.DataFrame(m, columns = ["var1","var2","var3"])

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [39]:
# Değişken isimlerini dışarıdan değiştirme

In [41]:
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df.head()

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [42]:
# df.columns bize dataframe'deki değişken isimlerini getiri
df.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [43]:
# değişken isimlerini değiştirmek için
df.columns = ["deg1","deg2","deg3"]
df

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [49]:
type(df)

pandas.core.frame.DataFrame

In [53]:
# ndim -> boyut sayısını verir
df.ndim

2

In [52]:
# shape -> boyut bilgisini verdi
df.shape

(3, 3)

In [54]:
# size -> toplam eleman sayısı
df.size

9

In [51]:
# axes -> index bilgilerini verir, 0'dan başlamış 3'e kadar gitmiş, birer birer artmış
df.axes

[RangeIndex(start=0, stop=3, step=1),
 Index(['deg1', 'deg2', 'deg3'], dtype='object')]

In [56]:
# array formatında sadece değerleri getirir
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [59]:
# numpy array nesnesine çeviri
type(df.values)

numpy.ndarray

In [62]:
# head() -> baştan ilk 5 elemanı getiri
df.head()

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [63]:
# tail() -> sondan 5 elamanı getirir
df.tail()

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [67]:
# NumPy array'i üzerindende kolay bir şekilde DataFrame oluşturabildik
a = np.array([1,2,3,4,5])
pd.DataFrame(a, columns = ["deg1"])

Unnamed: 0,deg1
0,1
1,2
2,3
3,4
4,5


# Eleman İşlemleri

In [1]:
import pandas as pd
import numpy as np

In [2]:
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)

In [7]:
# numpy arrayleri üzerinden bir sözlük oluşturduk
sozluk = {"var1":s1, "var2":s2, "var3":s3}
sozluk

{'var1': array([7, 4, 2, 6, 6]),
 'var2': array([8, 9, 4, 4, 0]),
 'var3': array([1, 3, 9, 6, 5])}

In [79]:
# sozluk üzerinden dataframe oluşturma
df = pd.DataFrame(sozluk)
df

Unnamed: 0,var1,var2,var3
0,7,8,1
1,4,9,3
2,2,4,9
3,6,4,6
4,6,0,5


In [15]:
df[0:1]

Unnamed: 0,var1,var2,var3
0,7,8,1


In [78]:
df["var1"]

b    4
c    2
d    6
e    6
Name: var1, dtype: int32

In [80]:
# index -> index bilgilerini getirir
df.index

RangeIndex(start=0, stop=5, step=1)

In [24]:
# index isimlerini kendimiz atayabiliriz
df.index = ["a","b","c","d","e"]
df

Unnamed: 0,var1,var2,var3
a,7,8,1
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [27]:
df["c":"e"]

Unnamed: 0,var1,var2,var3
c,2,4,9
d,6,4,6
e,6,0,5


### Silme İşlemi
* axis = 0 yapıyoruz ki satırı almak istediğimiz bilgisini Pandas'a vermiş olalım, yan, bütün satırı sil diyoruz.

In [29]:
df.drop("a", axis = 0)

Unnamed: 0,var1,var2,var3
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [31]:
# Gözlemleneceği üzerinde dataframe'in ana yapsı üzerinde bir değişiklik olmadı, eğer ben a'nın silinmiş 
# olduğu dataframe'i yeni dataframe olarak tanımlamak istersem, eski yöntemlerden alışık olduğum şekliyle 
# bu dataframi baştan tanımlaya bilirim yada daha gelişmiş bir yöntem olarak Pandas'ın bize sunmuş olduğu 
# özelliklerinden birisi olarak inplace argümanını kullanabilirim
df

Unnamed: 0,var1,var2,var3
a,7,8,1
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [32]:
df.drop("a", axis = 0, inplace = True)

In [38]:
# artık "a" kalıcı olarak silindi.
# Dolayısıyla burada inplace = True işlememinin görevi dataframe üzerinde yapılan değişikliğin kalıcı 
# olmasını saplamaktır. Yeniden atama işlemine gerek olmadan yapmış olduğumuz bu değişikiği kalıcı bir 
# şekilde datafram2 kayıt eder. inplace = True argümanı önümüzdeki ilerleyen bölümlerde çok sık kullanacak
# olduğumuz bir argüman. 
# Eksen ayralaması için kullanacak olduğumuz axis argümanıda önemli
# axis = 0 -> satır
# axis = 1 -> sütun
df

Unnamed: 0,var1,var2,var3
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [43]:
# c ve d'yi silmek istersek ne yapıcaz, yarı ayrımı yazıcaz
# fanyc ile yapabiriz
l = ["c","e"]
df.drop(l, axis = 0)

Unnamed: 0,var1,var2,var3
b,4,9,3
d,6,4,6


In [44]:
# degiskenler için

In [45]:
"var1" in df

True

In [59]:
# bu değişkenler bu dataframin içinde varmı diye bakıcaz
l = ["var1","var2","var4"]

In [63]:
# for'un içinde gez, l'nin içindeki her eleman df'in içindemi diye sorgula
for i in l:
    print(i in df)

True
True
False


* Yeni bir değişken oluşturmak istediğimizi düşünelim fakat bu değişkeni dataframe içerisinde yer alan değişkenler üzerinden yapmak istediğimizi düşünelim.
* Mesela yeni değişkeni var1 / var2 üzerinden yapalım

In [67]:
df

Unnamed: 0,var1,var2,var3
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [68]:
df["var4"] = df["var1"] / df["var2"]
df

Unnamed: 0,var1,var2,var3,var4
b,4,9,3,0.444444
c,2,4,9,0.5
d,6,4,6,1.5
e,6,0,5,inf


In [69]:
# değişken silmek
# axis = 1
df.drop("var4", axis = 1)

Unnamed: 0,var1,var2,var3
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [71]:
df.drop("var4", axis = 1, inplace = True)

In [73]:
# var4 kalıcı olarak silinci
df

Unnamed: 0,var1,var2,var3
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


In [74]:
# fancy ile silme

In [76]:
l = ["var1","var2"]
df.drop(l, axis = 1)

Unnamed: 0,var3
b,3
c,9
d,6
e,5


In [77]:
df

Unnamed: 0,var1,var2,var3
b,4,9,3
c,2,4,9
d,6,4,6
e,6,0,5


# Gözlem Değişken Seçimi : loc ve iloc

In [1]:
import pandas as pd
import numpy as np
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,9,19,26
1,22,18,5
2,22,23,20
3,2,14,22
4,17,4,27
5,4,29,6
6,18,27,4
7,6,28,23
8,20,27,23
9,12,4,8


In [2]:
?np.random.randint

[1;31mDocstring:[0m
randint(low, high=None, size=None, dtype=int)

Return random integers from `low` (inclusive) to `high` (exclusive).

Return random integers from the "discrete uniform" distribution of
the specified dtype in the "half-open" interval [`low`, `high`). If
`high` is None (the default), then results are from [0, `low`).

.. note::
    New code should use the ``integers`` method of a ``default_rng()``
    instance instead; please see the :ref:`random-quick-start`.

Parameters
----------
low : int or array-like of ints
    Lowest (signed) integers to be drawn from the distribution (unless
    ``high=None``, in which case this parameter is one above the
    *highest* such integer).
high : int or array-like of ints, optional
    If provided, one above the largest (signed) integer to be drawn
    from the distribution (see above for behavior if ``high=None``).
    If array-like, must contain integer values
size : int or tuple of ints, optional
    Output shape.  If the given

In [9]:
# loc: tanımlandığı şekli ile seçim yapmak için kullanılır
# bu veri setinin ilk halindeki index'lemeye sadık kalacak şekilde nasıl bir indexleme varsa buna göre olacak
# şekilde bize bir seçim imkanı sunar
# Normal şartlarda alışık olduğumuz mantık 3'e kadar ama 3.indexi dahil edilmez ama loc'da yazılan indexide
# getirir -> 0, 1, 2 ve 3. indexleri getirdi

In [4]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,9,19,26
1,22,18,5
2,22,23,20
3,2,14,22


In [10]:
# iloc: alışık olduğumuz indexleme mantığıyla seçim yapar
# 0, 1 ve 2.indexleri getirdi

In [8]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,9,19,26
1,22,18,5
2,22,23,20


In [11]:
df.iloc[0,0]

9

In [18]:
df.iloc[4,2]

27

In [22]:
# 3.satıra kadar al, 2.sütuna kadar al
df.iloc[:3,:2]

Unnamed: 0,var1,var2
0,9,19
1,22,18
2,22,23


In [28]:
df.loc[0:3,"var3"]

0    26
1     5
2    20
3    22
Name: var3, dtype: int32

In [29]:
df.iloc[0:3,"var3"]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [31]:
# eğer yada değişken yada gözlem birimleri yani satırlarla ilgili mutlak bir değer işaretlemesi yapacaksak
# loc kullanmak gerekir
# Yani index isimlerine göre seçme işlemi yapacaksak loc kullanılır

In [32]:
df.iloc[0:3,1:3]

Unnamed: 0,var2,var3
0,19,26
1,18,5
2,23,20


In [33]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,9,19,26
1,22,18,5
2,22,23,20


In [37]:
# iloc ile sadece var3 seçtik
df.iloc[0:3]["var3"]

0    26
1     5
2    20
Name: var3, dtype: int32

* Eğer verilen kurallar bağlı bir şekilde seçim yapılma ihtiyacı varsa gözlem yada değişken isimlendirmeleri  açısından **loc** yapısı kullanılır
* Eğer verilen isimlendirmelerden bağımsız ben bunlara takılmıyorum alışık olduğum klasik index mantığı ile seçim yapmak isyorum dersekte bu seferde **iloc** kullanılır.

# Koşullu Eleman İşlemleri

In [15]:
import pandas as pd
import numpy as np
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,2,28,4
1,13,1,29
2,13,1,10
3,28,8,7
4,29,28,24
5,25,15,14
6,13,18,15
7,29,24,9
8,20,18,17
9,20,15,17


In [16]:
# Değişken seçme
df["var1"]

0     2
1    13
2    13
3    28
4    29
5    25
6    13
7    29
8    20
9    20
Name: var1, dtype: int32

In [17]:
df["var1"][0:2]

0     2
1    13
Name: var1, dtype: int32

In [19]:
df[0:2][["var1","var2"]]

Unnamed: 0,var1,var2
0,2,28
1,13,1


In [18]:
df[0:2]

Unnamed: 0,var1,var2,var3
0,2,28,4
1,13,1,29


In [20]:
df.iloc[0:2]["var1"]

0     2
1    13
Name: var1, dtype: int32

In [21]:
df

Unnamed: 0,var1,var2,var3
0,2,28,4
1,13,1,29
2,13,1,10
3,28,8,7
4,29,28,24
5,25,15,14
6,13,18,15
7,29,24,9
8,20,18,17
9,20,15,17


In [42]:
# 1.değişkendeki değerlerin 5'ten büyük olma durumu
# df[] -> bu dataframe'in içerisine gideceğim bilgisini vermek istiyorum
# df[df.var1 > 15] -> dataframe'in içerisinden var1'i seç ve 15'ten büyük olan getir

In [23]:
df[df.var1 > 15]

Unnamed: 0,var1,var2,var3
3,28,8,7
4,29,28,24
5,25,15,14
7,29,24,9
8,20,18,17
9,20,15,17


In [24]:
[df.var1 > 15]

[0    False
 1    False
 2    False
 3     True
 4     True
 5     True
 6    False
 7     True
 8     True
 9     True
 Name: var1, dtype: bool]

In [28]:
# var1'de 15'ten büyük olan değerleri seçer ve sadece "var1" i getirir
df[df.var1 > 15]["var1"]

3    28
4    29
5    25
7    29
8    20
9    20
Name: var1, dtype: int32

In [29]:
# birden fazla koşul girmek istersek

In [34]:
df[(df.var1 > 15) & (df.var3 < 10)]

Unnamed: 0,var1,var2,var3
3,28,8,7
7,29,24,9


In [38]:
# yine var1'in 15'ten büyük olmasını isteyelim ama gelen datafram'in içerisinden iki tane değişken 
# seçmek isteyelim.
df.loc[(df.var1 > 15), ["var1","var2"]]

Unnamed: 0,var1,var2
3,28,8
4,29,28
5,25,15
7,29,24
8,20,18
9,20,15


In [39]:
df[(df.var1 > 15)][["var1","var2"]]

Unnamed: 0,var1,var2
3,28,8
4,29,28
5,25,15
7,29,24
8,20,18
9,20,15


# Birleştirme (Join) İşlemleri

In [5]:
import pandas as pd
import numpy as np
m = np.random.randint(1,30, size = (5,3))
df1 = pd.DataFrame(m, columns = ["var1","var2","var3"])
df1

Unnamed: 0,var1,var2,var3
0,14,29,2
1,19,16,28
2,4,23,10
3,25,29,22
4,1,12,6


In [4]:
# birleştirme için kullanacağımız birinci teknik concat tekniği

In [6]:
# yeni bir dataframe oluşturalım, df1'in üstüne 99 ekleyip yeni bir dataframe oluşturduk
df2 = df1 + 99
df2

Unnamed: 0,var1,var2,var3
0,113,128,101
1,118,115,127
2,103,122,109
3,124,128,121
4,100,111,105


In [11]:
#birleştirme
# indexler baştan başlıyor
pd.concat([df1, df2])

Unnamed: 0,var1,var2,var3
0,14,29,2
1,19,16,28
2,4,23,10
3,25,29,22
4,1,12,6
0,113,128,101
1,118,115,127
2,103,122,109
3,124,128,121
4,100,111,105


In [12]:
pd.concat([df1, df2], axis = 1)

Unnamed: 0,var1,var2,var3,var1.1,var2.1,var3.1
0,14,29,2,113,128,101
1,19,16,28,118,115,127
2,4,23,10,103,122,109
3,25,29,22,124,128,121
4,1,12,6,100,111,105


* programlama dilini özellikle burada Pandas içerisinde yer alan bir fonksiyonu kullandığımız esnada fonksiyonun çıktısında hoşumuza gitmeyen bir şeyler varsa öncelikle bu fonksiyonu biçimlendirilip , biçimlendirilemeyeceğini bir araştırmamız gerekir. Yani bu fonksiyonu yazan kişi elbette böyle bir problemle karşılaşacağımızı öngörüp buna bir çözüm yolu bulumuştur gibi düşünüp fonksiyonun üzerinde incelemeye gitmemiz gerekiyor.

In [14]:
#biz burada bir index problemiyle karşılaştık, hiçbir şey bilmesek bile indexle ilgili birşeyler arayabiliriz
# ignore index
?pd.concat

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mconcat[0m[1;33m([0m[1;33m
[0m    [0mobjs[0m[1;33m:[0m [0mUnion[0m[1;33m[[0m[0mIterable[0m[1;33m[[0m[0mForwardRef[0m[1;33m([0m[1;34m'NDFrame'[0m[1;33m)[0m[1;33m][0m[1;33m,[0m [0mMapping[0m[1;33m[[0m[0mUnion[0m[1;33m[[0m[0mHashable[0m[1;33m,[0m [0mNoneType[0m[1;33m][0m[1;33m,[0m [0mForwardRef[0m[1;33m([0m[1;34m'NDFrame'[0m[1;33m)[0m[1;33m][0m[1;33m][0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mjoin[0m[1;33m=[0m[1;34m'outer'[0m[1;33m,[0m[1;33m
[0m    [0mignore_index[0m[1;33m:[0m [0mbool[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mkeys[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mlevels[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mverify_integrity[0m[1;33m:[0m [0mbool[0m [1;33m=[0m [1;32mFa

In [16]:
# indexler düzeldi, sırayla gidiyor
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,var1,var2,var3
0,14,29,2
1,19,16,28
2,4,23,10
3,25,29,22
4,1,12,6
5,113,128,101
6,118,115,127
7,103,122,109
8,124,128,121
9,100,111,105


In [23]:
# dataframe değişken isimlerine erişme
df1.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [26]:
df2.columns = ["var1","var2","deg3"]
df2

Unnamed: 0,var1,var2,deg3
0,113,128,101
1,118,115,127
2,103,122,109
3,124,128,121
4,100,111,105


In [30]:
# iki setinin değişken isimleri farklı olduğu için bir problemle karşılaştık, bazı durumlarda veri setlerinde
# gerçekten birbirleriyle tamamlanamayacak şekilde değişken olduğunda bunları bu şekilde birleştirdiğimizde
# böyle bir problemle karşılaşmamız çok normal, örneğin bir veri setinde 3 tane değişken var a,b, isimli
# diğer veri setinde ise a,b,e isimli değişkenler var tıpkı burda olduğu gibi dolayısıyla bir veri setindeki
# değişkenin diğer veri setinde karşılığı yok bu birleştirmeler problemli olacaktır. Teknik olarakta bu
# birleştirmeler çok mantıklı olmayacaktır çünkü aynı bilgiyi taşımıyor nasıl birleştirilecek
pd.concat([df1, df2])

Unnamed: 0,var1,var2,var3,deg3
0,14,29,2.0,
1,19,16,28.0,
2,4,23,10.0,
3,25,29,22.0,
4,1,12,6.0,
0,113,128,,101.0
1,118,115,,127.0
2,103,122,,109.0
3,124,128,,121.0
4,100,111,,105.0


In [32]:
# join = "inner" kesişimlerine göre birleştirdi
pd.concat([df1, df2], join = "inner")

Unnamed: 0,var1,var2
0,14,29
1,19,16
2,4,23
3,25,29
4,1,12
0,113,128
1,118,115
2,103,122
3,124,128
4,100,111


In [35]:
#pd.concat([df1, df2], join_axes = [df1.columns]) -> kullanımdan kalmış

In [49]:
# birleştirme işlemi yapsın ama df1 değişkenlerine göre yapsın
pd.concat([df1, df2],  ignore_index = True)[df1.columns]

Unnamed: 0,var1,var2,var3
0,14,29,2.0
1,19,16,28.0
2,4,23,10.0
3,25,29,22.0
4,1,12,6.0
5,113,128,
6,118,115,
7,103,122,
8,124,128,
9,100,111,


# İleri Birleştirme İşlemleri

In [1]:
import pandas as pd

* **ileri birleştirme işlemleri ->** öceki bölümde ele aldığımız birleştirme işlemleri kabaca basit birleştirme işlemleri gibi düşünülebilir alt alta koymak, yan yana koymak vs. şeklinde. Bu bölümde ise biraz daha ileri seviyede ihtiyaçlarımıza yönelik olarak özel senaryolar ile birleştirme işlemlerini ele alıcaz. 

In [40]:
# birebir birleştirme -> tüm elemanların iki veri setindede birebir yer alması durumudur. Burada calisanlar
# değişkenine odaklandığımızda iki veri setindede bu değişkenin değerleri bire bir aynıdır
# bire bir birleştirme en sık kullanılan ve basit birleştirme tekniklerinden birisi
# merge() fonksiyonu kullanılır. merge() fonksiyonu birleştirmelerin hangi değişkene göre yapılacağını
# kendisi anlıyor , eğer biz bunu özellikle belirtmek istersek belirtebiliyoruz bir argüman aracılığıyla
# on = "calisanlar" seklinde on argümanı ile

In [2]:
df1 = pd.DataFrame({"calisanlar": ["Ali","Veli","Ayşe","Fatma"], 
                   "grup": ["Muhasebe","Muh","Muh","İK"] })

df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muh
2,Ayşe,Muh
3,Fatma,İK


In [3]:
df2 = pd.DataFrame({"calisanlar": ["Ali","Veli","Ayşe","Fatma"], 
                   "ilk_giris": [2010, 2009, 2014, 2019] })

df2

Unnamed: 0,calisanlar,ilk_giris
0,Ali,2010
1,Veli,2009
2,Ayşe,2014
3,Fatma,2019


In [4]:
# bire bir birleştirme
pd.merge(df1, df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muh,2009
2,Ayşe,Muh,2014
3,Fatma,İK,2019


In [5]:
pd.merge(df1, df2, on = "calisanlar")

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muh,2009
2,Ayşe,Muh,2014
3,Fatma,İK,2019


In [26]:
# many to one -> çoktan teke birleştirme
# çoklama yapı ile tekil yapı birleştirme işlemi gerçekleşir

In [8]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muh,2009
2,Ayşe,Muh,2014
3,Fatma,İK,2019


In [9]:
df4 = pd.DataFrame({"grup": ["Muhasebe","Muh","İK"], 
                   "mudur": ["Caner","Mustafa","Berkcan"]})

df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muh,Mustafa
2,İK,Berkcan


In [32]:
# df3 -> calisanlar, grup ve giris_yili olmak üzere 3 değişken var -> çoklu yapı
# df4 -> grup ve mudur olmak üzere 2 değişken var -> tekli yapı
# ortak değişken ne "grup" değişkeni gruba göre birleştireme işlemi yapılacak
pd.merge(df3, df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2010,Caner
1,Veli,Muh,2009,Mustafa
2,Ayşe,Muh,2014,Mustafa
3,Fatma,İK,2019,Berkcan


In [33]:
# many to many -> çoktan çoka birleştirme işlemi

In [15]:
df5 = pd.DataFrame({"grup": ["Muhasebe","Muhasebe","Muh","Muh","İK","İK"],
                   "yetenekler": ["matematik","exvel","kodlama","linux",
                                  "excel","yonetim"] })

df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,matematik
1,Muhasebe,exvel
2,Muh,kodlama
3,Muh,linux
4,İK,excel
5,İK,yonetim


In [36]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muh
2,Ayşe,Muh
3,Fatma,İK


In [39]:
# çalışanlar normalde tekilde birleştireme ile çokladı ve her birisine karşılık gelen grupla beraber 
# yetenekleride yanlarına eklendi, her çalışanın birden fazla yetenği var

pd.merge(df1, df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,matematik
1,Ali,Muhasebe,exvel
2,Veli,Muh,kodlama
3,Veli,Muh,linux
4,Ayşe,Muh,kodlama
5,Ayşe,Muh,linux
6,Fatma,İK,excel
7,Fatma,İK,yonetim


In [16]:
pd.merge(df3,df5)

Unnamed: 0,calisanlar,grup,ilk_giris,yetenekler
0,Ali,Muhasebe,2010,matematik
1,Ali,Muhasebe,2010,exvel
2,Veli,Muh,2009,kodlama
3,Veli,Muh,2009,linux
4,Ayşe,Muh,2014,kodlama
5,Ayşe,Muh,2014,linux
6,Fatma,İK,2019,excel
7,Fatma,İK,2019,yonetim


# Toplulaştırma ve Gruplama (Aggregation & Grouping)

Basit toplulaştırma fonksiyonları

* count() 
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()
*sum()

In [1]:
import pandas as pd
import seaborn as sns

In [4]:
df = sns.load_dataset("planets")
df.head(10)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
7,Radial Velocity,1,798.5,,21.41,1996
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


In [3]:
?sns.load_dataset

[1;31mSignature:[0m [0msns[0m[1;33m.[0m[0mload_dataset[0m[1;33m([0m[0mname[0m[1;33m,[0m [0mcache[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mdata_home[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [1;33m**[0m[0mkws[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Load an example dataset from the online repository (requires internet).

This function provides quick access to a small number of example datasets
that are useful for documenting seaborn or generating reproducible examples
for bug reports. It is not necessary for normal usage.

Note that some of the datasets have a small amount of preprocessing applied
to define a proper ordering for categorical variables.

Use :func:`get_dataset_names` to see a list of available datasets.

Parameters
----------
name : str
    Name of the dataset (``{name}.csv`` on
    https://github.com/mwaskom/seaborn-data).
cache : boolean, optional
    If True, try to load from the local cache first, and save to the cache
 

In [5]:
# Hemen işlemlere başlamadan veri setini bir gözlemleyelim.

In [8]:
# 1035 gözlemden ve 6 değişkenden oluşuyor.
df.shape

(1035, 6)

In [11]:
# mean() -> bütün değişkenlerin ortalam değerlerini verdi.
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [15]:
# Eğer sadece bir değişken üzerinde gözlemlemek istersek önce değişkeni seçip, daha sonra toplaştırma
# fonksyisiyonumuzu yazarız.
df["mass"].mean()

2.6381605847953233

In [18]:
# count() -> içerisindeki değerleri saymak için kullanılır.
df["mass"].count()

513

In [19]:
# min() -> içerideki min değeri verir.
df["mass"].min()

0.0036

In [21]:
# max() -> içerisindeki max değeri verir.
df["mass"].max()

25.0

In [23]:
# sum() -> içirisindeki değerleri toplar.
df["mass"].sum()

1353.37638

In [27]:
# std() -> standart sapmayı verir.
df["mass"].std()

3.8186166509616046

In [28]:
# var() -> varyansı verir.
df["mass"].var()

14.58183312700122

In [31]:
# describe() -> tüm değişkenlerin betimsel istatistiklerini ortaya koyabiliyoruz.
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [34]:
# traspozunu aldık daha okunur bir from haline getirdik
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


* **!Not!**
*    PANDAS'ı Veri Manipulasyonu işlemleri için yapısal bir araç olarak ele alıyoruz.

In [40]:
# Elimizdeki veri seti içirisinde eksik değerler olursa ki, bu çok sık karşılaştığımız bir durum fakat yinede
# ben betimsel istatisklerine bakmak istiyorum diye düşünürsek bunun için df.dropna().describe().T 
# kullanabiliriz.
# İçindeki eksik gözlemleri sildi

In [38]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


# Gruplama İşlemi

In [13]:
import pandas as pd
import seaborn as sns

In [38]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"], 
                  "veri": [10,11,52,23,43,55]}, columns = ["gruplar","veri"])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


In [39]:
# dataframe'e git groupby değişkeni ile gruplar değişkenini yakala bu gruplar değişkenin içerisinde yer 
# alan kategori sınıflarını tut, AMA groupby fonksiyonunun ben tek başıma çalışamam bana aggregation 
# fonksiyonu lazım yani toplulaştırma fonksiyonu lazım.
df.groupby("gruplar")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022CAF0DB130>

In [10]:
# yakalanan A,B,C sınıflarının ortalamasını aldı
df.groupby("gruplar").mean()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,16.5
B,27.0
C,53.5


In [12]:
# sınıfları topladı
df.groupby("gruplar").sum()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [40]:
# birde önceki bölümde yer alan veri seti üzerinde gruplama işlemleri yapalım
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [18]:
df.groupby("method")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022CADDC2A60>

In [20]:
df.groupby("method").mean()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,1.0,631.18,,17.875,2011.5
Eclipse Timing Variations,1.666667,4751.644444,5.125,315.36,2010.0
Imaging,1.315789,118247.7375,,67.715937,2009.131579
Microlensing,1.173913,3153.571429,,4144.0,2009.782609
Orbital Brightness Modulation,1.666667,0.709307,,1180.0,2011.666667
Pulsar Timing,2.2,7343.021201,,1200.0,1998.4
Pulsation Timing Variations,1.0,1170.0,,,2007.0
Radial Velocity,1.721519,823.35468,2.630699,51.600208,2007.518987
Transit,1.95466,21.102073,1.47,599.29808,2011.236776
Transit Timing Variations,2.25,79.7835,,1104.333333,2012.5


In [25]:
df.groupby("method")["orbital_period"].mean()

method
Astrometry                          631.180000
Eclipse Timing Variations          4751.644444
Imaging                          118247.737500
Microlensing                       3153.571429
Orbital Brightness Modulation         0.709307
Pulsar Timing                      7343.021201
Pulsation Timing Variations        1170.000000
Radial Velocity                     823.354680
Transit                              21.102073
Transit Timing Variations            79.783500
Name: orbital_period, dtype: float64

In [28]:
df.groupby("method")["orbital_period"].sum()

method
Astrometry                       1.262360e+03
Eclipse Timing Variations        4.276480e+04
Imaging                          1.418973e+06
Microlensing                     2.207500e+04
Orbital Brightness Modulation    2.127920e+00
Pulsar Timing                    3.671511e+04
Pulsation Timing Variations      1.170000e+03
Radial Velocity                  4.553151e+05
Transit                          8.377523e+03
Transit Timing Variations        2.393505e+02
Name: orbital_period, dtype: float64

In [32]:
df.groupby("method")["mass"].mean()

method
Astrometry                            NaN
Eclipse Timing Variations        5.125000
Imaging                               NaN
Microlensing                          NaN
Orbital Brightness Modulation         NaN
Pulsar Timing                         NaN
Pulsation Timing Variations           NaN
Radial Velocity                  2.630699
Transit                          1.470000
Transit Timing Variations             NaN
Name: mass, dtype: float64

In [42]:
df.groupby("method")["distance"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,17.875,4.094148,14.98,16.4275,17.875,19.3225,20.77
Eclipse Timing Variations,4.0,315.36,213.203907,130.72,130.72,315.36,500.0,500.0
Imaging,32.0,67.715937,53.736817,7.69,22.145,40.395,132.6975,165.0
Microlensing,10.0,4144.0,2076.611556,1760.0,2627.5,3840.0,4747.5,7720.0
Orbital Brightness Modulation,2.0,1180.0,0.0,1180.0,1180.0,1180.0,1180.0,1180.0
Pulsar Timing,1.0,1200.0,,1200.0,1200.0,1200.0,1200.0,1200.0
Pulsation Timing Variations,0.0,,,,,,,
Radial Velocity,530.0,51.600208,45.559381,1.35,24.4125,40.445,59.2175,354.0
Transit,224.0,599.29808,913.87699,38.0,200.0,341.0,650.0,8500.0
Transit Timing Variations,3.0,1104.333333,915.819487,339.0,597.0,855.0,1487.0,2119.0


In [36]:
df.groupby("method")["orbital_period"].describe().T

method,Astrometry,Eclipse Timing Variations,Imaging,Microlensing,Orbital Brightness Modulation,Pulsar Timing,Pulsation Timing Variations,Radial Velocity,Transit,Transit Timing Variations
count,2.0,9.0,12.0,7.0,3.0,5.0,1.0,553.0,397.0,3.0
mean,631.18,4751.644444,118247.7375,3153.571429,0.709307,7343.021201,1170.0,823.35468,21.102073,79.7835
std,544.217663,2499.130945,213978.177277,1113.166333,0.725493,16313.265573,,1454.92621,46.185893,71.599884
min,246.36,1916.25,4639.15,1825.0,0.240104,0.090706,1170.0,0.73654,0.355,22.3395
25%,438.77,2900.0,8343.9,2375.0,0.291496,25.262,1170.0,38.021,3.16063,39.67525
50%,631.18,4343.5,27500.0,3300.0,0.342887,66.5419,1170.0,360.2,5.714932,57.011
75%,823.59,5767.0,94250.0,3550.0,0.943908,98.2114,1170.0,982.0,16.1457,108.5055
max,1016.0,10220.0,730000.0,5100.0,1.544929,36525.0,1170.0,17337.5,331.60059,160.0


In [47]:
df.groupby("method").count()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,2,2,0,2,2
Eclipse Timing Variations,9,9,2,4,9
Imaging,38,12,0,32,38
Microlensing,23,7,0,10,23
Orbital Brightness Modulation,3,3,0,2,3
Pulsar Timing,5,5,0,1,5
Pulsation Timing Variations,1,1,0,0,1
Radial Velocity,553,553,510,530,553
Transit,397,397,1,224,397
Transit Timing Variations,4,3,0,3,4


# İleri Toplulaştırma İşlemleri (Aggregate, filter, transform, apply)

In [8]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'], 
                  'degisken1': [10,23,33,22,11,99], 
                  'degisken2': [100,253,333,262,111,969]}, 
                 columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [3]:
# aggregate -> 

In [5]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


In [16]:
# sadece ortalamayı değilde min,medyan veya max değerleride hesaplamak isteyelim.
# kendimiz özellikle fonksiyonlar seçmek istiyoruz.
# alt kısımda diyoruzki groupby("gruplar") veri setini gruplara göre böl, 
# pandas'ın içiden olan fonksiyonları tırnak içinde veya sadece max şeklinde yazabiliriz, ama median numpy'ın
# içinde olduğu için onu numpy'dan çağırdık, pandas'ın içinde olmayan fonksiyonları bulundukları kütüphaneden
# import edebiliriz.

In [9]:
df.groupby("gruplar").aggregate(["min",np.median,max])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


In [15]:
df.groupby("gruplar").aggregate([min, np.median, "max"])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


In [18]:
# iki değişken için 2 farkılı istatistik hesaplama
df.groupby("gruplar").aggregate({"degisken1": "min", "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,33,969


In [19]:
df.groupby("gruplar").aggregate({"degisken1": ["min", np.median], 
                                "degisken2": ["std","var"]})

Unnamed: 0_level_0,degisken1,degisken1,degisken2,degisken2
Unnamed: 0_level_1,min,median,std,var
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,10,16,114.551299,13122
B,11,17,100.409163,10082
C,33,66,449.719913,202248


# Filter

* Elimizde bir datafame var bu dataframe'in değişkenlerinin herhangi birisinin üzerinde bir koşul çalıştırmak istiyorum fakat bu koşul öyle karşık bir koşulki mevcut PANDAS fonksiyonlarının içirisinde yer almıyor. 
* Yani bize öyle bir ihtiyaç doğuyorki hem fonksiyonumu kendim tanımlamam ve bunu bir koşulcasına dataframe'in içerisinde yer alan değişkenlerin üzerinede göndermek gerekiyor. 
* Kendi kişisel fonksiyonlarımızı bir bir filtreleme aracı olarak değişkenlerin üzerinde sorgulamak işlemini filter ile ele alıcaz

In [9]:
import pandas as pd

In [10]:
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'], 
                  'degisken1': [10,23,33,22,11,99], 
                  'degisken2': [100,253,333,262,111,969]}, 
                  columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [29]:
# degisken1'e göre standar sapmalar hesaplandı standar sapması 9'dan büyük olan değerler getirldi grup 
# bazında.

In [26]:
def filter_func(x):
    return x["degisken1"].std() > 9

In [30]:
df.groupby("gruplar").std()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8.485281,114.551299
B,8.485281,100.409163
C,46.669048,449.719913


In [27]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


In [40]:
df.groupby("gruplar").median()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


In [37]:
def filter_func2(x):
    return x["degisken1"].median() > 20

In [38]:
df.groupby("gruplar").filter(filter_func2)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


# Transform

In [13]:
import pandas as pd

In [15]:
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'], 
                  'degisken1': [10,23,33,22,11,99], 
                  'degisken2': [100,253,333,262,111,969]}, 
                 columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [18]:
df["degisken1"] * 9

0     90
1    207
2    297
3    198
4     99
5    891
Name: degisken1, dtype: int64

In [21]:
df.mean()

degisken1     33.0
degisken2    338.0
dtype: float64

In [22]:
# her bir değişkenden ortalamayı çıkartır
df.transform(lambda x: x - x.mean())

Unnamed: 0,degisken1,degisken2,gruplar
0,-23.0,-238.0,
1,-10.0,-85.0,
2,0.0,-5.0,
3,-11.0,-76.0,
4,-22.0,-227.0,
5,66.0,631.0,


In [33]:
# DataFrame'in içerisinde gruplar kategroik değişkeni olduğu içn sorun çıkarabilir bizde bunu çıkardık ve 
# sadece degisken1 ve degisken2'yi seçip üzerlerinde uyguladık
# sadece degisken1 ve degisken2'yi seçtik
# PANDAS'ta dataframe'de slice işlemi yapacaksak loc yada iloc kullanmamız gerekir
df_a = df.iloc[:,1:3]

In [28]:
df_a.transform(lambda x: x - x.mean())

Unnamed: 0,degisken1,degisken2
0,-23.0,-238.0
1,-10.0,-85.0
2,0.0,-5.0
3,-11.0,-76.0
4,-22.0,-227.0
5,66.0,631.0


In [37]:
# her bir gözlemden bu değişekin ortalamasını çıkartır, daha sonra her bir gözlemi değişkenin standar 
# sapmasını hesaplar ve böler.

In [35]:
df_a.transform(lambda x: (x - x.mean()) / x.std())

Unnamed: 0,degisken1,degisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


In [44]:
# gruplar üzerinde yaptık
df.groupby("gruplar").transform(lambda x: x-x.mean())

Unnamed: 0,degisken1,degisken2
0,-6.0,-81.0
1,6.0,71.0
2,-33.0,-318.0
3,6.0,81.0
4,-6.0,-71.0
5,33.0,318.0


In [46]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


# apply

In [49]:
import pandas as pd
import numpy as np

In [39]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"], 
                  "degisken1": [10,23,33,22,11,99], 
                  "degisken2": [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [47]:
df = pd.DataFrame({ 
                  "degisken1": [10,23,33,22,11,99], 
                  "degisken2": [100,253,333,262,111,969]},
                 columns = ["degisken1","degisken2"])
df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [48]:
# apply -> apply fonksiyonu tıpkı transform ve filter fonk. gibi dataframe'in değişkenlerin üzerinde 
# gezinme yeteneği olan ve aggregation yani toplulaştırma amacıyla kullanılabilecek olan bir fonksindur.

In [53]:
# deg1 ve deg2'nin toplamlarını aldı
df.apply(np.sum)

degisken1     198
degisken2    2028
dtype: int64

In [57]:
df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [55]:
## apply, transform ve filter fonk. lambda mimarisi ile inanılmaz iş gören fonksiyonlardır

In [58]:
# peki gruplar olsaydı nasıl bir sonu olucaktı

In [59]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"], 
                  "degisken1": [10,23,33,22,11,99], 
                  "degisken2": [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [60]:
df.apply(np.sum)

gruplar      ABCABC
degisken1       198
degisken2      2028
dtype: object

In [63]:
df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


In [62]:
df.groupby("gruplar").apply(np.mean)

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16.0,181.0
B,17.0,182.0
C,66.0,651.0


# Pivot Tablolar

* Bu bölümde Pivot Tablolaru ele alıcaz.
* Veri Setleri üzerinde bazı satır ve sütun işlemleri yaparak veri setini amaca uygun hale getirmek için kullanılan yapılardır.
* Groupby'ın çok boyutlu versiyonu olarak düşünebiliriz.
* Groupby fonk. kullanılarakta bir pivot işlemi gerçekleştirilebir.
* Pivot -> Örneğin, öncellikle cinsiyete göre veriyi gruplayıp sağ kalma durumlarını ifade eden survived 

In [1]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [2]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [31]:
# cinsiyete göre veriyi gruplayıp sağ kalma durumlarına göre survived değişkenini inceleyelim.
# hangi değişkene göre gruplama yapıcaz cinsiyet(sex) değişkenine göre tamam peki sürekli 
# değişken olarak hangi değişkeni seçicez survived(hayatta kalama durumu), daha sonra ortalamayı
# ala
# kadınların hayatta kalma durumu daha yüksek görürnüyor bunların yorumlarını keşifçi veri analizi
# dersinde yapıcaz
titanic.groupby("sex")["survived"].mean()

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

In [15]:
titanic["survived"].count()

891

In [26]:
# kaç kişi kurtulmuş
sag = 0
no = 0
for i in titanic["survived"]:
    if i == 1:
        sag = sag + 1
    else:
        no = no + 1

print("sag: ",sag)
print("no: ", no)

sag:  342
no:  549


In [4]:
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [13]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [11]:
# elimizde 2 kategorik değişken ve 1  sürekli değişken var bunları bir pivot table aracılığıyla kesişimlerini
# tablolamış olduk.
# unstack -> unstack'i kaldırdığımızda okunması biraz daha zor oluyor, unstack'de hiyerarşik index yapısı
# çözünmüş olur ve daha kolay okumamız sağlanır
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


# Pivot ile Pivot Table

In [21]:
# pivot_table bize diyorki odaklandığın değişken nedir -> survived
# index'in nedir -> cinsiyet diyoruz
# başka hangi değişkene odaklanmak istiyorsun -> class diyoruz
titanic.pivot_table("survived", index = "sex", columns = "class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [18]:
?titanic.pivot_table

[1;31mSignature:[0m
[0mtitanic[0m[1;33m.[0m[0mpivot_table[0m[1;33m([0m[1;33m
[0m    [0mvalues[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcolumns[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0maggfunc[0m[1;33m=[0m[1;34m'mean'[0m[1;33m,[0m[1;33m
[0m    [0mfill_value[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mmargins[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mdropna[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mmargins_name[0m[1;33m=[0m[1;34m'All'[0m[1;33m,[0m[1;33m
[0m    [0mobserved[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'DataFrame'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Create a spreadsheet-style pivot table as a DataFrame.

The levels in the pivot table will be stored in MultiIndex objects
(hierarchical indexes) on the index and columns

In [32]:
titanic.age.head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64

In [25]:
# çok boyutlu bir pivot oluşturmak istiyorum
# veri setinin içinde yer alan age değişkenini , ben bu sürekli değişkeni bir kategorik değişkene çevirip 3 
# sınıflı bir kategrorik değişkene çevirip bu kateg. değişkenin sınıflarını pivot tabloyada boyut olarakda 
# ekleyelim

In [28]:
# titanic içindeki age değişkenini böl, nasıl bölücem bana aralıklar ver
age = pd.cut(titanic["age"], [0,18,90])
age.head(10)

0    (18.0, 90.0]
1    (18.0, 90.0]
2    (18.0, 90.0]
3    (18.0, 90.0]
4    (18.0, 90.0]
5             NaN
6    (18.0, 90.0]
7     (0.0, 18.0]
8    (18.0, 90.0]
9     (0.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [30]:
# ortaya çıkan sınıfları pivot table'a ekleme
titanic.pivot_table("survived", ["sex",age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


# Dış Kaynaktan Veri Okuma

In [1]:
import pandas as pd

In [49]:
# txt formunu ve csv formunu aynı fonksiyon ile okuyabiliyoruz.

In [8]:
pd.read_csv("reading_data/ornekcsv.csv")

Unnamed: 0,a;b;c
0,78;12;1
1,78;12;2
2,78;324;3
3,7;2;4
4,88;23;5
5,6;2;
6,56;11;6
7,7;12;7
8,56;21;7
9,346;2;8


In [14]:
# ilk çalıştırdığımızda gördümüz üzere düzgün bir şekilde okuma gerçeklemedi
# Veri okuma işlemlerinde en sık karşılaşılan problem budur , paylaşılan veri seti genelde csv ve txt
# formunda olduğunda değişkenler birbirinden bazı ayraçlar ile ayrılır. Örneğin biz şuanda ornekcsv.cvs
# dosyasını olduğu gibi çalıştırdık ve okumasını bekledik fakat ayraç olarak ön tanımlı kullanılan değer ,
# olduğundan dolayı bize gelmiş olan bu veri setinde ise ayraç olarak ; kullanıldığından dolayı okuma işlemi 
# hatalı oldu. Bunun için sep = "" argümanını kullanabiliriz. Görüleceği üzere veri düzgün bir 
# şekilde okundu.

In [32]:
# csv_okuma
pd.read_csv("reading_data/ornekcsv.csv", sep = ";")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [23]:
# txt_okuma -> boşlukları okuyabilir
pd.read_csv("reading_data/duz_metin.txt")

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


In [22]:
?pd.read_csv

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mread_csv[0m[1;33m([0m[1;33m
[0m    [0mfilepath_or_buffer[0m[1;33m:[0m [0mUnion[0m[1;33m[[0m[0mForwardRef[0m[1;33m([0m[1;34m'PathLike[str]'[0m[1;33m)[0m[1;33m,[0m [0mstr[0m[1;33m,[0m [0mIO[0m[1;33m[[0m[1;33m~[0m[0mT[0m[1;33m][0m[1;33m,[0m [0mio[0m[1;33m.[0m[0mRawIOBase[0m[1;33m,[0m [0mio[0m[1;33m.[0m[0mBufferedIOBase[0m[1;33m,[0m [0mio[0m[1;33m.[0m[0mTextIOBase[0m[1;33m,[0m [0m_io[0m[1;33m.[0m[0mTextIOWrapper[0m[1;33m,[0m [0mmmap[0m[1;33m.[0m[0mmmap[0m[1;33m][0m[1;33m,[0m[1;33m
[0m    [0msep[0m[1;33m=[0m[1;33m<[0m[0mobject[0m [0mobject[0m [0mat[0m [1;36m0x0000014C86324220[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0mdelimiter[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mheader[0m[1;33m=[0m[1;34m'infer'[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex_col[0m[1;33

In [34]:
# exel_dosyası_okuma
pd.read_excel("reading_data/ornekx.xlsx")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [50]:
df = pd.read_excel("reading_data/ornekx.xlsx")
df.head()

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0


In [37]:
# Veri tipine baktığım zaman görüldüğü gibi bir DataFrame yani Pandas DataFrame'leri üzerinde görmüş 
# olduğumuz bütün fonksiyonları burada uygulayabiliyoruz.
type(df)

pandas.core.frame.DataFrame

In [39]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

In [41]:
df.columns = ["A","B","C"]
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [47]:
# dışardan_kendiğimiz_oluşturdumuz_txt_veri_setini_okuma
tips = pd.read_csv("reading_data/data.txt")

In [48]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
