In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Pandas, veri analizi ve işleme dünyasında önemli bir araç olarak kabul edilir ve birçok veri bilimi projesinde yaygın olarak kullanılır. 

## Neden Pandas?

Pandas, veri analizi ve işleme süreçlerini büyük ölçüde kolaylaştırır ve farklı alanlarda aşağıdaki avantajları sunar:

- Veri Yapıları: Pandas, tablo benzeri bir veri yapısı olan DataFrame'i sunar. Bu, verileri düzenli bir şekilde saklamanıza ve işlemenize olanak tanır.

- Veri İşleme: Pandas, verileri sık ​​kullanılan işlemlerle hızlıca işlemenizi sağlar, örneğin filtreleme, gruplandırma, sıralama ve birleştirme gibi işlemler.

- Veri Temizleme: Gerçek dünya verileri sık ​​sık eksik veya hatalı değerler içerir. Pandas, eksik değerleri işlemeyi ve veri temizleme işlemlerini kolayca gerçekleştirmenizi sağlar.

- Veri Görselleştirme: Pandas, verileri Matplotlib ve Seaborn gibi görselleştirme kütüphaneleriyle entegre ederek verilerinizi daha iyi anlamanıza yardımcı olur.

- Veri İçe Aktarma ve Dışa Aktarma: Pandas, farklı veri formatlarına (CSV, Excel, SQL, JSON vb.) veri aktarmanıza ve bu formatlardan veri çekmenize olanak tanır.

- Hız ve Performans: Pandas, büyük veri kümeleri üzerinde hızlı işlem yapabilen optimize edilmiş bir kütüphanedir.

## Temel Pandas Kavramları

Pandas'ı kullanmaya başlamadan önce, bazı temel kavramları anlamak önemlidir:

- DataFrame: Pandas'ın ana veri yapısıdır ve verilerinizi bir tablo şeklinde temsil eder.

- Seri (Series): DataFrame içindeki tek bir sütunu temsil eder ve birçok işlem için temel bir veri yapısıdır.

- İndeksleme ve Seçim: Pandas, verilerinizi satırlar ve sütunlar arasında seçmek ve filtrelemek için güçlü bir indeksleme sistemi sunar.


## Pandas Serisi Oluşturmak

In [12]:
pd.Series([1,2,3,4,5]) # NumPy Arraylerinden farklı olarak seri elemanlarının indekslerini de gösterir.
                       # değerleri indeksleriyle birlikte tutar

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [23]:
seri = pd.Series([1,2,3,4,5,66,77,88]) # Tipini inceleyelim
type(seri)

pandas.core.series.Series

In [24]:
seri.axes # Bu serinin indeks bilgilerine erişiyoruz.

[RangeIndex(start=0, stop=8, step=1)]

In [25]:
seri.dtype # İçerisindeki değerlerin veri tipini inceleyelim

dtype('int64')

In [26]:
seri.size # İçerisindeki eleman sayısını sorgular

8

In [27]:
seri.ndim # Boyutunu inceleyelim

1

In [28]:
seri.values # Serinin değerlerine ulaşma

array([ 1,  2,  3,  4,  5, 66, 77, 88], dtype=int64)

In [29]:
seri.head() # Bu serinin ilk 5 elemanını getirecek

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [30]:
seri.tail() # Serinin son 5 elemanını inceleme

3     4
4     5
5    66
6    77
7    88
dtype: int64

### İndeks İsimlendirmesi

In [31]:
pd.Series([99,22,332,94,5])

0     99
1     22
2    332
3     94
4      5
dtype: int64

In [33]:
pd.Series([99,22,332,94,5], index = [1,3,5,7,9]) # Görüldüğü üzere indeks isimlendirmelerini kendimiz belirleyebiliyoruz

1     99
3     22
5    332
7     94
9      5
dtype: int64

In [35]:
pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"]) # İndeksleri "str" ifadeler ile de belirleyebiliyoruz

a     99
b     22
c    332
d     94
e      5
dtype: int64

In [45]:
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"]) # Sözlüklerdeki key-value mantığı gibi burada indeks elemanlarına
                                                                  # erişebiliyoruz  
seri["a"], seri["a":"c"]                                          # sliceing işlemleri yapılabilir durumda

(99,
 a     99
 b     22
 c    332
 dtype: int64)

### Sözlük üzerinden liste oluşturmak

In [47]:
sozluk = {"reg":10, "log":11, "cart":12}

seri = pd.Series(sozluk)
seri

reg     10
log     11
cart    12
dtype: int64

### İki seriyi birleştirerek seri oluşturma

In [48]:
pd.concat([seri,seri])

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## Eleman İşlemleri

In [49]:
a = np.array([1,2,33,444,75])

seri = pd.Series(a)
seri

0      1
1      2
2     33
3    444
4     75
dtype: int32

In [53]:
seri[0] # Elemana erişim

1

In [54]:
seri[0:3] #Slicing ile erişim de mümkün

0     1
1     2
2    33
dtype: int32

In [56]:
seri = pd.Series([121,200,150,99], index = ["reg","loj","cart","rf"]) # İndeksleri kendimiz atadık
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [59]:
seri.index # indeks değerlerini gösteriyor

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [60]:
seri.keys # keys değerleri

<bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

In [64]:
list(seri.items()) # indeks value birlikte, key-value eşleşmesi gibi düşünülebilir

[('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]

In [65]:
seri.values #serinin sadece değerleri

array([121, 200, 150,  99], dtype=int64)

### Eleman Sorgulama

In [67]:
"reg" in seri # True döndüğü için "reg" seri'nin içinde vardır

True

In [68]:
"a" in seri

False

In [69]:
# fancy eleman

In [70]:
seri[["rf","reg"]]

rf      99
reg    121
dtype: int64

In [74]:
seri["reg"] = 175 # seri elemanlarına atama işlemleri gerçekleşebilir
seri["reg"]

175

In [76]:
seri["reg":"cart"] # slicing yapılabiliuor

reg     175
loj     200
cart    150
dtype: int64

## DataFrame Oluşturma

In [78]:
import pandas as pd

l = [1,2,39,67,90]

pd.DataFrame(l, columns = ["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,39
3,67
4,90


In [80]:
m = np.arange(1,10).reshape((3,3))

df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [81]:
df.head()

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [83]:
df.columns # Sütunların isimlerini alıyoruz

Index(['var1', 'var2', 'var3'], dtype='object')

In [85]:
df.columns = ("deg1","deg2","deg3") # Sütun isimlerine bu şekilde atama gerçekleştirebiliriz
df

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [86]:
type(df)

pandas.core.frame.DataFrame

In [99]:
df.axes # İndekslerin ve değerlerin bilgisi

[RangeIndex(start=0, stop=3, step=1),
 Index(['deg1', 'deg2', 'deg3'], dtype='object')]

In [101]:
df.shape # df 3x3'lük bir matris

(3, 3)

In [102]:
df.ndim # Boyut bilgisi

2

In [103]:
df.size # Toplam eleman sayısı

9

In [104]:
df.values # Değerleri

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [105]:
type(df.values) # görüldüğü üzere fonksiyon ile çekilen values array'i numpy array i tipinde

numpy.ndarray

In [106]:
df.tail()

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [107]:
# bir numpy array'i üzerinden de pandas DataFrame'i oluşturabiliriz
a = np.array([1,2,3,4,5])

pd.DataFrame(a, columns=["deg1"])

Unnamed: 0,deg1
0,1
1,2
2,3
3,4
4,5


## Eleman İşlemleri

In [133]:
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)

In [134]:
sozluk = {"var1":s1, "var2": s2, "var3":s3}

df = pd.DataFrame(sozluk)
df

Unnamed: 0,var1,var2,var3
0,7,6,1
1,6,9,8
2,3,1,0
3,1,3,7
4,6,1,5


In [135]:
df[0:1]

Unnamed: 0,var1,var2,var3
0,7,6,1


In [136]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [137]:
df.index = ["a","b","c","d","e"]
df

Unnamed: 0,var1,var2,var3
a,7,6,1
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


In [138]:
df["c":"e"]

Unnamed: 0,var1,var2,var3
c,3,1,0
d,1,3,7
e,6,1,5


In [139]:
# silme

In [140]:
df.drop("a", axis = 0)

Unnamed: 0,var1,var2,var3
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


In [141]:
df # drop metodu ana df'i değiştirmez

Unnamed: 0,var1,var2,var3
a,7,6,1
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


In [142]:
df.drop("a", axis = 0, inplace= True) # inplace argümanı True dersek kalıcı olarak df'ten silinir
df

Unnamed: 0,var1,var2,var3
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


In [143]:
# fancy ile silme

In [144]:
l = ["c","e"]

df.drop(l, axis = 0)

Unnamed: 0,var1,var2,var3
b,6,9,8
d,1,3,7


In [147]:
# sütun bazında sorgulama

In [145]:
l = ["var1","var4","var2"]

for i in l:
    print(i in df)

True
False
True


In [148]:
df

Unnamed: 0,var1,var2,var3
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


In [150]:
df["var4"] = df["var1"] / df["var2"]
df

Unnamed: 0,var1,var2,var3,var4
b,6,9,8,0.666667
c,3,1,0,3.0
d,1,3,7,0.333333
e,6,1,5,6.0


In [152]:
# değişken silme

df.drop("var4", axis = 1)

Unnamed: 0,var1,var2,var3
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


In [153]:
df.drop("var4", axis = 1, inplace= True)

In [154]:
df

Unnamed: 0,var1,var2,var3
b,6,9,8
c,3,1,0
d,1,3,7
e,6,1,5


## Gözlem ve Değişken Seçimi : loc & iloc

In [2]:
import numpy as np
import pandas as pd

m = np.random.randint(1, 30, size = (10,3))

df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,12,19,22
1,10,17,21
2,1,26,15
3,23,25,19
4,29,2,10
5,25,17,21
6,16,11,21
7,28,8,22
8,2,19,5
9,11,2,7


In [8]:
# loc: tanımlandığı şekliyle seçim yapmak için kullanılır. (3.indeksi aldı)

In [4]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,12,19,22
1,10,17,21
2,1,26,15
3,23,25,19


In [7]:
# iloc: alışık olduğumuz indeksleme mantığıyla seçim yapar (3'e kadar aldı)

In [6]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,12,19,22
1,10,17,21
2,1,26,15


In [9]:
df.iloc[0,0]

12

In [10]:
df.iloc[:3,:2]

Unnamed: 0,var1,var2
0,12,19
1,10,17
2,1,26


In [14]:
# loc örnekleri

In [15]:
df.loc[0:3, "var3"] # indekslerin isimlerine göre seçim yapacaksak loc'u kullanmamız lazım

0    22
1    21
2    15
3    19
Name: var3, dtype: int32

In [19]:
df.iloc[0:4,2:3]

Unnamed: 0,var3
0,22
1,21
2,15
3,19


In [21]:
df.iloc[0:3]["var3"] # ya da bu şekilde kullanılacak

0    22
1    21
2    15
Name: var3, dtype: int32

## Koşullu Eleman İşlemleri

In [22]:
import numpy as np
import pandas as pd

m = np.random.randint(1, 30, size=(10,3))

df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,6,6,15
1,24,17,29
2,2,16,5
3,2,1,2
4,12,12,8
5,24,24,7
6,28,28,25
7,28,16,10
8,29,10,6
9,16,14,9


In [24]:
df["var1"] #şimdi "var1" in içindeki 15'ten büyük olanları gözlemlemeye çalışıcaz

0     6
1    24
2     2
3     2
4    12
5    24
6    28
7    28
8    29
9    16
Name: var1, dtype: int32

In [30]:
df[df.var1 > 15]["var1"] # var1'in 15'ten büyük değerleri

1    24
5    24
6    28
7    28
8    29
9    16
Name: var1, dtype: int32

In [31]:
df[(df.var1 > 15) & (df.var3 < 15)] # var1'in 15'ten büyük değerleri ile var3'ün 15'ten küçük değeleri

Unnamed: 0,var1,var2,var3
5,24,24,7
7,28,16,10
8,29,10,6
9,16,14,9


In [38]:
df.loc[(df.var1 > 15), ["var1","var2"]] # var1'in 15'ten büyük olduğu var1 ve var2 sütunlarını getir

Unnamed: 0,var1,var2
1,24,17
5,24,24
6,28,28
7,28,16
8,29,10
9,16,14


In [39]:
df[(df.var1 > 15)][["var1","var2","var3"]] # var1'in 15'ten büyük olduğu var1 var2 ve var3 sütunlarını getir

Unnamed: 0,var1,var2,var3
1,24,17,29
5,24,24,7
6,28,28,25
7,28,16,10
8,29,10,6
9,16,14,9


## Birleştirme (Join) İşlemleri

In [41]:
m = np.random.randint(1, 30, size=(5,3))

df1 = pd.DataFrame(m, columns=["var1","var2","var3"])
df1

Unnamed: 0,var1,var2,var3
0,6,13,13
1,8,7,23
2,7,25,12
3,22,14,4
4,15,24,29


In [43]:
df2 = df1 + 99
df2

Unnamed: 0,var1,var2,var3
0,105,112,112
1,107,106,122
2,106,124,111
3,121,113,103
4,114,123,128


In [44]:
pd.concat([df1,df2]) # iki dataframe i birleştirme işlemi

Unnamed: 0,var1,var2,var3
0,6,13,13
1,8,7,23
2,7,25,12
3,22,14,4
4,15,24,29
0,105,112,112
1,107,106,122
2,106,124,111
3,121,113,103
4,114,123,128


In [47]:
pd.concat([df1,df2], ignore_index=True) # İndeksleri birebir almayı bıraktı

Unnamed: 0,var1,var2,var3
0,6,13,13
1,8,7,23
2,7,25,12
3,22,14,4
4,15,24,29
5,105,112,112
6,107,106,122
7,106,124,111
8,121,113,103
9,114,123,128


In [52]:
df1.columns = ["var1","var2","var3"]

In [53]:
df2.columns = ["var1","var2","deg3"]

In [58]:
pd.concat([df1,df2]) # farklı degisken isimlerine sahip olanları birleştiremiyor

Unnamed: 0,var1,var2,var3,deg3
0,6,13,13.0,
1,8,7,23.0,
2,7,25,12.0,
3,22,14,4.0,
4,15,24,29.0,
0,105,112,,112.0
1,107,106,,122.0
2,106,124,,111.0
3,121,113,,103.0
4,114,123,,128.0


In [59]:
 pd.concat([df1,df2], join="inner") #farklı degisken isimleri olanları göz ardı ettik

Unnamed: 0,var1,var2
0,6,13
1,8,7
2,7,25
3,22,14
4,15,24
0,105,112
1,107,106
2,106,124
3,121,113
4,114,123


### Birebir Birleştirme

In [65]:
df1 = pd.DataFrame({"calisanlar": ["Ali","Veli","Ayse","Fatma"],
                   "grup": ["Muhasebe","Muhendislik","Muhendislik","İK"]})

df2 = pd.DataFrame({"calisanlar": ["Ayse","Ali","Veli","Fatma"],
                   "ilk_giris": [2010, 2009, 2014, 2019]})
df1, df2

(  calisanlar         grup
 0        Ali     Muhasebe
 1       Veli  Muhendislik
 2       Ayse  Muhendislik
 3      Fatma           İK,
   calisanlar  ilk_giris
 0       Ayse       2010
 1        Ali       2009
 2       Veli       2014
 3      Fatma       2019)

In [66]:
pd.merge(df1, df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [67]:
pd.merge(df1, df2, on="calisanlar") # Neye göre birleştireceğini belirmeke için kullanılan argüman

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [68]:
# çoktan teke

In [69]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [70]:
df4 = pd.DataFrame({"grup": ["Muhasebe","Muhendislik","İK"],
                   "mudur": ["Caner","Mustafa","Berkcan"]})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,İK,Berkcan


In [71]:
pd.merge(df3,df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2009,Caner
1,Veli,Muhendislik,2014,Mustafa
2,Ayse,Muhendislik,2010,Mustafa
3,Fatma,İK,2019,Berkcan


In [72]:
# çoktan çoka

In [73]:
df5 = pd.DataFrame({"grup": ["Muhasebe","Muhasebe","Muhendislik","Muhendislik","İK","İK"],
                   "yetenekler": ["Matematik","Excel","Kodlama","Linux","Excel","Yonetim"]})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,Matematik
1,Muhasebe,Excel
2,Muhendislik,Kodlama
3,Muhendislik,Linux
4,İK,Excel
5,İK,Yonetim


In [74]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [75]:
pd.merge(df1, df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,Matematik
1,Ali,Muhasebe,Excel
2,Veli,Muhendislik,Kodlama
3,Veli,Muhendislik,Linux
4,Ayse,Muhendislik,Kodlama
5,Ayse,Muhendislik,Linux
6,Fatma,İK,Excel
7,Fatma,İK,Yonetim


## Toplulaştırma ve Gruplama (Aggregation & Grouping)
Basit toplulaştırma fonksiyonları
- count()
- first()
- last()
- mean()
- median()
- min()
- max()
- std()
- var()
- sum()

In [76]:
import seaborn as sns

In [80]:
df = sns.load_dataset("planets")

df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [81]:
df.shape

(1035, 6)

In [95]:
df["mass"].mean() # ortalaması

2.6381605847953233

In [96]:
df["mass"].count() # sayısı

513

In [97]:
df["mass"].min() # minimum değer

0.0036

In [98]:
df["mass"].max() # maksimum değer

25.0

In [99]:
df["mass"].sum() # tüm değerlerin toplamı

1353.37638

In [100]:
df["mass"].std() # standart sapması

3.8186166509616046

In [101]:
df["mass"].var() # varyansı

14.58183312700122

In [102]:
df.describe() # tüm betimsel istatistikleri

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [103]:
df.describe().T #Transpozu alındığında daha okunaklı oluyor

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [104]:
df.dropna().describe().T # içindeki eksik değerleri silerek betimsel istatistikler

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


### Gruplama İşlemleri

In [105]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                  "veri": [10,11,52,23,43,55]}, columns=["gruplar","veri"])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


In [109]:
df.groupby("gruplar") # Gruplar değeri aynı olan verileri tutan bir obje oluşturdu

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000024379031310>

In [110]:
df.groupby("gruplar").mean() # Grupladığı objelerin ortalaması

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,16.5
B,27.0
C,53.5


In [111]:
df.groupby("gruplar").sum() # Grupladoğı objelerin toplamı

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [112]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [113]:
df.groupby("method")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000024379031A00>

In [114]:
df.groupby("method")["orbital_period"].mean()

method
Astrometry                          631.180000
Eclipse Timing Variations          4751.644444
Imaging                          118247.737500
Microlensing                       3153.571429
Orbital Brightness Modulation         0.709307
Pulsar Timing                      7343.021201
Pulsation Timing Variations        1170.000000
Radial Velocity                     823.354680
Transit                              21.102073
Transit Timing Variations            79.783500
Name: orbital_period, dtype: float64

In [118]:
df.groupby("method")["orbital_period"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,631.18,544.217663,246.36,438.77,631.18,823.59,1016.0
Eclipse Timing Variations,9.0,4751.644444,2499.130945,1916.25,2900.0,4343.5,5767.0,10220.0
Imaging,12.0,118247.7375,213978.177277,4639.15,8343.9,27500.0,94250.0,730000.0
Microlensing,7.0,3153.571429,1113.166333,1825.0,2375.0,3300.0,3550.0,5100.0
Orbital Brightness Modulation,3.0,0.709307,0.725493,0.240104,0.291496,0.342887,0.943908,1.544929
Pulsar Timing,5.0,7343.021201,16313.265573,0.090706,25.262,66.5419,98.2114,36525.0
Pulsation Timing Variations,1.0,1170.0,,1170.0,1170.0,1170.0,1170.0,1170.0
Radial Velocity,553.0,823.35468,1454.92621,0.73654,38.021,360.2,982.0,17337.5
Transit,397.0,21.102073,46.185893,0.355,3.16063,5.714932,16.1457,331.60059
Transit Timing Variations,3.0,79.7835,71.599884,22.3395,39.67525,57.011,108.5055,160.0


### İleri Toplulaştırma İşlemleri (Aggregate, filter, transform, apply)

In [119]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                  "degisken1": [10,23,33,22,11,99],
                  "degisken2": [100,253,333,262,111,969]}, columns= ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [120]:
# Aggregate

In [122]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16.0,181.0
B,17.0,182.0
C,66.0,651.0


In [124]:
df.groupby("gruplar").aggregate(["min",np.median, max]) # aggregate fonksiyonu, bizim seçtiğimiz tanımlayıcı istatistikleri görmemizi sağlıyor, eğer fonksiyon pandas içindeyse "fonksiyon", değil ise direkt fonksiyonu çağırmalıyız

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16.0,22,100,181.0,262
B,11,17.0,23,111,182.0,253
C,33,66.0,99,333,651.0,969


In [126]:
df.groupby("gruplar").aggregate({"degisken1": "min", # değişken1'e farklı değişken2'ye farklı fonksiyonları çağırmak için sözlük yapısından yararlanabiliriz
                                "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,33,969


In [127]:
# filter

In [142]:
# belirli bir şarta göre filtreleme işlemini gerçekleştirerek dataframe'e ulaşmak için bu metodu kullanıyoruz
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                  "degisken1": [10,23,33,22,11,99],
                  "degisken2": [100,253,333,262,111,969]}, columns= ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [129]:
def filter_func(x):
    return x["degisken1"].std() > 9

In [132]:
df.groupby("gruplar").std()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8.485281,114.551299
B,8.485281,100.409163
C,46.669048,449.719913


In [131]:
df.groupby("gruplar").filter(filter_func) # degisken1'e göre standart sapması 9'dan büyük olanlar gelmiş oldu

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


In [133]:
# transform

In [134]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                  "degisken1": [10,23,33,22,11,99],
                  "degisken2": [100,253,333,262,111,969]}, columns= ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [135]:
df["degisken1"]*9

0     90
1    207
2    297
3    198
4     99
5    891
Name: degisken1, dtype: int64

In [138]:
df_a = df.iloc[:,1:3]

In [141]:
df_a.transform(lambda x: x-x.mean()) # dataframe elemanlarını değiştirmek istediğimizde, belirli bir fonksiyona tabii tutabilmek için transform metodunu kullanıyoruz

Unnamed: 0,degisken1,degisken2
0,-23.0,-238.0
1,-10.0,-85.0
2,0.0,-5.0
3,-11.0,-76.0
4,-22.0,-227.0
5,66.0,631.0


In [140]:
df_a.transform(lambda x: (x-x.mean()) / x.std())

Unnamed: 0,degisken1,degisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


In [143]:
# apply

In [146]:
df = pd.DataFrame({"degisken1": [10,23,33,22,11,99],
                  "degisken2": [100,253,333,262,111,969]}, columns= ["degisken1","degisken2"])
df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [147]:
df.apply(np.sum)

degisken1     198
degisken2    2028
dtype: int64

In [148]:
df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [149]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                  "degisken1": [10,23,33,22,11,99],
                  "degisken2": [100,253,333,262,111,969]}, columns= ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [150]:
df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


## Pivot Tablolar

In [162]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [167]:
titanic.groupby("sex")[["survived"]].mean() # ilkel bir pivotlama, cinsiyet ve sağ kalma durumuna göre

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [170]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean").unstack() # cinsiyet ve sınıflara göre sağ kalma durumu, 2 boyutlu pivot table

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [171]:
# pivot ile table

In [174]:
titanic.pivot_table("survived", index= "sex", columns="class") # aynı işlemi bu şekilde daha kolayca yapabiliyoruz

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [175]:
# yaş değişkenini bir kategorik değişkene çevirerek pivot table oluşturalım

In [176]:
titanic.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [182]:
age = pd.cut(titanic["age"], [0,18,90])
age.head(10)

0    (18.0, 90.0]
1    (18.0, 90.0]
2    (18.0, 90.0]
3    (18.0, 90.0]
4    (18.0, 90.0]
5             NaN
6    (18.0, 90.0]
7     (0.0, 18.0]
8    (18.0, 90.0]
9     (0.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64, right]): [(0, 18] < (18, 90]]

In [183]:
titanic.pivot_table("survived", ["sex",age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


### Dış Kaynaklı Veri Okumak

In [186]:
import pandas as pd

df = pd.read_csv("ornekcsv.csv")
df.head()

Unnamed: 0,a;b;c
0,78;12;1
1,78;12;2
2,78;324;3
3,7;2;4
4,88;23;5


In [187]:
# ayırma işlemi virgüle göre yapıldığo içi sep argümanını kullanarak bu durumu düzeltelim

In [190]:
# csv okuma

In [191]:
df = pd.read_csv("ornekcsv.csv", sep = ";")
df.head()

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0


In [192]:
# txt okuma

In [193]:
df = pd.read_csv("duz_metin.txt")
df

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


In [194]:
# excel okuma

In [195]:
df = pd.read_excel("ornekx.xlsx")
df

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0
