# Pandas Serisi Oluşturma
pd.Series() ile pandas serisi oluşturabiliriz.

In [22]:
import pandas as pd
import numpy as np
seri = pd.Series([1,2,3,4,5,6,7,8,9])
print(seri)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64


In [23]:
type(seri)

pandas.core.series.Series

.axes ile serinin başlangıç, bitiş ve adım değerlerini görebiliriz.

In [24]:
print(seri.axes)

[RangeIndex(start=0, stop=9, step=1)]


dtype ile serinin veri tipini görebiliriz.

In [25]:
print(seri.dtype)

int64


- .size ileserinin boyutunu görebiliriz
- .ndim ile serinin boyut sayısını görebiliriz

In [26]:
print(seri.size)
print(seri.ndim)

9
1


.values ile serinin değerlerini görebiliriz

In [27]:
print(seri.values)

[1 2 3 4 5 6 7 8 9]


.head() ile serinin ilk 5 değerini görebiliriz. Eğer isterseniz .head(10) diyerek ilk 10 değeri görebilirsiniz 

In [28]:
seri.head()

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [29]:
print(seri.head(3))

0    1
1    2
2    3
dtype: int64


.tail() ile serinin son 5 değerin görebilirsiniz. Eğer isterseniz .tail(10) diyerek son 10 değeri görebilirsiniz 

In [30]:
seri.tail()

4    5
5    6
6    7
7    8
8    9
dtype: int64

In [31]:
seri.tail(3)

6    7
7    8
8    9
dtype: int64

In [32]:
seri = pd.Series([99, 22, 332, 94, 5], index = ["a", "b", "c", "d", "e"])
print(seri["a"])

99


In [33]:
print(seri["a" : "c"])

a     99
b     22
c    332
dtype: int64


In [34]:
sozluk = {"reg":10, "log": 11, "cart":12}
seri = pd.Series(sozluk)
print(seri)

reg     10
log     11
cart    12
dtype: int64


In [35]:
randomNumbers = np.random.randint(10, 100, 5)
pandas = pd.Series(randomNumbers)
print(pandas[0])

20


In [36]:
seri = pd.Series([200, 121, 150, 99], index = ["a", "b", "c", "d"])
print(seri)

a    200
b    121
c    150
d     99
dtype: int64


In [37]:
seri.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [38]:
seri.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [39]:
print(list(seri.items()))

[('a', 200), ('b', 121), ('c', 150), ('d', 99)]


In [40]:
"a" in seri

True

In [41]:
"g" in seri

False

In [42]:
seri[["a","b"]]

a    200
b    121
dtype: int64

In [43]:
seri["a"] = 250
print(seri)

a    250
b    121
c    150
d     99
dtype: int64


# Pandas DataFrame Oluşturma
*pd.DataFrame()*
- DataFrame oluşturabiliriz.
- columns parametresi ile kolon isimlerini belirleyebiliriz.
- index parametresi ile index isimlerini belirleyebiliriz.

In [44]:
l = [1, 2, 3, 4, 5]
pd.DataFrame(l, columns=["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,3
3,4
4,5


In [45]:
m = np.arange(1, 10).reshape((3,3))
pd.DataFrame(m, columns=["1", "2", "3"])

Unnamed: 0,1,2,3
0,1,2,3
1,4,5,6
2,7,8,9


In [46]:
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"])
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [47]:
df.columns = {"degisken1", "degisken2", "degisken3"}
df

Unnamed: 0,degisken1,degisken3,degisken2
0,1,2,3
1,4,5,6
2,7,8,9


In [48]:
df.axes

[RangeIndex(start=0, stop=3, step=1),
 Index(['degisken1', 'degisken3', 'degisken2'], dtype='object')]

In [49]:
df.shape

(3, 3)

In [50]:
df.ndim

2

In [51]:
df.size

9

In [52]:
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [53]:
df.tail(1)

Unnamed: 0,degisken1,degisken3,degisken2
2,7,8,9


# Eleman İşlemleri

In [54]:
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)

In [55]:
sozluk ={"var1" : s1 , "var2" : s2, "var3": s3}
df = pd.DataFrame(sozluk)

In [56]:
df

Unnamed: 0,var1,var2,var3
0,3,5,2
1,6,9,6
2,1,9,3
3,6,3,9
4,5,2,9


In [57]:
df[0:1]

Unnamed: 0,var1,var2,var3
0,3,5,2


In [58]:
df.index = ["a", "b", "c", "d", "e"]

In [59]:
df

Unnamed: 0,var1,var2,var3
a,3,5,2
b,6,9,6
c,1,9,3
d,6,3,9
e,5,2,9


In [60]:
df[0:1]

Unnamed: 0,var1,var2,var3
a,3,5,2


In [61]:
df["c":"e"]

Unnamed: 0,var1,var2,var3
c,1,9,3
d,6,3,9
e,5,2,9


- df.drop() ile kolon veya satır silme işlemi yapabiliriz.
- axis = 1 ile kolon silme işlemi yapabiliriz.
- axis = 0 ile satır silme işlemi yapabiliriz.

In [62]:
df.drop("a", axis = 0)

Unnamed: 0,var1,var2,var3
b,6,9,6
c,1,9,3
d,6,3,9
e,5,2,9


In [63]:
df

Unnamed: 0,var1,var2,var3
a,3,5,2
b,6,9,6
c,1,9,3
d,6,3,9
e,5,2,9


inplace parametresi ile değişikliği kalıcı kaydetme işlemi yapabiliriz. Diğer durumlarda değişiklikler kalıcı olarak kaydedilir.

In [64]:
df.drop("a", axis = 0 , inplace = True)

In [65]:
df

Unnamed: 0,var1,var2,var3
b,6,9,6
c,1,9,3
d,6,3,9
e,5,2,9


In [66]:
l = ["var1", "var2", "var3"]
for i in l:
    print(i in l)

True
True
True


In [67]:
df["var4"] = df["var1"] / df["var2"]
df

Unnamed: 0,var1,var2,var3,var4
b,6,9,6,0.666667
c,1,9,3,0.111111
d,6,3,9,2.0
e,5,2,9,2.5


In [68]:
df.drop("var4", axis = 1 , inplace = True)
df

Unnamed: 0,var1,var2,var3
b,6,9,6
c,1,9,3
d,6,3,9
e,5,2,9


In [69]:
l = ["var1", "var2"]
df.drop(l ,axis = 1)

Unnamed: 0,var3
b,6
c,3
d,9
e,9


# Gözlem ve Değişken Seçimi

In [70]:
m = np.random.randint(1, 30, size = (10, 3))
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"])
df

Unnamed: 0,var1,var2,var3
0,12,3,24
1,27,15,8
2,15,25,3
3,28,1,24
4,20,2,7
5,10,15,6
6,17,28,11
7,24,7,1
8,1,13,29
9,20,16,19


*loc*
- Tanımlandığı şekliyle seçim yapmak için kullanılır.

In [71]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,12,3,24
1,27,15,8
2,15,25,3
3,28,1,24


*iloc*
- Alışık olduğumuz indexleme mantığıyla seçim yapmak için kullanılır.

In [72]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,12,3,24
1,27,15,8
2,15,25,3


In [73]:
df.iloc[0,0]

12

In [74]:
df.iloc[:3, :2]

Unnamed: 0,var1,var2
0,12,3
1,27,15
2,15,25


In [75]:
df.loc[0:3, "var3"]

0    24
1     8
2     3
3    24
Name: var3, dtype: int32

In [76]:
df.iloc[0:3, 0:2]

Unnamed: 0,var1,var2
0,12,3
1,27,15
2,15,25


# Koşullu Eleman İşlemleri

In [77]:
df[df.var1 > 15]

Unnamed: 0,var1,var2,var3
1,27,15,8
3,28,1,24
4,20,2,7
6,17,28,11
7,24,7,1
9,20,16,19


In [78]:
df[df.var1 % 2 == 0]

Unnamed: 0,var1,var2,var3
0,12,3,24
3,28,1,24
4,20,2,7
5,10,15,6
7,24,7,1
9,20,16,19


In [79]:
df.loc[(df.var1 > 15) & (df.var3 < 15) , "var2"]

1    15
4     2
6    28
7     7
Name: var2, dtype: int32

In [80]:
df.query("var1 > 15 & var3 < 15" )

Unnamed: 0,var1,var2,var3
1,27,15,8
4,20,2,7
6,17,28,11
7,24,7,1


# Birleştirme ( Join) İşlemleri

In [81]:
df2 = df + 99
df2

Unnamed: 0,var1,var2,var3
0,111,102,123
1,126,114,107
2,114,124,102
3,127,100,123
4,119,101,106
5,109,114,105
6,116,127,110
7,123,106,100
8,100,112,128
9,119,115,118


- .concat() fonksiyonu ile dataframe'i birleştirebiliriz. ignore_index parametresi ile indexleri sıfırlayabiliriz
- join parametresi ile hangi kolon üzerinden birleştirileceğini belirleyebilirz

In [82]:
pd.concat([df, df2])

Unnamed: 0,var1,var2,var3
0,12,3,24
1,27,15,8
2,15,25,3
3,28,1,24
4,20,2,7
5,10,15,6
6,17,28,11
7,24,7,1
8,1,13,29
9,20,16,19


In [83]:
pd.concat([df, df2], ignore_index = True)

Unnamed: 0,var1,var2,var3
0,12,3,24
1,27,15,8
2,15,25,3
3,28,1,24
4,20,2,7
5,10,15,6
6,17,28,11
7,24,7,1
8,1,13,29
9,20,16,19


In [84]:
df2.columns = ["var1", "var2", "var3"]
pd.concat([df, df2], join = "inner")

Unnamed: 0,var1,var2,var3
0,12,3,24
1,27,15,8
2,15,25,3
3,28,1,24
4,20,2,7
5,10,15,6
6,17,28,11
7,24,7,1
8,1,13,29
9,20,16,19


# İleri Birleştirme İşlemleri

In [85]:
df1 = pd.DataFrame({"Çalışanlar": ["Ahmet", "Emirhan", "Berkcan", "Eslem"],
                    "Grup" : ["Koordinatör", "Full Time Çalışan", "Eğitim Koordinatörü", "İş Geliştirme"]})
df1

Unnamed: 0,Çalışanlar,Grup
0,Ahmet,Koordinatör
1,Emirhan,Full Time Çalışan
2,Berkcan,Eğitim Koordinatörü
3,Eslem,İş Geliştirme


In [86]:
df2 = pd.DataFrame({"Çalışanlar": ["Ahmet", "Emirhan", "Berkcan", "Eslem"],
                    "İlk Giriş Yılı" : [2021, 2019, 2022, 2018]})
df2

Unnamed: 0,Çalışanlar,İlk Giriş Yılı
0,Ahmet,2021
1,Emirhan,2019
2,Berkcan,2022
3,Eslem,2018


.merge()
- .merge() fonksiyonu ile birebir birleştirme işlemlerini gerçekleştirebiliriz.
- Merge komutu ile yapılan işlemleri SQL'de bulunan innerjoin, outer join ... 'e benzetebiliriz.

In [87]:
pd.merge(df1, df2)

Unnamed: 0,Çalışanlar,Grup,İlk Giriş Yılı
0,Ahmet,Koordinatör,2021
1,Emirhan,Full Time Çalışan,2019
2,Berkcan,Eğitim Koordinatörü,2022
3,Eslem,İş Geliştirme,2018


In [88]:
pd.merge(df1, df2, on = "Çalışanlar")

Unnamed: 0,Çalışanlar,Grup,İlk Giriş Yılı
0,Ahmet,Koordinatör,2021
1,Emirhan,Full Time Çalışan,2019
2,Berkcan,Eğitim Koordinatörü,2022
3,Eslem,İş Geliştirme,2018


# Toplulaştırma ve Gruplama İşlemi (Aggregation & Grouping)
### Basit Toplulaştırma İşlemi
- count() : Eleman sayısı
- first(), last() : İlk ve son eleman
- mean(), median() : Ortalama ve medyan
- min(), max() : Minimum ve maksimum değer
- std(), var() : Standart sapma ve varyans
- sum() : Toplam değer

In [89]:
import seaborn as sns
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [90]:
df.shape

(1035, 6)

In [91]:
df.count()

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [92]:
df.mean

<bound method NDFrame._add_numeric_operations.<locals>.mean of                method  number  orbital_period   mass  distance  year
0     Radial Velocity       1      269.300000   7.10     77.40  2006
1     Radial Velocity       1      874.774000   2.21     56.95  2008
2     Radial Velocity       1      763.000000   2.60     19.84  2011
3     Radial Velocity       1      326.030000  19.40    110.62  2007
4     Radial Velocity       1      516.220000  10.50    119.47  2009
...               ...     ...             ...    ...       ...   ...
1030          Transit       1        3.941507    NaN    172.00  2006
1031          Transit       1        2.615864    NaN    148.00  2007
1032          Transit       1        3.191524    NaN    174.00  2007
1033          Transit       1        4.125083    NaN    293.00  2008
1034          Transit       1        4.187757    NaN    260.00  2008

[1035 rows x 6 columns]>

In [93]:
df["mass"].mean()

2.6381605847953216

In [94]:
df["mass"].count()

513

In [95]:
df["mass"].min()

0.0036

In [96]:
df["mass"].max()

25.0

In [97]:
df["mass"].sum()

1353.37638

In [98]:
df["mass"].std()

3.8186166509616046

In [99]:
df["mass"].var()

14.58183312700122

In [100]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [101]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [102]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


# Gruplama İşlemleri (Grouping)

In [103]:
df = pd.DataFrame({"gruplar": ["A", "B", "C", "A", "B", "C"],
                   "veri": [10, 11, 52, 53, 43, 55]})
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,53
4,B,43
5,C,55


- Gruplama işlemi veri setinde yer alan kategorik değişkenlerin gruplarının yakalanması ve gruplar özelinde gruplama işlemlerinin yapılması işlemidir.

In [104]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,31.5
B,27.0
C,53.5


In [105]:
df.groupby("gruplar").sum()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,63
B,54
C,107


- .groupby() fonksiyonu ile gruplama işlemleri yapılır.
- sum(), mean(), count(), max(), min() gibi fonksiyonlar ile gruplama işlemleri yapılır

In [106]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [107]:
df.groupby("method")["orbital_period"].mean()

method
Astrometry                          631.180000
Eclipse Timing Variations          4751.644444
Imaging                          118247.737500
Microlensing                       3153.571429
Orbital Brightness Modulation         0.709307
Pulsar Timing                      7343.021201
Pulsation Timing Variations        1170.000000
Radial Velocity                     823.354680
Transit                              21.102073
Transit Timing Variations            79.783500
Name: orbital_period, dtype: float64

In [108]:
df.groupby("method")["year"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


# İleri Tpolulaştıema İşlemleri

In [109]:
df = pd.DataFrame({"gruplar": ["A", "B", "C","A", "B", "C"],
                   "degisken1": [10, 23, 33, 22, 11, 99],
                   "degisken2": [100, 252 , 333, 262, 111, 969]})
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,252
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


.aggregate() fonksiyonu ile toplulaştırma işlemleri yapılır.

In [110]:
df.groupby("gruplar").aggregate(["min", np.median, max])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16.0,22,100,181.0,262
B,11,17.0,23,111,181.5,252
C,33,66.0,99,333,651.0,969


In [111]:
df.groupby("gruplar").aggregate({"degisken1" : "min", "degisken2" :"max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,252
C,33,969


## .filter()
- .filter() fonksiyonu ile gruplama işlemlerinden sonra gruplar üzerinde filtreleme işlemi yapılır.

In [112]:
def filterFunction(x):
    return x["degisken1"].std() > 9
df.groupby("gruplar").filter(filterFunction)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


# Transform
- Verileri dönüştürmek için kullanılacak işlev.

In [113]:
dfa = df.iloc[:, 1:3]
dfa.transform(lambda x : x - x.mean())

Unnamed: 0,degisken1,degisken2
0,-23.0,-237.833333
1,-10.0,-85.833333
2,0.0,-4.833333
3,-11.0,-75.833333
4,-22.0,-226.833333
5,66.0,631.166667


## .apply()
- Bu fonksiyon , kullanıcıya istediği bir fonksiyonu her bir değere uygulamasına izin verir.

In [117]:

df = pd.DataFrame({"degisken1": [10, 23, 33, 22, 11, 99],
                   "degisken2": [100, 252 , 333, 262, 111, 969]})
df


Unnamed: 0,degisken1,degisken2
0,10,100
1,23,252
2,33,333
3,22,262
4,11,111
5,99,969


In [118]:
df.apply(np.sum)

degisken1     198
degisken2    2027
dtype: int64

In [119]:
df.apply(np.mean)

degisken1     33.000000
degisken2    337.833333
dtype: float64

In [None]:
df.groupby("gruplar")