# PANDAS
- Pandas veri analizi için kullanılan bir kütüphanedir.
- Panel Data'dan gelmektedir.
- Yapısal verilerle çalışmak için kullanılır.
- Veri manipülasyonu ve analizi için yazılmış açık kaynaklı bir Python kütüphanesidir.
- Ekonometrik ve finansal verilerle çalışmak için kullanılır.
- 2008 yılında Wes McKinney tarafından geliştirilmiştir.

pip install pandas ile kütüphaneyi etkinleştirebilirsin.

# Pandas Serisi Oluşturma

pd.Series() ile pandas serisi oluşturabiliriz.

In [2]:
import pandas as pd
import numpy as np

In [3]:
seri = pd.Series([1,2,3,4,5,6,7,8,9])
print(seri)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64


In [4]:
type(seri)

pandas.core.series.Series

.axes ile serinin başlangıç, bitiş ve adım değerlerini görebiliriz.

In [5]:
print(seri.axes)

[RangeIndex(start=0, stop=9, step=1)]


dtype ile serinin veri tipini görebiliriz.

In [6]:
print(seri.dtype)

int64


.size ile serinin boyutunu öğrenebiliriz.

.ndim ile serinin boyut sayısını görebiliriz.

In [7]:
print(seri.size)
print(seri.ndim)

9
1


.values ile serinin değerlerini görebiliriz.

In [8]:
print(seri.values)

[1 2 3 4 5 6 7 8 9]


.head() ile serinin ilk 5 değerini görebiliriz. Eğer isterseniz .head(10) ile ilk 10 değeri görüntüleyebilirsiniz.

In [9]:
print(seri.head())

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [10]:
print(seri.head(3))

0    1
1    2
2    3
dtype: int64


.tail() ile serinin son 5 değerini görebiliriz. Eğer isterseniz .tail(10) ile son 10 değeri görüntüleyebilirsiniz.

In [11]:
seri.tail()

4    5
5    6
6    7
7    8
8    9
dtype: int64

In [12]:
print(seri.tail(3))

6    7
7    8
8    9
dtype: int64


In [15]:
seri = pd.Series([99,22,332,94,5], index=["a","b","c","d","e"])
print(seri)

a     99
b     22
c    332
d     94
e      5
dtype: int64


In [16]:
print(seri["a"])

99


In [17]:
print(seri["a" : "c"])

a     99
b     22
c    332
dtype: int64


In [18]:
sozluk = {"reg" : 10, "log" : 11, "cart" : 12}
seri = pd.Series(sozluk)
seri

reg     10
log     11
cart    12
dtype: int64

In [19]:
randomNumbers = np.random.randint(10,100,5)
pandas = pd.Series(randomNumbers)
print(pandas)
print(pandas[0])

0    51
1    13
2    53
3    34
4    34
dtype: int32
51


In [20]:
seri = pd.Series([200,121,150,99], index=["a", "b", "c", "d"])
print(seri)

a    200
b    121
c    150
d     99
dtype: int64


In [21]:
seri.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [22]:
seri.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [23]:
print(list(seri.items()))

[('a', 200), ('b', 121), ('c', 150), ('d', 99)]


In [24]:
"a" in seri

True

In [25]:
seri[["a","b"]]

a    200
b    121
dtype: int64

In [26]:
seri["a"] = 250
print(seri)

a    250
b    121
c    150
d     99
dtype: int64


# Pandas DataFrame Oluşturma

pd.DataFrame()
- DataFrame oluşturabiliriz.
- columns parametresi ile kolon isimlerini belrleyebiliriz.
- index parametresi ile index isimlerini belirleyebiliriz.

In [28]:
l = [1,2,3,4,5]
pd.DataFrame(l, columns=["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,3
3,4
4,5


In [29]:
m = np.arange(1,10).reshape((3,3))
pd.DataFrame(m, columns=["1", "2", "3"])

Unnamed: 0,1,2,3
0,1,2,3
1,4,5,6
2,7,8,9


In [30]:
df = pd.DataFrame(m, columns=["var1", "var2", "var3"])
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [32]:
df.columns = {"de1","de2","de3"}
df

Unnamed: 0,de3,de1,de2
0,1,2,3
1,4,5,6
2,7,8,9


In [33]:
df.axes

[RangeIndex(start=0, stop=3, step=1),
 Index(['de3', 'de1', 'de2'], dtype='object')]

In [34]:
df.shape

(3, 3)

In [35]:
df.ndim

2

In [36]:
df.size

9

In [37]:
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [38]:
df.tail(1)

Unnamed: 0,de3,de1,de2
2,7,8,9


# Eleman İşlemleri

In [39]:
s1 = np.random.randint(10, size= 5)
s2 = np.random.randint(10, size= 5)
s3 = np.random.randint(10, size= 5)

In [41]:
sozluk = {"var1" : s1, "var2" : s2 , "var3" : s3}
df = pd.DataFrame(sozluk)


In [42]:
df

Unnamed: 0,var1,var2,var3
0,5,4,2
1,6,6,4
2,4,3,9
3,6,0,3
4,6,4,3


In [43]:
df[0:1]

Unnamed: 0,var1,var2,var3
0,5,4,2


In [45]:
df.index = ["a","b","c","d","e"]
df

Unnamed: 0,var1,var2,var3
a,5,4,2
b,6,6,4
c,4,3,9
d,6,0,3
e,6,4,3


In [46]:
df["c":"e"]

Unnamed: 0,var1,var2,var3
c,4,3,9
d,6,0,3
e,6,4,3


- df.drop() ile kolon veya satır silme işlemi yapılabilir.
- axis = 1 ile kolon silme işlemi yapılabilir.
- axis = 0 ile satır silme işlemi yapılabilir.
- !!!! kalıcı değil

In [47]:
df.drop("a", axis=0)

Unnamed: 0,var1,var2,var3
b,6,6,4
c,4,3,9
d,6,0,3
e,6,4,3


inplace parametresi ile değişikliği kalıcı kaydetme işlemi yapılabilir. Diğer durumlarda değişiklikler geçici olarak kaydedilir.

In [48]:
df.drop("a", axis=0, inplace=True)

In [49]:
df

Unnamed: 0,var1,var2,var3
b,6,6,4
c,4,3,9
d,6,0,3
e,6,4,3


In [50]:
l = ["var1","var2","var3"]
for i in l:
    print(i in l)

True
True
True


In [52]:
df["var4"] = df["var1"] / df["var2"]
df

Unnamed: 0,var1,var2,var3,var4
b,6,6,4,1.0
c,4,3,9,1.333333
d,6,0,3,inf
e,6,4,3,1.5


In [53]:
df.drop("var4", axis=1, inplace=True)
df

Unnamed: 0,var1,var2,var3
b,6,6,4
c,4,3,9
d,6,0,3
e,6,4,3


# Gözlem ve Değişken Seçim İşlemleri



In [55]:
m = np.random.randint(1,30,size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
2,8,7,27
3,11,9,5
4,28,19,16
5,27,21,12
6,2,8,16
7,17,9,5
8,21,26,6
9,1,22,26


## loc
- Tanımlandığı şekliyle seçim yapmak için kullanılır.

In [57]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
2,8,7,27
3,11,9,5


## iloc
- Alışık olduğumuz indexlme mantığıyla seçim yapmak için kullanılır.

In [58]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
2,8,7,27


In [59]:
df.iloc[0,0]

np.int32(18)

In [60]:
df.iloc[:3, :2]

Unnamed: 0,var1,var2
0,18,10
1,19,7
2,8,7


# Koşullu Eleman İşlemleri

In [61]:
df[df.var1 > 15]

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
4,28,19,16
5,27,21,12
7,17,9,5
8,21,26,6


In [62]:
df[df.var1 % 2 == 0]

Unnamed: 0,var1,var2,var3
0,18,10,15
2,8,7,27
4,28,19,16
6,2,8,16


In [63]:
df.loc[(df.var1 > 15) & (df.var3 < 15), "var2"]

5    21
7     9
8    26
Name: var2, dtype: int32

In [64]:
df.query("var1 > 15 & var3 < 15")

Unnamed: 0,var1,var2,var3
5,27,21,12
7,17,9,5
8,21,26,6


# Birleştirme (Join) İşlemleri

In [66]:
df2 = df + 100
df2

Unnamed: 0,var1,var2,var3
0,118,110,115
1,119,107,115
2,108,107,127
3,111,109,105
4,128,119,116
5,127,121,112
6,102,108,116
7,117,109,105
8,121,126,106
9,101,122,126


.concat() fonksiyonu ile iki dataframe'i birleştirebilriz. ignore_index parametresi ile indexleri sıfırlayabiliriz.

join parametresi ile hangi kolon üzerinden birleştirileceğini belirleyebiliriz.

In [68]:
pd.concat([df,df2])

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
2,8,7,27
3,11,9,5
4,28,19,16
5,27,21,12
6,2,8,16
7,17,9,5
8,21,26,6
9,1,22,26


In [69]:
pd.concat([df,df2], ignore_index=True)

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
2,8,7,27
3,11,9,5
4,28,19,16
5,27,21,12
6,2,8,16
7,17,9,5
8,21,26,6
9,1,22,26


In [70]:
df2.columns = ["var1", "var2", "var3"]
pd.concat([df,df2], join="inner")

Unnamed: 0,var1,var2,var3
0,18,10,15
1,19,7,15
2,8,7,27
3,11,9,5
4,28,19,16
5,27,21,12
6,2,8,16
7,17,9,5
8,21,26,6
9,1,22,26


# İleri Birleştirme İşlemleri

In [71]:
df1 = pd.DataFrame({"Calisanlar" : ["Ahmet", "Emirhan", "Berkcan", "Eslem"],
                    "Grup" : ["Koordinator", "Full Time Calisan", "Egitim Koordinatoru", "Is Gelistirme"]})
df1

Unnamed: 0,Calisanlar,Grup
0,Ahmet,Koordinator
1,Emirhan,Full Time Calisan
2,Berkcan,Egitim Koordinatoru
3,Eslem,Is Gelistirme


In [72]:
df2 = pd.DataFrame({"Calisanlar" : ["Ahmet", "Emirhan", "Berkcan", "Eslem"],
                    "Ilk Giris Yili" : [2021,2019,2022,2018]})
df2

Unnamed: 0,Calisanlar,Ilk Giris Yili
0,Ahmet,2021
1,Emirhan,2019
2,Berkcan,2022
3,Eslem,2018


## .merge()

- .merge() fonksiyonu ile birebir ebirleştirme işlemlerini gerçekleştirebiliriz.
- Merge komutu ile yapılan işlemleri SQL'de bulunan inner join, outer join'e benzetebiliriz.

In [73]:
pd.merge(df1,df2)

Unnamed: 0,Calisanlar,Grup,Ilk Giris Yili
0,Ahmet,Koordinator,2021
1,Emirhan,Full Time Calisan,2019
2,Berkcan,Egitim Koordinatoru,2022
3,Eslem,Is Gelistirme,2018


In [74]:
pd.merge(df1,df2,on="Calisanlar")

Unnamed: 0,Calisanlar,Grup,Ilk Giris Yili
0,Ahmet,Koordinator,2021
1,Emirhan,Full Time Calisan,2019
2,Berkcan,Egitim Koordinatoru,2022
3,Eslem,Is Gelistirme,2018


# Toplulaştırma ve Gruplama İşlemleri (Agreegation & Grouping)