# Pandas
####  Pandas kütüphanesi veri analizi için kullanılan bir kütüphanedir.
####  Panel Data'dan gelmektedir.
####  Yapısal verilerle çalışmak için kullanılır.
####  Veri manipülasyonu ve analizi için yazılmış açık kaynaklı bir python kütüphanesidir.
####  Ekonometrik ve finansal verilerle çalışmak için kullanılır.
####  2008 yılında Wes MicKinney tarafından geliştirilmiştir.

## Pandas Serisi Oluşturma

pd.Series() ile pandas serisi oluşturabilirsiniz.

In [4]:
import pandas as pd
import numpy as np

seri = pd.Series([1,2,3,4,5,6,7,8,9])
print(seri)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64


In [5]:
type(seri)

pandas.core.series.Series

.axes ile serinin başlangıç, bitiş ve adım değerlerini alırız.

In [6]:
print(seri.axes)

[RangeIndex(start=0, stop=9, step=1)]


dtype ile serinin veri tipini görebiliriz.

In [7]:
print(seri.dtype)

int64


.size ile serinin boyutunu görebiliriz.
.ndim ile serinin boyut sayısını görebiliriz.

In [8]:
print(seri.size)
print(seri.ndim)

9
1


.values ile serinin değerlerini görebiliriz.

In [9]:
print(seri.values)

[1 2 3 4 5 6 7 8 9]


.head() ile serinin ilk 5 değerini görebiliriz. Eğer istersel .head(10) diyerek ilk 10 değeri görebilirsiniz.

In [10]:
seri.head()

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [13]:
print(seri.head(2))

0    1
1    2
dtype: int64


.tail ile serinin son 5 değerini gösterir.

In [14]:
print(seri.tail(5))

4    5
5    6
6    7
7    8
8    9
dtype: int64


index isimlendirmesi

In [15]:
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])

a     99
b     22
c    332
d     94
e      5
dtype: int64

In [18]:
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])
print(seri["a"])

99


In [19]:
print(seri["a":"c"] )

a     99
b     22
c    332
dtype: int64


In [20]:
sozluk = {"reg" : 10, "log": 11, "cart": 12}
seri = pd.Series(sozluk)
print(seri)

reg     10
log     11
cart    12
dtype: int64


In [21]:
randomNumbers = np.random.randint(10,100,5)
pandas = pd.Series(randomNumbers)
print(pandas[0])

75


In [22]:
seri = pd.Series([200,121,99,150], index= ["a", "b","c","d"])
print(seri)

a    200
b    121
c     99
d    150
dtype: int64


In [23]:
seri.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [24]:
seri.keys() #index vermeye yarar

Index(['a', 'b', 'c', 'd'], dtype='object')

In [25]:
print(list(seri.items()))

[('a', 200), ('b', 121), ('c', 99), ('d', 150)]


In [26]:
"a" in seri

True

In [27]:
"g" in seri

False

In [28]:
seri["a"] =200
print(seri)

a    200
b    121
c     99
d    150
dtype: int64


## Pandas DataFrame Oluşturma

pd.DataFrame()

#### DataFrame oluşturabiliriz.
#### columns parametresi ile kolon isimlerini belirleyebilirsiniz.
#### index parametresi ile index isimlerini belirleyebiliriz.

In [2]:
import pandas as pd
l = [1,2,3,4,5]
pd.DataFrame(l, columns=["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,3
3,4
4,5


In [5]:
import pandas as pd
import numpy as np
m = np.arange(1,10).reshape((3,3))
pd.DataFrame(m, columns= ["1","2","3"])

Unnamed: 0,1,2,3
0,1,2,3
1,4,5,6
2,7,8,9


In [6]:
df = pd.DataFrame(m, columns=["var1", "var2", "var3"])
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [15]:
df.columns = {"degisken1", "degisken2", "degisken3"}
df

Unnamed: 0,degisken3,degisken1,degisken2
0,1,2,3
1,4,5,6
2,7,8,9


In [16]:
df.axes # değerleri iletiyor.

[RangeIndex(start=0, stop=3, step=1),
 Index(['degisken3', 'degisken1', 'degisken2'], dtype='object')]

In [19]:
df.shape

(3, 3)

In [18]:
df.ndim

2

In [17]:
df.size

9

In [20]:
df.values #arrayi verir.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [21]:
df.tail #sondan elemanları görürürüz.

<bound method NDFrame.tail of    degisken3  degisken1  degisken2
0          1          2          3
1          4          5          6
2          7          8          9>

## Eleman İşlemleri

In [26]:
s1 = np.random.randint(10, size =5)
s2 = np.random.randint(10, size =5)
s3 = np.random.randint(10, size =5)

In [28]:
sozluk = {"var1": s1, "var2": s2, "var3": s3}
df = pd.DataFrame(sozluk)

In [29]:
df

Unnamed: 0,var1,var2,var3
0,3,6,0
1,7,5,0
2,4,1,4


In [32]:
df[0:1] # sıfırdan bire kadar ver

Unnamed: 0,var1,var2,var3
0,3,6,0


In [34]:
df.index = ["a", "b","c"]
df

Unnamed: 0,var1,var2,var3
a,3,6,0
b,7,5,0
c,4,1,4


In [35]:
df[0:1]

Unnamed: 0,var1,var2,var3
a,3,6,0


In [37]:
df["b": "c"]

Unnamed: 0,var1,var2,var3
b,7,5,0
c,4,1,4


#### d.drop() ile kolon veya satır silme işlemi yapabiliriz.
#### axis =1 ile kolon silme işlemi yapabiliriz.
#### axis =0 ile satır silme işlemi yapabiliriz.

In [38]:
df.drop("a", axis =0)

Unnamed: 0,var1,var2,var3
b,7,5,0
c,4,1,4


In [39]:
df  ## kalıcı olarak gitmedi inplace parametresi kullanabilirisn.

Unnamed: 0,var1,var2,var3
a,3,6,0
b,7,5,0
c,4,1,4


##### inplace parametresi ile değişikliği kalıcı kaydetme işlemi yapabiliriz. Diğer durumlarda değişiklikler geçici olarak kaydedilir.

In [41]:
df.drop("a", axis=0, inplace = True)

In [42]:
df

Unnamed: 0,var1,var2,var3
b,7,5,0
c,4,1,4


In [43]:
l = ["var1", "var2", "var3"]
for i in l:
        print(i in l)

True
True
True


In [44]:
df["var4"]= df["var1"] / df["var2"]
df

Unnamed: 0,var1,var2,var3,var4
b,7,5,0,1.4
c,4,1,4,4.0


In [48]:
df.drop("var4", axis =1, inplace=True)
df


Unnamed: 0,var1,var2,var3
b,7,5,0
c,4,1,4


In [49]:
l = ["var1", "var2"]
df.drop(l, axis=1)

Unnamed: 0,var3
b,0
c,4


## Gözlem ve Değişken Seçimi

In [50]:
m = np.random.randint(1,30, size= (10,3))
df = pd.DataFrame(m, columns =["var1", "var2", "var3"])
df

Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
2,19,20,14
3,9,8,14
4,12,17,15
5,18,6,10
6,24,14,15
7,13,24,15
8,27,7,10
9,28,10,6


## loc
### Tanımlandığı şekilde seçim yapmak için kullanılır.

In [51]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
2,19,20,14
3,9,8,14


## iloc
### Alışık olduğumuz indexleme mantığıyla seçim yapmak için kullanılır.


In [52]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
2,19,20,14


In [53]:
df.iloc[0,0]

10

In [None]:
df.iloc[:3, :2]
# 012 satır ve 0 1 sütünlarını verir.

In [54]:
df.loc[0:3, "var3"]   # loc son satırdaki yere kadar gidiyor.

0    12
1    17
2    14
3    14
Name: var3, dtype: int32

### Koşullu Eleman İşlemleri

In [55]:
df[df.var1 > 15]

Unnamed: 0,var1,var2,var3
1,16,19,17
2,19,20,14
5,18,6,10
6,24,14,15
8,27,7,10
9,28,10,6


In [57]:
df[df.var1 % 2 ==0]

Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
4,12,17,15
5,18,6,10
6,24,14,15
9,28,10,6


In [58]:
df.loc[(df.var1 > 15) & (df.var3 < 15), "var2"]

2    20
5     6
8     7
9    10
Name: var2, dtype: int32

In [59]:
df.query("var1 >15 & var3 <15")

Unnamed: 0,var1,var2,var3
2,19,20,14
5,18,6,10
8,27,7,10
9,28,10,6


### Birleştirme (Join) İşlemleri

In [60]:
df2 =df +99
df2

Unnamed: 0,var1,var2,var3
0,109,111,111
1,115,118,116
2,118,119,113
3,108,107,113
4,111,116,114
5,117,105,109
6,123,113,114
7,112,123,114
8,126,106,109
9,127,109,105


#### .concat() fonksiyonu ile iki dataframe'i birleştirebiliriz. 
#### ignore_index parametresi ile indexleri sıfırlayabiliriz.

#### join parametresi ile hangi kolon üzerinden birleştirileceğini belirleyebiliriz.

In [61]:
pd.concat([df,df2])

Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
2,19,20,14
3,9,8,14
4,12,17,15
5,18,6,10
6,24,14,15
7,13,24,15
8,27,7,10
9,28,10,6


In [62]:
pd.concat([df,df2], ignore_index=True)


Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
2,19,20,14
3,9,8,14
4,12,17,15
5,18,6,10
6,24,14,15
7,13,24,15
8,27,7,10
9,28,10,6


In [63]:
df2.columns = ["var1", "var2", "var3"]
pd.concat([df,df2], join="inner")

Unnamed: 0,var1,var2,var3
0,10,12,12
1,16,19,17
2,19,20,14
3,9,8,14
4,12,17,15
5,18,6,10
6,24,14,15
7,13,24,15
8,27,7,10
9,28,10,6


### İleri Birleştirme İşlemleri

In [67]:
df1 = pd.DataFrame({"Çalışanlar" : ["Ahmet", "Emirhan", "Berkcan", "Eslem"],
                   "Grup:" : ["Koordinatör", "Fulltime çalışan", "Eğitim Koordinatörü", " İş geliştirme"]})
df1

Unnamed: 0,Çalışanlar,Grup:
0,Ahmet,Koordinatör
1,Emirhan,Fulltime çalışan
2,Berkcan,Eğitim Koordinatörü
3,Eslem,İş geliştirme


In [69]:
df2 = pd.DataFrame({"Çalışanlar": ["Ahmet", "Emirhan", "Berkcan", "Eslem"],
                     "İlk Giriş Yılı": [2021, 2019,2022,2018] })
df2

Unnamed: 0,Çalışanlar,İlk Giriş Yılı
0,Ahmet,2021
1,Emirhan,2019
2,Berkcan,2022
3,Eslem,2018


## .merge()

.merge() fonksiyonu ile birebir birleştirme işlemlerini gerçekleştirebiliriz.
Merge komutu ile yapılan işlemleri SQL'de bulunan inner join, outer join...'e benzetebiliriz.

In [70]:
pd.merge(df1,df2)

Unnamed: 0,Çalışanlar,Grup:,İlk Giriş Yılı
0,Ahmet,Koordinatör,2021
1,Emirhan,Fulltime çalışan,2019
2,Berkcan,Eğitim Koordinatörü,2022
3,Eslem,İş geliştirme,2018


In [72]:
pd.merge(df1, df2,on = "Çalışanlar")
# birçok parametre var biz hangi parametrede birleştirmek istiyorsak burda onu yapabiliriz.

Unnamed: 0,Çalışanlar,Grup:,İlk Giriş Yılı
0,Ahmet,Koordinatör,2021
1,Emirhan,Fulltime çalışan,2019
2,Berkcan,Eğitim Koordinatörü,2022
3,Eslem,İş geliştirme,2018


Toplulaştırma ve Gruplama İşlemi