# Pandas

In [1]:
# Pandas veri(bilgi) işleme, manipüle etme, temizleme vb. işlemleri yapabileceğimiz oldukça efektik bir kütüphanedir.
# Pandas, NumPy ın alternatifi değil numpy özelliklerini kullanan ve genişleten bir kütüphanedir
# Pandas kütüphanesinin temel elemanları Series(tek boyutlu diziler) ve DataFrame'dir(2 boyutlu matrisler).
# Farklı kaynaklardan verilerle efektif çalışma sağlar

## Pandas Serisi Oluşturmak

In [1]:
# tek boyutlu bir array olarak düşünebiliriz
import pandas as pd

In [8]:
seri = pd.Series([10,88,3,4,5])       # serinin değerleri ile indeksleri bir arada verilmiştir

In [9]:
seri

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [17]:
seri[1]

88

In [15]:
seri[[0,1]]                         # birden fazla index durumunda çift parantez kullanılır, tek parantez hata döndürür

0    10
1    88
dtype: int64

In [4]:
type(seri)

pandas.core.series.Series

**Series.values:** Serinin değerlerinin Numpy dizisi (array) olarak dönüştürülmesini sağlar.

**Series.index:** Serinin indekslerinin dönüştürülmesini sağlar.

**Series.dtype:** Serinin veri tipini döndürür.

**Series.size:** Serinin eleman sayısını döndürür.

**Series.shape:** Serinin boyutunu döndürür.

**Series.ndim:** Serinin boyut sayısını döndürür.

**Series.head():** Serinin ilk n adet elemanını döndürür.

**Series.tail():** Serinin son n adet elemanını döndürür.

**Series.sample():** Serinin random n adet elemanını döndürür.

**Series.describe():** Serinin istatistiksel özetini döndürür.

**Series.sort_index:** Seriyi indexlerine göre sıralar.

**Series.sort_values():** Seriyi değerlerine göre sıralar.

**Series.isnull():** Serinin her bir elemanının null (None) olup olmadığını kontrol eder.

**Series.fillna():** Null değerleri belirli bir değerle doldurur.

**Series.dropna():** Null değerleri seriden çıkarır.

**Series.isin:** Serideki öğelerin değerlerde yer alıp almadığını kontrol eder.

In [5]:
seri.axes                          # serinin index bilgilerine ulaşma

[RangeIndex(start=0, stop=5, step=1)]

In [6]:
seri.dtype                         # serinin içindeki değerler hakkında bilgi verir

dtype('int64')

In [7]:
seri.size                          # serinin eleman sayısı    

5

In [8]:
seri.ndim                          # serinin boyutu

1

In [9]:
seri.values                         # seriye numpy yani vektörel bir şekilde erişmek istersek

array([10, 88,  3,  4,  5], dtype=int64)

In [10]:
seri.head()                         # uzun serilerin başına (ilk 5 sıra) bakmayı sağlar.. ne var ne yok manasında

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [11]:
seri.tail()                          # head in tam tersi işlem sağlar... sondan bi göz atmayı

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [12]:
seri.sample(2)

0    10
3     4
dtype: int64

In [13]:
seri.sort_values()

2     3
3     4
4     5
0    10
1    88
dtype: int64

In [14]:
seri.describe()

count     5.000000
mean     22.000000
std      36.993243
min       3.000000
25%       4.000000
50%       5.000000
75%      10.000000
max      88.000000
dtype: float64

In [15]:
seri.isnull()

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [18]:
seri.isin([88,10])

0     True
1     True
2    False
3    False
4    False
dtype: bool

In [70]:
nufus = [15.4 , 4.3, 5.6, 3]
sehir = ['İstanbul' , 'İzmir' , 'Ankara' , 'Bursa']
pd.Series(nufus , sehir)                            # listeler üzerinden seri oluşumu

İstanbul    15.4
İzmir        4.3
Ankara       5.6
Bursa        3.0
dtype: float64

In [71]:
my_dict = {                                          
    'İstanbul' : 15.4,  
    'İzmir' : 4.3,
    'Ankara': 5.6,
    'Bursa' : 3
}
pd.Series(my_dict)                                   # sözlük üzerinden seri oluşumu

İstanbul    15.4
İzmir        4.3
Ankara       5.6
Bursa        3.0
dtype: float64

## İndex İsimlendirmesi

In [14]:
pd.Series([99,22,332,94,5])

0     99
1     22
2    332
3     94
4      5
dtype: int64

In [15]:
pd.Series([99,22,332,94,5], index = [1,3,5,7,9])                    # index leri biz atadık

1     99
3     22
5    332
7     94
9      5
dtype: int64

In [2]:
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])   # index değeri olarak string atama

In [3]:
seri                                      # dictionary formatı gibi bir özellik

a     99
b     22
c    332
d     94
e      5
dtype: int64

In [19]:
seri["a"]                         # isimlendirilmiş index'e karşılık gelen değer 

99

In [7]:
seri[["a"]]                       # tek parantez ile çift parantez farkı

a    99
dtype: int64

In [4]:
seri[0]                           # direk index mantığı ile erişim

99

In [5]:
seri["a":"c"]                     # slice işlemi(index bazında)

a     99
b     22
c    332
dtype: int64

In [6]:
seri[0:2]                         # bu şekilde endpoint geçerli değil ama yukarıdaki isim üzerinden index de geçerliydi

a    99
b    22
dtype: int64

In [22]:
sozluk = pd.Series({"reg":10, "log":11, "cart":12})        # sozluk uzerinden olusturulmus pandas serisi

In [23]:
sozluk

reg     10
log     11
cart    12
dtype: int64

In [24]:
# iki seriyi birleştirerek seri olusturma

In [26]:
pd.concat([sozluk,sozluk])

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## Eleman İşlemleri-1

In [7]:
import numpy as np
a = np.array([1,2,33,74,75])   # numpy   
seri = pd.Series(a)            # array in pandas serisine dönüşümü
seri

0     1
1     2
2    33
3    74
4    75
dtype: int32

In [10]:
seri = pd.Series([121,200,150,99], index = ["reg","loj","cart","rf"])
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [11]:
seri.index

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [12]:
seri.keys

<bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

In [14]:
list(seri.items())                   # sözlüklere benzer bir form

[('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]

In [15]:
seri.values                          # serinin değerlerine erişim

array([121, 200, 150,  99], dtype=int64)

In [16]:
# eleman sorgulama 

In [17]:
"reg" in seri

True

In [18]:
"a" in seri

False

In [19]:
# fancy eleman seçme

In [20]:
seri[["rf","reg"]]

rf      99
reg    121
dtype: int64

In [21]:
seri["reg"] = 130                    # değer değiştirme

In [22]:
seri["reg"]

130

## Pandas DataFrame Oluşturma

In [44]:
# numpy'ı biraz daha teorik yapılar için düşünebiliriz-------Pandas'ı ise daha analitik anlamda düşünebiliriz

In [23]:
l = [1,2,39,67,90]

In [24]:
pd.DataFrame(l, columns = ["degisken_ismi"])       # Pandas dataframe oluşturma

Unnamed: 0,degisken_ismi
0,1
1,2
2,39
3,67
4,90


In [25]:
m = np.arange(1,10).reshape((3,3))
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [26]:
pd.DataFrame(m, columns = ["var1","var2","var3"])   # DataFrame bizim için veri bilimi ve yapay zeka kapsamında 
                                                    # en çok kullanacağımız veri yapısıdır

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [27]:
# dataframe isimlendirme

In [29]:
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df.head()

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [30]:
df.columns = ("deg1","deg2","deg3")         # değişkenleri değiştirme(sütun isimleri)

In [58]:
df

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [31]:
df.columns

Index(['deg1', 'deg2', 'deg3'], dtype='object')

In [32]:
type(df)

pandas.core.frame.DataFrame

In [33]:
df.axes                       # index bilgisi ve değişkenlerin isimleri

[RangeIndex(start=0, stop=3, step=1),
 Index(['deg1', 'deg2', 'deg3'], dtype='object')]

In [63]:
df.shape                      # boyut bilgisi

(3, 3)

In [64]:
df.ndim                       # boyut sayısı (dataframe için her zaman 2 boyut söz konusu)

2

In [65]:
df.size                       # eleman sayısı

9

In [66]:
df.values                     # ÖNEMLİ!!! sadece değerleri çekip bunları numpy array e çevirdi 

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [67]:
type(df.values)               # yukarıdaki açıklamanın kanıtı

numpy.ndarray

In [34]:
df.head(1)                    # baştaki değere erişim(satır bazında)

Unnamed: 0,deg1,deg2,deg3
0,1,2,3


In [68]:
df.tail(1)                    # sondaki değere erişim(satır bazında)

Unnamed: 0,deg1,deg2,deg3
2,7,8,9


In [35]:
a = np.array([1,2,3,4,5])

In [36]:
pd.DataFrame(a, columns = ["deg1"])        # numpy üzerinden dataframe oluşturma

Unnamed: 0,deg1
0,1
1,2
2,3
3,4
4,5


## Eleman İşlemleri-2

In [46]:
import pandas as pd
import numpy as np
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)

In [47]:
sozluk = {"var1":s1, "var2":s2, "var3":s3}        # numpy arrayi üzerinden sozluk oluşturma

In [48]:
sozluk

{'var1': array([3, 0, 1, 3, 4]),
 'var2': array([2, 8, 7, 3, 4]),
 'var3': array([0, 5, 2, 4, 7])}

In [49]:
df = pd.DataFrame(sozluk)                         # sözlük üzerinden dataframe oluşturma
df

Unnamed: 0,var1,var2,var3
0,3,2,0
1,0,8,5
2,1,7,2
3,3,3,4
4,4,4,7


In [29]:
df[0:2]

Unnamed: 0,var1,var2,var3
0,9,0,7
1,0,4,5


In [30]:
df.index = ["a","b","c","d","e"]                   # var olan indexi değiştirme
df

Unnamed: 0,var1,var2,var3
a,9,0,7
b,0,4,5
c,3,3,5
d,6,4,5
e,3,4,1


In [31]:
df["b":"d"]

Unnamed: 0,var1,var2,var3
b,0,4,5
c,3,3,5
d,6,4,5


In [32]:
df.var1.max()               # df["var1"].max() ==  df.var1.max()

9

In [35]:
df.var1.min()

0

In [33]:
df.var1.mean()

4.2

In [34]:
df.var1.std()

3.420526275297414

### silme işlemi

In [50]:
df

Unnamed: 0,var1,var2,var3
a,3,8,0
b,0,0,9
c,8,1,5
d,5,6,9
e,4,6,7


In [48]:
df.drop("a", axis = 0)                       # siler ama kalıcı değil

Unnamed: 0,var1,var2,var3
b,9,6,9
c,4,1,4
d,2,7,0
e,1,5,0


In [49]:
df

Unnamed: 0,var1,var2,var3
a,4,0,8
b,9,6,9
c,4,1,4
d,2,7,0
e,1,5,0


In [50]:
df.drop("a", axis = 0, inplace = True)       # "inplace" ile kalıcı siler
df

Unnamed: 0,var1,var2,var3
b,9,6,9
c,4,1,4
d,2,7,0
e,1,5,0


In [54]:
# fancy silme

In [55]:
l = ["c","e"]

In [56]:
df.drop(l, axis = 0)

Unnamed: 0,var1,var2,var3
b,0,0,9
d,5,6,9


In [51]:
df

Unnamed: 0,var1,var2,var3
b,9,6,9
c,4,1,4
d,2,7,0
e,1,5,0


In [60]:
df["var4"] = df["var1"] / df["var2"]          # dataframe de yeni sütun atama 

In [61]:
df

Unnamed: 0,var1,var2,var3,var4
b,9,6,9,1.5
c,4,1,4,4.0
d,2,7,0,0.285714
e,1,5,0,0.2


In [62]:
# sütun silme

In [63]:
df.drop("var4", axis = 1)                   # kalıcı silme olmadı

Unnamed: 0,var1,var2,var3
b,9,6,9
c,4,1,4
d,2,7,0
e,1,5,0


In [64]:
df

Unnamed: 0,var1,var2,var3,var4
b,9,6,9,1.5
c,4,1,4,4.0
d,2,7,0,0.285714
e,1,5,0,0.2


In [66]:
df.drop("var4", axis = 1, inplace = True)           # inplace ile kalıcı sildi

In [67]:
df

Unnamed: 0,var1,var2,var3
b,9,6,9
c,4,1,4
d,2,7,0
e,1,5,0


In [68]:
l = ["var1","var2"]

In [69]:
df.drop(l, axis = 1)                                # fancy ile silme

Unnamed: 0,var3
b,9
c,4
d,0
e,0


In [52]:
"var1" in df

True

In [55]:
l = ["var1","var4","var2"]

In [56]:
for i in l:
    print(i in df)

True
False
True


In [59]:
df["var1"]

b    9
c    4
d    2
e    1
Name: var1, dtype: int32

### sütun ve index ismini değiştirme

In [59]:
# sütun ismini değiştirme

df = pd.DataFrame(sozluk)                         
df

Unnamed: 0,var1,var2,var3
0,3,2,0
1,0,8,5
2,1,7,2
3,3,3,4
4,4,4,7


In [60]:
df = df.rename(columns={"var1": "x", "var2": "y", "var3": "z"})    # sütun isimlerini güncelledik
df

Unnamed: 0,x,y,z
0,3,2,0
1,0,8,5
2,1,7,2
3,3,3,4
4,4,4,7


In [61]:
# index ismi değiştirme 

df.index = ["a","b","c","d","e"]
df

Unnamed: 0,x,y,z
a,3,2,0
b,0,8,5
c,1,7,2
d,3,3,4
e,4,4,7


In [62]:
# index resetleme 
df.reset_index()

Unnamed: 0,index,x,y,z
0,a,3,2,0
1,b,0,8,5
2,c,1,7,2
3,d,3,3,4
4,e,4,4,7


In [63]:
# yukarıdaki fazladan eski index'i çıkarmak ve kalıcı yapabilmek için aşağıdaki parametreler eklenir
df.reset_index(drop = "index", inplace = True)

In [64]:
df

Unnamed: 0,x,y,z
0,3,2,0
1,0,8,5
2,1,7,2
3,3,3,4
4,4,4,7


In [65]:
# mevcut sütunu index'e atama
df.set_index("z",inplace = True)
df

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
0,3,2
5,0,8
2,1,7
4,3,3
7,4,4


In [66]:
# yukarıdaki index durumunu resetlersek eski haline gelir ama sütun sıralaması değişir
df.reset_index(inplace = True)

In [67]:
df

Unnamed: 0,z,x,y
0,0,3,2
1,5,0,8
2,2,1,7
3,4,3,3
4,7,4,4


In [68]:
# yukarıdaki sıra farklılığını bu şekilde düzeltebiliriz
df = df[["x","y","z"]]
df

Unnamed: 0,x,y,z
0,3,2,0
1,0,8,5
2,1,7,2
3,3,3,4
4,4,4,7
