# PANDAS KÜTÜPHANESİNİN TEMELLERİ

# 1. pandas Kütüphanesinin İşlevleri

__pandas__, yüksek başarımlı veri analizi için kullanılan açık kaynak bir Python kütüphanesidir. Python dilinde gerçekleştirilen çoğu istatistiksel analiz ve karar verme (decision making) uygulamalarının referans noktasını oluşturmaktadır. Wes McKinney tarafından 2008 yılında tasarlanmış ve geliştirilmiştir. Sien Chang adlı meslektaşı ile 2012 yılında çalışmaya başlayarak, pandas kütüphanesine yeni özellikler getirmeye devam etmiştir. 

pandas, veri işleme, veri çıkarımı (data extraction) ve veri düzenleme (data manipulation) gibi ihtiyaçları en basit yoldan çözümlemeyi hedefleyen bir kütüphanedir. pandas kütüphanesi de, NumPy kütüphanesinden temellendirilerek oluşturulmuştur. 

![alt text](https://i.hizliresim.com/WwK8l4.png)

pandas kütüphanesini yüklemek için:

In [1]:
import pandas as pd
import numpy as np

pandas kütüphanesi genellikle veri bilimciler tarafından **pd** olarak kısaltılır.

# 2. Seriler

pandas kütüphanesinin kullandığı tek boyutlu veri yapısı serilerdir. İki diziden oluşur (array). İlki, indeks dizisidir. İkincisi, bu indekslere karşılık gelen değerleri oluşturan dizidir. 

In [2]:
s = pd.Series([12, - 4, 7 , 9])
s

0    12
1    -4
2     7
3     9
dtype: int64

Serilerde indeks dizisi belirlenmezse, otomatik olarak ilk indeks sıfırdır. Ancak, serimizin indeksini belirlememiz mümkündür:

In [3]:
s = pd.Series([12, - 4, 7 , 9], index = ['a', 'b', 'c', 'd'])
s

a    12
b    -4
c     7
d     9
dtype: int64

In [4]:
s.values # .values yöntemi ile serideki değerleri görmemiz mümkündür.

array([12, -4,  7,  9], dtype=int64)

In [5]:
s.index # .index yöntemi ile serideki indeksleri görmemiz mümkündür

Index(['a', 'b', 'c', 'd'], dtype='object')

In [6]:
s[2] # Serideki bir değerin indeks olarak sırasını girdiğimizde, değeri elde etmemiz mümkündür.

7

In [7]:
s['b'] # Serideki bir değere karşılık gelen indeksi kullanarak da değeri elde edebiliriz. 

-4

In [8]:
s[0:2] # Serinin belirli bir aralıktaki değerlerini de ekrana verebiliriz.

a    12
b    -4
dtype: int64

In [9]:
s[1] = 0 # Serinin herhangi bir değerine yeni değer de atanabilir.
s

a    12
b     0
c     7
d     9
dtype: int64

Yapılan değişiklikler, yeni bir kopya oluşturmaz. Orijinali değiştirir. Örneğin;

In [10]:
s

a    12
b     0
c     7
d     9
dtype: int64

In [11]:
s['b'] = 1

In [12]:
s

a    12
b     1
c     7
d     9
dtype: int64

In [13]:
s[s>2] # Filtreleme işlemleri NumPy kütüphanesinde olduğu gibi kullanılabilmektedir.

a    12
c     7
d     9
dtype: int64

In [14]:
s/2 # Matematiksel Operatörler NumPy kütüphanesinde olduğu gibi kullanılabilmektedir. 

a    6.0
b    0.5
c    3.5
d    4.5
dtype: float64

In [15]:
np.log(s) # NumPy kütüphanesinde diziler üzerinde kullandığımız tüm matematiksel ve trigonometrik operatörler, pandas Serileri için de kullanılır.

a    2.484907
b    0.000000
c    1.945910
d    2.197225
dtype: float64

### Duplikasyon 

In [16]:
serd = pd.Series([1,0,2,1,2,3])

In [17]:
serd.unique() # duplikasyonu ayıklar ve tekil değerleri verir.

array([1, 0, 2, 3], dtype=int64)

In [18]:
serd.value_counts()  # seride, hangi değerden kaç tane bulunduğunu hesaplar.

1    2
2    2
0    1
3    1
dtype: int64

### Null değerler

In [19]:
s2 = pd.Series([5, -3, np.NaN, 14])

In [20]:
s2.isnull()   # Null değer var mı?

0    False
1    False
2     True
3    False
dtype: bool

In [21]:
s2.notnull()   # Null olmayan değer var mı?

0     True
1     True
2    False
3     True
dtype: bool

In [22]:
s2[s2.notnull()]   # null olmayan değerleri filtrele.

0     5.0
1    -3.0
3    14.0
dtype: float64

# 3. Sözlükler (Dictionaries) 

Listeleri hatırlayalım.

In [23]:
nufus = [15.5, 5.6, 4.3]
sehir = ["istanbul", "ankara", "izmir"]


sehir listesinde verilen sehirlerimizin il nufuslarının nufus listesinde verildiğini görebiliyoruz. Peki bu iki listeyi kullanarak İzmir'in nufusunu sorgulamak istesek, nasıl bir yol izlememiz gerekir?


In [24]:
index_izmir = sehir.index("izmir")
print(index_izmir)

2


In [25]:
nufus[index_izmir]

4.3

Peki bu yolu izlemek, elverişli midir? Büyük veri setlerinde böyle bir çalışma yapmak mümkün mü? Cevap olumsuz olduğu için sözlük kavramından bahsetmek gerekmektedir. Sözlük (dictionary), süslü parantez içine yazılan `{  } ` ve içinde bir verinin bir veya daha fazla veriyle ilişkilendirildiği veri tipidir. Üsteki sehir ve nufus listelerindeki verileri tek bir sözlük içerisinde göstermek istersek;

In [26]:
uc_buyuk_kent = {"istanbul" : 15.5, "ankara" : 5.6, "izmir" : 4.3 }
# Herhangi bir indeks sorgulaması yapmadan, İzmir'in nüfusunu ekrana verelim.
print(uc_buyuk_kent["izmir"])

4.3


Başka örneklerle devam edelim. Sözlükler hem seri hem de veri çerçevesi (DataFrame) veri yapısında olabilir. Önce sözlük serilerinden başlayalım.

## 3.1 Sözlük Biçiminde Seriler

In [27]:
sozlugum = { 'kirmizi' : 2000, 'mavi' : 1000, 'sari' : 5000, 'turuncu' : 1000}

In [28]:
serim = pd.Series(sozlugum)
print(serim)
print(type(serim))

kirmizi    2000
mavi       1000
sari       5000
turuncu    1000
dtype: int64
<class 'pandas.core.series.Series'>


In [29]:
# indeks oluşturalım

renkler = ['kirmizi', 'sari', 'turuncu', 'mavi', 'yesil']
serim = pd.Series(sozlugum, index = renkler)
print(serim)
print(type(serim))

kirmizi    2000.0
sari       5000.0
turuncu    1000.0
mavi       1000.0
yesil         NaN
dtype: float64
<class 'pandas.core.series.Series'>


Oluşturduğumuz indekste, yesil indeksi için sözlükte bir değer olmadığı için NaN karşılığını göreceğiz.

# 4. Veri Çerçevesi (Data Frame)

Tablo veri yapısıdır. Excel sayfalarına benzer. Sıralı sütunlardan oluşur. Farklı tiplerdeki veri değerlerini (nümerik, string, Boolean vb.) içebilir. Serilerden farkı, iki indeksli olmasıdır. Bunlardan birisi sütun isimleri olan `columns`, diğeri de satır isimleri olan `index`'tir.

In [30]:
# Veri çerçevesi oluşturma. 
data = { 'renk' : ['mavi', 'yesil', 'sari', 'kirmizi', 'beyaz'],
       'nesne' : ['top', 'kalem', 'silgi', 'kagit', 'karton'],
       'fiyat': [7.2, 1.0, 0.6, 0.9, 1.7]}

df = pd.DataFrame(data)
df

Unnamed: 0,renk,nesne,fiyat
0,mavi,top,7.2
1,yesil,kalem,1.0
2,sari,silgi,0.6
3,kirmizi,kagit,0.9
4,beyaz,karton,1.7


In [31]:
df2 = pd.DataFrame(data, columns =  ['nesne', 'fiyat'])  # İstediğimiz sütunu seçelim
df2

Unnamed: 0,nesne,fiyat
0,top,7.2
1,kalem,1.0
2,silgi,0.6
3,kagit,0.9
4,karton,1.7


In [32]:
# Kendimiz indeks oluşturalım:

df2 = pd.DataFrame(data, index = ['bir', 'iki', 'uc', 'dort', 'bes'])
df2 

Unnamed: 0,renk,nesne,fiyat
bir,mavi,top,7.2
iki,yesil,kalem,1.0
uc,sari,silgi,0.6
dort,kirmizi,kagit,0.9
bes,beyaz,karton,1.7


In [33]:
df2.columns    #  sütunların isimlerini ekrana verelim

Index(['renk', 'nesne', 'fiyat'], dtype='object')

In [34]:
df2.index    # indeks isimlerini ekrana verelim.

Index(['bir', 'iki', 'uc', 'dort', 'bes'], dtype='object')

In [35]:
df2.values   #  tüm değerleri dizi halinde ekrana verelim. 

array([['mavi', 'top', 7.2],
       ['yesil', 'kalem', 1.0],
       ['sari', 'silgi', 0.6],
       ['kirmizi', 'kagit', 0.9],
       ['beyaz', 'karton', 1.7]], dtype=object)

In [36]:
df2['fiyat']   # istediğimiz sütunu filtreleyelim

bir     7.2
iki     1.0
uc      0.6
dort    0.9
bes     1.7
Name: fiyat, dtype: float64

In [37]:
df2.iloc[2]    # istediğimiz satırı ekrana verelim

renk      sari
nesne    silgi
fiyat      0.6
Name: uc, dtype: object

Satır seçimi için `.iloc[]` ve `.loc[]` yöntemleri uygulanır. iloc içine satırın indeks numarası, loc içine de satırın ismi string olarak girilir.

In [38]:
df2.iloc[[2,4]]  # istediğimiz birden fazla sayıdaki satırı ekrana verelim

Unnamed: 0,renk,nesne,fiyat
uc,sari,silgi,0.6
bes,beyaz,karton,1.7


In [39]:
df2[0:1]   # dilim belirleyerek ekrana verelim.

Unnamed: 0,renk,nesne,fiyat
bir,mavi,top,7.2


In [40]:
df2['nesne'][3]   # istediğimiz sütundaki, istediğimiz satırı ekrana verelim.

'kagit'

Hem sütunları hem satırları ekrana vermek istediğimizde önce satırı, sonra sütunu gireriz.

In [41]:
df2.index.name = 'SIRA NO'   # İndeksler için ortak bir isim belirleyelim. 
df2.columns.name = 'ÖZELLİK'   # Sütunlar için ortak bir isim belirleyelim. 
df2

ÖZELLİK,renk,nesne,fiyat
SIRA NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bir,mavi,top,7.2
iki,yesil,kalem,1.0
uc,sari,silgi,0.6
dort,kirmizi,kagit,0.9
bes,beyaz,karton,1.7


In [42]:
df2['satış yeri'] = 'Migros'   #Tüm satırları Migros stringine sahip yeni bir sütun ekleyelim. Bu sütunun adı 'satış yeri' olsun.
df2

ÖZELLİK,renk,nesne,fiyat,satış yeri
SIRA NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bir,mavi,top,7.2,Migros
iki,yesil,kalem,1.0,Migros
uc,sari,silgi,0.6,Migros
dort,kirmizi,kagit,0.9,Migros
bes,beyaz,karton,1.7,Migros


In [43]:
df2['satış yeri'] = ['Migros', 'Carrefour', 'BİM', 'A101', 'Pehlivanoğlu']  # Her ürün farklı marketlerde satılsın. 
df2

ÖZELLİK,renk,nesne,fiyat,satış yeri
SIRA NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bir,mavi,top,7.2,Migros
iki,yesil,kalem,1.0,Carrefour
uc,sari,silgi,0.6,BİM
dort,kirmizi,kagit,0.9,A101
bes,beyaz,karton,1.7,Pehlivanoğlu


In [44]:
df2['satış yeri']['bes'] = 'Kipa'   # Beşinci sıradaki beyaz karton, Pehlivanoğlu yerine Kipa'da satılsın. Değiştirelim.
df2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['satış yeri']['bes'] = 'Kipa'   # Beşinci sıradaki beyaz karton, Pehlivanoğlu yerine Kipa'da satılsın. Değiştirelim.


ÖZELLİK,renk,nesne,fiyat,satış yeri
SIRA NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bir,mavi,top,7.2,Migros
iki,yesil,kalem,1.0,Carrefour
uc,sari,silgi,0.6,BİM
dort,kirmizi,kagit,0.9,A101
bes,beyaz,karton,1.7,Kipa


In [45]:
del df2['satış yeri']  # satış yeri sütunu işimize yaramıyor. Silelim.
df2

ÖZELLİK,renk,nesne,fiyat
SIRA NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bir,mavi,top,7.2
iki,yesil,kalem,1.0
uc,sari,silgi,0.6
dort,kirmizi,kagit,0.9
bes,beyaz,karton,1.7


Fiyatı 1.2'den küçük olan verileri filtreleyelim. 

In [46]:
df2[df2["fiyat"] < 1.2]   

ÖZELLİK,renk,nesne,fiyat
SIRA NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
iki,yesil,kalem,1.0
uc,sari,silgi,0.6
dort,kirmizi,kagit,0.9


## 4.1 İç İçe Geçmiş Sözlükler (Nested Dictionaries)

In [47]:
araba_fiyat = {'opel' : {'2012 model': 98000, '2013 model': 101000},
              'mazda' : {'2011 model': 84000, '2012 model': 87000, '2013 model': 94000},
              'fiat' : {'2011 model': 62000, '2012 model': 67000, '2013 model': 71000}}
araba_df = pd.DataFrame(araba_fiyat)
araba_df

Unnamed: 0,opel,mazda,fiat
2012 model,98000.0,87000,67000
2013 model,101000.0,94000,71000
2011 model,,84000,62000


Transpozunu alalım (Satır ve sütunları yer değiştirelim)

In [48]:
araba_df.T

Unnamed: 0,2012 model,2013 model,2011 model
opel,98000.0,101000.0,
mazda,87000.0,94000.0,84000.0
fiat,67000.0,71000.0,62000.0


## 4.2 Düşürme İşlemleri (Dropping)

In [49]:
seri = pd.Series(np.arange(4.), index = ['kirmizi', 'mavi', 'sari', 'beyaz'])    
seri

kirmizi    0.0
mavi       1.0
sari       2.0
beyaz      3.0
dtype: float64

In [50]:
seri.drop('sari')  # Tek satır düşürme işlemi


kirmizi    0.0
mavi       1.0
beyaz      3.0
dtype: float64

In [51]:
seri.drop(['mavi', 'beyaz'])  # Çoklu satır düşürme işlemi

kirmizi    0.0
sari       2.0
dtype: float64

In [52]:
cerceve = pd.DataFrame(np.arange(16).reshape(4,4), index = ['kirmizi', 'mavi', 'sari', 'beyaz'],
                       columns = ['top', 'kalem', 'silgi', 'kagit'])
cerceve

Unnamed: 0,top,kalem,silgi,kagit
kirmizi,0,1,2,3
mavi,4,5,6,7
sari,8,9,10,11
beyaz,12,13,14,15


In [53]:
cerceve.drop(['mavi', 'sari'])  # Satır (indeks) silme işlemi

Unnamed: 0,top,kalem,silgi,kagit
kirmizi,0,1,2,3
beyaz,12,13,14,15


In [54]:
cerceve.drop(['kalem', 'silgi'], axis = 1)  # Sütun silmek için axis = 1 eklemeliyiz. 

Unnamed: 0,top,kagit
kirmizi,0,3
mavi,4,7
sari,8,11
beyaz,12,15
