### **Pandas Nedir?**


**Pandas,** “ilişkisel” ve “etiketli” verilerle çalışmayı kolay ve sezgisel hale getirmek için tasarlanmış hızlı, esnek ve etkileyici veri yapıları
sağlayan bir Python paketidir.

#### **Pandas, bir çok farklı veri türü için uygundur;**

* SQL tablosunda veya Excel tablosunda olduğu gibi, heterojen şekilde yazılan sütunlara sahip tablo verileri
* Sıralı veya sırasız (sabit frekansta olmayabilir.) zaman serisi verileri
* Satır ve sütunlarındaki ardışık matris verileri (homojen ya da heterojen)
* Herhangi bir gözlemsel/ istatistiksel veri kümesi. Pandas’ın veri yapısına yerleştirilmek için verilerin etiketlenmesi gerekmez.

#### **Pandas’ın iyi yaptığı şeylerden sadece birkaçı;**

* Kayıp verilerin (NaN olarak temsil edilir) kolayca işlenmesi
* Boyut değiştirilebilirlik: DataFrame ve daha yüksek boyutlu nesnelerden sütunlar eklenebilir veya silinebilir.
* Otomatik ve belirgin veri hizalama: Nesneler bir etiket kümesine acıkça hizalanabilir veya kullanıcı etiketleri görmezden gelebilir ve Seri,DataFrame vb.nin hesaplamalarda sizin için verileri otomatik olarak hizalamasına izin verir.
* Verileri toplamak ve dönüştürmek için veri kümelerinde böl-uygula-birleştir işlemlerini gerçekleştirmek için güçlü ve esnek “group by” işlevine sahiptir.
* Diğer Python veya NumPy veri yapılarındaki düzensiz, farklı dizinlenmiş verileri DataFrame nesnelerine dönüştürmeyi kolaylaştırır.
* Veri kümelerinin kolayca yeniden şekillendirilmesi
* Eksenlerin hiyerarşik etiketlenmesi (işaret başına birden çok etiket olması mümkündür.)
* Zaman serisine özgü işlevsellik: tarih aralığı oluşturma ve frekans dönüştürme, hareketli pencere istatistikleri, tarih kaydırma ve geciktirme

In [2]:
# Pandas kütüphanesini çağıralım ve içe aktaralım.
# Numpy kütüphanesini çağıralım ve içe aktaralım.
import pandas as pd
import numpy as np

#### **Pandas Seriler**

**Seri,** etiketli verilerden oluşan tek boyutlu bir veri yapısıdır. Etiket değerlerine indeks denir. Verinin kendisi sayılar, dizeler ya da
başka Python objelerinden oluşabilir. Serileri oluşturmak için listeler, sıralı diziler ya da sözlükler kullanılabilir.

In [4]:
# Liste kullanarak araba markalarının bulunduğu string(metin) tipli bir seri oluşturalım.
arabaMarkalari = ["Mercedes", "Bmw", "Renault", "Opel", "Audi", "Mazda"]
strSeri = pd.Series(arabaMarkalari)
print(strSeri)
print(" ")
print(type(arabaMarkalari))
print(type(strSeri))
# Oluşturduğumuz verinin indeksleri (0, 1, 2, 3, 4,5)
# Veri string(metin) tiplidir.
# dtype: datatype verinin türünü verir. Verimizin türü string(metin).

0    Mercedes
1         Bmw
2     Renault
3        Opel
4        Audi
5       Mazda
dtype: object
 
<class 'list'>
<class 'pandas.core.series.Series'>


In [5]:
# Array(dizi) kullanarak tek boyutlu 1*5'lik int(tam sayı) tipli bir seri oluşturalım.
tamSayilar = pd.array([10,20,30,40,50])
intSeri = pd.Series(tamSayilar)
print(intSeri)
print(" ")
print(type(tamSayilar))
print(type(intSeri))
# Oluşturduğumuz verinin indeksleri (0, 1, 2, 3, 4)
# Veri int(tam sayı) tipli sayılardan oluşmaktadır.
# dtype = datatype verinin türünü verir. Verimizin türü 64 bitlik bir int(tam sayı).

0    10
1    20
2    30
3    40
4    50
dtype: Int64
 
<class 'pandas.core.arrays.integer.IntegerArray'>
<class 'pandas.core.series.Series'>


In [8]:
# Sözlük kullanarak şehirler ve bunlara ait nüfus değerleriye bir seri oluşturalım.
sehirNufus = {"İstanbul" : 17.000000 , "Mersin" : 1.727255 , "Muğla" : 1.000773 , "Erzurum" : 758.279 , "Diyarbakur" : 1.783431}
fltSeriler = pd.Series(sehirNufus)
print(fltSeriler)
print(" ")
print(type(sehirNufus))
print(type(fltSeriler))
# Oluşturduğumuz bu serilerin etiket değerleri yani indeksleri (İstanbul, Mersin, Muğla, Erzurum, Diyarbakır)
# Veri float(ondalık) türlü sayılardan oluşmaktadır.
# dtype = datatype verinin türünü verir. Verimizin türü 64 bitlik bir float(ondalık).

İstanbul       17.000000
Mersin          1.727255
Muğla           1.000773
Erzurum       758.279000
Diyarbakur      1.783431
dtype: float64
 
<class 'dict'>
<class 'pandas.core.series.Series'>


In [9]:
# Meslekler ve maaşlardan oluşan iki ayrı liste oluşturalım.
meslek = ["Öğretmen", "Doktor", "Akademisyen", "Polis"]
maas = [5.000, 7.000, 6.500, 5.500]
mSeri = pd.Series(maas,meslek) # pd.Series(data, index)
mSeri.index.name = "Meslekler"
mSeri

Meslekler
Öğretmen       5.0
Doktor         7.0
Akademisyen    6.5
Polis          5.5
dtype: float64

In [10]:
# Yukarıdaki karışıklığı önlemek için yani önce hangisini yazacağım ilk maaş mı? yoksa meslek mi?
yeniMSeri = pd.Series(data = maas, index = meslek)
yeniMSeri.index.name = "Meslekler"
yeniMSeri

Meslekler
Öğretmen       5.0
Doktor         7.0
Akademisyen    6.5
Polis          5.5
dtype: float64

#### **DataFrame**


* Dataframe’ler pandasın çok boyutlu veri yapılarıdır.
* DataFrame farklı tipteki satıra ve sütunlara sahip bir SQL tablosu veya Excel tablosu olarak düşünebiliriz.

In [15]:
# Veri tablosu oluşturmak istiyorsak ilk önce sözlük oluşturmalıyız.
myDic = {"Araba Markası" : ["Mercedes","Bmw","Opel","Renault","Audi","Mazda"],
"Araba Rengi" : ["Kırmızı","Mavi","Sarı","Beyaz","Krem","Siyah"],
"Fiyatı" : [200.000,250.000,240.000,100.000,250.000,180.000]
        }

In [16]:
# DataFrame farklı tipteki satıra ve sütunlara sahip bir SQL tablosu olarak düşünebiliriz.
data = pd.DataFrame(myDic)
data

Unnamed: 0,Araba Markası,Araba Rengi,Fiyatı
0,Mercedes,Kırmızı,200.0
1,Bmw,Mavi,250.0
2,Opel,Sarı,240.0
3,Renault,Beyaz,100.0
4,Audi,Krem,250.0
5,Mazda,Siyah,180.0


In [17]:
# Random değerlerden oluşan 4*3'lük 4 satır, 3 sütunluk bir array(dizi) oluşturalım. Oluşturduğumuz verilerin i
newData = np.random.randint(1,11,12).reshape(4,3)
newData2= pd.DataFrame(data= newData, index= ["Beşiktaş", "Fenerbahçe", "Galatasaray", "Trabzonspor"], columns= ["G", "M", "P"])
newData2

Unnamed: 0,G,M,P
Beşiktaş,9,4,10
Fenerbahçe,6,4,9
Galatasaray,4,4,6
Trabzonspor,4,5,7


In [18]:
# Öğrenci ve not ortalamaları bulunan bir sözlük oluşturalım.
myDic2 = {"Öğenciler" : ["Selim","Mustafa","Deniz","Cemre","İrem","Ahmet"],
"Not ortalamaları" : [80.3,90,75.5,40,100,87]
}
myDic3 = pd.DataFrame(myDic2)
myDic3

Unnamed: 0,Öğenciler,Not ortalamaları
0,Selim,80.3
1,Mustafa,90.0
2,Deniz,75.5
3,Cemre,40.0
4,İrem,100.0
5,Ahmet,87.0


In [19]:
# Verinin ilk 5 satırını bulmak için. Pythonda sayma sayımız sıfırdan başlar.
myDic3.head()

Unnamed: 0,Öğenciler,Not ortalamaları
0,Selim,80.3
1,Mustafa,90.0
2,Deniz,75.5
3,Cemre,40.0
4,İrem,100.0


In [20]:
# Son 5 satır için.
myDic3.tail()

Unnamed: 0,Öğenciler,Not ortalamaları
1,Mustafa,90.0
2,Deniz,75.5
3,Cemre,40.0
4,İrem,100.0
5,Ahmet,87.0


### **Pandas Temel Operasyonlar**

In [21]:
# Pandas kütüphanesini çağıralım ve içe aktaralım.
# Numpy kütüphanesini çağıralım ve içe aktaralım.
import pandas as pd
import numpy as np
myDic4 = {"İsim" : ["Melik","Can","Şeyma","Sinem","Halit","Hilal"],
"Yaş" : [20,18,16,50,45,25],
"Kimlik no" : [10234758974,23475894587,24785912467,12478954310,10020147587,12001425787]
}
data = pd.DataFrame(myDic4)
data

Unnamed: 0,İsim,Yaş,Kimlik no
0,Melik,20,10234758974
1,Can,18,23475894587
2,Şeyma,16,24785912467
3,Sinem,50,12478954310
4,Halit,45,10020147587
5,Hilal,25,12001425787


In [22]:
# Veri sütunu için. Sütunun isim, yaş ve kimlik numarasından oluştuğunu bize gösterir.
data.columns

Index(['İsim', 'Yaş', 'Kimlik no'], dtype='object')

In [23]:
# İnformation (Bilgi) kelimesinin kısaltması olan İnfo methodu.
# Veri içerisinde kaç adet örnek yani satır, kaç adet nitelik yani sütun olduğunu, her bir sütunun veri tipini
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   İsim       6 non-null      object
 1   Yaş        6 non-null      int64 
 2   Kimlik no  6 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 272.0+ bytes


In [24]:
# Veri içerisinde bulunan sayısal sütunlar ile ilgili istatistiksel özet çıkarır.
data.describe() # Tarif et methodu.

Unnamed: 0,Yaş,Kimlik no
count,6.0,6.0
mean,29.0,15499520000.0
std,14.72413,6766999000.0
min,16.0,10020150000.0
25%,18.5,10676430000.0
50%,22.5,12240190000.0
75%,40.0,20726660000.0
max,50.0,24785910000.0


* **Count =** Sayısı
* **Mean =** Ortalama
* **Std =** Standart sapma
* **Min =** En küçük değer
* **Max =** En büyük değer
* **25% =** İlk yüzde 25'lik dilim nerede bitiyor
* **50% =** İlk yüzde 50'lik dilim nerede bitiyor
* **75% =** İlk yüzde 75'lik dilim nerede bitiyor