* Pandas, Numpy’ın sütun adları ve homojen olmayan verilerle çalışamama gibi eksik kaldığı kısımlara ve daha fazlasına çözümler üreten Python programlama dili için yüksek performanslı, kullanımı kolay veri yapıları ve veri analiz araçları sağlayan açık kaynaklı bir kütüphanedir.

* ‘.csv’ ve ‘.txt’ uzantılı dosyaları açmak ve içerisinde bulunan verileri okuyarak istenen sonuca kolayca ulaşmak için kullanılmaktadır.
* Pandas tarafından hazırlanan veriler genellikle Matplotlib’in fonksiyonlarını çizmek, SciPy’de istatistiksel analiz ve Scikit-learn’de makine öğrenme algoritmaları için girdi verileri olarak kullanılır.

**Seriler**

Herhangi bir veri tipinde veri tutabilen tek boyutlu etiketli bir dizidir. Bir başka deyişle bir excel dosyasındaki bir sütunu temsil ederler. Serileri oluşturmak için listeler, sıralı diziler ya da sözlükler kullanılabilir.

Pandas kütüphanesi Python dilinin doğrudan bir parçası değildir. Bu yüzden ayrıca kurulması ve program içerisinde tanımlanması yani import edilmesi gerekmektedir.

pip install pandas

In [10]:
import pandas as pd

Boş Bir Seri Oluşturma

In [2]:
seri = pd.Series()
print(seri)

Series([], dtype: float64)


  seri = pd.Series()


Boş bir seri oluşturursanız default veri tipi float olarak kabul edilir.

**Listeler ile Seri Oluşturma (Index değerleri ile)**

In [3]:
calories = pd.Series([320, 450, 140, 56], ["elma", "çikolata", "kavun", "ekmek"])
print(calories)

elma        320
çikolata    450
kavun       140
ekmek        56
dtype: int64


Serilerde ilk sütunda indeksler, ikinci sütunda ise verilerimiz yer alır. İndex değerlerini özellikle belirttiğimizde 0'dan başlayıp n adet veri için n-1'e gitmeden bizim verdiğimiz değerleri alacaktır.

Serilerde indeks ve veri değerlerini ayrı ayrı yazdıralım.

In [4]:
print('Verilerimiz :', calories.values)
print('İndeksler:', calories.index)

Verilerimiz : [320 450 140  56]
İndeksler: Index(['elma', 'çikolata', 'kavun', 'ekmek'], dtype='object')


Seri bilgilerini NumPy kütüphanesinde de kullandığımız metodlar ile öğrenebiliriz.

In [5]:
print('Şekli:', calories.shape)
print('Boyutu: ', calories.ndim)
print('Eleman sayısı ', calories.size)

Şekli: (4,)
Boyutu:  1
Eleman sayısı  4


Çok büyük bir Pandas Serisiyle uğraşıyorsak ve bir indeksin olup olmadığından emin değilsek in komutu kullanarak kontrol edebiliriz.

In [6]:
x = 'armut' in calories
y = 'ekmek' in calories
print('Armut: ', x)
print('Ekmek: ', y)

Armut:  False
Ekmek:  True


**Listeler ile Seri Oluşturma-2(Index değerleri olmadan)**

In [7]:
char_list = ["A", "T"]
seri= pd.Series(char_list)
print(seri)

0    A
1    T
dtype: object


Gördüğünüz gibi özellikle bir index belirlemezsek index değerleri 0'dan başlayacak şekilde oluşturulur.

**Dictionary ile Seri Oluşturma**

In [8]:
capitals_dict = {"Türkiye":"Ankara", "Fransa":"Paris", "Almanya":"Berlin", "İtalya":"Roma"}
capitals = pd.Series(capitals_dict)
print(capitals)

Türkiye    Ankara
Fransa      Paris
Almanya    Berlin
İtalya       Roma
dtype: object


**NumPy Dizisi ile Seri Oluşturma**

In [11]:
import numpy as np

nd_array = np.array(["The Office", "The Big Bang Theory", "Friends", "Doctor Who", "Person of Interest"])
movies = pd.Series(nd_array, name="Diziler")
print(movies)

0             The Office
1    The Big Bang Theory
2                Friends
3             Doctor Who
4     Person of Interest
Name: Diziler, dtype: object


**NumPy Metotları ile Seri Oluşturma**

In [12]:
seri = pd.Series(np.linspace(1, 36, 5))
print(seri)

0     1.00
1     9.75
2    18.50
3    27.25
4    36.00
dtype: float64


NumPy kütüphanesini ele alırken gördüğümüz linspace metodu ile 1–36 arasında eşit mesafede 5 sayı oluşturmuş olduk.

**Liste Comprehension ile Seri Oluşturma**

In [14]:
seri = pd.Series(range(1,30,5), index=[i for i in "abcdef"])
print(seri)

a     1
b     6
c    11
d    16
e    21
f    26
dtype: int64


**Seri Elemanlarına Erişim**

In [15]:
languages = pd.Series(["Python", "Kotlin", "Dart", "Java"])
print(languages[1])

Kotlin


Index değerlerini vermiş olsaydık o değerler üzerinden de erişebilirdik.

In [16]:
languages.index = ['lang1', 'lang2', 'lang3', 'lang4']
languages["lang2"]

'Kotlin'

Birden fazla değere ulaşmak istersek index değerlerini seçebiliriz.

In [17]:
languages[["lang2", "lang4"]]

lang2    Kotlin
lang4      Java
dtype: object

Indexleme işlemi ile başlangıç bitiş indekslerini belirterek de istediğimiz değerlere ulaşabiliriz.

In [18]:
languages["lang2":"lang4"]

lang2    Kotlin
lang3      Dart
lang4      Java
dtype: object

**Serilerde Koşullu Seçimler**

Serilerde NumPy arraylerdeki gibi bir koşul ifadesiyle seçim yapabiliriz.

In [19]:
calories = pd.Series([320, 450, 140, 56], ["elma", "çikolata", "kavun", "ekmek"], name="Kalori Değerleri")
calories[calories > 100]

elma        320
çikolata    450
kavun       140
Name: Kalori Değerleri, dtype: int64

Burada **calories[calories > 100]** yerine direkt **calories > 100** kullandığımız durumda değerler yerine True False şeklinde dönüş yapacaktı.

In [21]:
calories > 100

elma         True
çikolata     True
kavun        True
ekmek       False
Name: Kalori Değerleri, dtype: bool

NumPy kütüphanesini anlatırken bahsettiğimiz mean, standart sapma, varyans metotlarını Pandasta da kullanabiliriz.

In [22]:
calories[calories < calories.mean()]

kavun    140
ekmek     56
Name: Kalori Değerleri, dtype: int64

Bu şekilde kalori değeri ortalamadan küçük olan verileri almış olduk.

Birden fazla koşul eklemek istediğimiz durumda & operatörü ile iki koşul ifadesini ekleyebiliriz.

In [23]:
calories[(calories > 100) & (calories < 200)]

kavun    140
Name: Kalori Değerleri, dtype: int64

**Seri Değerlerini Değiştirme**

Seride istediğimiz değerleri indexle erişip değiştirebiliriz.

In [25]:
calories["ekmek"] = 96

calories

elma        320
çikolata    450
kavun       140
ekmek        96
Name: Kalori Değerleri, dtype: int64

Koşullu ifadeye bağlı olarak kriteri sağlayan değerleri de güncelleyebiliriz.

In [26]:
calories[calories < 150 ] = 120
calories

elma        320
çikolata    450
kavun       120
ekmek       120
Name: Kalori Değerleri, dtype: int64

Seriler üzerinde Add-Sub işlemleri

In [27]:
data = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
data1 = pd.Series([5, 6, 7, 8], index=['d', 'a', 'f', 'g'])
data.add(data1)

a    7.0
b    NaN
c    NaN
d    9.0
f    NaN
g    NaN
dtype: float64

Burada iki seride de aynı indexle yer alan değerleri topladı. Diğer indexleri de NaN olarak gösterdi. NaN değerleri yerine eğer ekleme sırasında , fill_value=0 eklersek olmayan indexler için 0 değerini kabul eder ve toplama işlemini ona göre yapar.

In [28]:
data.add(data1, fill_value=0)

a    7.0
b    2.0
c    3.0
d    9.0
f    7.0
g    8.0
dtype: float64

Aynı işlem sub metodu için de geçerlidir.

In [29]:
data.sub(data1, fill_value=0)

a   -5.0
b    2.0
c    3.0
d   -1.0
f   -7.0
g   -8.0
dtype: float64

**Serilerde Dönüştürme(conversion) İşlemleri**

Serilerin veri tipini değiştirebilir ya da bir seriyi listeye dönüştürme gibi işlemler yapabiliriz. Bu işlemler için .astype() .tolist() gibi metotları kullanırız.

In [30]:
num = pd.Series([9, 6, 3])
print("Orijinal Hali:\n", num)
num = num.astype(float)
print("Veri tipi değiştirilmiş hali:\n", num)

Orijinal Hali:
 0    9
1    6
2    3
dtype: int64
Veri tipi değiştirilmiş hali:
 0    9.0
1    6.0
2    3.0
dtype: float64


Seriyi listeye dönüştürelim.

In [31]:
num_list = num.tolist()
print("Listeye dönüştürülmüş hali\n", num_list)

Listeye dönüştürülmüş hali
 [9.0, 6.0, 3.0]
