# Pandas
Bu doküman pandas paketi ve veri madenciliği uygulamaları hakkında bilgi içerir. pandas kütüphanesi bilgisayarınızda kurulu değilse, pip install pandas komutu ile yükleyebilirsiniz.
```python
pip install pandas
```
ya da 
```
conda install pandas
```

Pandas Excel gibi görülebilir. Tablo şeklinde verilerle ilgili analiz ve işlemler yapabiliriz. Pandas içerisinde DataFrame nesnesi tanımlanır. 

Bu derste verilerin çağrılması, gösterilmesi, dilimlenmesi gibi işlemler gerçekleştirilecek. Ayrıca eksik verilerin doldurulması gibi işlemler yapılacaktır.

Burada kullanılacak olan verileri bu [adresten](https://media.geeksforgeeks.org/wp-content/uploads/employees.csv) indirebilirsiniz.

In [None]:
# pandas kütüphanesinin çağrılması
import pandas as pd
import numpy as np

# Verilerin pandas objesi olarak alınması
df = pd.read_csv('employees.csv')

In [None]:
# Verisetine ait ilk 5 satırın gösterilmesi
df.head()

 ## DataFrame olarak okunması
 DataFrame ile herhangi bir özelliğe şu şekilde ulaşabiliriz:

In [None]:
# DataFrame.özellik_adi
print (df.Gender)

In [None]:
# Salary özelliğinin en küçük, en büyük ve ortalamalarının gösterilmesi
print (df.Salary.min(), df.Salary.max(), df.Salary.mean())

## Eksik Verilerin Tanımlanması

### None: Python'daki boş olan veriler için kullanılır.



In [None]:
degerler1 = np.array([1,2, None, 5, 2]) 

In [None]:
type(degerler1[2]) # None kendine özgü bir değişken tipidir.

In [None]:
degerler1.sum() # Aritmetik işlem yapılamaz.

### NaN(Not a Number)

In [None]:
degerler2 = np.array([1, np.nan, 2, 5])

In [None]:
type(degerler2[1]) # Numpy float değişken tipine sahip

In [None]:
degerler2.sum() # Aritmetik işlemleri bozar

In [None]:
degerler2[1]+1 # Herhangi sayı ile toplanması yine NaN değerini dönderir.
# Bu nedenle NaN ile çalışılırken dikkat edilmesi gerekir.

In [None]:
# NaN değerlerinin dışındaki değerlerin aritmetik işlemlerini yapabilmek için
np.nansum(degerler2), np.nanmin(degerler2), np.nanmax(degerler2)

## Pandas ile Eksik Veri İşlemleri

1. `isnull()`: Eksik(`NaN`) veriler için `True` değerini dönderir.
2. `notnull()`: Eksik(`NaN`) veriler için `False` değerini dönderir.
3. `dropna()`: Eksik verileri filtreleyip dönderir.
4. `fillna()`: Eksik verileri doldurup dönderir.


In [None]:
data = pd.Series([1, np.nan, 'merhaba', None])

In [None]:
data.isnull()

In [None]:
data.notnull()

In [None]:
data[data.notnull()]

In [None]:
data.dropna() # data değişmedi

In [None]:
data

In [None]:
data.dropna(inplace=True) # data serisini değiştirir.

In [None]:
df = pd.DataFrame([[1, np.nan, 2],[2, 3, 5],[np.nan, 4, 6]]) # 2 boyutlu dizide NaN değerlerini kaldırmak istediğimizde

In [None]:
df.dropna() # NaN değeri içeren tüm satırları kaldırır.

In [None]:
df.dropna(axis='columns') # Sütunda içerenleri kaldırır.

In [None]:
df

In [None]:
# Sadece tamamı NaN olan sütunları kaldırmak istersek
df[3]=np.nan

In [None]:
df # Sadece 3. sütunu kaldıralım.

In [None]:
df.dropna(axis='columns', how='all')

In [None]:
df.dropna(axis='rows', thresh=3) # Thresh kalacak satırlarda kaç tane NaN olmayan sayısı olacağını belirtir.

### NaN verilerinin doldurulması

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))

In [None]:
data

In [None]:
data.fillna(0) # Eksik değerleri 0 ile doldurmak istersek

In [None]:
data.fillna(method='ffill') # Bir önceki değer ile doldurmak istersek

In [None]:
data.fillna(method='bfill') # Bir sonraki değer ile doldurmak istersek

In [None]:
df

In [None]:
df.fillna(method='ffill', axis=1) # 3. satırdaki NaN değeri kalır çünkü dolduracağı önceki değer yok

### Groupby

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 'data': range(6)}, columns=['key', 'data'])

In [None]:
df

In [None]:
df.groupby('key').sum()

In [None]:
df.groupby('key').apply(lambda x:x['data']+1)

In [None]:
df.groupby('key').sum()

### Pivot Tablolar (Çapraz Tablolar)

In [None]:
dogumlar = pd.read_csv("births.csv")

In [None]:
dogumlar.head()

In [None]:
dogumlar.groupby('gender')['births'].sum() # Her sene doğan kadın ve erkek sayısı ayrı ayrı

In [None]:
dogumlar.groupby(['gender','year'])['births'].sum()

In [None]:
# Veya pivot_table fonksiyonu ile

dogumlar.pivot_table('births', index='gender', columns='month') # her ay kaç kişi doğmuş?

In [None]:
dogumlar['onyil'] = 10 * (dogumlar['year'] // 10)

In [None]:
dogumlar

In [None]:
dogumlar.pivot_table('births', index='onyil', columns='gender', aggfunc='sum')

## Pandas dokümantasyonları

1. [Pandas sayfası](https://pandas.pydata.org/)
2. [Pandas soru cevap](https://stackoverflow.com/questions/tagged/pandas)
3. [Pandas Video](https://pyvideo.org/tag/pandas/)