## TEMEL PYTHON NOTLARI
#### Ugur URESIN, Yapay Zeka Mühendisi | Veri Bilimci
#### Mail: uresin.ugur@gmail.com

### 10. Pandas Kütüphanesi

In [1]:
import pandas as pd

Pandas kütüphanesinde 2 yeni veri yapısı vardır:
    1. Pandas Series (1D)
    2. Pandas Dataframes (2D)

**Pandas vs. Numpy**

| | Numpy Arrays | Pandas Series |
| :- | -: | :-: |
| Farklı veri tiplerini birlikte tutma | Yok! | Var
| Her elemana bir index atama | Yok! | Var

#### Pandas Series

In [2]:
sepet = pd.Series(data=[10, 5, 'Var', 'Yok'], index=['yumurta','elma','süt','ekmek'])

In [3]:
sepet

yumurta     10
elma         5
süt        Var
ekmek      Yok
dtype: object

In [4]:
sepet.shape

(4,)

In [5]:
sepet.ndim

1

In [6]:
sepet.size

4

In [7]:
sepet.index

Index(['yumurta', 'elma', 'süt', 'ekmek'], dtype='object')

In [8]:
sepet.values

array([10, 5, 'Var', 'Yok'], dtype=object)

In [9]:
'yumurta' in sepet

True

In [10]:
'muz' in sepet

False

**Elemanlara Erişme**

In [11]:
sepet[0]

10

In [12]:
sepet[-1]

'Yok'

In [13]:
sepet['elma'] = 20 #değeri değiştirme

In [14]:
sepet

yumurta     10
elma        20
süt        Var
ekmek      Yok
dtype: object

**loc ve iloc**

**loc** 'location'  
**iloc** 'integer-location'

In [15]:
sepet.loc[['yumurta','elma']]

yumurta    10
elma       20
dtype: object

In [16]:
sepet.iloc[[1,3]]

elma      20
ekmek    Yok
dtype: object

**drop ile silme**

In [17]:
sepet.drop('elma')

yumurta     10
süt        Var
ekmek      Yok
dtype: object

In [18]:
sepet #değer hala serinin içerisinde!

yumurta     10
elma        20
süt        Var
ekmek      Yok
dtype: object

In [19]:
sepet.drop('elma', inplace=True) #inplace ile değer seriden kaldırılır!
sepet

yumurta     10
süt        Var
ekmek      Yok
dtype: object

**Matematiksel İşlemler**

In [20]:
meyveler = pd.Series([16,36,4], ['elma','portakal','muz'])

In [21]:
meyveler

elma        16
portakal    36
muz          4
dtype: int64

In [22]:
meyveler*2

elma        32
portakal    72
muz          8
dtype: int64

In [23]:
meyveler+100

elma        116
portakal    136
muz         104
dtype: int64

In [24]:
meyveler/2

elma         8.0
portakal    18.0
muz          2.0
dtype: float64

In [25]:
meyveler['elma']*2

32

In [26]:
sepet = pd.Series([3,'var'],['ekmek','gazete'])
sepet

ekmek       3
gazete    var
dtype: object

In [27]:
sepet*2

ekmek          6
gazete    varvar
dtype: object

In [28]:
sepet/2

TypeError: unsupported operand type(s) for /: 'str' and 'int'

**Numpy metodlarını uygulama**

In [29]:
import numpy as np
np.sqrt(meyveler)

elma        4.0
portakal    6.0
muz         2.0
dtype: float64

In [30]:
np.power(meyveler,2)

elma         256
portakal    1296
muz           16
dtype: int64

#### Pandas Dataframe

In [31]:
# BOŞ DATAFRAME OLLUŞTURMA
df = pd.DataFrame() #'F'rame büyük harfle!

In [32]:
df

In [33]:
# SÖZLÜK TANIMLAMA
siparis = {'magaza1': pd.Series([90,120], index=['bisiklet', 'termos']),
          'magaza2': pd.Series([90,300,60], index=['bot', 'halat', 'bisiklet'])}

In [34]:
type(siparis)

dict

In [35]:
siparis_tablosu = pd.DataFrame(siparis)

In [36]:
siparis_tablosu

Unnamed: 0,magaza1,magaza2
bisiklet,90.0,60.0
bot,,90.0
halat,,300.0
termos,120.0,


**NaN**: Not a Number

In [37]:
siparis2 = {'magaza1': pd.Series([90,120]),
          'magaza2': pd.Series([90,300,60])}

siparis_tablosu2 = pd.DataFrame(siparis2)
siparis_tablosu2

Unnamed: 0,magaza1,magaza2
0,90.0,90
1,120.0,300
2,,60


Eğer index'ler girilmezse, dataframe index'leri tamsayılardan oluşur (0,1,2...)

In [38]:
siparis_tablosu

Unnamed: 0,magaza1,magaza2
bisiklet,90.0,60.0
bot,,90.0
halat,,300.0
termos,120.0,


In [39]:
siparis_tablosu.values

array([[ 90.,  60.],
       [ nan,  90.],
       [ nan, 300.],
       [120.,  nan]])

In [40]:
siparis_tablosu.shape

(4, 2)

In [41]:
siparis_tablosu.ndim

2

In [42]:
siparis_tablosu.size

8

**Elemanlara Erişme**

In [43]:
stoklar = {'bisiklet': pd.Series([20,15], index=['mağaza1','mağaza2']),
           'tshirt': pd.Series([50], index=['mağaza2']),
           'saat': pd.Series([35,10], index=['mağaza1','mağaza2']),
           'termos': pd.Series([30,5], index=['mağaza1','mağaza2'])}

In [44]:
type(stoklar)

dict

In [45]:
stok_tablosu = pd.DataFrame(stoklar)
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,,35,30
mağaza2,15,50.0,10,5


In [46]:
stok_tablosu[['bisiklet']]

Unnamed: 0,bisiklet
mağaza1,20
mağaza2,15


In [47]:
stok_tablosu[['bisiklet','tshirt']]

Unnamed: 0,bisiklet,tshirt
mağaza1,20,
mağaza2,15,50.0


In [48]:
stok_tablosu.loc[['mağaza1']]

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,,35,30


In [49]:
stok_tablosu['mağaza1']['bisiklet'] #önce sütun yazılmalı!

KeyError: 'mağaza1'

In [50]:
stok_tablosu['bisiklet']['mağaza1']

20

**Yeni Sütun Ekleme**

In [51]:
stok_tablosu['pantolon'] = [30,45]

In [52]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos,pantolon
mağaza1,20,,35,30,30
mağaza2,15,50.0,10,5,45


In [53]:
stok_tablosu['kıyafetler'] = stok_tablosu['tshirt'] + stok_tablosu['pantolon']

In [54]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos,pantolon,kıyafetler
mağaza1,20,,35,30,30,
mağaza2,15,50.0,10,5,45,95.0


In [55]:
yeni_urunler = {'bisiklet':45, 'termos':60}
yeni_magaza = pd.DataFrame(yeni_urunler, index=['mağaza3'])
yeni_magaza

Unnamed: 0,bisiklet,termos
mağaza3,45,60


In [56]:
stok_tablosu.append(yeni_magaza) #orijinal tabloyu değiştirmez!

Unnamed: 0,bisiklet,tshirt,saat,termos,pantolon,kıyafetler
mağaza1,20,,35.0,30,30.0,
mağaza2,15,50.0,10.0,5,45.0,95.0
mağaza3,45,,,60,,


In [57]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos,pantolon,kıyafetler
mağaza1,20,,35,30,30,
mağaza2,15,50.0,10,5,45,95.0


**insert()**

In [58]:
stok_tablosu.insert(3, 'suluk', [25,70]) #3 --> 4.sütun
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,suluk,termos,pantolon,kıyafetler
mağaza1,20,,35,25,30,30,
mağaza2,15,50.0,10,70,5,45,95.0


**Sütun/Satır Silme**

In [59]:
stok_tablosu.drop(['tshirt','pantolon'], axis=1)

Unnamed: 0,bisiklet,saat,suluk,termos,kıyafetler
mağaza1,20,35,25,30,
mağaza2,15,10,70,5,95.0


In [60]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,suluk,termos,pantolon,kıyafetler
mağaza1,20,,35,25,30,30,
mağaza2,15,50.0,10,70,5,45,95.0


In [61]:
stok_tablosu.drop(['mağaza2'], axis=0)

Unnamed: 0,bisiklet,tshirt,saat,suluk,termos,pantolon,kıyafetler
mağaza1,20,,35,25,30,30,


In [62]:
stok_tablosu.pop('termos') #orijinal tabloyu değiştirir!

mağaza1    30
mağaza2     5
Name: termos, dtype: int64

In [63]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,suluk,pantolon,kıyafetler
mağaza1,20,,35,25,30,
mağaza2,15,50.0,10,70,45,95.0


**Yeniden Adlandırma**

In [64]:
stok_tablosu = stok_tablosu.rename(columns={'saat':'spor saat'})
stok_tablosu

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
mağaza1,20,,35,25,30,
mağaza2,15,50.0,10,70,45,95.0


In [65]:
stok_tablosu.rename(index={'mağaza1':'istanbul', 'mağaza2':'ankara'})

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
istanbul,20,,35,25,30,
ankara,15,50.0,10,70,45,95.0


In [66]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
mağaza1,20,,35,25,30,
mağaza2,15,50.0,10,70,45,95.0


**NaN Değerleri Giderme**

In [67]:
stok_tablosu.isnull()

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
mağaza1,False,True,False,False,False,True
mağaza2,False,False,False,False,False,False


In [68]:
stok_tablosu.isnull().sum()

bisiklet      0
tshirt        1
spor saat     0
suluk         0
pantolon      0
kıyafetler    1
dtype: int64

In [69]:
stok_tablosu.isnull().sum().sum()

2

In [70]:
stok_tablosu.dropna(axis=0) #NaN değer içeren satırları kaldırır

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
mağaza2,15,50.0,10,70,45,95.0


In [71]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
mağaza1,20,,35,25,30,
mağaza2,15,50.0,10,70,45,95.0


In [72]:
stok_tablosu.dropna(axis=1) #NaN değer içeren sütunları kaldırır

Unnamed: 0,bisiklet,spor saat,suluk,pantolon
mağaza1,20,35,25,30
mağaza2,15,10,70,45


In [73]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,spor saat,suluk,pantolon,kıyafetler
mağaza1,20,,35,25,30,
mağaza2,15,50.0,10,70,45,95.0


In [74]:
stok_tablosu.dropna(axis=1, inplace=True)
stok_tablosu

Unnamed: 0,bisiklet,spor saat,suluk,pantolon
mağaza1,20,35,25,30
mağaza2,15,10,70,45


In [75]:
stok_tablosu

Unnamed: 0,bisiklet,spor saat,suluk,pantolon
mağaza1,20,35,25,30
mağaza2,15,10,70,45


In [76]:
stoklar = {'bisiklet': pd.Series([20,15], index=['mağaza1','mağaza2']),
           'tshirt': pd.Series([50], index=['mağaza2']),
           'saat': pd.Series([35,10], index=['mağaza1','mağaza2']),
           'termos': pd.Series([30], index=['mağaza1'])}
stok_tablosu = pd.DataFrame(stoklar)
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,,35,30.0
mağaza2,15,50.0,10,


In [77]:
stok_tablosu.fillna(0)

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,0.0,35,30.0
mağaza2,15,50.0,10,0.0


In [78]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,,35,30.0
mağaza2,15,50.0,10,


In [79]:
stok_tablosu.fillna(method='ffill', axis=0) #NaN <- previous value in the column

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,,35,30.0
mağaza2,15,50.0,10,30.0


In [80]:
stok_tablosu

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,,35,30.0
mağaza2,15,50.0,10,


In [81]:
stok_tablosu.fillna(method='backfill', axis=0) #NaN <- next value in the column

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20,50.0,35,30.0
mağaza2,15,50.0,10,


In [82]:
stok_tablosu.interpolate(method='linear', axis=1)

Unnamed: 0,bisiklet,tshirt,saat,termos
mağaza1,20.0,27.5,35.0,30.0
mağaza2,15.0,50.0,10.0,10.0


**csv Veri Tablosu Okuma**

https://www.kaggle.com/uciml/iris

In [85]:
tablo = pd.read_csv('./data/iris.csv')

In [86]:
print(type(tablo))

<class 'pandas.core.frame.DataFrame'>


In [87]:
print(tablo.shape)

(150, 5)


In [88]:
tablo.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [89]:
tablo.tail()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [90]:
tablo.head(2)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa


In [91]:
tablo.tail(2)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [96]:
tablo.isnull().any()

sepal.length    False
sepal.width     False
petal.length    False
petal.width     False
variety         False
dtype: bool

In [97]:
tablo.describe()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [98]:
tablo.corr()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
sepal.length,1.0,-0.11757,0.871754,0.817941
sepal.width,-0.11757,1.0,-0.42844,-0.366126
petal.length,0.871754,-0.42844,1.0,0.962865
petal.width,0.817941,-0.366126,0.962865,1.0


In [99]:
tablo.groupby(['variety'])['sepal.length'].sum()

variety
Setosa        250.3
Versicolor    296.8
Virginica     329.4
Name: sepal.length, dtype: float64