# Veri Bilimi İçin Veri Manipülasyonu

Veri bilimi ve yapay zeka dünyası için veri manipülasyonu işlemleri adeta vazgeçilemez hale gelmiştir. Veri manipülasyonu işlemlerinin vazgeçilemez oluşu, bugün ki veri topla süreç ve araçlarının verileri toplarken heterojen yapılar benimsemesi ile
veri tipi farklılıkların fazla oluşu, modelleme aşamasına geçmeden önce veri manipülasyonunu adeta zorunlu kılmaktadır.

Bu kapsamda veri manipülasyonu işlem ve araçlarını kullanmaya başlamadan önce veri bilimi dünyasının 2 vazgeçilmez kütüphanesi NumPy ve Pandas işlemleri işleyeceğiz.

## Numpy

NumPy, dizilere matematiksel operasyonlar yapmak için kullanılan bir Python kütüphanesidir. Ayrıca doğrusal cebir, fourier dönüşümü ve matrisler işlemleri ve veri manipülasyonu konularında sık sık tercih edilen bir kütüphanedir. NumPy, 2005 yılında Travis Oliphant tarafından oluşturulmuş, açık kaynak kodlu bir projedir. NumPy, Numeriacal Python (Sayısal Python)’un kısaltmasıdır.

### Array Oluşturma

Veri dizisi oluşturmak, aslında çok kolay bir işlem iken tüm bu süreçlerin el ile yapılması durumunda bugün ki kompleks
veri setlerini analiz etme adeta imkansız hale gelmektedir. Sırası ile el ile bir veri listesi oluşturuduktan sonra
Numpy kütüphanesini python ortamına tanımlayarak, veri listelerini otomatik olarak numpy dizileri haline dönüştürüceğiz.

In [1]:
# liste olusturma
data = [1,2,3,4]

In [2]:
data

[1, 2, 3, 4]

In [4]:
# Numpy kutuphanesini import etme ve numpy dizisi olusturma
import numpy as np

In [5]:
dizi = np.array(data)

In [6]:
dizi

array([1, 2, 3, 4])

In [7]:
type(dizi)

numpy.ndarray

In [8]:
data2 = [[40,2,35],[50,5,80],[10,8,22]]

In [10]:
data2 = np.array(data2)


In [11]:
# indeksleme işlemleri
data2

array([[40,  2, 35],
       [50,  5, 80],
       [10,  8, 22]])

In [15]:
data2[1]

array([50,  5, 80])

In [16]:
data2[2]

array([10,  8, 22])

In [17]:
data2[2,2]

22

### Otomatik Dizi Oluşturma

In [18]:
# 10 ile 20 sayisi arasinda dizi olusturma
np.arange(10,20)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [19]:
# 0  ile 50 arasinda 2 aralikli dizi olusturma
np.arange(0,50,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32,
       34, 36, 38, 40, 42, 44, 46, 48])

In [20]:
# 0 dizisi olusturma
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [22]:
# 1 dizisi olusturma 
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### Matris Oluşturma

In [25]:
np.ones((4,4,4))

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [26]:
# birim matris olusturma
np.eye(8)

array([[1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]])

In [29]:
# 0 dahil 20 haric bu aralikta tek bir rassal deger olusturma
np.random.randint(0,20)

2

In [30]:
# 1(dahil) ile 20(hariç) arasında 8 değer oluşturarak 8 değer saklayan array oluşturma
np.random.randint(1,20,8)

array([ 7,  2, 10, 13,  8, 15,  7, 17])

In [31]:
# 0 ile 1 arasında 10  değerler oluşturur.
np.random.rand(10)

array([0.2004117 , 0.98494804, 0.86134288, 0.11569166, 0.10788761,
       0.8640397 , 0.03329945, 0.37296426, 0.23050982, 0.95245425])

In [32]:
data = np.arange(20)

In [33]:
data

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [34]:
data.reshape(5,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

## Matematiksel İşlemler

In [35]:
data.min() ## min degeri doner

0

In [36]:
data.max() ## max degeri doner

19

In [37]:
data.sum() ## tum diziyi toplar

190

In [38]:
data.mean()# dizinin ortalamasini hesaplar

9.5

In [40]:
data.argmin() ## en kucuk degeri iceren indeksi doner

0

In [41]:
data.argmax() ## en buyuk degeri iceren indeksi doner

19

## Indeksleme ve Parcalama İşlemleri

In [42]:
import numpy as np

In [43]:
data = np.arange(20)

In [44]:
data

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [47]:
data[1] # 1. indeksteki deger doner

1

In [48]:
data[5] # 5. indeksteki degeri doner

5

In [49]:
data[:5] # 5. indekse kadar tum degerleri doner

array([0, 1, 2, 3, 4])

In [51]:
data[5:] # 5. indeks dahil oradan sonraki tum degerleri doner

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [53]:
data[1:5] # 1 ile 5. indeks arasindaki degerleri doner


array([1, 2, 3, 4])

In [54]:
data1 = data.reshape(5,4) # 5,4 luk matris hali icin tekrar boyutlandirma islemi

In [55]:
data1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [57]:
data1[0,3]

3

In [58]:
data1[2,3]

11

In [60]:
data1[:,:2] # ilk 2 sutunun tum vektorlerini doner

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13],
       [16, 17]])

## Filtreleme İşlemleri

In [62]:
data > 5 # 5 ten buyuk degerleri sorgular ve varsa True doner

array([False, False, False, False, False, False,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True])

In [63]:
bestenbuyuk = data > 5

In [64]:
bestenbuyuk

array([False, False, False, False, False, False,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True])

# Matematik Operasyonlari

In [70]:
data = np.array([20,20,50,40,80])
data1 = np.array([20,30,40,50,60])

In [73]:
data

array([20, 20, 50, 40, 80])

In [74]:
data1

array([20, 30, 40, 50, 60])

In [75]:
data + data1

array([ 40,  50,  90,  90, 140])

In [77]:
data * data1 ## ic carpimi vermektedir

array([ 400,  600, 2000, 2000, 4800])

In [78]:
data + 10  ## tum degerlere 10 eklemektedir

array([30, 30, 60, 50, 90])

In [79]:
data1 - 10 # tum degerlerden 10 cikarmaktadir

array([10, 20, 30, 40, 50])

In [80]:
data1 / 2 # bolme islemi

array([10., 15., 20., 25., 30.])

In [81]:
data1 ** 2 ## kare alma islemi

array([ 400,  900, 1600, 2500, 3600], dtype=int32)

# Pandas

Pandas, veri ön işleme ve analizi için Python programlama dilinde yazılmış olan veri bilimi dünyasının en önemli kütüphanelerinden birisidir.  Bu kütüphane temel olarak sayısal tablolar üzerinde çeşitli operasyonlar ve veri setinin modelleme aşamasına uygun hale getirilmesi sürecinde adeta tüm işlemleri tek başına yapabilen bir veri ön işleme kütüphanesidir.

Pandas kütüphanesinin bazı özellikleri;

- Veri Setinin Panel hale dönüştürülmesi.

- Veri manipülasyonu ve veri analizi için yazılmış açık kaynak kodlu bir Python kütüphanesidir.

- Ekonometrik ve finansal çalışmalar için doğmuştur.

- Temeli 2008 yılında atılmıştır.

- R DataFrame yapısını Python dünyasına taşımış ve DataFrame’ler üzerinde hızlı ve etkili çalışabilme imkanı sağlamıştır.

- Bir çok farklı veri tipini okuma ve yazma imkanı sağlar.

In [82]:
import pandas as pd ## pandas kutuphanesinin python ortamina tanimlanir...

In [83]:
data = [20,5,7,8,5,4,6] ## bir veri listesi olusturmak

In [84]:
df = pd.DataFrame(data, columns = ["Vektor"]) ## yukaridaki listenin dataframe donusturme

In [85]:
df

Unnamed: 0,Vektor
0,20
1,5
2,7
3,8
4,5
5,4
6,6


In [86]:
type(df)

pandas.core.frame.DataFrame

### Numpy Dizisinin DataFrame Yapısına Dönüştürülmesi


In [87]:
import numpy as np

In [123]:
arr = np.arange(1,21).reshape((5,4))

In [124]:
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20]])

In [125]:
df = pd.DataFrame(arr, columns = ["deg1", "deg2", "deg3", "deg4"])

In [126]:
df

Unnamed: 0,deg1,deg2,deg3,deg4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20


In [93]:
df.head() ## ilk 5 gozleme goz atmak

Unnamed: 0,deg1,deg2,deg3,deg4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20


In [94]:
df.tail() # son 5 gozleme goz atmak

Unnamed: 0,deg1,deg2,deg3,deg4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20


In [95]:
df.columns ## sutun isimlerini yazdirmak

Index(['deg1', 'deg2', 'deg3', 'deg4'], dtype='object')

In [127]:
df.columns = ("degisken1", "degisken2", "degisken3", "degisken4")

In [128]:
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20


In [98]:
df.shape # boyut sorgulama

(5, 4)

In [129]:
df.values # dataframe degerlerini dondurur

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20]])

### Pandas Manipülasyonları

In [130]:
## indekslemenin tarafimizca atanmasi
df.index = ['a','b','c','d','e']

In [131]:
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16
e,17,18,19,20


In [103]:
df["a":'d'] ## a ile d satirlari arasindaki tum vektorleri doner

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


In [107]:
df.drop('e', axis = 0) ## e satiri silinecektir 

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


In [108]:
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16
e,17,18,19,20


In [109]:
## silmenin kalici olmasi icin inplace parametresinin tanimlanmasi gerek
df.drop("e", axis = 0, inplace = True)

In [110]:
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


### Degisken Sorgulama

In [111]:
'degisken1' in df

True

In [112]:
'degisken10' in df

False

In [114]:
df[['degisken2']]

Unnamed: 0,degisken2
a,2
b,6
c,10
d,14


In [115]:
df.degisken4 ## values sorgulama

a     4
b     8
c    12
d    16
Name: degisken4, dtype: int32

### Degisken Ekleme

In [132]:
df['degisken5'] = df["degisken2"] * df['degisken4'] ## degisken2 ile degisken4 dun carpilarak yeni bir degisken olusuturulmasi

In [133]:
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4,degisken5
a,1,2,3,4,8
b,5,6,7,8,48
c,9,10,11,12,120
d,13,14,15,16,224
e,17,18,19,20,360


In [134]:
df.drop("degisken1", axis = 1, inplace = True) ## 1. degiskenin kalici silinmesi

In [135]:
df

Unnamed: 0,degisken2,degisken3,degisken4,degisken5
a,2,3,4,8
b,6,7,8,48
c,10,11,12,120
d,14,15,16,224
e,18,19,20,360


## Indeksleme ve Secme Islemleri

### iloc & loc

In [136]:
import pandas as pd
import numpy as np
arr = np.random.randint(1,50, size = (10,4)) ## array olusturulmasi

In [139]:
df = pd.DataFrame(arr, columns = ['degisken1','degisken2','degisken3','degisken4']) ## dizini df e donusuturulmesi

In [140]:
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
0,27,19,23,24
1,1,12,26,23
2,39,30,18,12
3,7,10,27,49
4,25,9,22,9
5,18,30,28,35
6,43,37,46,20
7,28,6,36,15
8,9,1,18,24
9,23,34,13,12


### iloc ile indeksleme

In [142]:
df.iloc[0:5] ## ilk 5 gozlemin secilmesi

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
0,27,19,23,24
1,1,12,26,23
2,39,30,18,12
3,7,10,27,49
4,25,9,22,9


In [143]:
df.iloc[1,1]

12

###  loc ile indeksleme

In [144]:
df.loc[0:5]

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
0,27,19,23,24
1,1,12,26,23
2,39,30,18,12
3,7,10,27,49
4,25,9,22,9
5,18,30,28,35


In [146]:
df.loc[0:5,"degisken4"] ## degisken 4 bazinda 5 gozlim secilmesi

0    24
1    23
2    12
3    49
4     9
5    35
Name: degisken4, dtype: int32

In [147]:
df.iloc[0:5][["degisken4"]]

Unnamed: 0,degisken4
0,24
1,23
2,12
3,49
4,9


## Koşullu Seçimleri

In [148]:
import pandas as pd
import numpy as np
arr = np.random.randint(1,50, size = (10,4)) ## array olusturulmasi
df = pd.DataFrame(arr, columns = ['degisken1','degisken2','degisken3','degisken4']) ## dizini df e donusuturulmesi
df

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
0,36,7,10,37
1,45,6,32,6
2,33,31,29,3
3,13,13,28,22
4,41,25,40,47
5,38,17,42,23
6,20,26,21,33
7,18,26,12,15
8,7,7,33,48
9,12,8,7,39


In [149]:
df['degisken1'] ## degisken 1 in tamaminin secilmesi

0    36
1    45
2    33
3    13
4    41
5    38
6    20
7    18
8     7
9    12
Name: degisken1, dtype: int32

In [150]:
df[['degisken1']]## degisken 1 in tamaminin secilmesi

Unnamed: 0,degisken1
0,36
1,45
2,33
3,13
4,41
5,38
6,20
7,18
8,7
9,12


In [151]:
df[0:5][["degisken1","degisken2"]]

Unnamed: 0,degisken1,degisken2
0,36,7
1,45,6
2,33,31
3,13,13
4,41,25


In [152]:
df['degisken1'] > 10 ## 10 dan buyuk degerler true doner

0     True
1     True
2     True
3     True
4     True
5     True
6     True
7     True
8    False
9     True
Name: degisken1, dtype: bool

In [153]:
df[df["degisken4"] > 10] ## parantezz ici sorgulamada degisken4 bazinda 10 dan buyuk geriye kalan tum df i birlikte doner.

Unnamed: 0,degisken1,degisken2,degisken3,degisken4
0,36,7,10,37
3,13,13,28,22
4,41,25,40,47
5,38,17,42,23
6,20,26,21,33
7,18,26,12,15
8,7,7,33,48
9,12,8,7,39


## Gruplama İşlemi

Groupyby ile kategorik veya bir değisken bir değişkene gore istatistiklerini almada oldukca faydalı bir fonksiyondur.

In [154]:
df = pd.read_csv("train.csv") ## csv excel dosyasinin python ortamina yuklenmesi

In [155]:
df.head() ## ilk 5 gozlemin gorulmesi

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Manipülasyonlar

In [156]:
df.max() ## tum degiskenlerin max gozlem degerlerini sorgulama

  df.max() ## tum degiskenlerin max gozlem degerlerini sorgulama


PassengerId                            891
Survived                                 1
Pclass                                   3
Name           van Melkebeke, Mr. Philemon
Sex                                   male
Age                                   80.0
SibSp                                    8
Parch                                    6
Ticket                           WE/P 5735
Fare                              512.3292
dtype: object

In [157]:
df[["PassengerId","Fare"]].max() ## passengerid ve fare degiskenleri ozelinde max gozlemler

PassengerId    891.0000
Fare           512.3292
dtype: float64

In [158]:
df.groupby("Pclass").agg({"Fare":"mean"}) ## siniflara gore fare degiskeninin sutun ortalamalarinin alinmasi

Unnamed: 0_level_0,Fare
Pclass,Unnamed: 1_level_1
1,84.154687
2,20.662183
3,13.67555


In [159]:
df.groupby(["Sex","Pclass"]).agg({"Age":"mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,Pclass,Unnamed: 2_level_1
female,1,34.611765
female,2,28.722973
female,3,21.75
male,1,41.281386
male,2,30.740707
male,3,26.507589


In [160]:
## placss kiriliminda fare degiskeninin ortalamasi ve yas degiskeninin min ortalama ve maksimumu
df.groupby("Pclass").agg({"Fare":"mean", "Age":['min','mean','max']})

Unnamed: 0_level_0,Fare,Age,Age,Age
Unnamed: 0_level_1,mean,min,mean,max
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,84.154687,0.92,38.233441,80.0
2,20.662183,0.67,29.87763,70.0
3,13.67555,0.42,25.14062,74.0


## Pivot Table

In [162]:
df.pivot_table("Pclass", index = "Sex", columns = "Age")

Age,0.42,0.67,0.75,0.83,0.92,1.00,2.00,3.00,4.00,5.00,...,62.00,63.00,64.00,65.00,66.00,70.00,70.50,71.00,74.00,80.00
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
female,,,3.0,,,3.0,2.5,2.5,2.6,2.75,...,1.0,2.0,,,,,,,,
male,3.0,2.0,,2.0,1.0,2.6,2.75,2.5,2.6,,...,1.333333,,1.0,1.666667,2.0,1.5,3.0,1.0,3.0,1.0
