# Pandas

In [3]:
import numpy as np # Pandas kullanırken, Numpy da kullanabiliyoruz.
import pandas as pd

In [4]:
labels_list = ["Ali","Veli","Ayşe","Fatma","Mehmet"]
data_list = [10,20,30,40,50]

### pd.Series()

In [5]:
pd.Series(data_list,labels_list) 

# Dilersek, bu şekilde de yazabiliriz.
# pd.Series(data = data_list, index = labels_list) 

Ali       10
Veli      20
Ayşe      30
Fatma     40
Mehmet    50
dtype: int64

In [6]:
# Pandas Serilerini belirli bir index listesi ile oluşturabildiğimiz gibi, 
# index listesi vermeden de oluşturabiliriz.

pd.Series(data_list)

0    10
1    20
2    30
3    40
4    50
dtype: int64

## Pandas Serisinin Temel Özellikleri

In [7]:
ps = pd.Series(data_list,labels_list)

In [8]:
ps.size # Seri içerisinde kaç eleman olduğunu gösterir.

5

In [9]:
ps.empty # Serinin boş olup olmadığı hakkında bilgi verir.

False

In [10]:
ps.values # Serideki değerleri döndürür.

array([10, 20, 30, 40, 50], dtype=int64)

In [11]:
ps.index # Serideki indexleri döndürür.

Index(['Ali', 'Veli', 'Ayşe', 'Fatma', 'Mehmet'], dtype='object')

In [12]:
ps.ndim # Serinin kaç boyutlu olduğu bilgisini döndürür.

1

In [13]:
ps[0:3] # Python özellikleri bu serilerde de kullanılabiliyor.

Ali     10
Veli    20
Ayşe    30
dtype: int64

In [14]:
ps[:]

Ali       10
Veli      20
Ayşe      30
Fatma     40
Mehmet    50
dtype: int64

In [15]:
ps[::-1]

Mehmet    50
Fatma     40
Ayşe      30
Veli      20
Ali       10
dtype: int64

In [16]:
ps.tail(2) # Serinin en sonundaki 2 veriyi döndürür.

Fatma     40
Mehmet    50
dtype: int64

In [17]:
ps # Serimizin son hali

Ali       10
Veli      20
Ayşe      30
Fatma     40
Mehmet    50
dtype: int64

In [18]:
list(ps.items()) # Serideki her ikiliyi demet (tuple) listesi halinde gösterebiliriz.

[('Ali', 10), ('Veli', 20), ('Ayşe', 30), ('Fatma', 40), ('Mehmet', 50)]

In [19]:
"Ali" in ps # Ali değeri ps serisi içerisinde var mı?

True

In [20]:
ps["Ali"] # Seri içerisinde Ali indeksine sahip değer kaç?

10

In [21]:
ps[["Ali","Mehmet"]] # Seri içerisinde Ali ve Mehmet indekslerine karşılık gelen değerler nelerdir?

Ali       10
Mehmet    50
dtype: int64

In [22]:
ps["Ali":"Fatma"] # Seri içerisindeki indeksi Ali'den başlayan ve Fatma'ya kadar olan tüm değerleri döndürür.

Ali      10
Veli     20
Ayşe     30
Fatma    40
dtype: int64

In [23]:
ps

Ali       10
Veli      20
Ayşe      30
Fatma     40
Mehmet    50
dtype: int64

In [24]:
ps[ps > 30] # Seri içerisinde 30'dan büyük olan değerleri döndürür.

Fatma     40
Mehmet    50
dtype: int64

In [25]:
ps[(ps > 30) & (ps < 50)] # Seri içerisinde 30'dan büyük ve 50'den küçük olan değerleri döndürür.

Fatma    40
dtype: int64

## Numpy Array ile Pandas Serisi Oluşturmak

In [26]:
npArr = np.array([10,20,30,40,50])

In [27]:
pd.Series(npArr, labels_list)

Ali       10
Veli      20
Ayşe      30
Fatma     40
Mehmet    50
dtype: int32

## Sözlük ile Pandas Serisi Oluşturmak

In [28]:
myDict = {"Ayşe":30, "Elif":40, "Ebru":50, "Seda":60}
pd.Series(myDict)

Ayşe    30
Elif    40
Ebru    50
Seda    60
dtype: int64

## Pandas Serilerinin Toplanması

In [29]:
seri2018 = pd.Series([10,20,15,25],["Elma","Portakal","Muz","İncir"])
seri2018

Elma        10
Portakal    20
Muz         15
İncir       25
dtype: int64

In [30]:
seri2019 = pd.Series([15,25,10,20],["Elma","Portakal","Muz","Karpuz"])
seri2019

Elma        15
Portakal    25
Muz         10
Karpuz      20
dtype: int64

In [31]:
toplam = seri2018 + seri2019
toplam

# iki pandas serisi toplanırken, label (etiketleri, indeksleri) aynı olan veriler toplanır.
# eğer bir serideki indeks, diğer seride yoksa, sonuç NaN olur.

Elma        25.0
Karpuz       NaN
Muz         25.0
Portakal    45.0
İncir        NaN
dtype: float64

In [32]:
# Seri toplamındaki herhangi bir veriye ulaşmak
toplam["Muz"]

25.0

# Pandas DataFrame

Pandas DataFrame, Pandas Serilerinin birleşmiş halidir. 
Database içerisindeki tablolara benzetilebilir.

In [33]:
# 3x3'lük bir matris oluşturalım.
veriler = np.array([[100, 200, 300],
                    [400, 500, 600],
                    [700, 800, 900]])
veriler

array([[100, 200, 300],
       [400, 500, 600],
       [700, 800, 900]])

### pd.DataFrame()

In [34]:
# Şimdi bir DataFrame oluşturalım.
df = pd.DataFrame(veriler, ["A","B","C"], ["Kolon1","Kolon2","Kolon3"])

# Dilersek, bu şekilde de DataFrame oluşuturabiliriz.
# df = pd.DataFrame(data = veriler, index = ["A","B","C"], columns = ["Kolon 1","Kolon 2","Kolon 3"])

df

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,100,200,300
B,400,500,600
C,700,800,900


In [35]:
# Kolonlara göre düşünürsek; 
# her bir kolon bir seriye karşılık gelir. 
# indeksleri A,B ve C olur.

df["Kolon1"]

# Aynı işlem bu şekilde de yazılabilir 
# df.Kolon1 

# Köşeli parantezli hali daha çok kullanılır.
# Örneğin Kolon1 ismi yerine Kolon 1 ismi olsaydı, o zaman bunu kullanamazdık. 
# Mecburen köşeli parantez kullanmamız gerekirdi.

A    100
B    400
C    700
Name: Kolon1, dtype: int32

In [36]:
# Satırlara göre düşünürsek; 
# her bir A,B,C satırı bir seriye karşılık gelir. 
# indeksleri Kolon1, Kolon 2 ve Kolon 3 olmuş olur.

df.loc["A"]

Kolon1    100
Kolon2    200
Kolon3    300
Name: A, dtype: int32

In [37]:
type(df["Kolon1"])

pandas.core.series.Series

In [38]:
type(df.loc["A"])

pandas.core.series.Series

## Kolonları Ayırarak DataFrame Oluşturmak

In [39]:
df # DataFrame'imizin son hali

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,100,200,300
B,400,500,600
C,700,800,900


In [40]:
# Sadece Kolon1 ve Kolon3'den oluşan bir DataFrame oluşturabiliriz.
df[["Kolon1", "Kolon3"]]

Unnamed: 0,Kolon1,Kolon3
A,100,300
B,400,600
C,700,900


## Kolon Ekleyerek DataFrame Oluşturmak

In [41]:
df # DataFrame'imizin son hali

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,100,200,300
B,400,500,600
C,700,800,900


In [42]:
# Kolon4 isimli yeni kolon oluşturalım ve üstteki DataFrame'e ekleyelim.

df["Kolon4"] = pd.Series([1000,1100,1200], ["A","B","C"])
df["Kolon4"]

# Dilersek Kolon4'ü bu şekilde de ekleyebilirdik.
# df["Kolon4"] = np.array([1000,1100,1200])
# df["Kolon4"]

# Veya bu şekilde de eklenebilirdi.
# df["Kolon4"] = [1000,1100,1200]
# df["Kolon4"]


A    1000
B    1100
C    1200
Name: Kolon4, dtype: int64

In [43]:
df # DataFrame'imizin son hali

Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4
A,100,200,300,1000
B,400,500,600,1100
C,700,800,900,1200


## Kolonlar Toplamını Ayrı Bir Kolon Olarak Eklemek

In [44]:
# DataFrame'imiz için Kolon5 adında yeni bir kolon oluşturuyoruz.
# Bu kolonun verilerini de farklı kolonlardan faydalanarak olşuturuyoruz.

df["Kolon5"] = df["Kolon2"] + df["Kolon4"]
df["Kolon5"]

A    1200
B    1600
C    2000
Name: Kolon5, dtype: int64

In [45]:
df # DataFrame'imizin son hali

# böylece hem Kolon5'i, Kolon2 ve Kolon3'ün toplamı şeklinde oluşturduk,
# hem de Kolon5'i, DataFrame'e eklemiş olduk.

Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4,Kolon5
A,100,200,300,1000,1200
B,400,500,600,1100,1600
C,700,800,900,1200,2000


## DataFrame'den  Kolon veya Satır Silmek

### .drop()

In [46]:
# DataFrame içinde Kolon veya Satır silerken axis parametresine dikkat edilmelidir.
# axis parametresi 0 iken satırları, 1 iken sütunları (kolonları) temsil eder.
# bir DataFrame içinden satır veya kolon silmek için .drop() metodu kullanılır.
# .drop() metodunda axis parametresi verilmezse, sıfır olarak kabul edilir.

df.drop("Kolon2") # bunu çalıştırdığımızda axis=0 olduğu için, 
# Kolon2 satırını silmeye çalışır. Öyle bir satır olmadığı için HATA verir.

KeyError: "['Kolon2'] not found in axis"

In [47]:
# Bu yüzden Kolon2'yi silmek istiyorsak, axis=1 olmalıdır.

df.drop("Kolon2",axis=1)

Unnamed: 0,Kolon1,Kolon3,Kolon4,Kolon5
A,100,300,1000,1200
B,400,600,1100,1600
C,700,900,1200,2000


In [48]:
# Üstteki çıktı, sadece df.drop(...) işleminin çıktısıdır.
# df DataFrame'i aslında değişmemiştir.
# bu çıktıyı bir değişkene atayarak kullanabiliriz veya df'nin değişmesini istiyorsak, 
# inplace parametresini True yapmalıyız.

df # DataFrame'in aslında değişmediğini görebiliriz. (Kolon2 silinmemiş)

Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4,Kolon5
A,100,200,300,1000,1200
B,400,500,600,1100,1600
C,700,800,900,1200,2000


In [49]:
kolon2siz = df.drop("Kolon2", axis=1)

kolon2siz

Unnamed: 0,Kolon1,Kolon3,Kolon4,Kolon5
A,100,300,1000,1200
B,400,600,1100,1600
C,700,900,1200,2000


In [50]:
df # DataFrame hala aynıdır.

Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4,Kolon5
A,100,200,300,1000,1200
B,400,500,600,1100,1600
C,700,800,900,1200,2000


In [51]:
df.drop("Kolon2", axis=1, inplace=True)

df # DataFrame şimdi değişti

Unnamed: 0,Kolon1,Kolon3,Kolon4,Kolon5
A,100,300,1000,1200
B,400,600,1100,1600
C,700,900,1200,2000


## DataFrame'den Belirli Kolonları veya Satırları Çekmek

### .loc() ve .iloc()

In [52]:
# Index numaralarına göre, DataFrame içerisinden satır ve sütun çekebiliriz.
# Bunun için df.iloc[...] metodunu kullanacağız.

df.iloc[0] # 0. satırı getirir (Yani indeks nosu 0 olan satırı getirir.)

Kolon1     100
Kolon3     300
Kolon4    1000
Kolon5    1200
Name: A, dtype: int64

In [53]:
# Aynı satırı df.loc[...] ile satır etiketini yazarak da getirebiliriz.

df.loc["A"]

Kolon1     100
Kolon3     300
Kolon4    1000
Kolon5    1200
Name: A, dtype: int64

In [54]:
# Belirli bir değeri satır ve kolon isimlerini vererek te çekebiliriz.
df.loc["A","Kolon1"]

100

In [55]:
# DataFrame'in son hali
df

Unnamed: 0,Kolon1,Kolon3,Kolon4,Kolon5
A,100,300,1000,1200
B,400,600,1100,1600
C,700,900,1200,2000


In [56]:
# Şimdi de belli bir kolona göre tüm satırları getirelim.

df.iloc[:,0] # tüm satırları al ve 0. kolonu getir demiş olduk.

A    100
B    400
C    700
Name: Kolon1, dtype: int32

In [57]:
df.iloc[:,:] # tüm satırlar ve tüm kolonlar

Unnamed: 0,Kolon1,Kolon3,Kolon4,Kolon5
A,100,300,1000,1200
B,400,600,1100,1600
C,700,900,1200,2000


In [58]:
df.iloc[2,3] # 2. satır, 3. sütundaki veri (0'dan başlandığını unutmayalım!)

2000

In [59]:
df.iloc[:,-1] # en son kolon

A    1200
B    1600
C    2000
Name: Kolon5, dtype: int64

In [60]:
df.iloc[:,0:3] # 0. kolondan 3. kolona kadar (3. dahil değil) tüm satırlar 

Unnamed: 0,Kolon1,Kolon3,Kolon4
A,100,300,1000
B,400,600,1100
C,700,900,1200


In [61]:
df # DataFrame'imizin son hali

Unnamed: 0,Kolon1,Kolon3,Kolon4,Kolon5
A,100,300,1000,1200
B,400,600,1100,1600
C,700,900,1200,2000


In [62]:
df.iloc[:,[0,3]] # tüm satırlarla birlikte, sadece 0. ve 3. kolon

Unnamed: 0,Kolon1,Kolon5
A,100,1200
B,400,1600
C,700,2000


In [63]:
df.iloc[[0,2],[0,2]] # 0. ve 2. satırlar ile 0. ve 2. kolon

Unnamed: 0,Kolon1,Kolon4
A,100,1000
C,700,1200


In [64]:
# Üstteki işlemi satır ve kolon isimlerini vererek bu şekilde de yapabiliriz.

df.loc[["A","C"],["Kolon1","Kolon4"]] 

Unnamed: 0,Kolon1,Kolon4
A,100,1000
C,700,1200


## DataFrame Filtreleme İşlemleri

In [65]:
# Yeni bir DataFrame oluşturalım.
df = pd.DataFrame(
    data = np.array([[10, 20, 30],
                     [40, 50, 60],
                     [70, 80, 90],
                     [33, 66, 77],
                    ]),
    index = ["A","B","C","D"],
    columns = ["Kolon1", "Kolon2", "Kolon3"]
)

In [66]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,10,20,30
B,40,50,60
C,70,80,90
D,33,66,77


In [67]:
df > 30 

# Bu ifade, DataFrame içinde 30'dan büyük değerlerin True, 
# diğerlerinin False olduğu yeni bir DataFrame döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,False,False,False
B,True,True,True
C,True,True,True
D,True,True,True


In [68]:
df <= 40 # 40'a eşit ve 40'tan küçük değerlerin True olduğu DataFrame

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,True,True,True
B,True,False,False
C,False,False,False
D,True,False,False


In [69]:
df != 30 # 30'a eşit olmayan değerlerin False olduğu DataFrame döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,True,True,False
B,True,True,True
C,True,True,True
D,True,True,True


In [70]:
yeni_df = df > 30 # Bu değeri yeni bir değişkene atayarak, DataFrame olduğunu ispat edebiliriz.
type(yeni_df)

pandas.core.frame.DataFrame

In [71]:
type(df)

pandas.core.frame.DataFrame

In [72]:
# eğer yeni oluşan DataFrame'i öncekinin içerisinde kullanırsak, değerleri filtreleyebiliriz.

df[yeni_df] # False olan değerler, NaN'a dönüşür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,,,
B,40.0,50.0,60.0
C,70.0,80.0,90.0
D,33.0,66.0,77.0


In [73]:
# Dilersek yeni bir DataFrame oluşturmadan direkt olarak filtreleme şartını da yazabiliriz.

df[df > 30] # 30'dan büyük olmayan değerler NaN olur.

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,,,
B,40.0,50.0,60.0
C,70.0,80.0,90.0
D,33.0,66.0,77.0


In [74]:
df["Kolon1"] > 30 # Kolon1'deki 30'dan büyük değerleri True getiren Pandas Serisi döndürür.

A    False
B     True
C     True
D     True
Name: Kolon1, dtype: bool

In [75]:
df[df["Kolon1"] > 30] # Üstteki işlemde False olan satırlar bu işlemde hiç gelmez!
# Bu şekilde satır filtreleme yapabiliriz.

Unnamed: 0,Kolon1,Kolon2,Kolon3
B,40,50,60
C,70,80,90
D,33,66,77


In [76]:
# Çoklu şarta göre de filtreleme yapabiliriz.

df[(df["Kolon1"] > 30) & (df["Kolon3"] < 70)]

# & işareti VE anlamına gelir.
# Bu durumda bu komut, her iki şart da sağlandığında çalışır.
# & yerine VEYA anlamına gelen | işareti de kullanılabilir. 
# O durumda iki şarttan birinin sağlanması yeterlidir.

# Bu ifadedeki 1. şartta A satırı siliniyor. 
# Çünkü df["Kolon1"] > 30 işleminin sonucunda A, False idi.

# 2. şartta da, C ve D satırları siliniyor. 
# Çünkü df["Kolon3"] < 70 yazılırsa, C ve D satırlarında False görülecektir.

Unnamed: 0,Kolon1,Kolon2,Kolon3
B,40,50,60


In [77]:
df["Kolon1"] > 30

A    False
B     True
C     True
D     True
Name: Kolon1, dtype: bool

In [78]:
df["Kolon3"] < 70

A     True
B     True
C    False
D    False
Name: Kolon3, dtype: bool

In [117]:
dset = {
        "Departman":["İnsan Kaynakları","Satış","Satış","Bilişim","İnsan Kaynakları","Bilişim"],
        "Çalışan": ["Mustafa","Ebru","Ercüment","Zeynep","Seda","Zeki"],
        "Maaş":[3000,3500,2500,4500,2100,3700]
        }

dframe = pd.DataFrame(dset)
dframe

Unnamed: 0,Departman,Çalışan,Maaş
0,İnsan Kaynakları,Mustafa,3000
1,Satış,Ebru,3500
2,Satış,Ercüment,2500
3,Bilişim,Zeynep,4500
4,İnsan Kaynakları,Seda,2100
5,Bilişim,Zeki,3700


In [121]:
ds = dframe.select_dtypes(include=['int64']) # DataFrame içerisinde sadece int64 type'ına sahip kolonları seçiyoruz.

In [120]:
ds

Unnamed: 0,Maaş
0,3000
1,3500
2,2500
3,4500
4,2100
5,3700


In [132]:
ds = dframe.select_dtypes(include=['object']) # DataFrame içerisinde sadece object type'ına sahip kolonları seçiyoruz.

In [131]:
ds

Unnamed: 0,Departman,Çalışan
0,İnsan Kaynakları,Mustafa
1,Satış,Ebru
2,Satış,Ercüment
3,Bilişim,Zeynep
4,İnsan Kaynakları,Seda
5,Bilişim,Zeki


## Kolonu Index Yapmak

In [79]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
A,10,20,30
B,40,50,60
C,70,80,90
D,33,66,77


In [80]:
df["Kolon4"] = ["Yeni1","Yeni2","Yeni3","Yeni4"]
df # Kolon4 isimli yeni bir kolon ekledik.

Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4
A,10,20,30,Yeni1
B,40,50,60,Yeni2
C,70,80,90,Yeni3
D,33,66,77,Yeni4


### .set_index()

In [81]:
df.set_index("Kolon4") # Kolon4'ün değerlerini index yaptık, yeniden 3 kolonlu bir DataFrame oldu.
# Fakat burada df yine değişmedi, sadece bu komutun çıktısını görmüş olduk.

Unnamed: 0_level_0,Kolon1,Kolon2,Kolon3
Kolon4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yeni1,10,20,30
Yeni2,40,50,60
Yeni3,70,80,90
Yeni4,33,66,77


In [82]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4
A,10,20,30,Yeni1
B,40,50,60,Yeni2
C,70,80,90,Yeni3
D,33,66,77,Yeni4


In [83]:
# df değişsin istiyorsak, yine inplace=True yapmalıyız.

df.set_index("Kolon4", inplace=True)
df

Unnamed: 0_level_0,Kolon1,Kolon2,Kolon3
Kolon4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yeni1,10,20,30
Yeni2,40,50,60
Yeni3,70,80,90
Yeni4,33,66,77


In [84]:
df.index.names # df'nin indeks grubunun ismi

FrozenList(['Kolon4'])

In [85]:
df.index.names[0]

'Kolon4'

## MultiIndex DataFrame Oluşturmak

In [86]:
Veriler = np.array([[11, 22, 33],
                    [10, 20, 30],
                    [44, 55, 66],
                    [40, 50, 60],
                    [77, 88, 99],
                    [70, 80, 90],
                    [15, 25, 35],
                    [45, 55, 65],
                    [75, 85, 95]])
Indeksler = ["1","2","3","4","5","6","7","8","9"]
Kolonlar = ["C1","C2","C3"]

In [87]:
df = pd.DataFrame(Veriler,Indeksler,Kolonlar)
df

Unnamed: 0,C1,C2,C3
1,11,22,33
2,10,20,30
3,44,55,66
4,40,50,60
5,77,88,99
6,70,80,90
7,15,25,35
8,45,55,65
9,75,85,95


In [88]:
# Şimdi 1,2,3'ü bir grup; 4,5,6'yı bir grup; 7,8,9'u da bir başka grup yapabiliriz.
Gruplar = ["Grup1","Grup1","Grup1","Grup2","Grup2","Grup2","Grup3","Grup3","Grup3"]

list(zip(Gruplar,Indeksler))

[('Grup1', '1'),
 ('Grup1', '2'),
 ('Grup1', '3'),
 ('Grup2', '4'),
 ('Grup2', '5'),
 ('Grup2', '6'),
 ('Grup3', '7'),
 ('Grup3', '8'),
 ('Grup3', '9')]

### pd.MultiIndex.from_tuples()

In [89]:
# Hazırlığımızı yaptıktan sonra, MultiIndex metodunu kullanabiliriz.

MultiIndex = pd.MultiIndex.from_tuples(list(zip(Gruplar,Indeksler)))
MultiIndex

MultiIndex(levels=[['Grup1', 'Grup2', 'Grup3'], ['1', '2', '3', '4', '5', '6', '7', '8', '9']],
           codes=[[0, 0, 0, 1, 1, 1, 2, 2, 2], [0, 1, 2, 3, 4, 5, 6, 7, 8]])

In [90]:
MultiDF = pd.DataFrame(Veriler,MultiIndex,Kolonlar)
MultiDF

Unnamed: 0,Unnamed: 1,C1,C2,C3
Grup1,1,11,22,33
Grup1,2,10,20,30
Grup1,3,44,55,66
Grup2,4,40,50,60
Grup2,5,77,88,99
Grup2,6,70,80,90
Grup3,7,15,25,35
Grup3,8,45,55,65
Grup3,9,75,85,95


In [91]:
MultiDF["C1"]

Grup1  1    11
       2    10
       3    44
Grup2  4    40
       5    77
       6    70
Grup3  7    15
       8    45
       9    75
Name: C1, dtype: int32

In [92]:
MultiDF.loc["Grup1"] 

Unnamed: 0,C1,C2,C3
1,11,22,33
2,10,20,30
3,44,55,66


In [93]:
MultiDF.loc["Grup1"].loc["1"]

C1    11
C2    22
C3    33
Name: 1, dtype: int32

In [94]:
MultiDF.loc["Grup1"].loc["1"].iloc[0]

# bu şekilde de çekebiliriz.
# MultiDF.loc["Grup1"].loc["1"][0]

11

In [95]:
MultiDF.iloc[:,:] # tüm satırlar, tüm sütunlar

Unnamed: 0,Unnamed: 1,C1,C2,C3
Grup1,1,11,22,33
Grup1,2,10,20,30
Grup1,3,44,55,66
Grup2,4,40,50,60
Grup2,5,77,88,99
Grup2,6,70,80,90
Grup3,7,15,25,35
Grup3,8,45,55,65
Grup3,9,75,85,95


In [96]:
MultiDF.iloc[:,1] # sadece C2 kolonunu çekelim

Grup1  1    22
       2    20
       3    55
Grup2  4    50
       5    88
       6    80
Grup3  7    25
       8    55
       9    85
Name: C2, dtype: int32

In [97]:
MultiDF.loc[["Grup1","Grup2"],["C3"]] # sadece Grup1 ve Grup2 ile C3 kolonunu çekelim.

Unnamed: 0,Unnamed: 1,C3
Grup1,1,33
Grup1,2,30
Grup1,3,66
Grup2,4,60
Grup2,5,99
Grup2,6,90


In [98]:
MultiDF.iloc[[1,2],[1]] # sadece 1. ve 2. satır ile C2 kolonunun kesişimini çekelim.

Unnamed: 0,Unnamed: 1,C2
Grup1,2,20
Grup1,3,55


In [99]:
MultiDF.index.names

FrozenList([None, None])

In [100]:
MultiDF.index.names=["Gruplar","Indeksler"]
MultiDF

Unnamed: 0_level_0,Unnamed: 1_level_0,C1,C2,C3
Gruplar,Indeksler,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Grup1,1,11,22,33
Grup1,2,10,20,30
Grup1,3,44,55,66
Grup2,4,40,50,60
Grup2,5,77,88,99
Grup2,6,70,80,90
Grup3,7,15,25,35
Grup3,8,45,55,65
Grup3,9,75,85,95


## DataFrame İçindeki Eksik Verileri Düzenleme

In [101]:
Veriler = [[10,20,np.nan],
           [40,np.nan,np.nan],
           [70,np.nan,90]
          ]
Indeksler = ["Satır1","Satır2","Satır3"]
Kolonlar = ["Kolon1","Kolon2","Kolon3"]

df = pd.DataFrame(Veriler,Indeksler,Kolonlar)
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
Satır1,10,20.0,
Satır2,40,,
Satır3,70,,90.0


### .dropna()

In [102]:
# NaN bulunan satırları silmek
df.dropna()

# Tüm satırlarda NaN olduğu için hepsini sildi.

Unnamed: 0,Kolon1,Kolon2,Kolon3


In [103]:
# NaN bulunan kolonları silmek
df.dropna(axis=1)

# Sadece Kolon1'de NaN değeri olmadığı için diğerlerini sildi.
# Bu arada bunların sadece çıktı olduğunu ve asıl df'nin değişmediğini unutmayalım!

Unnamed: 0,Kolon1
Satır1,10
Satır2,40
Satır3,70


In [104]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
Satır1,10,20.0,
Satır2,40,,
Satır3,70,,90.0


In [105]:
# Dilersek NaN değeri olan satır veya kolonları belli bir şarta göre de silebiliriz.
# Bunun için thresh parametresini kullanacağız.

df.dropna(thresh=2) 
# bu ifade;
# bir satırda "en az 2 NaN olmayan değer varsa" onu silme, 
# diğerlerini sil demektir.

# Satır2'de 1 tane NaN olmayan değer var, o yüzden silinir.
# Diğerleri silinmez.

Unnamed: 0,Kolon1,Kolon2,Kolon3
Satır1,10,20.0,
Satır3,70,,90.0


### .fillna()

In [106]:
df.fillna(value = 1) # DataFrame içindeki NaN değerleri 1 yapar.

Unnamed: 0,Kolon1,Kolon2,Kolon3
Satır1,10,20.0,1.0
Satır2,40,1.0,1.0
Satır3,70,1.0,90.0


### DataFrame İçindeki Eksik Veriler Yerine Ortalama Eklemek

In [107]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
Satır1,10,20.0,
Satır2,40,,
Satır3,70,,90.0


In [108]:
df.sum()  # Kolonların tek tek toplamını verir.

Kolon1    120.0
Kolon2     20.0
Kolon3     90.0
dtype: float64

In [109]:
df.sum().sum() # Üstteki listenin toplamını verir. 
# Böylece NaN olmayan tüm değerlerin (5 veri var) toplamını bulmuş oluyoruz.

230.0

In [111]:
df.isnull().values # True olanlar eksik (NaN) verileri temsil ediyor.

array([[False, False,  True],
       [False,  True,  True],
       [False,  True, False]])

In [116]:
# df içerisinde eksik veri var mı?
df.isnull().values.any()  
# Sonuç True ise eksik veri var, sonuç False ise hiç eksik veri yok demektir.

True

In [701]:
df.isnull().sum() # df içinde kolonlara göre NaN olan değer sayısını döndürür.

Kolon1    0
Kolon2    2
Kolon3    2
dtype: int64

In [702]:
df.isnull().sum().sum() # tüm DataFrame içindeki toplam NaN değer sayısı

4

In [703]:
df.size # df'deki toplam veri sayısı

9

In [704]:
# Şimdi ortalama bulan bir fonksiyon yazarak, 
# NaN olmayan değerlerin ortalamasını hesaplayabilir ve 
# NaN değerlerinin yerine ortalama değeri ekleyebiliriz.

def ortalama(DataFrame):
    # NaN olmayan verilerin sayısal toplamı
    toplamDeger = DataFrame.sum().sum() 
    # NaN olmayan veri adedi
    NanOlmayanlar = DataFrame.size - DataFrame.isnull().sum().sum() 
    return toplamDeger / NanOlmayanlar

df.fillna(value = ortalama(df)) # Ortalamayı 46.0 buldu ve NaN değerlerinin yerine yazdı.

Unnamed: 0,Kolon1,Kolon2,Kolon3
Satır1,10,20.0,46.0
Satır2,40,46.0,46.0
Satır3,70,46.0,90.0


## GROUP BY

In [705]:
dataset = {
        "Departman":["İnsan Kaynakları","Satış","Satış","Bilişim","İnsan Kaynakları","Bilişim"],
        "Çalışan": ["Mustafa","Ebru","Ercüment","Zeynep","Seda","Zeki"],
        "Maaş":[3000,3500,2500,4500,2100,3700]
        }

In [706]:
df = pd.DataFrame(dataset)
df

Unnamed: 0,Departman,Çalışan,Maaş
0,İnsan Kaynakları,Mustafa,3000
1,Satış,Ebru,3500
2,Satış,Ercüment,2500
3,Bilişim,Zeynep,4500
4,İnsan Kaynakları,Seda,2100
5,Bilişim,Zeki,3700


In [707]:
DepartmanaGrupla = df.groupby("Departman") # df'yi Departman başlığına göre grupladık.
DepartmanaGrupla

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000223A5C46128>

### GROUPBY.sum()

In [708]:
DepartmanaGrupla.sum() # Grupladığımızda 3 temel grup oluştu. Bunların toplamlarını alabiliriz.

Unnamed: 0_level_0,Maaş
Departman,Unnamed: 1_level_1
Bilişim,8200
Satış,6000
İnsan Kaynakları,5100


In [709]:
DepartmanaGrupla.sum().loc["Bilişim"] # Bilişim departmanındakilerin toplam maaşı

Maaş    8200
Name: Bilişim, dtype: int64

In [710]:
int(DepartmanaGrupla.sum().loc["Bilişim"]) # Bu şekilde yazarsak, sadece sayıyı elde ederiz.

8200

### GROUPBY.count()

In [711]:
DepartmanaGrupla.count() # Her departmanda kaç çalışanın olduğunu görebiliriz.

Unnamed: 0_level_0,Çalışan,Maaş
Departman,Unnamed: 1_level_1,Unnamed: 2_level_1
Bilişim,2,2
Satış,2,2
İnsan Kaynakları,2,2


### GROUPBY.max()

In [712]:
DepartmanaGrupla.max() # Her departmanda en yüksek maaşı alanların DataFrame'ini döndürür.

Unnamed: 0_level_0,Çalışan,Maaş
Departman,Unnamed: 1_level_1,Unnamed: 2_level_1
Bilişim,Zeynep,4500
Satış,Ercüment,3500
İnsan Kaynakları,Seda,3000


In [713]:
list(DepartmanaGrupla.max().loc["Bilişim"]) # Bilişim departmanında en yüksek maaşı alan kişi ve maaşı

['Zeynep', 4500]

### GROUPBY.min()

In [714]:
list(DepartmanaGrupla.min().loc["Bilişim"]) # Bilişim departmanında en düşük maaşı alan kişi ve maaşı

['Zeki', 3700]

### GROUPBY.mean()

In [715]:
DepartmanaGrupla.mean() # Her departmandaki ortalama maaşlar

Unnamed: 0_level_0,Maaş
Departman,Unnamed: 1_level_1
Bilişim,4100
Satış,3000
İnsan Kaynakları,2550


In [716]:
DepartmanaGrupla.mean().loc["Bilişim"]["Maaş"] # Bilişim departmanındaki ortalama maaş

4100

In [717]:
df

Unnamed: 0,Departman,Çalışan,Maaş
0,İnsan Kaynakları,Mustafa,3000
1,Satış,Ebru,3500
2,Satış,Ercüment,2500
3,Bilişim,Zeynep,4500
4,İnsan Kaynakları,Seda,2100
5,Bilişim,Zeki,3700


### GROUPBY.aggregate()

In [718]:
DepartmanaGrupla.aggregate([min, np.median, max]) # Belirli değerlere göre birleştirilen yeni bir tablo oluşturuldu.

Unnamed: 0_level_0,Maaş,Maaş,Maaş
Unnamed: 0_level_1,min,median,max
Departman,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Bilişim,3700,4100,4500
Satış,2500,3000,3500
İnsan Kaynakları,2100,2550,3000


# DataFrame Birleştirme İşlemleri

In [719]:
dataset1 = {
    "A": ["A1","A2","A3","A4"],
    "B":["B1","B2","B3","B4"],
    "C":["C1","C2","C3","C4"],
}
dataset2 = {
    "A": ["A5","A6","A7","A8"],
    "B":["B5","B6","B7","B8"],
    "C":["C5","C6","C7","C8"],
}
df1 = pd.DataFrame(dataset1,index = [1,2,3,4])
df2 = pd.DataFrame(dataset2,index = [5,6,7,8])


In [720]:
df1

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4


In [721]:
df2

Unnamed: 0,A,B,C
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7
8,A8,B8,C8


## pd.concat()

In [722]:
pd.concat([df1,df2]) # df1 ile df2 DataFrame'lerini satır bazlı topluyoruz. (axis=0)

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7
8,A8,B8,C8


In [723]:
pd.concat([df1,df2], axis=1) # df1 ile df2'yi kolon bazlı topluyoruz. (axis=1)

Unnamed: 0,A,B,C,A.1,B.1,C.1
1,A1,B1,C1,,,
2,A2,B2,C2,,,
3,A3,B3,C3,,,
4,A4,B4,C4,,,
5,,,,A5,B5,C5
6,,,,A6,B6,C6
7,,,,A7,B7,C7
8,,,,A8,B8,C8


In [724]:
# Üstteki kullanımda df1 ile df2'nin indeksleri farklı olduğu için NaN değerleri çıkmış oldu.
# Eğer df1 ile df2'nin indeksleri aynı olsaydı NaN değerleri çıkmazdı.
# Yanyana tablolar şeklinde olurdu.

In [725]:
dataset1 = {
    "A": ["A1","A2","A3","A4"],
    "B":["B1","B2","B3","B4"],
    "C":["C1","C2","C3","C4"],
}

dataset2 = {
    "A": ["A5","A6","A7","A8"],
    "B":["B5","B6","B7","B8"],
    "C":["C5","C6","C7","C8"],
}

indexler = ["1","2","3","4"]

df1 = pd.DataFrame(dataset1,indexler)
df2 = pd.DataFrame(dataset2,indexler)

In [726]:
pd.concat([df1,df2], axis=1) # df1 ve df2 şimdi aynı indekslere sahip olduğu için yanyana tablolar halinde dizildi.

Unnamed: 0,A,B,C,A.1,B.1,C.1
1,A1,B1,C1,A5,B5,C5
2,A2,B2,C2,A6,B6,C6
3,A3,B3,C3,A7,B7,C7
4,A4,B4,C4,A8,B8,C8


In [727]:
pd.concat([df1,df2]) 

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7
4,A8,B8,C8


In [728]:
pd.concat([df1,df2], ignore_index=True) 

# Üstteki çıktıda, indeks numaraları tekrar ediyor. 
# Dilersek ignore_index parametresini True yaparak, onların sırayla gözükmesini sağlayabiliriz.

Unnamed: 0,A,B,C
0,A1,B1,C1
1,A2,B2,C2
2,A3,B3,C3
3,A4,B4,C4
4,A5,B5,C5
5,A6,B6,C6
6,A7,B7,C7
7,A8,B8,C8


## .join()

In [729]:
dataset1 = {
    "A": ["A1","A2","A3","A4"],
    "B":["B1","B2","B3","B4"],
    "C":["C1","C2","C3","C4"],
}
dataset2 = {
    "X":["A5","A6","A7"],
    "Y":["B5","B6","B7"],
}
df1 = pd.DataFrame(dataset1,index = [1,2,3,4])
df2 = pd.DataFrame(dataset2,index = [1,2,3])

In [730]:
df1

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4


In [731]:
df2

Unnamed: 0,X,Y
1,A5,B5
2,A6,B6
3,A7,B7


In [732]:
df1.join(df2) # JOIN işlemi tabloları yan yana eklemek gibidir.
# df1 solda olduğu için onun tüm satırları gelmiş oldu.
# df2 sağda bulunacağı için ve 4. satır değerleri olmadığı için, onlar NaN olarak gelmiş oldu.
# Metodun içindeki how parametresi girilmediği zaman left'tir. (how='left')

Unnamed: 0,A,B,C,X,Y
1,A1,B1,C1,A5,B5
2,A2,B2,C2,A6,B6
3,A3,B3,C3,A7,B7
4,A4,B4,C4,,


In [733]:
df1.join(df2,how="left") 
# df1 solda, df2 sağda olacak.
# satır sayısının ne olacağını how parametresi söyleyecek.
# how parametresi "left" olduğu için, 
# satır sayısı soldakine göre (yani df1'e göre) belirlendi. (4 satır)

Unnamed: 0,A,B,C,X,Y
1,A1,B1,C1,A5,B5
2,A2,B2,C2,A6,B6
3,A3,B3,C3,A7,B7
4,A4,B4,C4,,


In [734]:
df1.join(df2,how="right")
# df1 solda, df2 sağda olacak.
# satır sayısının ne olacağını how parametresi söyleyecek.
# how parametresi "right" olduğu için, 
# satır sayısı sağdakine göre (yani df2'ye göre) belirlendi. (3 satır)

Unnamed: 0,A,B,C,X,Y
1,A1,B1,C1,A5,B5
2,A2,B2,C2,A6,B6
3,A3,B3,C3,A7,B7


## pd.merge()

In [735]:
dataset1 = {
    "A" : ["A1","A2","A3"],
    "B" : ["B1","B2","B3"],
    "anahtar" : ["K1","K2","K3"]
}

dataset2 = {
    "X" : ["X1","X2","X3","X4"],
    "Y" : ["Y1","Y2","Y3","Y4"],
    "anahtar" : ["K1","K2","K5","K4"]
}

df1 = pd.DataFrame(dataset1,index = [1,2,3]) 
df2 = pd.DataFrame(dataset2,index = [1,2,3,4])

In [736]:
df1

Unnamed: 0,A,B,anahtar
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


In [737]:
df2

Unnamed: 0,X,Y,anahtar
1,X1,Y1,K1
2,X2,Y2,K2
3,X3,Y3,K5
4,X4,Y4,K4


In [738]:
# MERGE işlemi ortak olan bir kolona göre, iki DataFrame'i birleştirir.
# SQL dilindeki INNER JOIN işlemine benzer.

pd.merge(df1,df2,on="anahtar") # iki DataFrame içindeki anahtar kolonunda, 
#eşit olan değerlere göre yeni bir DataFrame döndürür.

Unnamed: 0,A,B,anahtar,X,Y
0,A1,B1,K1,X1,Y1
1,A2,B2,K2,X2,Y2


# En Çok Yapılan DataFrame İşlemleri

In [739]:
df = pd.DataFrame({
    "Kolon1":[1,2,3,4,5,6],
    "Kolon2":[100,100,200,300,300,100],
    "Kolon3":["Mehmet","Ali","Emre","Ayşe","Melis","Zeynep"]
})

df

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis
5,6,100,Zeynep


## .T

In [740]:
df.T # DataFrame'in devriğini alır. Satırları sütun, sütunları satır yapar. (Transpoz)

Unnamed: 0,0,1,2,3,4,5
Kolon1,1,2,3,4,5,6
Kolon2,100,100,200,300,300,100
Kolon3,Mehmet,Ali,Emre,Ayşe,Melis,Zeynep


## .axes

In [741]:
df.axes # df yapısı hakkında ayrıntılı bilgiler

[RangeIndex(start=0, stop=6, step=1),
 Index(['Kolon1', 'Kolon2', 'Kolon3'], dtype='object')]

## .shape

In [742]:
df.shape # df kaç satır? kaç sütundan oluşuyor? (satır, sütun)

(6, 3)

## .ndim

In [743]:
df.ndim # df kaç boyutlu? örneğin .shape ile iki sayı geliyorsa 2 boyutludur.

2

## .size

In [744]:
df.size # 6x3'lük bir tablo olduğu için toplam 18 değeri vardır.

18

## .values

In [745]:
df.values # df'nin tüm değerlerini Numpy Array olarak döndürür.

array([[1, 100, 'Mehmet'],
       [2, 100, 'Ali'],
       [3, 200, 'Emre'],
       [4, 300, 'Ayşe'],
       [5, 300, 'Melis'],
       [6, 100, 'Zeynep']], dtype=object)

## .count()

In [746]:
df.count() # Her bir kolonda kaç değer olduğunu döndürür.

Kolon1    6
Kolon2    6
Kolon3    6
dtype: int64

In [747]:
df["Kolon1"].count() # Kolon1'de kaç adet değer olduğunu döndürür.

6

## .describe()

In [748]:
df.describe() # DataFrame hakkında istatistiksel özet bilgiler sunar.

Unnamed: 0,Kolon1,Kolon2
count,6.0,6.0
mean,3.5,183.333333
std,1.870829,98.319208
min,1.0,100.0
25%,2.25,100.0
50%,3.5,150.0
75%,4.75,275.0
max,6.0,300.0


In [749]:
df["Kolon1"].describe() # DataFrame içindeki herhangi bir kolon hakkında istatistiksel özet bilgiler sunar.

count    6.000000
mean     3.500000
std      1.870829
min      1.000000
25%      2.250000
50%      3.500000
75%      4.750000
max      6.000000
Name: Kolon1, dtype: float64

In [750]:
df["Kolon1"].describe()["mean"] # Kolon1'deki değerlerin ortalaması

3.5

## .mean()

In [751]:
df.mean() # DataFrame içindeki kolonların ortalama değerleri

Kolon1      3.500000
Kolon2    183.333333
dtype: float64

In [752]:
df.mean()["Kolon1"] # Kolon1'deki değerlerin ortalaması

3.5

In [753]:
df.median() # df içindeki kolonların medyan değerlerini döndürür.

Kolon1      3.5
Kolon2    150.0
dtype: float64

In [754]:
df.median()["Kolon1"] # Kolon1'deki değerlerin medyanı

3.5

In [755]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis
5,6,100,Zeynep


## .min()

In [756]:
df.min() # Kolonlardaki minimum değerleri döndürür.

Kolon1      1
Kolon2    100
Kolon3    Ali
dtype: object

In [757]:
df["Kolon1"].min() # Kolon1'deki en küçük değeri döndürür.

1

## .max()

In [758]:
df.max() # Kolonlardaki maximum değerleri döndürür.

Kolon1         6
Kolon2       300
Kolon3    Zeynep
dtype: object

In [759]:
df["Kolon1"].max() # Kolon1'deki en büyük değeri döndürür.

6

## .std()

In [760]:
df.std() # Kolonların standart sapma değerlerini döndürür.

Kolon1     1.870829
Kolon2    98.319208
dtype: float64

In [761]:
df["Kolon1"].std() # Kolon1'deki değerlerin standart sapmasını döndürür.

1.8708286933869707

## .tail()

In [762]:
df.tail(n=2) # df'de son 2 satırı döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
4,5,300,Melis
5,6,100,Zeynep


## .head()

In [763]:
df.head() # İlk 5 satırı döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis


In [764]:
df.head(n=3) # İlk 3 satırı döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre


## .unique()

In [765]:
df["Kolon2"].unique() # Kolon2'deki eşsiz değerleri döndürür.

array([100, 200, 300], dtype=int64)

## .nunique()

In [766]:
df["Kolon2"].nunique() # Kolon2'deki eşsiz değerler adedini döndürür.

3

## .value_counts()

In [767]:
df["Kolon2"].value_counts() # Kolon2'de hangi değerden kaç tane olduğu bilgisini döndürür.

100    3
300    2
200    1
Name: Kolon2, dtype: int64

In [768]:
list(df["Kolon2"].value_counts())[0] # Kolon2'de 100 değerinden kaç tane olduğu bilgisini döndürür.

3

In [769]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis
5,6,100,Zeynep


# DataFrame Filtreleme

In [770]:
df[df["Kolon2"] == 100] # Kolon2'de 100 olan satırlardan oluşan bir DataFrame döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
5,6,100,Zeynep


In [771]:
df[(df["Kolon2"] == 100) & (df["Kolon1"] > 1)] 
# Kolon2'de 100'e eşit, 
# Kolon1'de 1'den büyük olan satırlardan oluşan bir DataFrame döndürür.

Unnamed: 0,Kolon1,Kolon2,Kolon3
1,2,100,Ali
5,6,100,Zeynep


## .apply()

In [772]:
# .apply() metodu parametre olarak bir fonksiyon alır.

In [773]:
df["Kolon2"]

0    100
1    100
2    200
3    300
4    300
5    100
Name: Kolon2, dtype: int64

In [774]:
def çarp(x):
    return x * 3

In [775]:
df["Kolon2"].apply(carp)

# Kolon2'deki tüm değerlere çarp() fonksiyonunu uyguluyoruz.
# çarp() fonksiyonu gereği, her bir değer 3 ile çarpılmış oldu.

NameError: name 'carp' is not defined

In [776]:
df["Kolon3"]

0    Mehmet
1       Ali
2      Emre
3      Ayşe
4     Melis
5    Zeynep
Name: Kolon3, dtype: object

In [777]:
df["Kolon3"].apply(len) # Kolon3'teki isimlerin toplam karakter sayılarını veren DataFrame döndürür.

0    6
1    3
2    4
3    4
4    5
5    6
Name: Kolon3, dtype: int64

## .drop()

In [778]:
df.drop("Kolon3",axis=1) # Kolon3'ü df'den çıkartır. Etkin olması için inplace=True olmalıdır.

Unnamed: 0,Kolon1,Kolon2
0,1,100
1,2,100
2,3,200
3,4,300
4,5,300
5,6,100


In [779]:
df # Üstteki işlemde inplace=True olmadığı için sadece çıktı aldık. (df değişmedi)

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis
5,6,100,Zeynep


## .columns()

In [780]:
df.columns # Tüm kolonların listesi

Index(['Kolon1', 'Kolon2', 'Kolon3'], dtype='object')

In [781]:
list(df.columns)

['Kolon1', 'Kolon2', 'Kolon3']

## .index

In [782]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [783]:
len(df.index) # df içindeki satır sayısı

6

In [784]:
df

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis
5,6,100,Zeynep


## .sort_values()

In [785]:
df["Kolon2"].sort_values()

0    100
1    100
5    100
2    200
3    300
4    300
Name: Kolon2, dtype: int64

In [786]:
df.sort_values("Kolon2") # df'yi Kolon2'deki değerlere göre KÜÇÜKTEN BÜYÜĞE doğru sıralar.

Unnamed: 0,Kolon1,Kolon2,Kolon3
0,1,100,Mehmet
1,2,100,Ali
5,6,100,Zeynep
2,3,200,Emre
3,4,300,Ayşe
4,5,300,Melis


In [787]:
df.sort_values("Kolon2",ascending=False) # df'yi Kolon2'deki değerlere göre BÜYÜKTEN KÜÇÜĞE doğru sıralar.

Unnamed: 0,Kolon1,Kolon2,Kolon3
3,4,300,Ayşe
4,5,300,Melis
2,3,200,Emre
0,1,100,Mehmet
1,2,100,Ali
5,6,100,Zeynep


## Veri Setini Dönüştürme (Pivot Table İşlemleri)

In [788]:
df = pd.DataFrame({
    "Ay" : ["Mart","Nisan","Mayıs","Mart","Nisan","Mayıs","Mart","Nisan","Mayıs"],
    "Şehir":["Ankara","Ankara","Ankara","İstanbul","İstanbul","İstanbul","İzmir","İzmir","İzmir"],
    "Nem":[10,25,50,21,67,80,30,70,75]
})

df

Unnamed: 0,Ay,Şehir,Nem
0,Mart,Ankara,10
1,Nisan,Ankara,25
2,Mayıs,Ankara,50
3,Mart,İstanbul,21
4,Nisan,İstanbul,67
5,Mayıs,İstanbul,80
6,Mart,İzmir,30
7,Nisan,İzmir,70
8,Mayıs,İzmir,75


## .pivot_table()

In [789]:
# Buradaki işlemle, veri setimizdeki değerleri hiç değiştirmeden, 
# veri setinin sadece şeklini değiştirmiş oluyoruz.
# df daha kolay okunabilir ve anlaşılabilir bir halde gelmiş oluyor.

df.pivot_table(index="Ay", columns="Şehir", values="Nem")

Şehir,Ankara,İstanbul,İzmir
Ay,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mart,10,21,30
Mayıs,50,80,75
Nisan,25,67,70


In [790]:
df.pivot_table(index="Şehir", columns="Ay", values="Nem") # Satır ve Kolonların yerini değiştirebiliriz.

Ay,Mart,Mayıs,Nisan
Şehir,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ankara,10,50,25
İstanbul,21,80,67
İzmir,30,75,70


# DataSet Okuma İşlemleri

## CSV Dosyasını Okumak : pd.read_csv() 

In [791]:
csv = pd.read_csv("csv.csv", sep=",") 
# Girilen csv dosyasını DataFrame olarak notebook'a ekledik.
# Bazı CSV dosyaları verilerini ; ile ayırabilir. O durumda sep=";" yapmak gerekir.

In [792]:
csv.head()

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,2kyS6SvSYSE,17.14.11,WE WANT TO TALK ABOUT OUR MARRIAGE,CaseyNeistat,22,2017-11-13T17:13:01.000Z,SHANtell martin,748374,57527,2966,15954,https://i.ytimg.com/vi/2kyS6SvSYSE/default.jpg,False,False,False,SHANTELL'S CHANNEL - https://www.youtube.com/s...
1,1ZAPwfrtAFY,17.14.11,The Trump Presidency: Last Week Tonight with J...,LastWeekTonight,24,2017-11-13T07:30:00.000Z,"last week tonight trump presidency|""last week ...",2418783,97185,6146,12703,https://i.ytimg.com/vi/1ZAPwfrtAFY/default.jpg,False,False,False,"One year after the presidential election, John..."
2,5qpjK5DgCt4,17.14.11,"Racist Superman | Rudy Mancuso, King Bach & Le...",Rudy Mancuso,23,2017-11-12T19:05:24.000Z,"racist superman|""rudy""|""mancuso""|""king""|""bach""...",3191434,146033,5339,8181,https://i.ytimg.com/vi/5qpjK5DgCt4/default.jpg,False,False,False,WATCH MY PREVIOUS VIDEO ▶ \n\nSUBSCRIBE ► http...
3,puqaWrEC7tY,17.14.11,Nickelback Lyrics: Real or Fake?,Good Mythical Morning,24,2017-11-13T11:00:04.000Z,"rhett and link|""gmm""|""good mythical morning""|""...",343168,10172,666,2146,https://i.ytimg.com/vi/puqaWrEC7tY/default.jpg,False,False,False,Today we find out if Link is a Nickelback amat...
4,d380meD0W0M,17.14.11,I Dare You: GOING BALD!?,nigahiga,24,2017-11-12T18:01:41.000Z,"ryan|""higa""|""higatv""|""nigahiga""|""i dare you""|""...",2095731,132235,1989,17518,https://i.ytimg.com/vi/d380meD0W0M/default.jpg,False,False,False,I know it's been a while since we did this sho...


## Kolon Silmek

In [793]:
# İlk iki kolonu silmek
yeni_csv = csv.iloc[:,2:]

# Silinecek kolonlar sıralı olmazsa, bu komutu kullanmak gerekir.
# Yukarılarda bunun örneğini yapmıştık.
# yeni_df = okunan.drop(["video_id","category_id"], axis=1)

In [794]:
yeni_csv

Unnamed: 0,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,WE WANT TO TALK ABOUT OUR MARRIAGE,CaseyNeistat,22,2017-11-13T17:13:01.000Z,SHANtell martin,748374,57527,2966,15954,https://i.ytimg.com/vi/2kyS6SvSYSE/default.jpg,False,False,False,SHANTELL'S CHANNEL - https://www.youtube.com/s...
1,The Trump Presidency: Last Week Tonight with J...,LastWeekTonight,24,2017-11-13T07:30:00.000Z,"last week tonight trump presidency|""last week ...",2418783,97185,6146,12703,https://i.ytimg.com/vi/1ZAPwfrtAFY/default.jpg,False,False,False,"One year after the presidential election, John..."
2,"Racist Superman | Rudy Mancuso, King Bach & Le...",Rudy Mancuso,23,2017-11-12T19:05:24.000Z,"racist superman|""rudy""|""mancuso""|""king""|""bach""...",3191434,146033,5339,8181,https://i.ytimg.com/vi/5qpjK5DgCt4/default.jpg,False,False,False,WATCH MY PREVIOUS VIDEO ▶ \n\nSUBSCRIBE ► http...
3,Nickelback Lyrics: Real or Fake?,Good Mythical Morning,24,2017-11-13T11:00:04.000Z,"rhett and link|""gmm""|""good mythical morning""|""...",343168,10172,666,2146,https://i.ytimg.com/vi/puqaWrEC7tY/default.jpg,False,False,False,Today we find out if Link is a Nickelback amat...
4,I Dare You: GOING BALD!?,nigahiga,24,2017-11-12T18:01:41.000Z,"ryan|""higa""|""higatv""|""nigahiga""|""i dare you""|""...",2095731,132235,1989,17518,https://i.ytimg.com/vi/d380meD0W0M/default.jpg,False,False,False,I know it's been a while since we did this sho...
5,2 Weeks with iPhone X,iJustine,28,2017-11-13T19:07:23.000Z,"ijustine|""week with iPhone X""|""iphone x""|""appl...",119180,9763,511,1434,https://i.ytimg.com/vi/gHZ1Qz0KiKM/default.jpg,False,False,False,Using the iPhone for the past two weeks -- her...
6,Roy Moore & Jeff Sessions Cold Open - SNL,Saturday Night Live,24,2017-11-12T05:37:17.000Z,"SNL|""Saturday Night Live""|""SNL Season 43""|""Epi...",2103417,15993,2445,1970,https://i.ytimg.com/vi/39idVpFF7NQ/default.jpg,False,False,False,Embattled Alabama Senate candidate Roy Moore (...
7,5 Ice Cream Gadgets put to the Test,CrazyRussianHacker,28,2017-11-12T21:50:37.000Z,"5 Ice Cream Gadgets|""Ice Cream""|""Cream Sandwic...",817732,23663,778,3432,https://i.ytimg.com/vi/nc99ccSXST0/default.jpg,False,False,False,Ice Cream Pint Combination Lock - http://amzn....
8,The Greatest Showman | Official Trailer 2 [HD]...,20th Century Fox,1,2017-11-13T14:00:23.000Z,"Trailer|""Hugh Jackman""|""Michelle Williams""|""Za...",826059,3543,119,340,https://i.ytimg.com/vi/jr9QtXwC9vc/default.jpg,False,False,False,"Inspired by the imagination of P.T. Barnum, Th..."
9,Why the rise of the robots won’t mean the end ...,Vox,25,2017-11-13T13:45:16.000Z,"vox.com|""vox""|""explain""|""shift change""|""future...",256426,12654,1363,2368,https://i.ytimg.com/vi/TUmyygCMMGA/default.jpg,False,False,False,"For now, at least, we have better things to wo..."


## Yeni Veri Setini CSV Olarak Kaydetmek : .to_csv()

In [795]:
yeni_csv.to_csv("yeni_csv_indexli.csv") # bu şekilde index numaraları ile birlikte kaydeder.

In [796]:
yeni_csv.to_csv("yeni_csv_indexsiz.csv", index=False) # bu şekilde index numaralarını dosyaya eklemez.

## EXCEL Dosyasını Okumak : pd.read_excel()

In [797]:
excel = pd.read_excel("excel.xlsx")

In [798]:
excel

Unnamed: 0.1,Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4
0,Indeks1,10,50,90,130
1,Indeks2,20,60,100,140
2,Indeks3,30,70,110,150
3,Indeks4,40,80,120,160


In [799]:
excel["Kolon5"] = [150,250,350,450]

In [800]:
excel

Unnamed: 0.1,Unnamed: 0,Kolon1,Kolon2,Kolon3,Kolon4,Kolon5
0,Indeks1,10,50,90,130,150
1,Indeks2,20,60,100,140,250
2,Indeks3,30,70,110,150,350
3,Indeks4,40,80,120,160,450


In [801]:
excel.to_excel("yeni_excel.xlsx")

## HTML Sayfasını / Dosyasını Okumak : pd.read_html()

In [802]:
html = pd.read_html("http://www.contextures.com/xlSampleData01.html")

In [803]:
len(html) # içerisinde kaç veri seti olduğunu gösterir.

1

In [804]:
html[0] # zaten 1 veri seti olduğu için o veri setini çekiyoruz.

Unnamed: 0,0,1,2,3,4,5,6
0,OrderDate,Region,Rep,Item,Units,UnitCost,Total
1,1/6/2018,East,Jones,Pencil,95,1.99,189.05
2,1/23/2018,Central,Kivell,Binder,50,19.99,999.50
3,2/9/2018,Central,Jardine,Pencil,36,4.99,179.64
4,2/26/2018,Central,Gill,Pen,27,19.99,539.73
5,3/15/2018,West,Sorvino,Pencil,56,2.99,167.44
6,4/1/2018,East,Jones,Binder,60,4.99,299.40
7,4/18/2018,Central,Andrews,Pencil,75,1.99,149.25
8,5/5/2018,Central,Jardine,Pencil,90,4.99,449.10
9,5/22/2018,West,Thompson,Pencil,32,1.99,63.68


In [805]:
# Üstteki işlemden çıkan veri setinde, 
# 0. satırdaki etiketleri Kolon ismi olarak almak istiyorsak, 
# .read_html() metodunda header parametresini 0 olarak vermeliyiz.

# HTML sayfamızı yeniden okutuyoruz.
html = pd.read_html("http://www.contextures.com/xlSampleData01.html", header = 0)

In [806]:
html[0] # Kolon isimleri daha düzgün bir şekilde gelmiş oldu.

Unnamed: 0,OrderDate,Region,Rep,Item,Units,UnitCost,Total
0,1/6/2018,East,Jones,Pencil,95,1.99,189.05
1,1/23/2018,Central,Kivell,Binder,50,19.99,999.5
2,2/9/2018,Central,Jardine,Pencil,36,4.99,179.64
3,2/26/2018,Central,Gill,Pen,27,19.99,539.73
4,3/15/2018,West,Sorvino,Pencil,56,2.99,167.44
5,4/1/2018,East,Jones,Binder,60,4.99,299.4
6,4/18/2018,Central,Andrews,Pencil,75,1.99,149.25
7,5/5/2018,Central,Jardine,Pencil,90,4.99,449.1
8,5/22/2018,West,Thompson,Pencil,32,1.99,63.68
9,6/8/2018,East,Jones,Binder,60,8.99,539.4


#### Zeki ÇIPLAK