## Pandas Nedir, Özellikler

* NumPy'ın alternatifi değildir, NumPy'ın özelliklerini kullanan ve bu özellikleri genişleten bir kütüphanedir.
* NumPy'dan farklı olarak yapay veri setleri ile daha esnek çalışmaya izin veriyor.
* Pandas veri manipülasyonu ve veri analizi için yazılmış açık kaynak kodlu bir kütüphanedir.
* Ekonometrik DataFrame yapısını Python'a getirmiş oldu.

## Pandas Serisi Oluşturmak

* Pandas serisini tek boyutlu array olarak düşünebiliriz. 

In [1]:
import pandas as pd

In [2]:
pd.Series([1, 2, 3, 4])

0    1
1    2
2    3
3    4
dtype: int64

* Yukarıda görülen çıktıda sol taraftaki değerler index bilgisini tutarken, sağ taraftaki değerler ise listenin elemanlarıdır

In [6]:
type(pd.Series([1, 2, 3, 4])) #type bilgisine ulaşıyoruz.

pandas.core.series.Series

In [7]:
pd.Series([1, 2, 3, 4]).axes

[RangeIndex(start=0, stop=4, step=1)]

* Axes komutu ile de serimizin başlangıç, bitiş ve artış değerlerinin bilgilerini alabiliyoruz.

In [8]:
pd.Series([1, 2, 3, 4]).dtype

dtype('int64')

* dtype komutu ile serimizin veri tipi hakkında bilgi verir.

In [10]:
pd.Series([1, 2, 3, 4]).size

4

* size komutu ile serimizin eleman sayısını öğrenebiliriz.

In [12]:
pd.Series([1, 2, 3, 4]).ndim

1

* ndim komutu ile serimizin boyutunu öğrenebiliriz.

In [14]:
pd.Series([1, 2, 3, 4]).values

array([1, 2, 3, 4], dtype=int64)

* values komutu ile serimizin index bilgileri olmadan da sadece değerlerini tutan bir liste gibi gösterebiliriz.

In [16]:
pd.Series([1, 2, 3, 4]).head(2)

0    1
1    2
dtype: int64

* head komutu ile serimizin baştan başlayarak kaç elemanını görmeyi istiyorsak verdiğimiz parametle ile bunu gerçekleştirebiliyoruz.

In [17]:
pd.Series([1, 2, 3, 4]).tail(3)

1    2
2    3
3    4
dtype: int64

* tail komutu ile de head komutunda yaptığımızın tersini yapabiliyoruz, serinin sonundan başlayarak kaç elemana erişmek istiyorsak buna ulaşabiliyoruz.

## Index İsimlendirme

In [19]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

* Yukarıdaki çıktı da indexler default olarak 0'dan başlayarak 1'er artarak devam ediyor, bunu değiştirmek için;

In [20]:
pd.Series([1, 2, 3, 4, 5], index = [10, 12, 14, 16, 18])

10    1
12    2
14    3
16    4
18    5
dtype: int64

* Yukarıda da gördüğümüz gibi index değerlerini el ile girerek istediğimiz değerleri verebiliriz. Index'leri string'ler ile de kullanabiliriz.
* Aynı zamanda indexlemeyi string ile yaparsak sözlük yapısından da kullandığımız key-value çalışmalarını yapabiliriz.

In [22]:
seri = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
seri

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [23]:
seri["c"]

3

* Slice işlemlerini de burada kullanabiliriz, örneğin;

In [24]:
seri["b":]

b    2
c    3
d    4
e    5
dtype: int64

In [25]:
seri["a":"c"]

a    1
b    2
c    3
dtype: int64

## Sözlük Üzerinden Seri Oluşturmak

In [28]:
sozluk = {"ad" : "Selman", "soyad" : "Başkaya", "yaş" : 21}
seri =pd.Series(sozluk)
seri

ad        Selman
soyad    Başkaya
yaş           21
dtype: object

## İki Farklı Seriyi Birleştirerek Tek Bir Seri Oluşturma

In [29]:
pd.concat([seri, seri])

ad        Selman
soyad    Başkaya
yaş           21
ad        Selman
soyad    Başkaya
yaş           21
dtype: object

## Eleman İşlemleri

* NumPy üzerinden oluşturulan listeyi pandas serisine çevirmek;

In [30]:
import numpy as np
a = np.array([1, 3, 5, 6, 8])
seri = pd.Series(a)
seri

0    1
1    3
2    5
3    6
4    8
dtype: int32

In [32]:
seri = pd.Series([145, 170, 187, 163], index = ["reg", "loj", "cart", "rf"])
seri

reg     145
loj     170
cart    187
rf      163
dtype: int64

In [33]:
seri.index # komutu ile serinin index bilgisine ulaşabiliriz.

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [34]:
seri.keys # komutu ile serinin key değerlerine ve onlara karşılık gelen value değerlerine erişebiliriz.

<bound method Series.keys of reg     145
loj     170
cart    187
rf      163
dtype: int64>

In [35]:
list(seri.items()) # seri üzerindeki tüm key ve value değerlerini ayrı ayrı görmek istersek bu çevirme işlemine ihtiyacımız olacaktır.

[('reg', 145), ('loj', 170), ('cart', 187), ('rf', 163)]

In [36]:
seri.values # komutu ile serinin value bilgilerine ulaşabilriz.

array([145, 170, 187, 163], dtype=int64)

## Eleman Sorgulama

In [37]:
"reg" in seri # sorgusu ile seri ismindeki seri yapısının içerisinde reg'in olup olmadığını kontrol eder.

True

In [38]:
"regg" in seri

False

## Fancy ile Eleman Seçme

In [39]:
seri[["rf", "cart"]]

rf      163
cart    187
dtype: int64

In [41]:
seri["rf"] = 168 # kod satırı ile rf'nin içerisindeki değeri değiştirebiliriz.
seri["rf"]

168

## Slice ile Eleman Seçme

In [42]:
seri["reg" : "rf"]

reg     145
loj     170
cart    187
rf      168
dtype: int64

## DataFrame Oluşturma

* DataFrame: yapısal bir veri tipidir. excel'e benzer yapıdadır.
* Peki NumPy varken neden bunlara ihtiyaç duyuluyor? 
  
  => NumPy fixed type özelliğe sahiptir, yani içerisinde tek bir veri tipinde değerler tutabilir. Kendi içerisinde kategorik ve sürekli değişkenler ile
     işlemler yapması hiç de kolay değildir. Çok zorlama yöntemler yaparak kullanmak mümkündür. Fakat ileri seviye veri manipülasyonlarına izin veremiyor.

In [47]:
list = [19, 37, 54, 54, 73, 91]
list

[19, 37, 54, 54, 73, 91]

In [48]:
pd.DataFrame(list)

Unnamed: 0,0
0,19
1,37
2,54
3,54
4,73
5,91


In [49]:
pd.DataFrame(list, columns = ["baslik"]) # columns etiketi ile isimlendirme yapabiliriz.

Unnamed: 0,baslik
0,19
1,37
2,54
3,54
4,73
5,91


* İki ve daha fazla değişken kullanarak bir DataFrame oluşturmak istersek;

In [50]:
import numpy as np
m = np.arange(1, 10).reshape(3, 3)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [52]:
pd.DataFrame(m, columns = ["degisken1", "degisken2", "degisken3"])

Unnamed: 0,degisken1,degisken2,degisken3
0,1,2,3
1,4,5,6
2,7,8,9


## DataFrame İsimlendirme

In [53]:
df = pd.DataFrame(m, columns = ["degisken1", "degisken2", "degisken3"])
df

Unnamed: 0,degisken1,degisken2,degisken3
0,1,2,3
1,4,5,6
2,7,8,9


In [56]:
df.columns

Index(['degisken1', 'degisken2', 'degisken3'], dtype='object')

In [58]:
df.columns = ("var1", "var2", "var3")
df.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [59]:
df

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [60]:
type(df) # tip bilgisini döndürür.

pandas.core.frame.DataFrame

In [63]:
df.axes # index bilgisi (satır - sütün) verir.

[RangeIndex(start=0, stop=3, step=1),
 Index(['var1', 'var2', 'var3'], dtype='object')]

In [64]:
df.shape # boyut bilgisi verir.

(3, 3)

In [65]:
df.ndim # df'nin boyutunu gösterir, df'ler ile çalışırken bu değer hep 2 çıkacaktır.

2

In [66]:
df.size # eleman sayısı hakkında bilgi verir

9

In [67]:
df.values # bu komut ile df içerisinden sadece value kısmını çekerek bir numpy array'i haline döndürür ve bizlere getirir.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [68]:
type(df.values) #sadece value kısmını aldığımız için tip olarak numpy array'i bilgisi alırız.

numpy.ndarray

In [69]:
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [70]:
df.tail(1)

Unnamed: 0,var1,var2,var3
2,7,8,9


## DataFrame Eleman İşlemleri

* 3 tane NumPy array'i oluşturalım ve sözlük yapısı ile bu array'leri birleştirelim;

In [73]:
import numpy as np
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)

In [74]:
sozluk = {"var1" : s1, "var2" : s2, "var3" : s3}
sozluk

{'var1': array([7, 7, 4, 3, 5]),
 'var2': array([9, 0, 8, 4, 8]),
 'var3': array([6, 8, 5, 7, 9])}

* Oluşturduğumuz sözlük yapısını df'ye çevirelim;

In [83]:
df = pd.DataFrame(sozluk)
df

Unnamed: 0,var1,var2,var3
0,7,9,6
1,7,0,8
2,4,8,5
3,3,4,7
4,5,8,9


In [84]:
df[0:3]

Unnamed: 0,var1,var2,var3
0,7,9,6
1,7,0,8
2,4,8,5


In [86]:
df = pd.DataFrame(sozluk, index = ["a", "b", "c", "d", "e"])
df

Unnamed: 0,var1,var2,var3
a,7,9,6
b,7,0,8
c,4,8,5
d,3,4,7
e,5,8,9


In [87]:
df["a":"c"]

Unnamed: 0,var1,var2,var3
a,7,9,6
b,7,0,8
c,4,8,5


* Bu noktada şuna dikkat çekmek istiyorum; index işlemlerini eğer ki default olarak kullanıyorsak 0'dan başlayarak gelecektir, dolayısıyla biz 0:3'e kadar 
  olan kısmı istersek 0, 1 ve 2 geleceği için 3. indiste olanları göremeyiz. **Fakat** string indexleme de bu tarz bir durum olmadığı için a:c'ye kadar 
  dediğimizde a, b ve c gelecektir. 

# Index Silme İşlemi

In [88]:
df.drop("a", axis = 0) # axis değeri verme sebebimiz satıra görme silme işlemi yapacağımızı belirtmek içindir.

Unnamed: 0,var1,var2,var3
b,7,0,8
c,4,8,5
d,3,4,7
e,5,8,9


In [89]:
df

Unnamed: 0,var1,var2,var3
a,7,9,6
b,7,0,8
c,4,8,5
d,3,4,7
e,5,8,9


* Yukarıdaki çıktıda da gördüğümüz gibi biz "a" satırını drop etmemize rağmen halen daha df'in içerisinde var. Eğer ki "a" satırını kalıcı olarak drop
  etmek istiyorsak inplace = True eklemesini yapmamız gerekiyor;

In [91]:
df.drop("a", axis = 0, inplace = True)

In [92]:
df

Unnamed: 0,var1,var2,var3
b,7,0,8
c,4,8,5
d,3,4,7
e,5,8,9


* Yeniden atama işlemi yapmadan inplace'i kullanarak yaptığımız değişiklikleri kalıcı hale getirebiliriz.

* df içerisinden tek bir satır değil de birden fazla satır silmek istersek ne yapmalıyız? Burada da devreye **fancy** girmektedir. facny kelime karşılığı
  olarak da fantastik demektir. Şu şekilde bu sorunu çözebiliriz;

In [93]:
l = ["b", "d"]

In [94]:
df.drop(l, axis = 0, inplace = True)

In [95]:
df

Unnamed: 0,var1,var2,var3
c,4,8,5
e,5,8,9


## Değişkenler ile İşlemler

In [96]:
"var1" in df

True

In [101]:
l = ["var1", "var22", "var3", "var"] # bu iki değişkenin df içerisinde var olup olmadığını sorgulayalım;

In [100]:
for i in l:
    print (i in df)

True
False
True
False


* Var olan df'nin içerisine bir değişken oluşturmak için (var4'ü oluştururken var1 * var3 değeri ile oluşuralım);

In [103]:
df["var4"] = df["var1"] * df["var3"] 

In [104]:
df

Unnamed: 0,var1,var2,var3,var4
c,4,8,5,20
e,5,8,9,45


* Normalde df[] yazdığımız zaman bu yazımdan anlaşılan; df'in içerisine erişileceğidir ama eğer ki df'in içerisine yazılı olan string değişkenler 
  arasında yok ise bu şu şekilde algılanır; yeni değişken olarak ekle.

## Değişken Silme İşlemi

In [106]:
df.drop("var1", axis = 1, inplace = True)

In [107]:
df

Unnamed: 0,var2,var3,var4
c,8,5,20
e,8,9,45


* fancy ile birden fazla değişkeni tek seferde silme işlemini burada da uygulayabiliriz.

In [108]:
l = ["var2", "var3"]

In [109]:
df.drop(l, axis = 1, inplace = True)

In [110]:
df

Unnamed: 0,var4
c,20
e,45


## Gözlem ve Değişken Seçimi : loc & iloc

In [1]:
import numpy as np
import pandas as pd

m = np.random.randint(1, 30, size = (10, 3))
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"])
df

Unnamed: 0,var1,var2,var3
0,13,10,16
1,9,21,29
2,9,11,13
3,21,14,17
4,17,6,24
5,14,26,5
6,19,28,20
7,14,26,23
8,29,22,8
9,21,27,26


* **loc:** tanımlandığı şekliyle seçim yapmak için kullanılır. 

In [2]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,13,10,16
1,9,21,29
2,9,11,13
3,21,14,17


* normalde 3. indisin gelmemesini beklerdik ama loc kullandığımız için 3. index değerleri de gelir.

* **iloc:** alışık olduğumuz indexleme mantığı ile seçim yapar.

In [3]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,13,10,16
1,9,21,29
2,9,11,13


* alışık olduğumuz şekilde geldi. 3. indise kadar olan kısımlar geldi.

In [6]:
df.loc[0:4, "var2"]

0    10
1    21
2    11
3    14
4     6
Name: var2, dtype: int32

In [5]:
df.iloc[0:4, "var2"]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

* loc ve iloc'un bir farkı da burada karşımızı çıkıyor. loc'da değişkenleri kullanarak işlemler yapabiliyorken bu işlemleri iloc daha farklı şekilde gerçekleştiriyoruz. 

In [7]:
df.iloc[0:3]["var2"]

0    10
1    21
2    11
Name: var2, dtype: int32

* yukarıda da görüldüğü üzere değişkeni index seçiminin bitişinden sonra yaparak tekrar değişken seçimi yapabiliyoruz.

In [11]:
df.iloc[0:3, 1:3]

Unnamed: 0,var2,var3
0,10,16
1,21,29
2,11,13


* yukarıdaki yazım şeklini kullanarak da değişkenleri aktif edebiliriz.

## Koşullu Eleman İşlemleri

In [12]:
m = np.random.randint(1, 20, size = (10, 3))
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"])
df

Unnamed: 0,var1,var2,var3
0,13,14,17
1,17,15,4
2,13,13,4
3,17,13,18
4,13,4,17
5,3,8,9
6,18,12,11
7,11,2,19
8,9,19,4
9,4,6,14


* var2'de bulunan değerlerin 10'dan büyük olma durumlarını kontrol etmek istersek; 

In [16]:
df[df.var2 > 10]["var2"]

0    14
1    15
2    13
3    13
6    12
8    19
Name: var2, dtype: int32

In [25]:
df[(df.var2 > 10) & (df.var3 > 5)]

Unnamed: 0,var1,var2,var3
0,13,14,17
3,17,13,18
6,18,12,11


In [27]:
df[(df.var1 > 15), ["var1"]]

TypeError: '(0    False
1     True
2    False
3     True
4    False
5    False
6     True
7    False
8    False
9    False
Name: var1, dtype: bool, ['var1'])' is an invalid key

* yukarıdaki şekilde değişkenleri de göstermek istersek kodumuzu loc ifadesini de eklememiz gerekiyor;

In [28]:
df.loc[(df.var1 > 15), ["var1"]]

Unnamed: 0,var1
1,17
3,17
6,18


## Join İşlemleri

In [31]:
m = np.random.randint(5, 30, size = (5, 3))
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"])
df

Unnamed: 0,var1,var2,var3
0,12,10,7
1,25,14,24
2,15,9,21
3,29,18,18
4,8,28,28


In [33]:
df1 = df + 10
df1

Unnamed: 0,var1,var2,var3
0,22,20,17
1,35,24,34
2,25,19,31
3,39,28,28
4,18,38,38


In [34]:
pd.concat([df, df1])

Unnamed: 0,var1,var2,var3
0,12,10,7
1,25,14,24
2,15,9,21
3,29,18,18
4,8,28,28
0,22,20,17
1,35,24,34
2,25,19,31
3,39,28,28
4,18,38,38


* birleştirme işlemi yapıldı fakat indexlemeye dikkat edecek olursak değerler olduğu gibi kaldı, 4'ten sonra tekrar 0'a dönüyor ve df1'in index değerlerini yazıyor, bundan kurtulmak için ise;

In [37]:
pd.concat([df, df1], ignore_index = True)

Unnamed: 0,var1,var2,var3
0,12,10,7
1,25,14,24
2,15,9,21
3,29,18,18
4,8,28,28
5,22,20,17
6,35,24,34
7,25,19,31
8,39,28,28
9,18,38,38


* pd.concat ile daha farklı neler yapabilirizin cevabını bulmak için ise;

In [38]:
?pd.concat

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mconcat[0m[1;33m([0m[1;33m
[0m    [0mobjs[0m[1;33m:[0m [0mUnion[0m[1;33m[[0m[0mIterable[0m[1;33m[[0m[0mUnion[0m[1;33m[[0m[0mForwardRef[0m[1;33m([0m[1;34m'DataFrame'[0m[1;33m)[0m[1;33m,[0m [0mForwardRef[0m[1;33m([0m[1;34m'Series'[0m[1;33m)[0m[1;33m][0m[1;33m][0m[1;33m,[0m [0mMapping[0m[1;33m[[0m[0mUnion[0m[1;33m[[0m[0mHashable[0m[1;33m,[0m [0mNoneType[0m[1;33m][0m[1;33m,[0m [0mUnion[0m[1;33m[[0m[0mForwardRef[0m[1;33m([0m[1;34m'DataFrame'[0m[1;33m)[0m[1;33m,[0m [0mForwardRef[0m[1;33m([0m[1;34m'Series'[0m[1;33m)[0m[1;33m][0m[1;33m][0m[1;33m][0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mjoin[0m[1;33m=[0m[1;34m'outer'[0m[1;33m,[0m[1;33m
[0m    [0mignore_index[0m[1;33m:[0m [0mbool[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mkeys[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0

In [39]:
df.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [41]:
df1.columns = ["var1", "var2", "deg3"]
df1

Unnamed: 0,var1,var2,deg3
0,22,20,17
1,35,24,34
2,25,19,31
3,39,28,28
4,18,38,38


* Şuan da birleştirmek istediğimiz iki veri setimizin değişken adlandırmaları aynı değil, peki ne gibi bir sorunla karşılaşırız?;

In [42]:
pd.concat([df, df1])

Unnamed: 0,var1,var2,var3,deg3
0,12,10,7.0,
1,25,14,24.0,
2,15,9,21.0,
3,29,18,18.0,
4,8,28,28.0,
0,22,20,,17.0
1,35,24,,34.0
2,25,19,,31.0
3,39,28,,28.0
4,18,38,,38.0


* df veri setinde deg3 değişken değerleri olmadığı için Nan, df1 veri setinde de var3 değişken değerleri olmadığı için Nan ifadeleri ile karşılaştık

* normalde veri setlerinde değişkenler farklı değişkenlere sahip ise farklı işler için değerler tuttuğu düşünülerek birleştirme yapmak çok mantıklı olmaz, fakat biz iki veri setindeki değerlerimizinde aynı işe yaradıklarını düşünüerek bu hatadan kurtulmak istersek;

In [43]:
pd.concat([df, df1], join = "inner")

Unnamed: 0,var1,var2
0,12,10
1,25,14
2,15,9
3,29,18
4,8,28
0,22,20
1,35,24
2,25,19
3,39,28
4,18,38


* iki veri setinin kesişimine göre bir birleştirme işlemi yapılmış oldu.

In [56]:
pd.concat([df, df1], axis = 1, join = "outer")

Unnamed: 0,var1,var2,var3,var1.1,var2.1,deg3
0,12,10,7,22,20,17
1,25,14,24,35,24,34
2,15,9,21,25,19,31
3,29,18,18,39,28,28
4,8,28,28,18,38,38


## İleri Join İşlemleri

## birebir birleştirme

In [70]:
df1 = pd.DataFrame({'calisanlar' : ["Selman", "Furkan", "Enes", "Kubra"], 
                    'grup' : ["Muhedislik", "Muhasebe", "IT", "IT"]})
df1

Unnamed: 0,calisanlar,grup
0,Selman,Muhedislik
1,Furkan,Muhasebe
2,Enes,IT
3,Kubra,IT


In [71]:
df2 = pd.DataFrame({"calisanlar" : ["Furkan", "Enes", "Selman", "Kubra"],
                   "ilk_giris" : [2010, 2020, 2019, 2016]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Furkan,2010
1,Enes,2020
2,Selman,2019
3,Kubra,2016


In [72]:
pd.merge(df1, df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Selman,Muhedislik,2019
1,Furkan,Muhasebe,2010
2,Enes,IT,2020
3,Kubra,IT,2016


* merge fonksiyonu hangi değişkene göre birleştirme yapacağını kendisi anlıyor ve işlemlerini yapıyor, fakat değişkeni kendimiz belirtmek istersek;

In [73]:
pd.merge(df1, df2, on = "calisanlar")

Unnamed: 0,calisanlar,grup,ilk_giris
0,Selman,Muhedislik,2019
1,Furkan,Muhasebe,2010
2,Enes,IT,2020
3,Kubra,IT,2016


## çoktan teke birleştirme

In [74]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Selman,Muhedislik,2019
1,Furkan,Muhasebe,2010
2,Enes,IT,2020
3,Kubra,IT,2016


In [75]:
df4 = pd.DataFrame({"grup" : ["Muhasebe", "IT", "Muhedislik"], 
                  "mudur" : ["Rahmi", "Halil", "Büşra"]})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Rahmi
1,IT,Halil
2,Muhedislik,Büşra


In [76]:
pd.merge(df3, df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Selman,Muhedislik,2019,Büşra
1,Furkan,Muhasebe,2010,Rahmi
2,Enes,IT,2020,Halil
3,Kubra,IT,2016,Halil


* df4'te 3 çıktı df3'te ise 4 çıktı vardı, çoktan teke birleştirme yaparak df3, df4 merge'ü sonunda 4 çıktı aldık

## çoktan çoka birleştirme 

In [78]:
df5 = pd.DataFrame({"grup" : ["Muhasebe", "IT", "Muhebdislik", "Muhendislik", "Muhasebe", "IT"], 
                   "yetenekler" : ["mat", "excel", "kodlama", "linux", "excel", "yonetim"]})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,mat
1,IT,excel
2,Muhebdislik,kodlama
3,Muhendislik,linux
4,Muhasebe,excel
5,IT,yonetim


In [79]:
df1

Unnamed: 0,calisanlar,grup
0,Selman,Muhedislik
1,Furkan,Muhasebe
2,Enes,IT
3,Kubra,IT


In [80]:
pd.merge(df1, df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Furkan,Muhasebe,mat
1,Furkan,Muhasebe,excel
2,Enes,IT,excel
3,Enes,IT,yonetim
4,Kubra,IT,excel
5,Kubra,IT,yonetim


## Toplulaştırma ve Gruplama (Aggregation & Grouping)

## Basit toplulaştırma fonksiyonları
* count()
* first()
* last()
* mean()
* median()
* min ()
* max()
* std()
* var()
* sum()

In [4]:
import seaborn as sns

In [7]:
?sns.load_dataset

[1;31mSignature:[0m [0msns[0m[1;33m.[0m[0mload_dataset[0m[1;33m([0m[0mname[0m[1;33m,[0m [0mcache[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mdata_home[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [1;33m**[0m[0mkws[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Load a dataset from the online repository (requires internet).

Parameters
----------
name : str
    Name of the dataset (`name`.csv on
    https://github.com/mwaskom/seaborn-data).  You can obtain list of
    available datasets using :func:`get_dataset_names`
cache : boolean, optional
    If True, then cache data locally and use the cache on subsequent calls
data_home : string, optional
    The directory in which to cache data. By default, uses ~/seaborn-data/
kws : dict, optional
    Passed to pandas.read_csv
[1;31mFile:[0m      c:\users\selman\anaconda3\lib\site-packages\seaborn\utils.py
[1;31mType:[0m      function


* seaborn içerisindeki veri setlerinin isimlerine bakmak istersek yukarıda var olan github linki ile öğrenebiliriz: https://github.com/mwaskom/seaborn-data

In [10]:
df = sns.load_dataset("planets")
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [11]:
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [14]:
df.shape #kaç gözlemden ve kaç değişkenden oluştuğunu öğreniyoruz. (satır, sütun)

(1035, 6)

In [16]:
df.mean() #tüm değişkenlerin ortalama değerlerini verir.

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [17]:
df["distance"].mean() #sadece distance değişkeni için ortalama değer hesaplaması yapar.

264.06928217821786

In [19]:
df.min() #tüm değişkenler için minumum değerleri gösterir.

method            Astrometry
number                     1
orbital_period     0.0907063
mass                  0.0036
distance                1.35
year                    1989
dtype: object

In [20]:
df.max() #tüm değişkenler için maximum değerleri gösterir.

method            Transit Timing Variations
number                                    7
orbital_period                       730000
mass                                     25
distance                               8500
year                                   2014
dtype: object

In [22]:
df.count() #tüm değişkenler için kaç adet gözlem değeri olduğunu gösterir.

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [23]:
df.sum() #tüm değişkenler için değerleri toplar, gösterir.

method            Radial VelocityRadial VelocityRadial VelocityR...
number                                                         1848
orbital_period                                          1.98689e+06
mass                                                        1353.38
distance                                                     213368
year                                                        2079388
dtype: object

In [25]:
df.std() #tüm değişkenler için standart sapmalarını gösterir.

number                1.240976
orbital_period    26014.728304
mass                  3.818617
distance            733.116493
year                  3.972567
dtype: float64

In [26]:
df.var() #tüm değişkenler için varyans değerini gösterir.

number            1.540022e+00
orbital_period    6.767661e+08
mass              1.458183e+01
distance          5.374598e+05
year              1.578129e+01
dtype: float64

* tüm bu edindiğimiz bilgileri tek tek yazmak yerine tek bir fonksiyon yazarak da öğrenebiliriz;

In [27]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [28]:
df.describe().T #transpozunu alarak gösterir.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [30]:
df.dropna().describe().T #gözlemlerin içerisinde değeri olmayanlar çıkarıldı tekrar listelendi.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


## Gruplama İşlemleri (Grouping)

In [32]:
import pandas as pd
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'veriler': [10, 11, 43, 12, 65, 34]}, 
                 columns = ['gruplar', 'veriler'])
df

Unnamed: 0,gruplar,veriler
0,A,10
1,B,11
2,C,43
3,A,12
4,B,65
5,C,34


* Gruplama İşlemi: Veri setinde yer alan kategorik değişkenlerin bulunması ve gruplar özelinde işlemler yapılmasıdır.

In [35]:
df.groupby('gruplar')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F9F6A6B4C8>

In [38]:
df.groupby('gruplar').mean() #diğer toplulaştırma fonksiyonları da kullanılabilir.

Unnamed: 0_level_0,veriler
gruplar,Unnamed: 1_level_1
A,11.0
B,38.0
C,38.5


* gruplama ve toplulaştırma işlemleri genellikle bir arada kullanılırlar.

In [39]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [40]:
df.groupby("method")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F9F6A7BD48>

In [41]:
df.groupby("method")["distance"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001F9F68D69C8>

In [42]:
df.groupby("method")["distance"].mean()

method
Astrometry                         17.875000
Eclipse Timing Variations         315.360000
Imaging                            67.715937
Microlensing                     4144.000000
Orbital Brightness Modulation    1180.000000
Pulsar Timing                    1200.000000
Pulsation Timing Variations              NaN
Radial Velocity                    51.600208
Transit                           599.298080
Transit Timing Variations        1104.333333
Name: distance, dtype: float64

* NOT: Bir önceki örnekte direkt olarak groupby yaptıktan sonra mean fonksiyonunu yazarak ortalamasını almıştık fakat planets datasetinde bunu yapamıyoruz, 
    çünkü ilk örneğimizde tek bir değişken alanı vardı fakat planets datasetimizde ise birden fazla değişken değeri var dolayısıyla groupby alanını seçtikten
    sonra hangi alana göre ortalama alacağımızı da belirtmemiz gerekiyor.

* Yukarıdaki çıktı; planets datasetindeki methodları grupladı daha sonrasında ise distance değerlerinin ortalamarını aldı.

In [45]:
df.groupby("method")["distance"].describe().T

method,Astrometry,Eclipse Timing Variations,Imaging,Microlensing,Orbital Brightness Modulation,Pulsar Timing,Pulsation Timing Variations,Radial Velocity,Transit,Transit Timing Variations
count,2.0,4.0,32.0,10.0,2.0,1.0,0.0,530.0,224.0,3.0
mean,17.875,315.36,67.715937,4144.0,1180.0,1200.0,,51.600208,599.29808,1104.333333
std,4.094148,213.203907,53.736817,2076.611556,0.0,,,45.559381,913.87699,915.819487
min,14.98,130.72,7.69,1760.0,1180.0,1200.0,,1.35,38.0,339.0
25%,16.4275,130.72,22.145,2627.5,1180.0,1200.0,,24.4125,200.0,597.0
50%,17.875,315.36,40.395,3840.0,1180.0,1200.0,,40.445,341.0,855.0
75%,19.3225,500.0,132.6975,4747.5,1180.0,1200.0,,59.2175,650.0,1487.0
max,20.77,500.0,165.0,7720.0,1180.0,1200.0,,354.0,8500.0,2119.0


## İleri Toplulaştırma İşlemleri (Aggregate, filter, transform, apply)

In [47]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'degisken1': [10, 18, 20, 98, 43, 17],
                  'degisken2': [41, 36, 61, 25, 76, 11]},
                  columns = ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,41
1,B,18,36
2,C,20,61
3,A,98,25
4,B,43,76
5,C,17,11


## Aggregate

In [49]:
df.groupby("gruplar")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F9F6A7FF48>

In [51]:
import numpy as np
df.groupby("gruplar").aggregate(["min", np.median, max])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,54.0,98,25,33,41
B,18,30.5,43,36,56,76
C,17,18.5,20,11,36,61


* NOT: yukarıdaki kod satırında aggregate'in kullanımında min'i tırnak içerisinde diğer iki fonksiyonu ise direkt olarak yazdık, burada şunu bilmemiz gerekiyor;
    pandas'ın bize sunduğu fonksiyonları kullanırken tırnak içinde veya direkt yazmamız da bir problem yok istediğimiz şekilde kullanabiliriz fakat median
    numpy'dan gelen bir fonksiyon olduğu için tırnak içerisinde yazmak istersek hata alırız.

* her iki değişken içinde aynı fonksiyonları uygulamak istemiyorsak;

In [53]:
df.groupby("gruplar").aggregate({'degisken1' : "min", "degisken2" : "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,41
B,18,76
C,17,61


## Filter

In [54]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'degisken1': [10, 18, 20, 98, 43, 17],
                  'degisken2': [41, 36, 61, 25, 76, 11]},
                  columns = ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,41
1,B,18,36
2,C,20,61
3,A,98,25
4,B,43,76
5,C,17,11


In [57]:
def filter_func(x):
    return x["degisken1"].std() > 9

In [58]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,41
1,B,18,36
3,A,98,25
4,B,43,76


* grup isimlerine göre gruplama yapıldı sonrasında ise standart sapmaları 9'dan büyük olanlar listeleniyor

In [59]:
df.groupby("gruplar").std()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,62.225397,11.313708
B,17.67767,28.284271
C,2.12132,35.355339


* yukarıda da görüldüğü gibi c'nin standart sapma değeri 9'dan küçük

## Transform

In [61]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'degisken1': [10, 18, 20, 98, 43, 17],
                  'degisken2': [41, 36, 61, 25, 76, 11]},
                  columns = ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,41
1,B,18,36
2,C,20,61
3,A,98,25
4,B,43,76
5,C,17,11


In [62]:
df["degisken1"]*3

0     30
1     54
2     60
3    294
4    129
5     51
Name: degisken1, dtype: int64

In [65]:
df_a = df.iloc[:, 1:3]
df_a

Unnamed: 0,degisken1,degisken2
0,10,41
1,18,36
2,20,61
3,98,25
4,43,76
5,17,11


In [66]:
df_a.transform(lambda x: x - x.mean())

Unnamed: 0,degisken1,degisken2
0,-24.333333,-0.666667
1,-16.333333,-5.666667
2,-14.333333,19.333333
3,63.666667,-16.666667
4,8.666667,34.333333
5,-17.333333,-30.666667


* iloc işlemi yapmamızın sebebi; transform yaparken numeric bir işlem yapıyor olacaktık fakat gruplar alanı bizim işlemimize aykırı olacaktı bundan dolayı
iloc kullanarak gruplar değişkeninden kurtulduk ve df_a değişkeni ile transform işlemimizi yaptık.

## Apply

In [68]:
df = pd.DataFrame({'degisken1': [10, 18, 20, 98, 43, 17],
                  'degisken2': [41, 36, 61, 25, 76, 11]},
                  columns = ['degisken1', 'degisken2'])
df

Unnamed: 0,degisken1,degisken2
0,10,41
1,18,36
2,20,61
3,98,25
4,43,76
5,17,11


In [70]:
df.apply(np.sum) #sütun bazlı toplama işlemi yaptık

degisken1    206
degisken2    250
dtype: int64

In [71]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'degisken1': [10, 18, 20, 98, 43, 17],
                  'degisken2': [41, 36, 61, 25, 76, 11]},
                  columns = ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,41
1,B,18,36
2,C,20,61
3,A,98,25
4,B,43,76
5,C,17,11


df.groupby("gruplar").apply(np.sum)

## Pivot Tablolar

* groupby ile karıştırılmamalıdır, groupby'ın çok boyutlu versiyonu olarak düşünebiliriz

In [73]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


* cinsiyete göre gözlemleri grupladıktan sonra hayatta kalmalarını gözlemleyecek olursak;

In [77]:
titanic.groupby("sex")["survived"].mean()

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

* gösterimi dataframe şeklinde yapmak için survived alanına bir köşeli parantez daha eklememiz gerekir.

In [78]:
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [79]:
titanic.groupby(["sex", "class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


* x ekseninde sex' e göre y ekseninde ise class'a göre kesiştirme işlemi yaptık

* yukarıdaki tablodan ekstra şu bilgileri çıkarabiliriz; erkeklerde first class yolcuların hayatta kalma oranı 0.36 iken third class yolcularda bu oran 0.15'tir.

* unstack fonksiyonunu kullanma sebebimiz ise tablonun okunabilirliğini artırmak. unstack kullanmamış olsaydık görünüm şu şekilde olacaktı;

In [80]:
titanic.groupby(["sex", "class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [81]:
titanic.pivot_table("survived", index = "sex", columns = "class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


* Daha az kod yazarak pivotlama işlemini yapmış oluyoruz. index alanına satırda columns alanına ise sütunda görmek istediğimiz bilgileri yazarak sonuç alabiliriz.

In [82]:
titanic.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [86]:
age = pd.cut(titanic["age"], [10, 18, 90])
age.head(10)

0    (18.0, 90.0]
1    (18.0, 90.0]
2    (18.0, 90.0]
3    (18.0, 90.0]
4    (18.0, 90.0]
5             NaN
6    (18.0, 90.0]
7             NaN
8    (18.0, 90.0]
9    (10.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(10, 18] < (18, 90]]

In [87]:
titanic.pivot_table("survived", ["sex", age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(10, 18]",1.0,1.0,0.52381
female,"(18, 90]",0.972973,0.9,0.423729
male,"(10, 18]",0.666667,0.0,0.103448
male,"(18, 90]",0.375,0.071429,0.133663


## Dış Kaynaklı Veri Okuma

In [88]:
pd.read_csv("reading_data/ornekcsv.csv") #ilk argüman okunmak istenen dosyanın uzantısıdır.

Unnamed: 0,a;b;c
0,78;12;1
1,78;12;2
2,78;324;3
3,7;2;4
4,88;23;5
5,6;2;
6,56;11;6
7,7;12;7
8,56;21;7
9,346;2;8


* eğer ki verileri txt veya csv formatından çekiyor isek karşımıza genelde yukarıdaki gibi karmaşık bir çıktı gelir çünkü değişkenler birbirlerinden bir ayraç
ile ayrılırlar

* ayraç olarak default virgül kullanılıyor read_csv fonksiyonunda fakat bize gelen veride noktalı virgül ile yapılmış bu işlem. Düzeltmek için;

In [89]:
pd.read_csv("reading_data/ornekcsv.csv", sep = ";")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


* txt okumak için;

In [92]:
pd.read_csv("reading_data/duz_metin.txt")

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


* excel okumak için;

In [94]:
df = pd.read_excel("reading_data/ornekx.xlsx")
df

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [95]:
type(df)

pandas.core.frame.DataFrame

In [96]:
df.head()

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0


In [97]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

In [98]:
df.columns = ["A", "B", "C"]
df

Unnamed: 0,A,B,C
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [99]:
pd.read_csv("reading_data/data.txt")

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
