In [None]:
import pandas as pd

**Sağlıkta Yapay Zeka Uygulama Temelleri Sertifika Programı (SAYZ)**  

<br>

Modül 2.5

# `pandas` ile veri manipülasyonu

> 09/06/2024
> *Doç. Dr. Barbaros Yet*

> **Pandas eğitimleri**
> - https://youtu.be/vmEHCJofslg?si=gVLHUQwBXRwFtcyf
> - https://youtu.be/e60ItwlZTKM?si=q_ScScIrANYxq5nD
> - https://wesmckinney.com/book/

## Pandas veri yapıları

1. Seri
2. Dataframe (Data çerçevesi)


## Seriler

Seriler tek boyutlu veri yapılarıdır. Seriler eksen etiketlerine sahip olabilir ve herhangi bir Python nesnesini tutabilirler (yalnızca sayısal verileri tutmak yerine).

In [None]:
ser = pd.Series(data=[30,50,70], index=["x","y","z"])
display(ser)

Seri elemanlarını hem indeks numarası hem de etiketleri ile alabiliriz.

In [None]:
ser["x"]

In [None]:
ser.iloc[1]

İki seri ile işlem indekslere göre yapılır

In [None]:
ser2 = pd.Series({'q': 16, 'w':5, 'x':-15, 'y':12})

ser + ser2

## Dataframe (Veri Çerçevesi)

Dataframe, sütun ve satırların dizin etiketlerine sahip olabildiği ve *her sütunun* farklı türdeki verileri (sayısal, metin, nesne vb.) depolayabildiği iki boyutlu veri yapılarıdır.

In [None]:
df = pd.DataFrame({'Soyadı' : ['Simpsonn', 'Hunter', 'Harvey', 'Snow'],
                   'Bölüm': ['Anestezi', 'Cerrahi', 'Fizyoloji', 'Epidemiyoloji'],
                   'Yıl': [3, 3, 4, 5],
                   'Not': [9, 7, 10, 9]})

## Sütunlar

Sütunları ismiyle seçebiliriz

In [None]:
df[['Bölüm','Not']]

:candle: 'Yıl' isimli sütunu seçin

Yeni sütunlar yaratma

In [None]:
df['Not/Yıl'] = df['Not'] / df['Yıl']
df

:candle: Yıl'ı 10'a bölerek `Std_Yıl` isimli yeni bir sütun yaratın

### Satırlar

Satırlara index ismi verebiliriz. Aşağıda `dfi` dataframe'inde satırlara isim verdik.

In [None]:
dfi = df.set_index(pd.Index(["Hekim_A", "Hekim_B", "Hekim_C", "Hekim_D"]))

In [None]:
dfi

Satırları:
- `loc` kullanarak indeks ismi ile
~~~python
dfi.loc(["Hekim_A"])
~~~
- `iloc` kullanarak indeks numarası ile seçebiliriz
~~~python
dfi.iloc[1]
~~~

> Python'da indeksler sıfırdan başlar. Bir dizinin 1. elemanın indeksi 0'dır. 2. elemanının indeksi birdir. Örn, `dfi.iloc[1]` 2. satırı seçer.

<br>

:candle: `dfi`'da `"Hekim_C"` isimli satırı seçin.

:candle: `dfi`'da 1. satırı seçin.

:candle: `dfi`'da 1. ve 3. satırı seçin.

### Satır ve Sütun Seçme

Aşağıda satır ve sütun seçme için değişik yöntemler var


In [None]:
dfi['Not']['Hekim_A']

In [None]:
dfi.loc['Hekim_A','Not']


In [None]:
dfi.iloc[1,2]


In [None]:
dfi.loc[['Hekim_A','Hekim_C'],['Not','Bölüm']]


:candle: `dfi`'da 1. ve 3. satırı ve 2. ve 3. sütunu seçin.

### Değer girme/değiştirme

Bir satır ve sütundaki değeri isimleriyle veya endeks numaralarıyla yeni değer atayabiliriz. Örneğin aşağıda `Hekim_A` 'nın `Not`'u  7 olarak değiştiriliyor.

In [None]:
dfi.loc['Hekim_A','Not'] = 7

:candle: Aynı işlemi endeks numaralarıyla `iloc` ile de yapabiliriz. 1. Öğrencinin soyadı yanlış yazılmış. 1. Öğrencinin soyadını `"Simpson"` olarak değiştirin (0 endeksli satır ve sütundaki değer).

### Koşullu seçme

Sütunlarda

- `>` büyüktür
- `<` küçüktür
- `==` eşittir
- `>=` büyük veya eşittir
- `<=` küçük veya eşittir
- `&` ve
- `|` veya

işleçleri kullanılarak koşullu seçim yapılabilir. 

Örneğin:

Notu 8'den büyük olanlar

In [None]:
dfi.loc[(dfi['Not'] > 8)]

3. Yıl'da olanlar

In [None]:
dfi.loc[(dfi['Yıl'] == 3)]

:candle: Notu 8'den büyük **ve** 3. sınıfta olanları seçin.

### Veriyle ilgili bilgi

1. `info()` her sütunun türünü verir. 
2. `describe()` her (sayısal) sütunun dağılımı hakkında özet bilgi verir.

In [None]:
dfi.info()

:candle: `describe` metoduyla `dfi`'ın özet istatistklerini gösterin

## Kopya (Copy) ve Görünüm (View) Farkı

`dfi_lr` veri çerçevesi aşağıda `dfi` veri çerçevesinden oluşturuldu. Verilerin kaç kopyasına sahibiz? Yalnızca verilere **baktığımız sürece** bu sorunun cevabı önemli değil.

Aslında şu ana kadar elimizde yalnızca **tek** bir `dfi` kopyası var. Yeni veri çerçevesi, veriler kopyalanmadan *görünüm* olarak oluşturuldu. Bu davranışı kontrol etmenin kolay olmadığını  unutmayın.

In [None]:
dfi_lr = dfi[dfi['Not']<10]
dfi_lr

In [None]:
dfi.loc["Hekim_C","Not"] = 5
dfi

In [None]:
dfi_lr

Yukarıda `dfi` dataframe'indeki bir hücreye yeni bir değer atadık. `dfi_lr` bu dataframe'in görüntüsü olduğu için aynı değer onda da değişti.

#### Veriyi kopyalama

Aşağıda verilerin (görüntüden farklı olarak) bir kopyasını oluşturuyoruz.
 * Verilerin kopyalanması yer kaplar; gerekmedikçe verileri kopyalamamalıyız
 * Verileri değiştirirseniz değişiklikler tüm görünümleri etkileyecektir. Genellikle verileri değiştirmeden önce kopyalayın
 * Verilerin kopyalanıp kopyalanmadığından emin olmak her zaman kolay değildir

In [None]:
dfi_cp = dfi.copy()
dfi.loc['Hekim_A','Not'] = 7
dfi

In [None]:
dfi_cp

## Veri Okuma

Aşağıdaki hücre, not defteriyle aynı klasörde "test.csv" adında bir csv dosyası oluşturur. Bu dosyadaki veriler, [Kaggle](https://www.kaggle.com/datasets/vedavyasv/usa-housing/) adresinde bulunan *USA_Housing* veri kümelerinin ilk 10 satırından alınmıştır. Verideki bazı değerler rasgele silinmiştir (eksik değer). Veri setinin tamamını csv dosyası olarak indirebilir ve dilerseniz yükleyebilirsiniz.

In [None]:
with open('test.csv', 'w') as f:
    f.write(
'''Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
79545.45857431678,5.682861321615587,7.009188142792237,4.09,23086.800502686456,1059033.5578701235,"208 Michael Ferry Apt. 674 Laurabury, NE 37010-5101"
79248.64245482568,6.0028998082752425,6.730821019094919,3.09,40173.07217364482,1505890.91484695,"188 Johnson Views Suite 079 Lake Kathleen, CA 48958"
61287.067178656784,5.865889840310001,8.512727430375099,5.13,36882.15939970458,1058987.9878760849,"9127 Elizabeth Stravenue Danieltown, WI 06482-3489"
63345.24004622798,7.1882360945186425,5.586728664827653,3.26,34310.24283090706,,"USS Barnett FPO AP 44820"
59982.197225708034,5.040554523106283,7.839387785120487,4.23,26354.109472103148,630943.4893385402,"USNS Raymond FPO AE 09386"
80175.7541594853,4.9884077575337145,6.104512439428879,4.04,26748.428424689715,1068138.0743935304,"06039 Jennifer Islands Apt. 443 Tracyport, KS 16077"
64698.46342788773,6.025335906887153,8.147759585023431,3.41,60828.24908540716,1502055.8173744078,"4759 Daniel Shoals Suite 442 Nguyenburgh, CO 20247"
78394.33927753085,6.9897797477182815,6.620477995185026,,36516.358972493836,1573936.5644777215,"972 Joyce Viaduct Lake William, TN 17778-6483"
59927.66081334963,5.36212556960358,6.3931209805509015,2.3,29387.39600281585,798869.5328331633,"USS Gilbert FPO AA 20957"
81885.92718409566,4.423671789897876,8.167688003472351,6.1,40149.96574921337,1545154.8126419624,"Unit 9446 Box 0958 DPO AE 97025"
''')


Aşağıda yarattığımız `test.csv` i pandas data frame olarak okuyoruz. `head()` metoduyla ilk 5 satırını gösteriyoruz. 

In [None]:
housing_sh = pd.read_csv('test.csv')
housing_sh.head()


`Address` değişkenini veriden çıkartıyoruz` ve sadece ortalama getirisi 60000 üzerinde olan bölgelerdeki evleri filtreliyoruz. 

In [None]:
housing_sh = housing_sh.drop(['Address'],axis=1)
housing_sh = housing_sh[housing_sh['Avg. Area Income'] > 60000]
housing_sh.head()

## Eksik Veriler

Yukarıda `NaN` ile gördüğünüz değerler eksik verilerdir. Bunları `dropna` metoduyla çıkarabilir veya `fillna` metoduyla belirli bir değerle değiştirebilirsiniz.

In [None]:
housing_full = housing_sh.dropna()
housing_full.head()

## Veriyi görselleştirme

Veriyi `.plot` metodunu kullanarak görselleştirebiliriz. Bu iş Python'un `matplotlib` kütüphanesini kullanır

In [None]:
dfi.plot(kind="bar", y = 'Not') 


In [None]:
dfi.plot(kind="scatter", x = 'Yıl', y = 'Not') 

## Farklı Görselleştirme Kütüphaneleri

`seaborn` kütüphanesi veriden keşifsel analiz yapmak için opsiyonlar sunar.

Önce `seaborn`u aktarmalıyız (import etmeliyiz).

In [None]:
import seaborn as sns
sns.pairplot(housing_sh)


In [None]:
sns.heatmap(housing_sh.corr(), annot=True)


## Düzenl veri

Aşağıdaki veri Modül 2'de anlattığımız veri düzenleme prensiplerine uyuyor mu?


In [None]:
df_typical = pd.DataFrame({'treatmenta' : [None, 16, 3],
                           'treatmentb': [2, 11, 1]}, ['Ged', 'Tenar', 'Tehanu'])
df_typical

Düzenli veri prensiplerine göre her sütun bir değişken olmalı ve her satır bir gözlem olmadı. Bu veride üç değişkeni ve altı gözlemi temsil eden 18 değerimiz var.

Değişkenler:
- **kişi**, üç olası değerle (Ged, Tenar, Tehanu)
- **tedavi**, iki olası değerle (a ve b)
- **sonuç**, eksik değer (NaN) dahil olmak üzere altı sonuç vardır (NaN, 2, 16, 11, 3, 1)

:question: Bu veriyi düzenli veri prensiplerine uygun bir formata sokabilir miyiz?


### `melt` metodu

`melt` DataFrame'i geniş formattan uzun formata çıkarır. Verideki değişkenleri tanımlayıcı (`id_vars`) ve değer (`value_vars`) olarak tanımlayıp değişken ve değer isimli iki sütunlu formata dönüştürür.

Önce satır endek isimlerini ayrı bir sütun yapalım:

In [None]:
df_typical['name'] = df_typical.index

Daha sonra `melt` i kullanarak her bir satırı gözlem her bir sütunu da değişken haline dönüştürelim

In [None]:
df_typical.melt(id_vars=['name'],
                value_vars=['treatmenta','treatmentb'], 
                var_name="treatment",
                value_name="result")

In [None]:
pd.isna(housing_sh).sum()

In [None]:
df_typical = pd.DataFrame({'treatmenta' : [None, 16, 3],
                           'treatmentb': [2, 11, 1]}, ['Ged', 'Tenar', 'Tehanu'])

df_typical

In [None]:
df_typical['name'] = df_typical.index

In [None]:
df_tidy = df_typical.melt(id_vars=['name'],
                value_vars=['treatmenta','treatmentb'], 
                var_name="treatment",
                value_name="result")

df_tidy