## Keşifçi Veri Analizi | Becerileri Pekiştirme

Aşağıda ihtiyacımız doğrultusunda kullanacağımız kütüphaneleri yükleyelim.

In [None]:
import numpy as np
import seaborn as sns
import pandas as pd

# numpy: Çok boyutlu diziler ve matrisler için destek eklerken, bu dizilerde çalışmak için yüksek düzeyli matematiksel fonksiyonların geniş bir koleksiyonudur.
# seaborn: matplotlib tabanlı bir Python veri görselleştirme kitaplığıdır. Bilgilendirici istatistiksel grafikler çizmek için üst düzey bir arayüz sağlar
# pandas: Bu kütüphane temel olarak zaman etiketli serileri ve sayısal tabloları işlemek için bir veri yapısı oluşturur ve bu şekilde çeşitli işlemler bu veri yapısı üzerinde gerçekleştirilebilir olur.


Veri çerçevemizi bulunduğumuz dizinden yükleyelim ve bir veri çerçevesi haline getirerek df değişkenine atayalım. (pd.read_csv(...csv))

In [None]:
df = pd.read_csv("../input/iris-flower-dataset/IRIS.csv")

Veri çerçevesinin ilk 5 gözlemini görüntüleyelim.

In [None]:
df.head()
# "head" fonksiyonu; konuma bağlı olarak nesne için ilk n satırı döndürür . Nesnenizin içinde doğru veri türü olup olmadığını hızlı bir şekilde test etmek için kullanışlıdır.

Veri çerçevesinin kaç öznitelik ve kaç gözlemden oluştuğunu görüntüleyelim.

In [None]:
df.shape
# "shape" fonksiyonu işlevli bir dizinin şeklini döndürür ve bu şekil tam sayılardan oluşur bu sayılar satır - stün belirtecidir. 

Veri çerçevesindeki değişkenlerin hangi tipte olduğunu ve bellek kullanımını görüntüleyelim.

In [None]:
df.info()
# "info" fonksiyonu bilgi endeksi,veri tipi, boş olmayan değerler ve bellek kullanımı da dahil olmak üzere bir DataFrame hakkında bilgi verir.

Veri çerçevesindeki sayısal değişkenler için temel istatistik değerlerini görüntüleyelim.

Standart sapma ve ortalama değerlerden çıkarımda bulunarak hangi değişkenlerin ne kadar varyansa sahip olduğu hakkında fikir yürütelim.

In [None]:
df.describe().T
# "decribe" fonksiyonu; tanımlayıcı istatistikler, NaN değerler hariç bir veri kümesinin dağılımının merkezi eğilimini, şeklini ve dağılımını özetleyenleri içerir .

Veri çerçevesinde hangi öznitelikte kaç adet eksik değer olduğunu gözlemleyelim.

In [None]:
df.isna().sum()
# "isna" foksiyonu; eksik değerleri tespit etmek için kullanılır.
# "sum"  fonsiyonunu da bu eksik değerlerimizin kaç adet olduğunu öğrenmek için bu kısımda kullanıyoruz.

Sayısal değişkenler arasında korelasyon olup olmadığını göstermek için korelasyon matrisi çizdirelim. Korelasyon katsayıları hakkında fikir yürütelim.

En güçlü pozitif ilişki hangi iki değişken arasındadır?

In [None]:
df.corr()
# "corr" fonksiyonu; veri setindeki tüm sütunların ikili korelasyonunu bulmak için kullanılır.

Korelasyon katsayılarını daha iyi okuyabilmek için ısı haritası çizdirelim.

In [None]:
corr = df.corr()
sns.heatmap(corr, xticklabels=corr.columns.values, 
                  yticklabels= corr.columns.values)
# "heatmap"; verileri 2 boyutlu bir biçimde temsil etmenin bir yoludur. Veri değerleri grafikte renkler olarak temsil edilir. Isı haritasının amacı, bilgilerin renkli bir görsel özetini sağlamaktır.

Veri çerçevemizin hedef değişkeninin "variety" benzersiz değerlerini görüntüleyelim.

In [None]:
df["species"].unique()
# "unique" fonksyonu; Verileri analiz ederken, belirli sütunlardadaki benzersiz değerleri görüntülemek için kullanılır. 

Veri çerçevemizin hedef değişkeninin "variety" benzersiz kaç adet değer içerdiğini görüntüleyelim.

In [None]:
df["species"].nunique()
# "nunique" fonksiyonu; istenen verilerdeki benzersiz değerlerin adetini gösterir.

Veri çerçevesindeki sepal.width ve sepal.length değişkenlerinin sürekli olduğunu görüyoruz. Bu iki sürekli veriyi görselleştirmek için önce scatterplot kullanalım.

In [None]:
sns.scatterplot(x="sepal_length", y ="sepal_width",data= df)
# "scatterplot" fonksiyonu; iki farklı değişkenin arasındaki ilişkiyi belirlemek için kullanılır. İlgili iki değişkenin arasında direkt olarak bir ilişki bulunup bulunmadığı ve bu ilişkinin ne derece güçlü olduğu görülebilir. 

Aynı iki veriyi daha farklı bir açıdan frekanslarıyla incelemek için jointplot kullanarak görselleştirelim. 

In [None]:
sns.jointplot(x="sepal_length", y ="sepal_width",data= df, color = "blue")
#  açılım grafiği ile histogramı birleştirerek bize iki değişkenli dağılımlar hakkında detaylı bilgi verir.
#  Frekans bir olayın sıklığı, gözlemin bir deneyde veya çalışmada meydana gelme sıklığına / kaydedilme sayısına denmektedir.

Aynı iki veriyi scatterplot ile tekrardan görselleştirelim fakat bu sefer "variety" parametresi ile hedef değişkenine göre kırdıralım. 

3 farklı renk arasında sepal değişkenleriyle bir kümeleme yapılabilir mi? Ne kadar ayırt edilebilir bunun üzerine düşünelim.

In [None]:
sns.scatterplot(x="sepal_length", y ="sepal_width", hue="species", data= df)

value_counts() fonksiyonu ile veri çerçevemizin ne kadar dengeli dağıldığını sorgulayalım. 

In [None]:
df["species"].value_counts()
# value_counts(); sütundaki NaN olmayan her bir unique değerin kaç kez kullanıldığını gösteren bir seri döndürür.

Keman grafiği çizdirerek sepal.width değişkeninin dağılımını inceleyin. 

Söz konusu dağılım bizim için ne ifade ediyor, normal bir dağılım olduğunu söyleyebilir miyiz?

In [None]:
sns.violinplot(x="species", y="sepal_width", data= df)
# "violinplot" fonksiyonu; sayısal değerler için birden fazla istatistiksel çıkarım yapmamızı sağlayan hem box plot (kutu grafiği) hem de kernel density plotun (yoğunluk grafiği) bir karışımıdır

Daha iyi anlayabilmek için sepal.width üzerine bir distplot çizdirelim.

In [None]:
sns.displot(df["sepal_width"])
# "displot"; veri değişkenini temsil eden eksenin bir dizi ayrı bölmeye bölündüğü ve her bölmeye düşen gözlem sayısının ilgili çubuğun yüksekliği kullanılarak gösterildiği bir çubuk grafiği oluşturur.

Üç çiçek türü için üç farklı keman grafiğini sepal.length değişkeninin dağılımı üzerine tek bir satır ile görselleştirelim.

In [None]:
sns.violinplot(x="species", y="sepal_length", data= df)

Hangi çiçek türünden kaçar adet gözlem barındırıyor veri çerçevemiz?

50 x 3 olduğunu ve dengeli olduğunu value_counts ile zaten görmüştük, ancak bunu görsel olarak ifade etmek için sns.countplot() fonksiyonuna variety parametresini vereilm.

In [None]:
sns.countplot(x="species", data=df)
# "countplot"; stünlar kullanarak her kategorik bölmedeki gözlemlerin sayısını göstermek için kullanılır.

sepal.length ve sepal.width değişkenlerini sns.jointplot ile görselleştirelim, dağılımı ve dağılımın frekansı yüksek olduğu bölgelerini inceleyelim.

In [None]:
sns.jointplot(x=df["sepal_length"], y=df["sepal_width"], color="purple")

Bir önceki hücrede yapmış olduğumuz görselleştirmeye kind = "kde" parametresini ekleyelim. Böylelikle dağılımın noktalı gösterimden çıkıp yoğunluk odaklı bir görselleştirmeye dönüştüğünü görmüş olacağız.

In [None]:
sns.jointplot(x=df["sepal_length"], y=df["sepal_width"],kind="kde", color="purple")

scatterplot ile petal.length ve petal.width değişkenlerinin dağılımlarını çizdirelim.

In [None]:
sns.scatterplot(y="petal_length", x ="petal_width",data= df)

Aynı görselleştirmeye hue = "variety" parametresini ekleyerek 3. bir boyut verelim.

In [None]:
sns.scatterplot(y="petal_length", x ="petal_width",hue="species",data= df)

sns.lmplot() görselleştirmesini petal.length ve petal.width değişkenleriyle implemente edelim. Petal length ile petal width arasında ne tür bir ilişki var ve bu ilişki güçlü müdür? sorusunu yanıtlayalım.

In [None]:
sns.lmplot(x="petal_length", y="petal_width",data=df)
# "lmplot" fonksiyonu; bir FacetGrid üzerine bir dağılım grafiği çizmek için kullanılır.

Bu sorunun yanıtını pekiştirmek için iki değişken arasında korelasyon katsayısını yazdıralım. 

In [None]:
df.corr()["petal_length"]["petal_width"]

Petal Length ile Sepal Length değerlerini toplayarak yeni bir total length özniteliği oluşturalım.

In [None]:
df["total_length"] = df["sepal_length"] + df["petal_length"]

total.length'in ortalama değerini yazdıralım. 

In [None]:
df["total_length"].mean()
# "mean" fonksiyonu; belirli bir sayı listesinin ortalamasını hesaplamak için kullanılabilir

total.length'in standart sapma değerini yazdıralım.

In [None]:
df["total_length"].std()
# "std"; fonksiyonu belirtilen eksen boyunca standart sapmayı hesaplamak için kullanılır.

sepal.length'in maksimum değerini yazdıralım.

In [None]:
df["sepal_length"].max()
# "max" fonksiyonu; dizindeki en büyük öğeyi döndürür.

sepal.length'i 5.5'den büyük ve türü setosa olan gözlemleri yazdıralım.

In [None]:
df[(df["sepal_length"]>5.5 )& (df["species"]=="Iris-setosa")]

petal.length'i 5'den küçük ve türü virginica olan gözlemlerin sadece sepal.length ve sepal.width değişkenlerini ve değerlerini yazdıralım.

In [None]:
df.query('petal_length<5 & species =="Iris-virginica"')[["sepal_length","sepal_width"]]
#Bir veri çerçevesini filtrelemek için birçok yöntem vardır ve query() filtreleme işleminde kullanlılan bir fonksiyonudur.

Hedef değişkenimiz variety'e göre bir gruplama işlemi yapalım değişken değerlerimizin ortalamasını görüntüleyelim.

In [None]:
df.groupby(["species"]).mean()
# "groupby"; DataFrame'i bir eşleyici kullanarak veya bir dizi sütun ile gruplamamızı sağlar.

Hedef değişkenimiz variety'e göre gruplama işlemi yaparak sadece petal.length değişkenimizin standart sapma değerlerini yazdıralım. 

In [None]:
df.groupby(["species"]).std()["petal_length"]

Emeğiniz, ayırdığınız vakit ve ilginiz için teşekkürler.