# Pandas .plot API ile veri görselleştirme.

Pandas kütüphanesini genel olarak veri manipülasyonu ve veri analizi için kullanıyoruz ancak pandas kütüphanesini temel veri görselleştirme işleri içinde kullanabiliriz. Pandas içerisinde arkaplanda matplotlib kütüphanesini kullanan ".plot" api'ı bulunmakta ve bunun yardımıyla ihtiyacımız olan grafiklerin çoğunu tek satırlık kodlarla elde edebiliriz. Ancak grafiğinizde özelleştirme yapmak istiyorsanız doğrudan matplotlib, seaborn yada plotly kütüphanesini kullanmanızı öneririm. .plot api'ı hızlı veri görselleştirme çözümü için oluşturulmuştur ve daha komplike ve sunum amaçlı işler için asıl kütüphanelerin kullanılması daha faydalı olabilir.  

> Not: Bu notebook görselleştirme amaçlı olduğu için her parametrenin çıktısını tek tek göstermek yerine parametreleri daha iyi anlamanız adına parametreleri anlattıktan ve kullandıktan sonra devam edeceğim. Detayına inmek istiyorsanız notebook'u kopyalayıp kendiniz deneyebilirsiniz bu da güzel bir pratik olur.

## Kaynaklar
 * [A Complete Cheat Sheet For Data Visualization in Pandas](https://regenerativetoday.com/a-complete-cheat-sheet-for-data-visualization-in-pandas/)

# İçerik

1. Line Plot
2. Area Plot
3. Bar Plot
4. Pie Plot
5. Box Plot
6. Histogram
7. Hexbin Plot
8. Scatter
9. KDE

# Line plot

Çizgi grafiği, çizgi segmentlerine bağlı bir dizi veri noktasını gösterir.

In [None]:
# Önce pandas kütüphanesini projemize dahil edelim ve sonrasında da bir pandas serisi oluşturalım.
import pandas as pd
seri1 = pd.Series([50,47,40,43,37,30,35,27,33,24,32,15,7,14,3])

.plot API'ını serimiz yada dataframe'imizin sonuna bir nokta ekledikten sonra fonksiyon yazar gibi plot yazarsak karşımıza önceden tanımlı varsayılan "Line plot" çıkacaktır.

In [None]:
seri1.plot()

In [None]:
# aynı zamanda grafik oluşturduğunuz satırın sonuna ";" noktalı virgül koyarsanız "<matplotlib.axes._subplots.AxesSubplot at 0x7f023e2cead0>" gibi yazıları görmezsiniz
seri1.plot();

İşte bir plot göstermek bu kadar kolay. Plot içerisine matplotlib'in figsize, color, title gibi parametrelerini yazabiliriz. 

* figsize: Grafiğimizin çerçeve boyutunu belirlememizi sağlar.
* color: Çizginin rengini belirlememizi sağlar.
* title: Grafiğimizin başlığını girebiliriz.
* fontsize: x ve y ekseninde ki hizalamaların boyutunu belirlememizi sağlar.

In [None]:
seri1.plot(figsize=(8, 6), color='green', title = 'Line Plot', fontsize=15)

# Area Plot

.plot API'ı ile line plot harici bir grafik oluşturacağımız zaman "kind" parametresini kullanırız ve oluşturmak istediğimiz grafiğin ismini yazarız. 

* kind: Oluşturmak istediğimiz grafiği belirlememizi sağlar.

In [None]:
seri1.plot(kind="area")

Aynı şekilde .plot API'ı sonuna oluşturmak istediğimiz grafiğin ismini "." ekleyerek bir methodmuşcasına yazabiliriz.

In [None]:
seri1.plot.area()

Area plot'lar birden fazla değişken olduğunda daha çok işimize yarar, iki değişkenin farkını gözlemleyebiliriz.

Şimdi iki tane daha seri oluşturup bunları dataframe'e çevirelim ve area grafiğini görelim.

In [None]:
seri2 = pd.Series([45, 22, 12, 9, 20, 34, 28, 19, 26, 38, 41, 24, 14, 32])
seri3 = pd.Series([25, 38, 33, 38, 23, 12, 30, 37, 34, 22, 16, 24, 12, 9])
seri4 = pd.DataFrame({'seri1':seri1, 'seri2': seri2, 'seri3': seri3})

In [None]:
seri4.plot.area(figsize=(8, 6), title='Area Plot')

* alpha: transparanlık oranı belirleyebiliriz, 0 tamamen şeffaftır 1 hiç transparan değildir.

In [None]:
seri4.plot.area(alpha=0.4, color=['coral', 'purple', 'lightgreen'],figsize=(8, 6), title='Area Plot', fontsize=12)

Şimdi NHANES veriseti üzerinden görselleştirme yapmak için verisetini hazırlayalım.

In [None]:
df = pd.read_csv("../input/nhanes-2015-2016/NHANES.csv")
df

In [None]:
df.columns

# Histogram

Histogramlar sürekli değişkenlerin eksiksiz dağılımını gözlemlemeye yarar. Bir histgram oluşturmak için sürekli değişkeni belirli aralıklara böleriz. Bu belirli aralıklara ise "bins" denir. Sonrasında bu aralıklar içerisinde ki değişkenleri sayar ve grafiği oluşturur. Bins boyutunu kendimiz belirleyebiliriz. 

Popülasyonun ağırlıklarını histogramda göstermek için kullanalım.

"BMXWT" -> Ağırlık

> Kitlenin ağırlıklarına göre ayrılarak hesaplanmış sayıları.

In [None]:
df['BMXWT'].hist()

Hatırlatmak gerekirse histogramlar frekansların dağılımını gösterir. Grafiğe bakarak 1850 kişinin 75 kilo olduğunu, en fazla kişinin ise 49 ile 99 kilo arasında yer aldığını söyleyebiliriz.

Şimdi de birden fazla histogramı bir arada kullanmayı görelim, kilo, boy ve vücut kitle indexini gözlemleyelim.

"BMXHT" -> Boy

"BMXBMI" -> Vücut kitle indeksi

* bins: Frekans aralıklarını belirlememizi sağlar. 

In [None]:
df[['BMXWT', 'BMXHT', 'BMXBMI']].plot.hist(bins=20, fontsize=12, figsize=(10, 8))

Şimdi de üç farklı histogramı ayrı ayrı katmanlar halinde gözlemleyelim. Bunun için df içerisinde ki 3 sütunu alacağız ve ".plot" API'ına doğrudan bağlamak yerine ".hist" kullanacağız.

In [None]:
df[['BMXWT', 'BMXHT', 'BMXBMI']].hist(bins=20,figsize=(10, 8))

# Bar Chart

Çubuk grafikler, temsil ettikleri değerlerle orantılı yüksekliklere sahip dikdörtgen çubuklarla kategorik verileri gösterir. Bar grafiklerinde genel olarak x eksenine kategori y eksenine her kategorinin sayısı oturtulur. Aynı zamanda y eksenine kategori sayısı yerine kategori toplamı, ortalaması ve benzeri şeylerde oturtulabilir.

Üç tane çubuk grafiği türü vardır, bunlar: Bar chart, stacked bar chart ve nested bar chart olarak geçer.

Şimdi de sistolik kan basıncını medeni duruma göre gözlemleyelim. Önce nümerik değerleri kategorik değerlere dönüştürelim sonra da plotumuzu gözlemleyelim.

"DMDMARTL" -> Medeni hal

"BPXSY1" -> Sistolik kan basıncı

"DMDMARTLx" -> Medeni hal kategorik

* rot: hizalamaların rotasyonunu belirliyoruz.

> Burada .mean() kullanmamızın sebebi sistolik kan basıncının medeni duruma göre ortalamasını almaktır.

In [None]:
df["DMDMARTLx"] = df.DMDMARTL.replace({1: "Married", 2: "Widowed", 3: "Divorced", 4: "Separated", 5: "Never married", 6: "Living w/partner", 77: "Refused"})
df.groupby('DMDMARTLx')['BPXSY1'].mean().plot(kind='bar', rot=45, fontsize=10, figsize=(8, 6))

Aynı grafiği kind parametresine "barh" yazarak yatak hale getirebiliriz. 

In [None]:
df.groupby('DMDMARTLx')['BPXSY1'].mean().plot(kind='barh', fontsize=10, figsize=(8, 6))

## Nested Bar Chart
"RIDRETH1" sütunu popülasyonun etnik kökenini içeriyor. Şimdi de çok değişkenli bir bar plot yaparak kişilerin ağırlıkları, boyları ve vücut kitle indeksleri etnik kökene göre nasıl bir değişim gösteriyor inceleyelim.

"RIDRETH1" -> Etnik köken

* x: x ekseninin alacağı sütunu belirtiyoruz
* y: y ekseninin alacağı sütunu belirtiyoruz

In [None]:
df_bmx = df.groupby('RIDRETH1')['BMXWT', 'BMXHT', 'BMXBMI'].mean().reset_index()
df_bmx

In [None]:
df_bmx.plot(x = 'RIDRETH1', 
            y=['BMXWT', 'BMXHT', 'BMXBMI'], 
            kind = 'bar', 
            color = ['lightblue', 'red', 'yellow'], 
            fontsize=10)

## Stacked Bar Chart
Dağılımları arasında önemli bir fark gözlemleyemiyoruz. 

Ağırlık, boy ve vücut kitle indeksi gibi değerleri üst üste de gözlemleyebiliriz.

* stacked: barların üst üste gözükme durumuyla ilgili belirleme yapıyoruz.

In [None]:
df_bmx.plot(x = 'RIDRETH1', 
            y=['BMXWT', 'BMXHT', 'BMXBMI'], 
            kind = 'bar', stacked=True,
            color = ['lightblue', 'red', 'yellow'], 
            fontsize=10)

# Pie Plot

Pasta grafiğini bilmeyenimiz yoktur, her kategoriye ne kadar pay düşüyor bunu gözlemlememizi sağlar. 

"DMDEDUC2x" -> Eğitim seviyesi

Şimdi etnik kökenlerin oranlarına ve pastada ne kadar payları olduklarına bakalım.

* labels: her grubun isimlerini belirtiyoruz

In [None]:
df_bmx['RIDRETH1'].plot.pie(subplots=True, label='',
     labels = ["A","B","C","D","E"],
     figsize = (8, 6),
     colors = ['lightgreen', 'violet', 'coral', 'skyblue', 'yellow', 'purple'], autopct = '%.2f')

# Box Plot

Kutu grafikler bir değişkenin varyansını sürekli sayısal bir veriyi çeyrekler üzerinden görselleştirmeye yarar. Veriyi kategorik bir değişkene göre ayırarak sürekli değişkeni kategorik değişkene göre karşılaştırabiliriz. Box plot veri dağılığımını çeyreklerine göre ayırarak görselleştirmeye denir.

Kutu grafiklerin ortasında ki çizgi "median" yani ortancadır. Q1 ve Q3 arasında ki bölüm ise kutunun olduğu yüzde ellilik bölümdür ve IQR olarak bilinir. Q3-Q1 = IQR. Kutu grafiği aykırı değerleri gözlemlemeye yarar. Aykırı gözlemler kutu grafiğinde dağılım grafiğinde ki noktalar gibi gözükür.

"BMXLEG" -> Bacak uzunluğu

"BMXARML" -> Kol uzunluğu

* color: aynı zamanda bir sözlük alabilir ve bu sözlüğün parametreleri...
    * boxes: kutuların renkleri
    * whiskers: çizgilerin renkleri
    * medians: median çizgilerinin renkleri
    * caps: minimum ve maksimum değerlerin olduğu çizgilerin renkleri

In [None]:
df[['BMXBMI', 'BMXLEG', 'BMXARML']].plot.box(figsize=(8, 6),color = {'boxes': 'DarkBlue', 'whiskers': 'red', 
         'medians': 'Black', 'caps': 'Green'})

# Scatter Plot

Dağılım grafikleri, bir veri kümesindeki iki değişkenin karşılaştırılmasına yarar. Dağılım noktalarının eğimine bağlı olarak korelasyon gözlemi yapabiliriz.

In [None]:
df.head(300).plot(x='BMXBMI', y= 'BPXSY1', kind = 'scatter')

* c: noktaların rengini belirler aynı zamanda karşılaştırma yapmak için yeni bir boyut gözlemlemeyi de sağlayabilir
* s: noktaların boyutunu belirler, aynı zamanda karşılaştırma yapmak için yeni bir boyut gözlemlemeyi de sağlayabilir

In [None]:
df.head(500).plot.scatter(x= 'BMXWT', y = 'BMXHT', c ='BMXLEG', s=50, figsize=(8, 6))

# Hexbin

Noktaların petek şeklinde olduğu bir grafik. Veri yoğun olduğu zaman veriyi aralıklara (bins) ayırıp daha hassas gözlemler yapmamızı sağlar. 

* gridsize: peteklerin boyutunu belirlemeye yarar

In [None]:
df.plot.hexbin(x='BMXARMC', y='BMXLEG', gridsize= 20)

# KDE Plot

KDE grafikler sütunların dağılım olasılıklarını bizlere gösterir. Aşağıda ağırlığın dağılım olasılığını görebilirsiniz.

In [None]:
df['BMXWT'].plot.kde()

Şimdi de hem ağırlığın hem boyun hem de vücut kitle indeksinin dağılım olasılığını gözlemleyelim.

In [None]:
df[['BMXWT', 'BMXHT', 'BMXBMI']].plot.kde(figsize = (8, 6))