In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # visualization
import seaborn as sns #visualization tool

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Pandas

Veri biliminde dosyaları import etmek gerekmektedir. Bu dosyalar genellikle CSV (Comma-Separated-Value) formatında olmaktadır. 

### CSV Formatlı Dosyayı Okuma

In [None]:
data = pd.read_csv("/kaggle/input/pokemon-challenge/pokemon.csv")

### Dataset ile ilgili temel bilgileri çekmek

In [None]:
data.info()

### Correlation Map
* Featurelar arasındaki ilişkiyi anlamamızı sağlar.
* Eğer iki feature arasında korelasyon 1 ise bu iki feature arasında doğru orantı var demektir.

* **Pozitif Correlatet :** Bir evin oda sayısı artarsa fiyatı artar. Oda sayısı ve fiyat arası pozitif correlatet vardır. (1 veya 1'e yakınsa)

* **Negatif Correlatet :** Bir evin şehir merkezine olan uzaklığı arttıkça fiyatı düşer. Şehir merkezine uzaklık ve fiyat arası negatif correlatet vardır. (-1 veya yakın çıkarsa )

* **Sıfır çıkan correlation ilişki yok demektir.**


In [None]:
data.corr()

* corr() fonksiyonu bize featurelar arasındaki korelasyonu verir.
* seaborn kütüphanesine ait heatmap fonksionu correlation tablosunu görselleştirir.

    **1.** annot = True heat map içerisinde oranları göster demektir.

    **2.** linewidths = .5 demek arasındaki line kalınlığını ayarlamayı sağlar.
    
    **3.** fmt= '.1f'  gösterilecek oran miktarlarının virgül sonrası 1 hane gösterilmesini sağlamaktır.


In [None]:
f,ax = plt.subplots(figsize=(18,18))
sns.heatmap(data.corr(), annot=True , linewidths = .5 , fmt= '.1f', ax=ax )
plt.show()

head fonksiyonu ile ilk 10 datayı getirir.

In [None]:
data.head(10)

columns ile data sette yer alan featureları görebiliriz.

In [None]:
data.columns

### Pandas Datatypeları 

Pandas kütüphanesinde veriler için series ve dataframe datatypeları kullanılmaktadır.

   * **Series:** Vektör şeklindeki verilerde kullanılır.

   * **Dataframe:** Matris şeklindeki verilerde kullanılır.

In [None]:
series = data["Defense"]
print(type(series))

data_frame = data[["Defense"]]
print(type(data_frame))

<mark> Datadaki *Defense* özelliği(feature) liste olarak alınmazsa DataFrame oluşturmak yerine series oluşturulur.

### DataFrame Filtreleme

**Tek koşul ile filtreleme**

In [None]:
filtre = data['Defense']>200 #Dataset içerisinde bulunan pokemonlardan "Defense" özelliği 200 değerinden büyük olanlar koşulu filtreye atanır.
data[filtre] #Datasete filtreleme yapılır.

**İki koşul ile filtreleme**

* Yöntem 1 :

In [None]:
data[np.logical_and(data["Defense"]>200,data["Attack"]>100)] #Numpy kütüphanesine ait logical_and fonksiyonu ile Defense değeri 200'den büyük ve Attack değeri 130'dan büyük dataları filtreleme

* Yöntem 2 :

In [None]:
filtre_2 = ((data["Defense"]>200) & (data["Attack"]>100))
data[filtre_2]

* For döngüsüyle feature üzerinde gezinmek

In [None]:
for index ,attack in data[["Attack"]][100:106].iterrows():
    print(index , " : " , attack)

# Matplotlib

* **Line Plot : ** Eğer x ekseni zamansa kullanılması uygundur.
* **Scatter Plot : ** İki feature arasında correlation olup olmadığını anlamak için kullanılması uygundur.
* **Histogram Plot : ** Bir datanın distributionını yani sıklığını(frekansını) anlamak için kullanılması uygundur.


In [None]:
data.Speed.plot(kind="line", color="green", label="Speed", linewidth = 1 , alpha=0.5, grid =True ,linestyle=":")
data.Defense.plot(kind="line" , color="blue" , label="Defense" , linewidth=1 , alpha = 0.5 , grid = True , linestyle="-.")
plt.legend(loc="best")
plt.xlabel("x axis")
plt.ylabel("y axis")
plt.title("Line Plot")
plt.show()

In [None]:
data.plot(kind="scatter" , x="Attack" , y="Defense" , alpha="0.5" , color="red")
plt.title("Scatter Plot")
plt.show()

Attack ile defense doğru orantılıdır.

***Bir başka scatter oluşturma yolu***

In [None]:
plt.scatter(data.Attack , data.Defense , alpha=0.5)
plt.title("Scatter Plot")
plt.show()

In [None]:
data.Speed.plot(kind="hist",bins=50,figsize=(10,10),grid=True)
plt.xlabel("Speed")
plt.title("Histogram Plot")
plt.show()

# Cleaning Data

Bir veri setinde kolon adlarının standart formatta olmaması (Büyüklü küçüklü yazı, boşluklulu isimlendirmeler vb.), eksik veriler ve farklı diller kullanıldığında bozukluk oluşur. Bunları tespit edip düzeltmek ya da temizlemek gerekir. 

In [None]:
data.head()

## Explotary Data Analysiss (EDA)

* Value_counts() : Sıklık değerlerini verir.
* Outlier : Aykırı , ayrık demektir.
* Medyan :  Sayısal veriler sıralandığında ortada kalan değerdir.
* Q1 : Veri sıralandığında %25'teki değer.
* Q2 : Veri sıralandığında %50'deki değer yani medyan.
* Q3 : Veri sıralandığında %75'deki değer.

In [None]:
print(data["Type 1"].value_counts())

* Sayısal özellikleri incelemek için describe kullanılır.

In [None]:
data.describe().T

* Aykırı değerler varsa medyana bakmak , ortalamadan daha doğru kararlar sunar. 

## Visual Exploratory Data Analysis

* Seaborn ile boxplot

In [None]:
sns.boxplot(data["Defense"] , color ="#25B89B");

* Yeşil dikdörtgenin sol kenarı Q1 - lower quartile
* Yeşil dikdörtgenin ortasındaki çizgi Q2 - medyan
* Yeşil dikdörtgenin sağ kenarı Q3 - upper quartile
* En soldaki dik çizi minimum değer
* En sağdaki dik çizgi maksimum değer
* Dörtgen olarak verilen küçük şekiller aykırı değerleri yani outlierları temsil eder.

* IQR = Q3 - Q1 kabul edilir. 

  Minimum Değer = Q1 - 1,5 IQR

  Maximum Değer = Q3 + 1,5 IQR

* Matplotlib ile boxplot

In [None]:
data.boxplot(column = "Attack", by="Legendary" , figsize=(8,6))
plt.show()

### Tidy Data

In [None]:
data_new = data.head()
data_new

In [None]:
melted = pd.melt(frame = data_new , id_vars = "Name" , value_vars = ["Attack" , "Defense"])
melted

In [None]:
sns.boxplot(y=melted["value"] ,x=melted["variable"])

In [None]:
df = data.drop("#",axis=1)
df.plot(subplots = True , figsize=(8,12))
plt.show();

In [None]:
data.plot(kind="scatter", x="Attack", y="Defense")

In [None]:
data.plot(kind="hist", y="HP" , bins=50 , normed = True);

### Pivoting Data

* Melt edilen veriyi eski haline getirmekl

In [None]:
melted.pivot(index="Name" , columns="variable" , values = "value")

## Concatenating Data

In [None]:
df_1 = data.head()
df_2 = data.tail()
con_data_row = pd.concat([df_1,df_2] , axis=0  , ignore_index = True)
con_data_row

In [None]:
df_1 = data["Attack"].head()
df_2 = data["Defense"].head()
con_data_col = pd.concat([df_1,df_2] , axis=1)
con_data_col

### Data Types

In [None]:
data.dtypes

In [None]:
data["Type 1"] = data["Type 1"].astype("category")
data.dtypes

## Missing Data

Eksik veri çözümü

* NaN olarak bırakılabilir.
* Eksik verilei data setten çıkarabiliriz.
* Boş bırakıldıysa NaN ile doldurabiliriz. (fillna())
* İstatistik değerlerle doldurabiliriz.

Biri özelliğin değerlerini incelemek.

In [None]:
data["Type 2"].value_counts(dropna = False)

* 386 tane Type 2 özelliği olmayan pokemon var.

In [None]:
data_1 = data.copy()
data_1["Type 2"].dropna(inplace=True)

In [None]:
data_1["Type 2"].notnull().all()

Eksik veriler ortadan kaldırıldı.

* Eksik veriyi doldurmak

In [None]:
data_2 = data.copy()
data_2["Type 2"].fillna("empty" , inplace=True)
data_2["Type 2"].notnull().all()

* interpolate("linear") : Eksik değerleri lineer şekilde doldurmayı sağlar.

In [None]:
liste = [1,2,3, np.nan,5,np.nan,np.nan,8,9]
sayi_df = pd.DataFrame(liste , columns=["values"])
sayi_df


In [None]:
sayi_df= sayi_df.interpolate("linear")
sayi_df

### Manipülasyon

In [None]:
data.head()

* İndeks değeri # ile verilirken bir de pandas ekledi. Bunu kaldırmak için;

In [None]:
df = data.set_index("#")
df.index.name = "Index"
df.head()

In [None]:
df[["HP" , "Attack" , "Defense"]].head()

In [None]:
df.loc[1:10 , : "Defense"]

In [None]:
df[(df.Attack > 170)  & (df.Legendary == True)]


In [None]:
df.HP[(df.Attack > 170)  & (df.Legendary == True)]

In [None]:
def div(n):
    return n/2
df.HP[(df.Attack > 170)  & (df.Legendary == True)].apply(div)

In [None]:
df.HP[(df.Attack > 170)  & (df.Legendary == True)].apply(lambda n:n/2)

In [None]:
df = df.set_index(["Type 1" , "Type 2"])
df.head(50)

In [None]:
df= df.swaplevel(0,1)
df