# Veri Çerçevesi hakkında

**Context**

This dataset is originally from the National Institute of Diabetes and Digestive and Kidney Diseases. The objective of the dataset is to diagnostically predict whether or not a patient has diabetes, based on certain diagnostic measurements included in the dataset. Several constraints were placed on the selection of these instances from a larger database. In particular, all patients here are females at least 21 years old of Pima Indian heritage.

**Content**

The datasets consists of several medical predictor variables and one target variable, Outcome. Predictor variables includes the number of pregnancies the patient has had, their BMI, insulin level, age, and so on.

**Acknowledgements**

Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S. (1988). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the Symposium on Computer Applications and Medical Care (pp. 261--265). IEEE Computer Society Press.

**Inspiration**

Can you build a machine learning model to accurately predict whether or not the patients in the dataset have diabetes or not?

**About This File**

The datasets consist of several medical predictor (independent) variables and one target (dependent) variable, Outcome. Independent variables include the number of pregnancies the patient has had, their BMI, insulin level, age, and so on.

# Özniteliklerin Açıklamaları

**Pregnancies:** Number of times pregnant

**Glucose:** Plasma glucose concentration a 2 hours in an oral glucose tolerance test

**BloodPressure:** Diastolic blood pressure (mm Hg)

**SkinThickness:** Triceps skin fold thickness (mm)

**Insulin:** 2-Hour serum insulin (mu U/ml)

**BMI:** Body mass index (weight in kg/(height in m)^2)

**DiabetesPedigreeFunction:** Diabetes pedigree function

**Age:** Age (years)

**Outcome:** Class variable (0 or 1) 268 of 768 are 1, the others are 0


Veri analiz sürecinde bize yardımcı olacak kütüphanelerimizi import ederek işe başlayalım.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import missingno as mno

from plotly.offline import init_notebook_mode, iplot, plot
import plotly as py
init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.express as px

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

Kütüphanelerimizi import ettik. Şimdi de kullanıcağımız veri çerçevesini ekleyelim.

In [None]:
data = pd.read_csv("../input/pima-indians-diabetes-database/diabetes.csv")

İlk 5 gözlemi inceleyelim.

In [None]:
data.head()

Son 5 gözlemi inceleyelim.

In [None]:
data.tail()

Rastgele olacak şekilde 5 gözlemi inceleyelim.

In [None]:
data.sample(5)

Veri setinin değişken ve gözlem sayısını öğrenelim.

In [None]:
data.shape

Özniteliklerimizi inceleyelim.

In [None]:
data.info()

Bilgileri incelersek ; 9 kolonun olduğunu, kolonların tiplerini ve bellek kullanımlarını öğrenebiliriz.

Eksik değer olup olmadığına bakalım.

In [None]:
data.isnull().sum()

Görüldüğü gibi veri setimizde eksik veri bulunmamaktadır.

Sayısal değişkenlerin istatistik bilgilerini inceleyelim.

In [None]:
data.describe().T

Sonuçlara baktığımızda bazı özniteliklerin minimum değerlerinin 0 olduğunu görebiliriz. Ancak bu özniteliklerden "Glucose", "BloodPressure", "SkinThickness", "Insulin" ve "BMI" özniteliklerinin değerlerinin 0 olması imkansızdır.
Değerlerin 0 olmasının nedenini eksik değerlerin yerine "0" yazılmış olması olabilir. Değeri 0 olan verileri NAN olarak değiştirmemiz gerekir. Bu değiştirme işlemini boş verilerin istatistik değerlerini etkilemesini istemediğimiz için yapıyoruz.

In [None]:
data.loc[data["Glucose"] == 0.0, "Glucose"] = np.NAN
data.loc[data["BloodPressure"] == 0.0, "BloodPressure"] = np.NAN
data.loc[data["SkinThickness"] == 0.0, "SkinThickness"] = np.NAN
data.loc[data["Insulin"] == 0.0, "Insulin"] = np.NAN
data.loc[data["BMI"] == 0.0, "BMI"] = np.NAN

Değiştirme işleminden sonra eksik verilerimizi inceleyelim.

In [None]:
data.isnull().sum()

Eksik verilerimizi düzenlemeye başlamadan önce missingno kütüphanesini kullanarak aralarındaki ilişkiyi inceleyelim.

In [None]:
mno.matrix(data, figsize = (20, 6))

Aralarındaki ilişkiyi daha iyi anlamak için eksik verilerimizi görselleştirelim.

In [None]:
mno.heatmap(data, figsize= (15,8));

In [None]:
mno.dendrogram(data)

Görselleri inceleyerek "Insulin" ve "SkinThickness" özniteliklerinin eksik verilerinin arasında pozitif bir ilişki olduğunu gözlemyelebiliriz.

Eksik verileri ortalamaları veye medyanlarıyla dolduralım. Dağılımlarına bakarak nasıl doldurcağımıza karar verebiliriz. Dağılımlarına öğrenmek için seaborn kütüphanesi yardımıyla keman grafiğini oluşturarak inceleyebiliriz. Dağılımların normal olduğu öznitelikleri ortalamalarıyla, dağılımların alt veya üst sınırlara doğru olduğu öznitelikleri medyanlarıyla dolduralim.

In [None]:
data.isnull().sum()

"Glucose" özniteliğinin ortalamasını ve medyanını öğrenelim

In [None]:
"|","Ortalama: ", data.Glucose.mean(),"|","Medyan: ", data.Glucose.median(), "|"

In [None]:
f,ax=plt.subplots(figsize=(10,6))
sns.violinplot(data["Glucose"])
plt.show()

"Glucose" özniteliğinin normal bir dağılımı olduğunu söyleyebiliriz bu yüzden eksik verileri ortalamalarla dolduralım.

In [None]:
data["Glucose"].fillna(data["Glucose"].mean(), inplace = True)
data.Glucose.isnull().sum()

"BloodPressure" özniteliğinin ortalamasını ve medyanını öğrenelim

In [None]:
"|","Ortalama: ", data.BloodPressure.mean(),"|","Medyan: ", data.BloodPressure.median(), "|"

In [None]:
f,ax=plt.subplots(figsize=(10,6))
sns.violinplot(data["BloodPressure"])
plt.show()

"BloodPressure" özniteliğinin normal bir dağılımı olduğunu söyleyebiliriz bu yüzden eksik verileri ortalamalarla dolduralım.

In [None]:
data["BloodPressure"].fillna(data["BloodPressure"].mean(), inplace = True)
data.BloodPressure.isnull().sum()

"SkinThickness" özniteliğinin ortalamasını ve medyanını öğrenelim

In [None]:
"|","Ortalama: ", data.SkinThickness.mean(),"|","Medyan: ", data.SkinThickness.median(), "|"

In [None]:
f,ax=plt.subplots(figsize=(10,6))
sns.violinplot(data["SkinThickness"])
plt.show()

"SkinThickness" özniteliğinin normal olmayan bir dağılımı olduğunu söyleyebiliriz bu yüzden eksik verileri medyanlarla dolduralım.

In [None]:
data["SkinThickness"].fillna(data["SkinThickness"].median(), inplace = True)
data.SkinThickness.isnull().sum()

"Insulin" özniteliğinin ortalamasını ve medyanını öğrenelim

In [None]:
"|","Ortalama: ", data.Insulin.mean(),"|","Medyan: ", data.Insulin.median(), "|"

In [None]:
f,ax=plt.subplots(figsize=(10,6))
sns.violinplot(data["Insulin"])
plt.show()

"Insulin" özniteliğinin normal olmayan bir dağılımı olduğunu söyleyebiliriz bu yüzden eksik verileri medyanlarla dolduralım.

In [None]:
data["Insulin"].fillna(data["Insulin"].median(), inplace = True)
data.Insulin.isnull().sum()

"BMI" özniteliğinin ortalamasını ve medyanını öğrenelim

In [None]:
"|","Ortalama: ", data.BMI.mean(),"|","Medyan: ", data.BMI.median(), "|"

In [None]:
f,ax=plt.subplots(figsize=(10,6))
sns.violinplot(data["BMI"])
plt.show()

"BMI" özniteliğinin normal olmayan bir dağılımı olduğunu söyleyebiliriz bu yüzden eksik verileri medyanlarla dolduralım.

In [None]:
data["BMI"].fillna(data["BMI"].median(), inplace = True)
data.BMI.isnull().sum()

Tüm özniteliklerimizin eksik verilerini doldurduk.

In [None]:
data.isnull().sum()

Eksik verilerimizi doldurduğumuza göre artık düzgün bir şekilde birdaha istatistiklerimizi inceleyelim.

In [None]:
data.describe().T

Sayısal değerler arasında korelasyon olup olmadığını inceleyelim.


In [None]:
data.corr()

Daha rahat inceleyebilmek için ısı haritasını çizdirelim.

In [None]:
corr = data.corr()
f,ax=plt.subplots(figsize=(25,15))
sns.heatmap(corr, annot=True, ax=ax)
plt.show()

Korelasyon ısı haritasını incelediğimiz zaman en güçlü korelasyonların "Age"-"Pregnancies" , "BMI"-"SkinThickness" ve "Outcome"-"Glucose" arasında olduğunu gözlemleriz.

Bu bilgiden yola çıkarak;
- Yaşı fazla olan bireylerin gebe kalma sayısı daha fazladır
- Vicut kitle indeksi fazla olanların deri kalınlıkları daha fazladır 
- Glikoz seviyesi fazla olanların diyabet hastası olma ihtimalleri daha fazladır

Yorumlarını yapabiliriz

Öznitelikler arasındaki ilişkiyi daya iyi görebilmek için görselleştirelim.

In [None]:
fig = px.scatter(data, x="Age", y="Pregnancies", trendline="ols",color="Age")

fig.update_layout(
    title={
        'text': "Age-Pregnancies Regression Plot",
        'y':0.95,
        'x':0.5
})

fig.show()



In [None]:
fig = px.scatter(data, x="SkinThickness", y="BMI", trendline="ols",color="BMI")

fig.update_layout(
    title={
        'text': "SkinThickness-BMI Regression Plot",
        'y':0.95,
        'x':0.5
})

fig.show()

Grafikleri incelersek iki değer arasında pozitif bir ilişki olduğunu görebilriz.

Özniteliklerimiz arasındaki ilişkiyi incelerken regplot kullandık. Ancak Glucose ve Outcome öznitelikleri arasındaki ilişkiyi incelerken regplot kullanmamız doğru olmaz. Bunun sebebi Outcome özniteliğimizin tipinin binary olmasıdır.

Glucose değerini normal ve yüksek olmak üzere iki gruba ayıralım ve bu gruplar arasındaki outcome değerlerini inceleyelim. Pozitif bir ilişkide; yüksek glucose grubunda outcome=1 değerlerinin, normal glucose grubunda outcome=0 değerlerinin fazla olmalıdır.

In [None]:
highGlucose = data[data.Glucose>140]
normalGlucose = data[(data.Glucose<=140)]

In [None]:
newData=data.copy()
bins=[0,140,200]
labels=['NormalGlucose','HighGlucose']
newData['GlucoseNH']=pd.cut(newData['Glucose'],bins,labels=labels)

In [None]:
x1 = [highGlucose[highGlucose.Outcome==0.00].Glucose.count(),
highGlucose[highGlucose.Outcome==1.00].Glucose.count()]

x2 = [normalGlucose[normalGlucose.Outcome==0.00].Glucose.count(),
normalGlucose[normalGlucose.Outcome==1.00].Glucose.count()]


In [None]:
f,ax=plt.subplots(figsize=(12,6))
plt.bar(["Sağlıklı Birey \n (Outcome=0)","Diyabet Hastası \n (Outcome=1)"],x1 )
plt.title("High Glucose")
plt.show()

In [None]:
f,ax=plt.subplots(figsize=(12,6))
plt.bar(["Sağlıklı Birey \n (Outcome=0)","Diyabet Hastası \n (Outcome=1)"],x2 )
plt.title("Normal Glucose")
plt.show()

In [None]:
f,ax=plt.subplots(figsize=(12,6))
sns.swarmplot(x="GlucoseNH",y="Glucose",hue="Outcome",data=newData)
plt.show()

Grafikleri incelediğimizde tahmin ettiğimiz gibi bir sonuca ulaşırız. High glucose grubunda diyabet hastası (outcome=1), Normal glucose grubunda sağlıklı birey (outcome=0) sayılarının fazla olduğunu gözlemleriz.

Outcome özniteliğimiz insanların diyabet hastası olup olmadığını gösterir. Şimdi de bu özniteliğe en çok nelerin etki ettiğini inceleyelim.

Glucose ile Insulin öznitelikleri arasında pozitif bir ilişki vardır. Insulin ile Outcome arasında ilişki olup olmadığını inceleyelim.

In [None]:
f,ax=plt.subplots(figsize=(12,6))
sns.barplot(x="Outcome", y="Insulin", data=data)
plt.show()

In [None]:
trace1={
    "values":[data[data.Outcome==0].Insulin.mean(),data[data.Outcome==1].Insulin.mean()],
    "labels":[0,1],
    "domain": {"x":[0,.5]},
    "name":"Ortalamalar oranı",
    "hole":.3,
    "type":"pie"
}
data1=[trace1];
layout={
    "title":"Outcome-Insulin",
    "annotations":[
        {"font":{"size":15},
        "showarrow":False,
        "text":"Ortalamalar Oranı",
        "x":0.50,
        "y":0.9
        },
    ]
};
fig=go.Figure(data=data1,layout=layout)
iplot(fig)

Şimdi de Glucose-Insulin-Outcome öznteliklerini beraber karşılaştıralım.

In [None]:
sns.jointplot( data.Glucose,data.Insulin, kind="reg",height=7)
plt.show()

In [None]:
data1=[
    {
        "y":data.Insulin,
        "x":data.Glucose,
        "mode":"markers",
        "marker":{
            "color":data.Outcome,
            #"size":num_student_size,
            "showscale":True
        },
        "text":data.Glucose
    }
]
iplot(data1)

Grafiği incelersek sağ üst taraflara doğru sarılığın arttığını görebiliriz. Bu yüzden Insulin ve Glucose değeri yüksek olan birinin diyabet hastası olma ihtimalinin de yüksek oduğunu söyleyebiliriz.

İncelemelerimzie yaş faktörünüde katalım.

In [None]:
ageSize=data.Age/max(data.Age)*20
data1=[
    {
        "y":data.Insulin,
        "x":data.Glucose,
        "mode":"markers",
        "marker":{
            "color":data.Outcome,
            "size":ageSize,
            "showscale":True
        },
        "text":data.Glucose
    }
]
iplot(data1)

Age özniteliğini daha iyi inceleyebilmek için kategorikleştirelim.

In [None]:
bins=[20,30,55,81]
labels=['Genç','Orta Yaş','Yaşlı']
data['YasGrp']=pd.cut(data['Age'],bins,labels=labels)

In [None]:
yasGrpValue=data.YasGrp.value_counts()

Yaş dağılımlarını inceleyelim.

In [None]:
trace={
    "values":yasGrpValue.values,
    "labels":yasGrpValue.index,
    "hole":.2,
    "type":"pie",
}
data1=[trace];
layout={
    "title":"Yaş Dağılımları",
    
};
fig=go.Figure(data=data1,layout=layout)
iplot(fig)

Yaş gruplarına göre diyabet hastalığının görülüşünü kıyaslayalım.

In [None]:
plt.figure(figsize=(15,4))
sns.countplot(x="YasGrp", hue="Outcome",palette="Set2", data=data)
plt.show()

Daha iyi incelemek için sağlıklı va diyabet hastası oranlarını inceleyelim. 

In [None]:
dataGenc=data[data.YasGrp=="Genç"].copy()
dataOrta=data[data.YasGrp=="Orta Yaş"].copy()
dataYasli=data[data.YasGrp=="Yaşlı"].copy()

In [None]:
trace={
    "values":dataGenc.Outcome.value_counts(),
    "labels":["Sağlıklı","Diyabet Hastası"],
    "hole":.2,
    "type":"pie",
    'marker': {
      'colors': [
        'rgb(173, 235, 173)',
        'rgb(153, 179, 255)'
      ]
    }
}
data1=[trace];
layout={
    "title":"Gençlerde Diyabet Oranı", 
};
fig=go.Figure(data=data1,layout=layout)
iplot(fig)

Orta yaşlı insanlarda diyabet oranının %21.6 olduğunu tespit edebiliriz

In [None]:
trace={
    "values":dataOrta.Outcome.value_counts(),
    "labels":["Diyabet Hastası","Sağlıklı"],
    "hole":.2,
    "type":"pie",
    'marker': {
      'colors': [
        'rgb(153, 179, 255)',
        'rgb(173, 235, 173)'             
      ]
    }
}
data1=[trace];
layout={
    "title":"Orta Yaşlılarda Diyabet Oranı", 
};
fig=go.Figure(data=data1,layout=layout)
iplot(fig)

Orta yaşlı insanlarda diyabet oranının %53.5 olduğunu tespit edebiliriz.

In [None]:
trace={
    "values":dataYasli.Outcome.value_counts(),
    "labels":["Sağlıklı","Diyabet Hastası"],
    "hole":.2,
    "type":"pie",
    'marker': {
      'colors': [
        'rgb(173, 235, 173)',
        'rgb(153, 179, 255)'
      ]
    }
}
data1=[trace];
layout={
    "title":"Yaşlılarda Diyabet Oranı", 
};
fig=go.Figure(data=data1,layout=layout)
iplot(fig)

Orta yaşlı insanlarda diyabet oranının %34 olduğunu tespit edebiliriz.

Pie Chart'ları incelediğimizde en yüksek diyabet hastası oranının orta yaşlı insanlarda olduğunu söyleyebiliriz. Veri setimizdeki 30-55 yaş aralığındaki bir gözlemin diyabet hastası olma olasılığı %53.5 olduğunu söyleyebiliriz.

Veri setindeki diyabet hastalarında en çok görülen iki özellik yüksek Glucose ve Orta yaş olduğunu söyleyebiliriz. Şİmdide bu iki özelliği beraber inceleyelim.

In [None]:
bins=[20,30,55,81]
labels=['Genç','Orta Yaş','Yaşlı']
highGlucose['YasGrp']=pd.cut(highGlucose['Age'],bins,labels=labels)
normalGlucose['YasGrp']=pd.cut(normalGlucose['Age'],bins,labels=labels)

In [None]:
plt.figure(figsize=(15,4))
sns.countplot(x="YasGrp", hue="Outcome",palette="Set1", data=highGlucose)
plt.show()

In [None]:
trace={
    "values":highGlucose[highGlucose.YasGrp=="Orta Yaş"].Outcome.value_counts(),
    "labels":["Diyabet Hastası","Sağlıklı"],
    "hole":.2,
    "type":"pie",
    'marker': {
      'colors': [
        'rgb(255, 102, 102)',
        'rgb(213, 128, 255)'             
      ]
    }
}
data1=[trace];
layout={
    "title":"Orta Yaşlılarda Diyabet Oranı", 
};
fig=go.Figure(data=data1,layout=layout)
iplot(fig)

Buradan yola çıkarak veri setimizdeki gözlemler için orta yaşlı ve yüksek glucose değerine sahip olan gözlemlerin %78.2 oranında diyabet hastası olduğunu söyleyebiliriz.