                              # Outlier (Aykırı Değer) Tespiti ve Veri Setinden Temizlenmesi İşlemleri
                              (Outlier Detection and Cleaning from the Data Set Procedures)

# Outlier, bir veriseti içerisindeki diğer gözlemlerden aykırı ve sapan gözlem veya veri değeridir.


# Outlier Nedenleri ?

# İnsan kaynaklı hatalar (hatalı veri girişi)
# Cihazlardan kaynaklanan hatalar (Örneğin ölçüm cihazlarının nadiren de olsa yanlış değer ölçmesidir.)


# Outlier is an observation or data value that is contrary and deviates from other observations in a data set.


# Outlier Reasons ?

# Human errors (incorrect data entry)
# Errors caused by devices (For example, measuring devices rarely measure incorrect values.)

In [20]:
import pandas as pd

df = pd.read_csv("outlier_ornek_veriseti.csv", sep=";")
df

Unnamed: 0,isim,boy
0,can,88
1,ali,132
2,tugce,134
3,ayse,137
4,nihan,139
5,sahin,142
6,kaan,142
7,emre,144
8,bartu,147
9,ismail,148


In [21]:
df.describe()

Unnamed: 0,boy
count,15.0
mean,149.466667
std,32.943386
min,88.0
25%,138.0
50%,144.0
75%,149.0
max,234.0


# pandas kütüphanesinde bulunan describe() fonksiyonu, bir veri çerçevesinin temel istatistiksel özetini sağlar. Bu fonksiyon, veri çerçevesindeki sayısal sütunların ortalamasını, standart sapmasını, minimum ve maksimum değerlerini, medyanı ve çeyrekliklerini gösterir. 

# Bu özet istatistikleri kullanarak veri setinin genel dağılımı hakkında hızlı bir bakış elde edebilirsiniz. Fonksiyon ayrıca eksik değerlerin sayısını da hesaplar.

# Özetle, describe() fonksiyonu veri analizi sürecinde hızlı bir şekilde genel bir fikir edinmek için kullanılır.



# The describe() function in the pandas library provides a basic statistical summary of a data frame. This function displays the mean, standard deviation, minimum and maximum values, median, and quartiles of the numerical columns in the data frame. 

# Using these summary statistics you can get a quick look at the overall distribution of the dataset. The function also calculates the number of missing values.

# In summary, the describe() function is used to quickly get an overview of the data analysis process

In [23]:
# Q1 (%25 percentile hesaplama)

Q1 = df.boy.quantile(0.25)      # %25 = 0.25
Q1

138.0

In [24]:
Q3 = df.boy.quantile(0.75)   # %75 = 0.75
Q3

149.0

# pandas kütüphanesinde bulunan quantile() fonksiyonu, belirli yüzdelerdeki veri noktalarını hesaplamak için kullanılır. Bu fonksiyon, bir veri serisinin belirli yüzdelik dilimlerini (quantile) hesaplamak için kullanılır. Örneğin, .25 quantile değeri veri setinin %25'lik kısmını temsil eder.

# Quantile işlevi genellikle verilerin dağılımı hakkında daha ayrıntılı bilgi almak ve belirli yüzdelik dilimlerdeki değerleri anlamak için kullanılır. Bu sayede veri setinin merkezi eğilimini ve dağılımını daha ayrıntılı olarak analiz etmek mümkün olur.

# Özetle, quantile() fonksiyonu, verilerin yüzdelik dilimlerine göre analiz edilmesine yardımcı olur ve veri setinin dağılımının anlaşılmasına katkıda bulunur.



# The quantile() function in the pandas library is used to calculate data points in certain percentages. This function is used to calculate specific percentages (quantiles) of a data series. For example, a quantile value of .25 represents 25% of the data set.

# The Quantile function is often used to get more detailed information about the distribution of data and understand values ​​in certain percentiles. In this way, it is possible to analyze the central tendency and distribution of the data set in more detail.

# In summary, the quantile() function helps analyze data by percentiles and contributes to understanding the distribution of the data set.

In [26]:
IQR_degeri = Q3 - Q1
IQR_degeri

11.0

In [27]:
# alt limit Üst limit bulma (# lower limit Finding upper limit)

alt_limit = Q1 - 1.5*IQR_degeri

In [28]:
alt_limit

121.5

In [29]:
ust_limit = Q3 + 1.5*IQR_degeri

In [30]:
ust_limit

165.5

In [31]:
# median
Q2 =df.boy.quantile(0.50)       # Yüzde elli dersek medyanı bulur. Medyan tam ortodaki değer.
Q2                              # If we say fifty percent, it finds the median. The median is the value in the middle.;

144.0

# Alt ve Üst Limitleri Hesapladığımıza göre Veri Setimizdeki Outlier (Aykırı) Değerleri Bulabiliriz.

# Now that we have calculated the lower and upper limits, we can find the outlier values ​​in our data set.

In [33]:
df[(df.boy < alt_limit) | (df.boy > ust_limit)]

Unnamed: 0,isim,boy
0,can,88
13,veli,207
14,ilker,234


In [46]:
# Aykırı değerler çıkaralım. (# Let's remove outliers.)

In [48]:
df_outlier_filtrelenmis = df[(df.boy > alt_limit) & (df.boy < ust_limit)]

In [52]:
df_outlier_filtrelenmis

Unnamed: 0,isim,boy
1,ali,132
2,tugce,134
3,ayse,137
4,nihan,139
5,sahin,142
6,kaan,142
7,emre,144
8,bartu,147
9,ismail,148
10,gokalp,149


In [54]:
# Yani aykırı değerleri attık. (# So we discarded the outliers.)

###  Jaupyter Notebook'ta uyarı mesajını atmak için satırın en başına

# import warnings
# warnings.filterwarnings("ignore")

# yazmalısın!



### To send the warning message in Jaupyter Notebook, add it to the top of the line.

# import warnings
# warnings.filterwarnings("ignore")

# You should write!