## IMPORT and Create Instance

In [1]:
import pandas as pd
import numpy as np

In [5]:
df = pd.read_csv('Auto Sales data.csv')
df.head()

Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,ORDERDATE,DAYS_SINCE_LASTORDER,STATUS,PRODUCTLINE,MSRP,PRODUCTCODE,CUSTOMERNAME,PHONE,ADDRESSLINE1,CITY,POSTALCODE,COUNTRY,CONTACTLASTNAME,CONTACTFIRSTNAME,DEALSIZE
0,10107,30,95.7,2,2871.0,24/02/2018,828,Shipped,Motorcycles,95,S10_1678,Land of Toys Inc.,2125557818,897 Long Airport Avenue,NYC,10022,USA,Yu,Kwai,Small
1,10121,34,81.35,5,2765.9,07/05/2018,757,Shipped,Motorcycles,95,S10_1678,Reims Collectables,26.47.1555,59 rue de l'Abbaye,Reims,51100,France,Henriot,Paul,Small
2,10134,41,94.74,2,3884.34,01/07/2018,703,Shipped,Motorcycles,95,S10_1678,Lyon Souveniers,+33 1 46 62 7555,27 rue du Colonel Pierre Avia,Paris,75508,France,Da Cunha,Daniel,Medium
3,10145,45,83.26,6,3746.7,25/08/2018,649,Shipped,Motorcycles,95,S10_1678,Toys4GrownUps.com,6265557265,78934 Hillside Dr.,Pasadena,90003,USA,Young,Julie,Medium
4,10168,36,96.66,1,3479.76,28/10/2018,586,Shipped,Motorcycles,95,S10_1678,Technics Stores Inc.,6505556809,9408 Furth Circle,Burlingame,94217,USA,Hirano,Juri,Medium


In [3]:
def report_dataframe(df, IQRC = 1.50):

    # Satır numarasını parametre olarak alan renklendirme fonksiyonu
    def highlight_row(row, highlight_index):
        return ['background-color: aqua' if row.name == highlight_index else '' for _ in row]
        
    summary = df.describe().T
    summary_object = df.describe(include=object).T

    # IQR hesaplama (Q3 - Q1)
    # IQR'i describe() tablosuna ekliyoruz
    summary["IQR"] = summary["75%"] - summary["25%"]

    # IQR_min hesaplama (_Q1 - (1.50 * _IQR))
    # IQR_min'i describe() tablosuna ekliyoruz
    summary["IQR_min"] = summary["25%"] - (IQRC * summary["IQR"])

    # IQR_max hesaplama (_Q3 + (1.50 * _IQR))
    # IQR_max'i describe() tablosuna ekliyoruz
    summary["IQR_max"] = summary["75%"] + (IQRC * summary["IQR"])

    # median'i describe() tablosuna ekliyoruz
    summary["median"] = df[summary.index].median()

    # skewness hesaplama (3 * (_mean - _median) / _std)
    # skewness'i describe() tablosuna ekliyoruz
    summary["skewness"] = 3 * (summary["mean"] - summary["median"]) / summary["std"]

    # CoV (Varyasyon Katsayısı) hesaplama (_std / _mean * 100)
    # CoV'i describe() tablosuna ekliyoruz
    summary["CoV"] = summary["std"] / summary["mean"] * 100

    # _zScore_min = (_min - _mean) / _std
    # _zScore_max = (_max - _mean) / _std
    # Z Score Min ve Max'i describe() tablosuna ekliyoruz
    summary["z_Min"] = (summary["min"] - summary["mean"]) / summary["std"]
    summary["z_Max"] = (summary["max"] - summary["mean"]) / summary["std"]

    # Sütunları yeniden düzenleme
    summary = summary.reindex(columns=['count', 'mean', 'std', 'median', '25%', '50%', '75%', 'IQR', 'min', 'IQR_min', 'z_Min', 'max', 
                                    'IQR_max', 'z_Max', 'skewness', 'CoV'])

    # Object description için seperatör ekleme ve indeks değerini değiştirme
    summary.loc[summary.shape[0]] = "-------"
    summary.index.values[summary.shape[0] - 1] = "KATEGORİK SÜTUNLAR"

    return pd.concat([summary, summary_object], ignore_index=False)

In [6]:
report_dataframe(df, IQRC=1.50) # IQRC yazmazsanız da default 1.50 alıyor.

# Aşağıdaki listede hem numeric hem de kategorik istatistiki bilgiler var. Araya seperatör koydum. Çarpıklık, Varyasyon Katsayısı vb. hesaplamalar eklendi

Unnamed: 0,count,mean,std,median,25%,50%,75%,IQR,min,IQR_min,z_Min,max,IQR_max,z_Max,skewness,CoV,unique,top,freq
ORDERNUMBER,2747.0,10259.761558,91.877521,10264.0,10181.0,10264.0,10334.5,153.5,10100.0,9950.75,-1.738854,10425.0,10564.75,1.798464,-0.138394,0.895513,,,
QUANTITYORDERED,2747.0,35.103021,9.762135,35.0,27.0,35.0,43.0,16.0,6.0,3.0,-2.981215,97.0,67.0,6.340516,0.03166,27.809958,,,
PRICEEACH,2747.0,101.098952,42.042549,95.55,68.745,95.55,127.1,58.355,26.88,-18.7875,-1.765329,252.87,214.6325,3.609939,0.395953,41.585544,,,
ORDERLINENUMBER,2747.0,6.491081,4.230544,6.0,3.0,6.0,9.0,6.0,1.0,-6.0,-1.297961,18.0,18.0,2.720435,0.34824,65.174713,,,
SALES,2747.0,3553.047583,1838.953901,3184.8,2204.35,3184.8,4503.095,2298.745,482.13,-1243.7675,-1.669926,14082.8,7951.2125,5.725947,0.600745,51.757086,,,
DAYS_SINCE_LASTORDER,2747.0,1757.085912,819.280576,1761.0,1077.0,1761.0,2436.5,1359.5,42.0,-962.25,-2.093405,3562.0,4475.75,2.203048,-0.014332,46.627235,,,
MSRP,2747.0,100.691664,40.114802,99.0,68.0,99.0,124.0,56.0,33.0,-16.0,-1.687449,214.0,208.0,2.824602,0.126512,39.839248,,,
KATEGORİK SÜTUNLAR,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,-------,,,
ORDERDATE,2747,,,,,,,,,,,,,,,,246.0,14/11/2018,38.0
STATUS,2747,,,,,,,,,,,,,,,,6.0,Shipped,2541.0


In [8]:
def report_column(column, IQRC = 1.50):
    # dtype kontrolü
    is_numeric = pd.api.types.is_numeric_dtype(column)
    _name = column.name

    if is_numeric:
        _count = column.count()
        _mean = round(column.mean(), 2)
        _median = round(column.median(), 2)
        _mode = column.mode()[0]
        _std = round(column.std(), 2)
        _min = column.min()
        _max = column.max()
        _Q1 = round(column.describe().iloc[4], 2)
        _Q2 = round(column.describe().iloc[5], 2)
        _Q3 = round(column.describe().iloc[6], 2)
        _skewness = round(3 * (_mean - _median) / _std, 2)
        _CoV = round(_std / _mean * 100, 2)
        _zScore_min = round((_min - _mean) / _std, 2)
        _zScore_max = round((_max - _mean) / _std, 2)
        _IQR = round(_Q3 - _Q1, 2)
        _IQR_min = round(_Q1 - (IQRC * _IQR), 2)
        _IQR_max = round(_Q3 + (IQRC * _IQR), 2)

        print(f"""
    {_name} isimli sütunun istatistiksel verileri.

    Toplam Sayı         : {_count}
    Ortalama            : {_mean}
    Medyan              : {_median}
    Standart Sapma      : {_std}
    Mod                 : {_mode}    
    Minimum Değer       : {_min}
    IQR-Min             : {_IQR_min}
    Maximum Değer       : {_max}
    IQR-Max             : {_IQR_max}
    % 25                : {_Q1} 
    % 50                : {_Q2}
    % 75                : {_Q3}

    Çarpıklık           : {_skewness}
    Varyasyon Katsayısı : % {_CoV}
    Z-Skoru (Min Değer) : {_zScore_min}
    Z-Skoru (Max Değer) : {_zScore_max}
    IQR                 : {_IQR}
    """)
    else:
        print(f"{_name} sütunu numeric bir sütun değildir.")

In [9]:
report_column(df.SALES, IQRC = 1.50) # IQRC yazmazsanız da default 1.50 alıyor.

# Yukarıdaki bilgiler ışığında bir sütunu mercek altına alabilirsiniz.


    SALES isimli sütunun istatistiksel verileri.

    Toplam Sayı         : 2747
    Ortalama            : 3553.05
    Medyan              : 3184.8
    Standart Sapma      : 1838.95
    Mod                 : 1030.44    
    Minimum Değer       : 482.13
    IQR-Min             : -1243.76
    Maximum Değer       : 14082.8
    IQR-Max             : 7951.2
    % 25                : 2204.35 
    % 50                : 3184.8
    % 75                : 4503.09

    Çarpıklık           : 0.6
    Varyasyon Katsayısı : % 51.76
    Z-Skoru (Min Değer) : -1.67
    Z-Skoru (Max Değer) : 5.73
    IQR                 : 2298.74
    


In [13]:
def df_find_outliers_IQR(df, IQRC = 1.50):
    lst_col = [col for col in df.select_dtypes(include=['number']).columns]
    lst_count = [(column_find_outliers_IQR(df[col])).size for col in df.select_dtypes(include=['number']).columns]
    lst = {"Column_Name": lst_col, "Columns_Outliers_Counts": lst_count}
    snc = pd.DataFrame(lst)
    # 'Column_Name' sütununu indeks yapma
    snc.set_index('Column_Name', inplace=True)
    return snc.sort_values("Columns_Outliers_Counts", ascending = False)   

def column_find_outliers_IQR(col, IQRC = 1.50):
    Q1 = np.percentile(col.dropna(), 25)
    Q3 = np.percentile(col.dropna(), 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - IQRC * IQR
    upper_bound = Q3 + IQRC * IQR
    return col[(col < lower_bound) | (col > upper_bound)]

In [14]:
df_find_outliers_IQR(df, IQRC = 1.50) # IQRC yazmazsanız da default 1.50 alıyor.

# Veri setindeki outlier sütunları ve adetleri

Unnamed: 0_level_0,Columns_Outliers_Counts
Column_Name,Unnamed: 1_level_1
SALES,79
PRICEEACH,33
MSRP,26
QUANTITYORDERED,8
ORDERNUMBER,0
ORDERLINENUMBER,0
DAYS_SINCE_LASTORDER,0


In [16]:
column_find_outliers_IQR(df.MSRP, IQRC = 1.50) # IQRC yazmazsanız da default 1.50 alıyor.

# Yukarıdaki bilgiler ışığında bir sütunu mercek altına alabilirsiniz.

24    214
25    214
26    214
27    214
28    214
29    214
30    214
31    214
32    214
33    214
34    214
35    214
36    214
37    214
38    214
39    214
40    214
41    214
42    214
43    214
44    214
45    214
46    214
47    214
48    214
49    214
Name: MSRP, dtype: int64