# 1. Function to visualize 

1. Function to get dtype of column
- `get_column_names_by_type(df)`: phân loại các cột theo từng dtype

2. Funtion to get some basic information:
- `print_basic_information()`: in ra một số thông tin cơ bản của dataframe như: shape, dupplicated,..

3. Function for count nan values
- `count_missing_values(df)`: đếm số lượng giá trị nan và tính phần trăm nan trong từng cột

4. Function for plot nan percent values
- `plot_missing_values_percent()`: visualize bằng biểu đồ đường về phần trăm giá trị nan trong cột của dataframe

5. Function print unique value
- `print_unique_categories()`: in số lượng bản ghi cho từng category ở biến categorical

6. Function plot categorical variables
- `plot_categorical_variables()`: visualize các biến categorical bằng 2 biểu đồ.
  - 'count_display': thể hiện số lượng bản ghi trong từng category trong 1 cột. 
  - 'plot_defaulter': Phần trăm bản ghi là nợ xấu trong từng category trong 1 cột

7. Function plot continuous variables:
- `plot_numerical_variables()`: visualize các biến numerical bằng 3 biểu đồ. 
  - 'hist_plot': biểu đồ histogram thể hiện phân phối của biến
  - 'dist_plot': thể hiện phân phối của biến theo từng nhãn của biến TARGET
  - 'box_plot': biểu đồ thể hiện phân phối của biến dựa trên các giá trị                quantiles -> nhìn các giá trị ngoại biên, giá trị  bất                    thường
  
8. Function plot correlation
- `correlation_matrix()`: biểu đồ heatmap thể hiện hệ số tương quan của những feature với nhau mà những features này là features có hệ số tương quan cao với biến 'TARGET'


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import phik
warnings.filterwarnings('ignore')
from sklearn.preprocessing import MinMaxScaler,StandardScaler, LabelEncoder, OneHotEncoder, LabelEncoder, OrdinalEncoder

#import import_ipynb
#from function_for_eda import *


In [2]:
def count_missing_values(df):
    
    '''
    Function to count missing values in a DataFrame

    Inputs:
    - df (pd.DataFrame): Input DataFrame.

    Outputs:
    - df_nan: A dataframe has two columns: the numbers of missing value and the percentage of missing values which indexs
             are the column name of original dataframe
    '''
    
    total_nan = df.isnull().sum()
    percent_nan = 100 * df.isnull().sum() / len(df) 
    
    df_nan = pd.concat([total_nan, percent_nan], axis=1)  
    df_nan = df_nan.rename(columns = {0: 'total_nan', 1: 'percent_nan'})
    
    df_nan = df_nan[df_nan.iloc[:,1] != 0].sort_values(by = 'percent_nan', ascending=False)
    print(f"Your data frame has {df.shape[1]} columns.\nThere are {df_nan.shape[0]} columns that have missing values." )
    return df_nan

In [3]:
def plot_missing_values_percent(df, title_name, tight_layout = True, figsize = (20,8), grid = False, rotation = 90):
    
    '''
    Function to plot Line Plots of missing value percentages for each column in a dataframe
    
    Inputs:   
    - df: a DataFrame 
    
    - title_name: Name of table to be displayed in title of plot
    
    - tight_layout: bool, default = True. Whether to keep tight layout or not
    
    - figsize: tuple, default = (20,8) Figure size of plot 
    
    - grid: bool, default = False. Whether to draw gridlines to plot or not
    
    - rotation: int, default = 0. Degree of rotation for x-tick labels
    
    '''
    df_nan = count_missing_values(df).reset_index()
    if df_nan['percent_nan'].sum() != 0:
        
        #plotting the Point-Plot for NaN percentages (only for columns with Non-Zero percentage of NaN values)
        plt.figure(figsize = figsize, tight_layout = tight_layout)
        sns.pointplot(x= 'index', y = 'percent_nan', data = df_nan[['index','percent_nan']], color = 'maroon')
        plt.xticks(rotation = rotation)
        plt.xlabel('Column Name')
        plt.ylabel('Percentage of NaN values')
        plt.title(f'Percentage of NaN values in {title_name}')
        if grid:
            plt.grid()
        plt.show()
    else:
        print(f"The dataframe {title_name} does not contain any NaN values.")
    

In [4]:
def get_column_names_by_type(df):
    
    '''
    Function to get column names grouped by data type in a DataFrame.
    
    Inputs:
    - df (pd.DataFrame): Input DataFrame.
    
    Outputs:
    - dict: Dictionary where keys are data types, and values are lists of column names.
    
    '''
    # Get data types of each column
    column_data_types = df.dtypes

    # Initialize an empty dictionary to store column names for each data type
    column_names_by_type = {}

    # Iterate through columns and populate the dictionary
    for column_name, data_type in column_data_types.items():
        # Convert data type to string for better readability
        data_type_str = str(data_type)
        
        # Check if the data type is already a key in the dictionary
        if data_type_str in column_names_by_type:
            # Append the column name to the existing list for that data type
            column_names_by_type[data_type_str].append(column_name)
        else:
            # Create a new list with the column name for the data type
            column_names_by_type[data_type_str] = [column_name]

    return column_names_by_type

In [5]:
def print_basic_information(df, title_name, key = [], print_dtype = False):
    
    '''
    Function to print some basic information of dataframe: shape, numbers of duplicate values
                                                           number of unique value in each ID column
    Inputs:
    - df: a DataFrame 
    
    - title_name: a string is name of table to be displayed
    
    - key: a list include ID columns(ex: SK_ID_CURR. SK_ID_BUREAU)
    
    - print_dtype: bool, default = False. Whether to print dtype of each column or not
    
    
    '''
    
    print(f'The shape of {title_name} is: {df.shape}')
    print('-'*100)
    print(f'Number of duplicate values in {title_name}: {df.shape[0] - df.duplicated().shape[0]}')
    print('-'*100)
    if len(key) > 0:
        for a in key:
            print(f'Number of unique {a} in {title_name} are: {len(df[a].unique())}')
    else:
        pass
    if print_dtype:
        print('-'*100)
        dtype_dict = get_column_names_by_type(df)
        for data_type, columns in dtype_dict.items():
            # Print the data type
            print(data_type + ':')

            # Print each column in the list as a separate row
            for column in columns:
                print('- ' + column)

            # Add a newline for better readability between data types
            print()

In [6]:
def print_unique_categories(df, column_name, show_counts = False):
    
    '''
    Function to print the basic stats such as unique categories and their counts for categorical variables
    
    Inputs:
    - df: DataFrame. The DataFrame from which to print statistics
    
    - column_name: str. Column's name whose stats are to be printed 
    
    - show_counts: bool, default = False. Whether to show counts of each category or not

    '''
    
    print('-'*100)
    print(f"The unique categories of '{column_name}' are:\n{df[column_name].unique()}")
    print('-'*100)
    
    if show_counts:
        print(f"Counts of each category are:\n{df[column_name].value_counts()}")
        print('-'*100)
    

In [7]:
def plot_categorical_variables(df, column_name, figsize = (18, 6), count_display = True, plot_defaulter = True):
    
    '''
    Function to plot Categorical Variables Bar Plots
    
    Inputs:
    - df: DataFrame. The DataFrame from which to plot
    
    - column_name: str. Column's name whose distribution is to be plotted
    
    - figsize: tuple, default = (18,6). Size of the figure to be plotted
    
    - count_display: bool, default = True. Whether to display the bar plot show the number of contracts per each category in a column
    
    - plot_defaulter: bool. default = True. Whether to plot the Bar Plots for Defaulters or not
    
    '''
    print(f"Total Number of unique categories of {column_name} = {len(df[column_name].unique())}")
    plt.figure(figsize = figsize, tight_layout = False)
    sns.set(style = 'whitegrid', font_scale = 1.2)
    
    #plotting overall distribution of category
    data_to_plot = df[column_name].value_counts()
    df_to_plot = pd.DataFrame({column_name: data_to_plot.index, 'Number of contracts': data_to_plot.values})
    
    # Calculate the percentage of target = 1 per category 
    default_percent = df[[column_name, 'TARGET']].groupby([column_name], as_index = False)['TARGET'].mean()
    default_percent.sort_values(by = 'TARGET', ascending = False, inplace = True)
    
    if count_display:
        plt.subplot(1,2,1)
        s1 = sns.barplot(x = 'Number of contracts', y = column_name, data = df_to_plot)
        #s1.set_yticklabels(s1.get_yticklabels(),rotation = 90)
        plt.title(f'Distribution of {column_name}', pad = 20)

    if plot_defaulter:
        plt.subplot(1,2,2)
        s2 = sns.barplot(x = 'TARGET', y = column_name, data = default_percent)
        #s2.set_yticklabels(s2.get_yticklabels(),rotation=90)
        plt.xlabel('Proportion', fontsize=16)
        plt.title(f'Proportion of Defaulters for each category of {column_name}', pad = 20)

        
    plt.tick_params(axis='both', which='major', labelsize=12)
    plt.subplots_adjust(wspace = 0.4)
    plt.show();

In [8]:
def plot_numerical_variables(df, column_name, figsize = (20,8), hist_plot = True, box_plot = True, dist_plot = True, number_of_subplots = 3):
    
    '''
    Function to plot continuous variables distribution
    
    Inputs:
    - df: DataFrame. The DataFrame from which to plot.
    
    - column_name: str. Column's name whose distribution is to be plotted.
    
    - figsize: tuple, default = (20,8). Size of the figure to be plotted.
    
    - hist_plot: bool, default = True. Whether to plot histogram chart for column
    
    - box_plot: bool, default = True. Whether to plot box plot to analyze the whole range of values in continuous variable or not
        
    - dist_plot: bool, default = True. Whether to plot the PDFs of the variable along to each target label.
    
    - number_of_subplots: int. Total number of chart want to be plotted.
    
    '''
    plt.figure(figsize = figsize)
    sns.set_style('whitegrid')
    sns.color_palette("RdBu", 10)
    i = 1

    if hist_plot:
        plt.subplot(1, number_of_subplots, i)
        plt.subplots_adjust(wspace=0.25)   
        plt.title("Distribution of %s" %column_name)
        sns.distplot(df[column_name].dropna(),color='red', kde=True,bins=100)
        i+= 1
        
    if dist_plot:
        plt.subplot(1, number_of_subplots, i)
        plt.subplots_adjust(wspace=0.25) 
        
        sns.distplot(df[column_name][df['TARGET'] == 0].dropna(),\
                     label='Non-Defaulters', hist = False, color = 'firebrick')
        sns.distplot(df[column_name][df['TARGET'] == 1].dropna(),\
                     label='Defaulters', hist = False, color = 'dodgerblue')

        plt.xlabel(column_name)
        plt.ylabel('Probability Density')        
        plt.title("Dist-Plot of {}".format(column_name))
        plt.legend(loc="best", labels=['Non-Defaulted(TARGET=0)', 'Defaulted (TARGET = 1)'], fontsize = 'medium')  
        plt.tick_params(axis='both', which='major', labelsize=12)
        i+= 1   
        
    if box_plot:  
        plt.subplot(1, number_of_subplots, i)
        plt.subplots_adjust(wspace=0.25) 
        
        sns.boxplot(x='TARGET', y=column_name, data=df)
        plt.title("Box-Plot of {}".format(column_name))

    plt.show()    

In [9]:
def correlation_matrix(df, number_of_feature, numerical = True, categorical = False):
    
    '''
    Function to plot the heatmap show the correlation of other features to 'TARGET'
    Inputs:
    - df: DataFrame. The DataFrame from which to plot.
    - Number_of_feature: int. The top number of feature which have highest correlation with 'TARGET'.
    - numerical : bool. Default = True: correlation heatmap giữa các biến numerical với nhau
    - categorical: bool. Default = False: correlation phik giữa các biến categorical với nhau và với biến TARGET
    
    ''' 
    
    if numerical:
        numeric_columns = df.select_dtypes(include=['number']).columns.tolist()       
        df = df[numeric_columns]
        correlations = df.corr()['TARGET']

        corr_top = np.abs(correlations).sort_values(ascending=False)[:number_of_feature].index.tolist()    
        cols_tbl = df[corr_top].corr()

        plt.figure(figsize = (13,10))
        sns.heatmap(cols_tbl, cmap = plt.cm.RdYlBu_r, annot = True)
       
    if categorical:
        categorical_columns = df.dtypes[df.dtypes == 'object'].index.tolist()
        data_for_phik = df[categorical_columns+ ['TARGET']]
        
        phik_matrix = data_for_phik.phik_matrix().sort_values(by = 'TARGET', ascending = False) 
        corr_top_cat = phik_matrix[:number_of_feature].index.tolist()
        
        corr_matrix_cat = df[corr_top_cat].phik_matrix()
        
        plt.figure(figsize = (10,10))      
        sns.heatmap(corr_matrix_cat, cmap = 'Blues')
                

# 2. Function to pre-processing data

1. `remove_missing_col()`: xóa đi những cột có phần trăm missing value cao hơn ngưỡng threshold
2. `fillna()`: Fill các giá trị nan values. Trong đó các biến numeric được fill bằng giá trị trung bình(mean) còn các biến categorical sẽ được fill bằng giá trị xuất hiện nhiều nhất(mode)
3. `create_day_to_year()`: chuyển những cột chưa số lượng theo đơn vị ngày thành đơn vị năm
4. `check_imbalance()`: Kiểm tra xem những cột chưa 2 giá trị unique có bị mất cân bằng không
5. `drop_column_unique_value()`: Nếu những cột đấy bị mất cân bằng(hàm số 4) thì sẽ bị drop
6. `get_thresh()`, `change_value()`, `replace_outlier()`: Tìm ngưỡng để xác định các giá trị outliers. Ở đây các ngưỡng sử dụng phương pháp 3 sigma để điều chỉnh lại các giá trị nằm ngoài miền  [μ−3σ,μ+3σ] về trong miền giá trị đó. Đối với giá trị lớn hơn  μ+3σ sẽ được gán bằng  μ+3σ và tương tự với giá trị nhỏ hơn  μ−3σ
7. `encode()`: Encoding các biến categorical. Với các cột chỉ có 2 unique values thì encode bằng LabelEncoder(), và những cột nhiều hơn 2 unique values thì encode bằng OneHotEncoder()

Tuy nhiên đây chỉ funtion chung cho tất cả các bảng. Tùy từng bảng mà sẽ có những điều chỉnh phù hợp và mang lại kết quả auc tốt nhất

In [10]:
# Missing value
def remove_missing_col(df, threshold = 0.6):
    '''
    Function to drop columns from the DataFrame where the percentage of missing values is greater than the threshold.

    Inputs:
    - df: a DataFrame
    - threshold: float, default = 0.6. The threshold for the percentage of missing values. Columns with missing values 
                percentage greater than this threshold will be dropped.

    Outputs:
    - df: a DataFrame. DataFrame with columns dropped based on the specified threshold.
    
    '''
    # Calculate the percentage of missing values for each column
    missing_percentage = df.isnull().mean()

    # Identify columns where the missing percentage is greater than the threshold
    columns_to_drop = missing_percentage[missing_percentage > threshold].index

    # Drop the identified columns from the DataFrame
    df = df.drop(columns=columns_to_drop)

    return df

def fill_nan(df):
    '''
    Function to fill values for missing data where numerical data fill by mean method, and categorical 
    data fiil by mode method.
    
    Inputs:
    - df: a DataFrame
    
    Outputs:
    - df: a DataFrame do not include missing values.
    
    '''
    numeric_columns = df.select_dtypes(include=['number']).columns.tolist()
    df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].mean())
    
    categorical_columns = df.dtypes[df.dtypes == 'object'].index.tolist()
    df[categorical_columns] = df[categorical_columns].fillna(df[categorical_columns].mode())
    return df

In [11]:
def create_day_to_year(df,ls_cols,newcol):
    
    '''
    Function to change the columns having days value to year values
    
    Inputs:
    - df: a DataFrame
    - ls_cols: list. Including the name of columns want to be changed
    - new_col: list. Including the new names for columns changed
    
    Outputs:
    - df: a DataFrame which replacing day columns by year columns.
    '''
    for i, j in zip(ls_cols, newcol):
        df[j] = round(np.abs(df[i]/365))
        df.drop(columns = i,inplace=True);
    return df

In [12]:
def check_imbalance(series):
    
    '''
    Function to check whether the series is imbalanced or not
    Inputs:
    - series: a series
    Outputs:
    - a bool: True of False that the series is imblanced greater than 98%
    
    '''
    value_counts = series.value_counts(normalize=True)
    return value_counts.max() > 0.98

def drop_column_unique_value(df):
    ''' 
    Function to drop columns with 2 unique values and imbalance > 98%
    Inputs:
    - df: a DataFrame
    Outputs:
    - df: a DataFrame removed imbalanced columns
    '''
    filtered_columns = [col for col in df.columns if df[col].nunique() > 2 or not check_imbalance(df[col])]

    # Create a new DataFrame with selected columns
    df_filtered = df[filtered_columns]
    return df_filtered


In [13]:
## Xử lý Outliers
def get_thresh(col, df):
    '''
    Function to get the threshold for oulier values
    Inputs:
    - col: the column name to check outlier
    - df: a dataframe
    Outputs:
    - low threshold and upper threshold

    '''
    xs = df[col]
    mu = xs.mean()
    sigma = xs.std()
    low =  mu - 3*sigma
    high = mu + 3*sigma
    return low, high
    
def change_value(x, low, high):
    if x < low: 
        return low
    elif x > high: 
        return high
    else: 
        return x

def replace_outlier(df):
    '''
    Function to replace outlier. Replacing Ouliers are lower than low threshold by low threshold and vice verse.
    Inputs:
    - df: a DataFrame
    Outputs:
    - df: a DataFrame which was handled outliers.
    '''
    num_columns = df.select_dtypes(include=['int64', 'float64'])
    for col in num_columns.columns:
        if col == 'TARGET':
            pass
        else:
            low, high = get_thresh(col, df)
            df[col] = df[col].apply(lambda x: change_value(x, low, high))
    return df

In [14]:
from sklearn.preprocessing import LabelEncoder

def encode(df):
    '''
    Function to encode the categorical variables in which the columns have only 2 unique values encoding by LabelEncoder
    and remaining column by OneHOtEncoder.
    Inputs:
    - df: a DataFrame
    Outputs:
    - df: a DataFrame which was encoded.
    '''
    label = LabelEncoder()
    categorical_cols = df.select_dtypes(include=['object']).columns
    
    for col in categorical_cols:
        nunique_cols = df[col].nunique()
        if nunique_cols == 2:
            df[col] = label.fit_transform(df[col])
 
    df = pd.get_dummies(df)
    return df
