In [1]:
catFeature = 'purpose'
contTarget = 'loan_amnt'

In [2]:
import re
import pandas as pd

In [3]:
def guess_column_types(file_path, delimiter=',', has_headers=True):
    try:
        # Read the CSV file using the specified delimiter and header settings
        df = pd.read_csv(file_path, sep=delimiter,low_memory=False, header=0 if has_headers else None)

        # Initialize a dictionary to store column data types
        column_types = {}

        # Loop through columns and infer data types
        for column in df.columns:
            # sample_values = df[column].dropna().sample(min(5, len(df[column])), random_state=42)

            # Check for datetime format "YYYY-MM-DD HH:MM:SS"
            is_datetime = all(re.match(r'\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}', str(value)) for value in df[column])

            # Check for date format "YYYY-MM-DD"
            is_date = all(re.match(r'\d{4}-\d{2}-\d{2}', str(value)) for value in df[column])

            # Assign data type based on format detection
            if is_datetime:
                inferred_type = 'datetime64'
            elif is_date:
                inferred_type = 'date'
            else:
                inferred_type = pd.api.types.infer_dtype(df[column], skipna=True)

            column_types[column] = inferred_type

        return (True, column_types)  # Return success and column types
    except pd.errors.ParserError:
        return (False, str(e))  # Return error message

In [4]:
file_path = '../data/LoanStats_web.csv'
result, column_types_or_error = guess_column_types(file_path)

if result:
    print("Column Types:", column_types_or_error)
else:
    print("Error:", column_types_or_error)


Column Types: {'id': 'string', 'member_id': 'floating', 'loan_amnt': 'floating', 'funded_amnt': 'floating', 'funded_amnt_inv': 'floating', 'term': 'string', 'int_rate': 'string', 'installment': 'floating', 'grade': 'string', 'sub_grade': 'string', 'emp_title': 'string', 'emp_length': 'string', 'home_ownership': 'string', 'annual_inc': 'floating', 'verification_status': 'string', 'issue_d': 'string', 'loan_status': 'string', 'pymnt_plan': 'string', 'url': 'floating', 'desc': 'string', 'purpose': 'string', 'title': 'string', 'zip_code': 'string', 'addr_state': 'string', 'dti': 'floating', 'delinq_2yrs': 'floating', 'earliest_cr_line': 'string', 'inq_last_6mths': 'floating', 'mths_since_last_delinq': 'floating', 'mths_since_last_record': 'floating', 'open_acc': 'floating', 'pub_rec': 'floating', 'revol_bal': 'floating', 'revol_util': 'string', 'total_acc': 'floating', 'initial_list_status': 'string', 'out_prncp': 'floating', 'out_prncp_inv': 'floating', 'total_pymnt': 'floating', 'total_p

In [5]:
column_types_or_error

{'id': 'string',
 'member_id': 'floating',
 'loan_amnt': 'floating',
 'funded_amnt': 'floating',
 'funded_amnt_inv': 'floating',
 'term': 'string',
 'int_rate': 'string',
 'installment': 'floating',
 'grade': 'string',
 'sub_grade': 'string',
 'emp_title': 'string',
 'emp_length': 'string',
 'home_ownership': 'string',
 'annual_inc': 'floating',
 'verification_status': 'string',
 'issue_d': 'string',
 'loan_status': 'string',
 'pymnt_plan': 'string',
 'url': 'floating',
 'desc': 'string',
 'purpose': 'string',
 'title': 'string',
 'zip_code': 'string',
 'addr_state': 'string',
 'dti': 'floating',
 'delinq_2yrs': 'floating',
 'earliest_cr_line': 'string',
 'inq_last_6mths': 'floating',
 'mths_since_last_delinq': 'floating',
 'mths_since_last_record': 'floating',
 'open_acc': 'floating',
 'pub_rec': 'floating',
 'revol_bal': 'floating',
 'revol_util': 'string',
 'total_acc': 'floating',
 'initial_list_status': 'string',
 'out_prncp': 'floating',
 'out_prncp_inv': 'floating',
 'total_pymn

In [6]:
### https://chat.openai.com/share/d835f292-f1f2-4eeb-85c5-6e437210298e

import pandas as pd

column_types_corrected = {col: ('float64' if t == 'floating' else t) for col, t in column_types_or_error.items()}

# สำหรับ 'date' และ 'datetime', pandas รู้จัก 'datetime64'
column_types_corrected = {col: ('datetime64' if t == 'date' else 'float64' if t == 'floating' else t) for col, t in column_types_corrected.items()}


# Assuming `data.csv` is your file name
df = pd.read_csv('../data/LoanStats_web.csv', dtype=column_types_corrected)

In [7]:
# Calculate the percentage of missing values for each column
missing_percentage = df.isnull().mean() * 100

# Filter out columns where more than 30% of the data is missing
columns_to_keep = missing_percentage[missing_percentage <= 30].index.tolist()
filtered_df = df[columns_to_keep]

##### print(filtered_df.head())  # To display the first few rows of the filtered DataFrame
### filtered_df.to_csv('filtered_loanstats_web.csv', index=False)  # To save the filtered DataFrame to a new CSV file

In [8]:
df = filtered_df

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1432466 entries, 0 to 1432465
Data columns (total 100 columns):
 #   Column                      Non-Null Count    Dtype  
---  ------                      --------------    -----  
 0   loan_amnt                   1432440 non-null  float64
 1   funded_amnt                 1432440 non-null  float64
 2   funded_amnt_inv             1432440 non-null  float64
 3   term                        1432440 non-null  string 
 4   int_rate                    1432440 non-null  string 
 5   installment                 1432440 non-null  float64
 6   grade                       1432440 non-null  string 
 7   sub_grade                   1432440 non-null  string 
 8   emp_title                   1302202 non-null  string 
 9   emp_length                  1323970 non-null  string 
 10  home_ownership              1432440 non-null  string 
 11  annual_inc                  1432440 non-null  float64
 12  verification_status         1432440 non-null  string 
 

### คำถาม: ในข้อมูลนี้เป็นลูกค้าที่ได้รับเงินกู้ทั้งหมด อยากทราบว่า ... มีความสัมพันธ์กับ ... หรือไม่

### จัดเตรียมข้อมูลแบบ Series เพื่อการทดสอบความสัมพันธ์

In [10]:
import pandas as pd
import numpy as np
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn

# สมมติว่า df_clean เป็น DataFrame ที่คุณมีอยู่และ 'catFeature' เป็นคอลัมน์ที่มีค่า categorical หลาย ค่า
# สร้างสำเนาเพื่อหลีกเลี่ยง SettingWithCopyWarning
df_clean = df.copy()

# แปลงข้อมูลใน contTarget ให้เป็นตัวเลข
df_clean[contTarget] = pd.to_numeric(df_clean[contTarget], errors='coerce')

# ตรวจสอบและลบค่า NaN หลังจากการแปลง
df_clean = df_clean.dropna(subset=[contTarget])

# หลังจากแปลงข้อมูลแล้ว สร้าง groups ซึ่งประกอบด้วย series ของ loan_amnt หลายๆ ชุด ที่ถูกสร้างขึ้นจาก value แต่ละแบบของ catFeature
groups = [df_clean[df_clean[catFeature] == value][contTarget] for value in df_clean[catFeature].unique()]

# ลบ Series ที่ว่างเปล่า (ถ้ามี)
groups = [group for group in groups if not group.empty]

In [11]:
##### df_clean[catFeature].unique()

In [12]:
##### df_clean[df_clean[catFeature] == 'RENT'][contTarget]

### Kolmogorov-Smirnov Test และ Anderson-Darling Test เพื่อดูว่ามีการแจกแจงแบบปกติ หรือไม่

### Mann-Whitney U test หรือ Kruskal-Wallis H-test กรณีตั้งแต่ 3 กลุ่ม

In [13]:
# ทำ Kruskal-Wallis H-test
stat, p = kruskal(*groups)
print(f'Kruskal-Wallis H-test stat={stat:.3f}, p={p:.3e}')

# การแปรผล
alpha = 0.05  # ระดับนัยสำคัญ
if p < alpha:
    print("มีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างกลุ่ม (reject H0)")
    # ทำ Post-hoc test ถ้าจำเป็น
    # ...
else:
    print("ไม่มีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างกลุ่ม (fail to reject H0)")

Kruskal-Wallis H-test stat=80061.420, p=0.000e+00
มีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างกลุ่ม (reject H0)
