In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Đọc dữ liệu
df = pd.read_csv("/content/drive/MyDrive/Project_DA_TIMA/Data/Tima_CRM_Handled_Python.csv", keep_default_na=False, na_values=[])


In [None]:
# Giả định lãi suất tháng 2%
monthly_rate = 0.02

# Tính lãi suất năm giả định
df["LaiSuat"] = monthly_rate * 12

# Nếu muốn tổng lãi giả định trong suốt khoản vay:
df["TongLai_GiaDinh"] = df["TienGiaiNgan"] * monthly_rate * df["LoanDuration"]

df[["TienGiaiNgan", "LoanDuration", "LaiSuat", "TongLai_GiaDinh"]].head()

In [None]:
print("1. Trung bình Số tiền vay:", df['SoTienDKVayBanDau'].mean())
print("2. Độ lệch chuẩn Lãi suất:", df['LaiSuat'].std())
print("3. Tổng Tiền giải ngân:", df['TienGiaiNgan'].sum())
print("4. Thống kê mô tả Điểm tín dụng:\n", df['TS_CREDIT_SCORE_V2'].describe())
print("5. Số lượng khách hàng theo Trạng thái:\n", df['TrangThai'].value_counts())


In [None]:
# 6. Histogram Thu nhập
df['Salary'].hist(bins=30, color='skyblue')
plt.title("Phân phối Thu nhập")
plt.xlabel("Salary")
plt.show()

# 7. Boxplot Tiền giải ngân
sns.boxplot(x=df['TienGiaiNgan'], color='orange')
plt.xscale('log')
plt.title("Boxplot Tiền giải ngân")
plt.show()

# 8. Pie chart Giới tính
df['Gender'].value_counts().plot.pie(autopct='%1.1f%%', colors=['#66b3ff','#ff9999'])
plt.title("Tỷ lệ Giới tính")
plt.ylabel("")
plt.show()


In [None]:
mapping = {
    "Dưới 6 tháng": 0.5,
    "6 tháng": 0.5,
    "Dưới 1 năm": 0.8,
    "1 - 3 năm": 2,
    "3 - 10 năm": 6.5,
    "Hơn 10 năm": 10,
    "Từ 7 đến 12 tháng": 9.5
}

df["ThoiGianSong_Nam"] = df["ThoiGianDaSong"].map(mapping)

df["ThoiGianSong_Nam"] = df["ThoiGianSong_Nam"].fillna(df["ThoiGianSong_Nam"].mean())

In [None]:
print("9. Số tiền vay TB theo ngành nghề:\n")
df.groupby('JobName')['SoTienDKVayBanDau'].mean()


In [None]:
print("10. Số KH theo khu vực:\n", df.groupby('CityName').size())

In [None]:
print("12. Số lượng nợ xấu:\n", df['HasBadDebt'].value_counts())

In [None]:
print("13. TB thời gian sống theo ngành nghề:\n")
df.groupby('JobName')['ThoiGianSong_Nam'].mean()

In [None]:
#  11. Biểu đồ phân tán – Lương & Điểm tín dụng
sns.scatterplot(x='Salary', y='TS_CREDIT_SCORE_V2', data=df)
plt.title("Lương vs. Điểm tín dụng")
plt.show()


In [None]:
#  14. Heatmap – Lãi suất & Điểm tín dụng
sns.heatmap(df[['LaiSuat', 'TS_CREDIT_SCORE_V2']].corr(), annot=True, cmap='YlGnBu')
plt.title("Tương quan: LaiSuat vs Điểm tín dụng")
plt.show()

In [None]:
print("15. Tổng Lãi suất theo Khu vực:\n")
df.groupby('CityName')['LaiSuat'].sum()

In [None]:
print("16. Số KH theo ngành nghề:\n")
df.groupby('JobName').size()

In [None]:
print("17. Top 5 khoản vay cao nhất:\n")
df['SoTienDKVayBanDau'].nlargest(5)

In [None]:
print("18. Top 5 lãi suất thấp nhất:\n")
df['LaiSuat'].nsmallest(5)

In [None]:
# 19. Phân phối Điểm tín dụng
sns.histplot(df['TS_CREDIT_SCORE_V2'], kde=True, bins=30)
plt.title("Phân phối Điểm tín dụng")
plt.show()


In [None]:
# 20. Số khoản vay theo Thành phố
print("20. Số khoản vay theo Thành phố:\n")
df.groupby('CityName').size()


In [None]:
df['AgeGroup'] = pd.cut(
    df['CustomerAge'],
    bins=[0, 17, 35, 55, float('inf')],
    labels=['Trẻ em', 'Thanh niên', 'Trung niên', 'Cao tuổi']
)

# # 21. Boxplot Thu nhập theo nhóm tuổi
sns.boxplot(x='AgeGroup', y='Salary', data=df)
plt.title("Phân phối thu nhập theo nhóm tuổi")
plt.show()

In [None]:
# 22. Tần suất Giới tính
df['Gender'].value_counts().plot(kind='bar', color='purple')
plt.title("Tần suất Giới tính")
plt.xlabel("Gender")
plt.ylabel("Số lượng")
plt.show()


In [None]:
# 23. Tương quan giữa Điểm tín dụng & Số tiền vay
corr = df[['TS_CREDIT_SCORE_V2', 'SoTienDKVayBanDau']].corr()
print("23. Tương quan Điểm tín dụng & Số tiền vay:\n")
corr


In [None]:
# 24. Theo Hình thức cư trú
print("24. Số lượng theo Hình thức cư trú:\n")
df.groupby('HinhThucCuTru').size()

In [None]:
# 25. Tổng số khoản vay theo Phường
print("25. Tổng số khoản vay theo Phường:\n")
df.groupby('WardName')['SoTienDKVayBanDau'].sum()

### Bỏ dữ liệu ngoại lai

In [None]:
cols = ['CustomerAge', 'TS_CREDIT_SCORE_V2']

for col in cols:
        # Loại bỏ outlier theo IQR
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        df = df[(df[col] >= Q1 - 1.5*IQR) & (df[col] <= Q3 + 1.5*IQR)]

## Lưu lại dữ liệu

In [None]:
df.dropna(inplace=True)
df.to_csv('/content/drive/MyDrive/Project_DA_TIMA/Data/Tima_CRM_Handled_Python.csv', index=False, encoding='utf-8-sig')
df.shape