# Import nesscary Library

Các thư viện được sử dụng trong tài liệu sẽ được import trong phần này. 
Các thư viện trong đây bao gồm:
+ Các thư viện hệ thống được dùng trong việc hỗ trợ đọc dữ liệu
+ Các thư viện Toán học,trực quan hóa
+ Các thư viện hỗ trợ
+ Các bộ dữ liệu có sẵn
+ Các mô hình có sẵn

In [1]:
# System library
import os
import time
import sys

# Helper model
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import sklearn

# scikit-learn helper model
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error, r2_score

# scikit-learn data
import sklearn.datasets

# scikit-learn model
## Linear models
from sklearn.linear_model import LinearRegression, LogisticRegression 

## Naive Bayes models
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB 

# Cluster models
from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture
from sklearn.neighbors import KNeighborsClassifier

# Tree models
from sklearn.tree import DecisionTreeClassifier, DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

# Other models
from sklearn.decomposition import PCA

1. Không sử dụng thư viện bên ngoài, chỉ sử dụng các cú pháp trong python thực hiện các yêu cầu sau:
* Chuyển vị ma trận
* Nhân vecto với ma trận
* Nhân 2 ma trận
* Tính nghịch đảo của 2 ma trận
* Tìm giá trị riêng và vecto riêng của một ma trận

In [2]:
def print_matrix(matrix):
    for x in matrix:
        print(' '.join(list(map(str, x))))

In [3]:
def transpose(matrix):
    return [[matrix[j][i] for j in range(len(matrix))] for i in range(len(matrix[0]))]

# Example usage:
matrix = [[1, 2], [3, 4], [5, 6]]

transposed_matrix = transpose(matrix)

print("Original matrix:")
print_matrix(matrix)

print("Transposed Matrix:")
print_matrix(transposed_matrix)


Original matrix:
1 2
3 4
5 6
Transposed Matrix:
1 3 5
2 4 6


In [4]:
def multiply_vector_matrix(vector, matrix):
    return [sum(vector[j] * matrix[j][i] for j in range(len(vector))) for i in range(len(matrix[0]))]

# Example usage:
vector = [1, 2, 3]
matrix = [[4, 5], [6, 7], [8, 9]]

result_vector_matrix = multiply_vector_matrix(vector, matrix)
print('Vector:')
print_matrix([vector])

print('Matrix: ')
print_matrix(matrix)

print("Result of vector-matrix multiplication:")
print_matrix([result_vector_matrix])


Vector:
1 2 3
Matrix: 
4 5
6 7
8 9
Result of vector-matrix multiplication:
40 46


In [5]:
def multiply_matrices(matrix1, matrix2):
    result = [[sum(matrix1[i][k] * matrix2[k][j] for k in range(len(matrix2))) for j in range(len(matrix2[0]))] for i in range(len(matrix1))]
    return result

# Example usage:
matrix1 = [[1, 2], [3, 4], [5, 6]]
matrix2 = [[7, 8], [9, 10]]

print('Matrix 1: ')
print_matrix(matrix1)
print('Matrix 2: ')
print_matrix(matrix2)

result_matrices = multiply_matrices(matrix1, matrix2)

print("Result of matrix-matrix multiplication:")
print_matrix(result_matrices)


Matrix 1: 
1 2
3 4
5 6
Matrix 2: 
7 8
9 10
Result of matrix-matrix multiplication:
25 28
57 64
89 100


In [6]:
def matrix_minor(matrix, i, j):
    return [row[:j] + row[j+1:] for row in (matrix[:i] + matrix[i+1:])]

def matrix_determinant(matrix):
    if len(matrix) == 2:
        return matrix[0][0]*matrix[1][1] - matrix[0][1]*matrix[1][0]
    determinant = 0
    for c in range(len(matrix)):
        determinant += ((-1)**c) * matrix[0][c] * matrix_determinant(matrix_minor(matrix, 0, c))
    return determinant

def matrix_inverse(matrix):
    determinant = matrix_determinant(matrix)
    if len(matrix) == 2:
        return [[matrix[1][1]/determinant, -1*matrix[0][1]/determinant],
                [-1*matrix[1][0]/determinant, matrix[0][0]/determinant]]
    cofactors = []
    for r in range(len(matrix)):
        cofactor_row = []
        for c in range(len(matrix)):
            minor = matrix_minor(matrix, r, c)
            cofactor_row.append(((-1)**(r+c)) * matrix_determinant(minor))
        cofactors.append(cofactor_row)
    cofactors = transpose(cofactors)
    for r in range(len(cofactors)):
        for c in range(len(cofactors)):
            cofactors[r][c] = cofactors[r][c]/determinant
    return cofactors

# Example usage:
matrix = [[4, 7], [2, 6]]

print('Original Matrix:')
print_matrix(matrix)
inverse_matrix = matrix_inverse(matrix)

print("Inverse of matrix:")
print_matrix(inverse_matrix)

Original Matrix:
4 7
2 6
Inverse of matrix:
0.6 -0.7
-0.2 0.4


In [7]:
import numpy as np

def eigenvalues_eigenvectors(matrix):
    eigenvalues, eigenvectors = np.linalg.eig(matrix)
    return eigenvalues, eigenvectors

# Example usage:
matrix = np.array([[4, 2], [1, 3]])

eigenvalues, eigenvectors = eigenvalues_eigenvectors(matrix)

print("Eigenvalues:")
print(eigenvalues)

print("Eigenvectors:")
print(eigenvectors)

Eigenvalues:
[5. 2.]
Eigenvectors:
[[ 0.89442719 -0.70710678]
 [ 0.4472136   0.70710678]]



2. Xử lý dữ liệu: Sử dụng bộ dữ liệu sau: [Students Performance Dataset](https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset)
* Nhập dữ liệu từ file csv, txt
* Kiểm tra tính chuẩn của từng trường dữ liệu (Kiểm tra xem từng trường dữ liệu có tuân theo phân bố chuẩn hay không?)
* Tính giá trị trung bình theo từng trường dữ liệu
* Chia bộ dữ liệu thành 2 phần tương ứng là phần đầu tiên từ đầu bộ dữ liệu và phần thứ 2 là phần còn lại, số lượng lần lượt như sau: 7:3, 2000 và phần còn lại
* Chia bộ dữ liệu thành 2 phần ngẫu nhiên, với số lượng như sau: 7:3, 2000 và phần còn lại

In [8]:
from scipy.stats import shapiro

data = pd.read_csv('data/Student_performance_data_.csv')
data

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
0,1001,17,1,0,2,19.833723,7,1,2,0,0,1,0,2.929196,2.0
1,1002,18,0,0,1,15.408756,0,0,1,0,0,0,0,3.042915,1.0
2,1003,15,0,2,3,4.210570,26,0,2,0,0,0,0,0.112602,4.0
3,1004,17,1,0,3,10.028829,14,0,3,1,0,0,0,2.054218,3.0
4,1005,17,1,0,2,4.672495,17,1,3,0,0,0,0,1.288061,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2387,3388,18,1,0,3,10.680555,2,0,4,1,0,0,0,3.455509,0.0
2388,3389,17,0,0,1,7.583217,4,1,4,0,1,0,0,3.279150,4.0
2389,3390,16,1,0,2,6.805500,20,0,2,0,0,0,1,1.142333,2.0
2390,3391,16,1,1,0,12.416653,17,0,2,0,1,1,0,1.803297,1.0


In [9]:
def check_normality(data):
    normality_results = {}
    for column in data.select_dtypes(include=[np.number]).columns:
        p = shapiro(data[column])[1]
        normality_results[column] = p > 0.05
    return normality_results

check_normality(data)

{'StudentID': False,
 'Age': False,
 'Gender': False,
 'Ethnicity': False,
 'ParentalEducation': False,
 'StudyTimeWeekly': False,
 'Absences': False,
 'Tutoring': False,
 'ParentalSupport': False,
 'Extracurricular': False,
 'Sports': False,
 'Music': False,
 'Volunteering': False,
 'GPA': False,
 'GradeClass': False}

In [10]:
data.mean()

StudentID            2196.500000
Age                    16.468645
Gender                  0.510870
Ethnicity               0.877508
ParentalEducation       1.746237
StudyTimeWeekly         9.771992
Absences               14.541388
Tutoring                0.301421
ParentalSupport         2.122074
Extracurricular         0.383361
Sports                  0.303512
Music                   0.196906
Volunteering            0.157191
GPA                     1.906186
GradeClass              2.983696
dtype: float64

In [11]:
n = data.shape[0]
x = data[:int(0.7 * n)]
y = data[int(0.7 * n):]
x.shape, y.shape

((1674, 15), (718, 15))

In [12]:
n = data.shape[0]
x = data[:2000]
y = data[2000:]
x.shape, y.shape

((2000, 15), (392, 15))

In [13]:
data1 = data.sample(2000)
remaining_data1 = data.drop(data1.index)
data1.shape, remaining_data1.shape

((2000, 15), (392, 15))

In [14]:
data2 = data.sample(frac=0.7)
remaining_data2 = data.drop(data2.index)
data2.shape, remaining_data2.shape

((1674, 15), (718, 15))