Датасет: Students Performance in 2024 JAMB
https://www.kaggle.com/datasets/idowuadamo/students-performance-in-2024-jamb/data


Справка:
JAMB (Joint Admissions and Matriculation Board). 
Единый вступительный экзамен для абитуриентов нигерийских университетов, действителен в течение года и имеет диапазон 0-400 баллов.
Проходной балл 140 для частных и государственных университетов и 100 для политехнических и педагогических колледжей.

Количество столбцов - 17 (16 без ID)
Количество строк - 5000.
Пропуски:
Parent_Education_Level   -  891

Описание данных (проценты округлены до целых):

JAMB_Score - Балл, полученный студентом на экзамене JAMB. Количественная, теоретитчески изменяется от 0 до 400, в данном наборе от 100 до 367 с перевесом в сторону меньших значений. Тип переменной - количественная, дискретная.

Study_Hours_Per_Week - Количество целых часов, которые студент посвящает учебе в неделю. От 0 до 40. По визуализации на кагле напоминает нормальную, но масштабирование графика и p-value этого не подтверждают. Слишком много выбросов (примерно на чётные 4-ём значения). Тип переменной - количественная, дискретная.

Attendance_Rate - Процент дней, в течение которых студент посещал школу в течение учебного года. Тип переменной - количественная, дискретная (считает целлые проценты, т.е. 10 и 11, а не 10.5).

Teacher_Quality - Качество преподавания в школе, оцениваемое по шкале от 1 до 5. Тип переменной - категориальная, ранговая.

Distance_To_School - Расстояние, которое ученик преодолевает, чтобы добраться до учебного заведения, варьируется от 0 до 20 км. На кагле выглядит похожим на нормальное, но  масштабирование графика и p-value этого не подтверждают. Толстые хвосты. Тип переменной - количественная, непрерывная.

School_Type - Тип школы, которую посещает учащийся, 'Public' (75%) или 'Private' (25%). Тип переменной - категориальная, бинарная.
School_Location - Местоположение школы учащегося, 'Urban' (57%) или 'Rural' (43%) Тип переменной - категориальная, бинарная.

Extra_Tutorials - Проходил ли учащийся дополнительные занятия, 'Yes' (54%) или 'No' (46%) . Тип переменной - категориальная, бинарная.

Access_To_Learning_Materials - Имеет ли учащийся доступ к учебным материалам, таким как учебники и интернет-ресурсы, 'Yes' (67%) или 'No' (33%) . Тип переменной - категориальная, бинарная.

Parent_Involvement - Уровень участия родителей или опекунов в обучении учащихся, 'Medium' (40%), 'Low' (38%) или 'High' (22%). Тип переменной - категориальная, ранговая.

IT_Knowledge - указывает на умение учащегося пользоваться компьютером, 'Medium' (39%), 'Low' (37%) или 'High' (24%). Тип переменной - категориальная, ранговая.

Student_ID - Уникальный идентификатор для каждого студента. Тип переменной - категориальная, уникальный идентификатор.

Age - данная единица отражает возраст в целых числах. От 15 до 22 лет.  Примерно одинаковое количество лиц каждого возраста в датасете. Тип переменной - количественная, дискретная.

Gender - Пол студента, 'Female' (51%) или 'Male' (49%). Тип переменной - категориальная, бинарная.

Socioeconomic_Status - Социально-экономическое положение семьи студента, 'Medium' (39%), 'Low' (39%) или 'High' (22%). Тип переменной - категориальная, ранговая.

Parent_Education_Level - Уровень образования родителей (максимальный), 'Secondary' (38%), 'Primary' (32%) или 'Tertiary' (30%). Тип переменной - категориальная, ранговая.

Assignments_Completed - Уровень выполнения заданий студентом, оцениваемый по шкале от 1 до 5. Перевес в сторону низких значений, около 50% -1. Тип переменной - категориальная, ранговая.


In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro, normaltest, anderson
# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
df = pd.read_csv('/kaggle/input/students-performance-in-2024-jamb/jamb_exam_results.csv')
df.head()

In [None]:
def basic_info(df):
    print("Basic Information:")
    print(df.info())
    print("\nData Types:")
    print(df.dtypes)
    print("\nNumber of Missing Values:")
    print(df.isnull().sum())


def class_balance(df):
    print("\nClass Balance:")
    for column in df.select_dtypes(include=['object', 'category']).columns:
        print(f"\n{column}:")
        print(df[column].value_counts(normalize=True))


def check_distributions(df):
    print("\nDistributions:")
    for column in df.select_dtypes(include=['number']).columns:
        print(f"\n{column}:")
        print(df[column].describe())

def check_normal_distribution(df):
    print("\nNormal Distribution Checks:")
    numerical_columns = df.select_dtypes(include=['number']).columns

    for column in numerical_columns:
        data = df[column].dropna()
        print(f"\n{column}:")
        stat, p_value = shapiro(data)
        print(f"Shapiro-Wilk Test - Statistic: {stat}, p-value: {p_value}")
        stat, p_value = normaltest(data)
        print(f"D'Agostino and Pearson's Test - Statistic: {stat}, p-value: {p_value}")
        result = anderson(data)
        print(f"Anderson-Darling Test - Statistic: {result.statistic}")
        print(f"Critical Values: {result.critical_values}")
        print(f"Significance Levels: {result.significance_level}")
        plt.figure(figsize=(12, 6))
        sns.histplot(data, kde=True, bins=30)
        plt.title(f'Distribution of {column}')
        plt.show()

basic_info(df)
class_balance(df)
check_distributions(df)
check_normal_distribution(df)

In [None]:
df.Teacher_Quality.value_counts()/df.Teacher_Quality.count()

In [None]:
df.Assignments_Completed.value_counts()/df.Teacher_Quality.count()