# Faktorët e Performancës së Studentëve

Qëllimi i preprocesimit të datasetit "Faktorët e Performancës së Studentëve" është të përgatisim të dhënat në mënyrë të tillë që ato të jenë të gatshme për analiza të mëtejshme dhe ndërtimin e modeleve parashikuese të sakta. Procesi i parapërpunimit është një hap thelbësor që siguron cilësinë dhe qëndrueshmërinë e të dhënave për të shmangur gabimet në interpretim dhe për të përmirësuar rezultatet e analizave. Kjo përfshin një sërë hapash që pasurojnë datasetin dhe rrisin efikasitetin e tij për qëllime studimi dhe modelimi.

### Libraritë e përdorura

In [66]:
import pandas as pd
import numpy as np
from scipy import stats

### Leximi i dataset-it

In [63]:
# Dataframe kryesore
main_df = pd.read_csv("../dataset/StudentPerformanceFactors.csv")

# Dataframe i preprocesuar
pre_df = pd.read_csv("../dataset/StudentPerformanceFactors_new.csv")

# FAZA E PARË

### 1. Kualiteti i te dhenave

##### 1.1 Definimi i tipeve te dhenave

In [15]:
print("Tipet e te dhenave: \n")
print(main_df.dtypes)

# Atributet kategorike dhe numerike
categorical_columns = main_df.select_dtypes(include=['object']).columns
numerical_columns = main_df.select_dtypes(include=['int64', 'float64']).columns

print("\nAtributet kategorike:", categorical_columns)
print("\nAtributet numerike :", numerical_columns)

Tipet e te dhenave: 

Hours_Studied                  int64
Attendance                     int64
Parental_Involvement          object
Access_to_Resources           object
Extracurricular_Activities    object
Sleep_Hours                    int64
Previous_Scores                int64
Motivation_Level              object
Internet_Access               object
Tutoring_Sessions              int64
Family_Income                 object
Teacher_Quality               object
School_Type                   object
Peer_Influence                object
Physical_Activity              int64
Learning_Disabilities         object
Parental_Education_Level      object
Distance_from_Home            object
Gender                        object
Exam_Score                     int64
dtype: object

Atributet kategorike: Index(['Parental_Involvement', 'Access_to_Resources',
       'Extracurricular_Activities', 'Motivation_Level', 'Internet_Access',
       'Family_Income', 'Teacher_Quality', 'School_Type', 'Peer_Influen

##### 1.2 Menaxhimi vlerave te zbrazeta (null):


In [29]:
# Metoda per gjetjen e vlerave null
null_counts = main_df.isnull().sum()

print(null_counts)

has_nulls = main_df.isnull().any()

print('\nAtributet qe kane vlera null:', ', '.join(has_nulls[has_nulls].index))

Hours_Studied                  0
Attendance                     0
Parental_Involvement           0
Access_to_Resources            0
Extracurricular_Activities     0
Sleep_Hours                    0
Previous_Scores                0
Motivation_Level               0
Internet_Access                0
Tutoring_Sessions              0
Family_Income                  0
Teacher_Quality               78
School_Type                    0
Peer_Influence                 0
Physical_Activity              0
Learning_Disabilities          0
Parental_Education_Level      90
Distance_from_Home            67
Gender                         0
Exam_Score                     0
dtype: int64

Atributet që kanë vlera null: Teacher_Quality, Parental_Education_Level, Distance_from_Home


Ne kodin me poshte, kemi perpunuar te dhenat duke zevendesuar vlerat null me vlera te pershtatshme ne varesi te tipit te atributit (kolones). Fillimisht kemi bere identifikimin e kolonave me vlera te zbrazeta te cilat ndahen ne dy grupe: numerike dhe kategorike. Kolonat numerike zevendesohen me medianen per te shmangur ndikimin e outliers ndersa kolona te tjera numerike perdorin mesataren. Per kolonat kategorike vlerat null zevendesohen me vleren me te shpeshte. Pas kesaj kontrollohet dataset-i per te siguruar qe te gjitha vlerat null jane zevendesuar duke lejuar modifikimin direkt te te dhenave me inplace=True dhe duke parandaluar kopjet e padeshiruara.

In [64]:
# Ndarja e kolonave ne numerike dhe kategorike
numeric_cols = pre_df.select_dtypes(include=['float64', 'int64']).columns
categorical_cols = pre_df.select_dtypes(include=['object', 'category']).columns

# Per kolonat numerike vendos medianen si vlere ne Exam_Score
pre_df.fillna({'Exam_Score': pre_df['Exam_Score'].median()}, inplace=True)

# Vendos vleren mesatare ne kolonat e tjera numerike
for col in numeric_cols:
    if col != 'Exam_Score':
        pre_df.fillna({col: pre_df[col].mean()}, inplace=True)

# Per kolonat kategorike ploteso vlerat e zbrazeta me vleren me te shpeshte
for col in categorical_cols:
    pre_df.fillna({col: pre_df[col].mode()[0]}, inplace=True)

# Kontrollo perseri per vlerat e zbrazeta per te konfirmuar
print("Atributet qe kane vlera null:")
print(pre_df.isnull().sum())


Atributet qe kane vlera null:
Hours_Studied                 0
Attendance                    0
Parental_Involvement          0
Access_to_Resources           0
Extracurricular_Activities    0
Sleep_Hours                   0
Previous_Scores               0
Motivation_Level              0
Internet_Access               0
Tutoring_Sessions             0
Family_Income                 0
Teacher_Quality               0
School_Type                   0
Peer_Influence                0
Physical_Activity             0
Learning_Disabilities         0
Parental_Education_Level      0
Distance_from_Home            0
Gender                        0
Exam_Score                    0
dtype: int64


In [59]:
# Lista e kolonave qe duhet kontrolluar per vlera te zbrazeta
kolonat = [
    'Hours_Studied', 
    'Attendance', 
    'Parental_Involvement', 
    'Access_to_Resources', 
    'Extracurricular_Activities', 
    'Sleep_Hours', 
    'Previous_Scores', 
    'Motivation_Level', 
    'Internet_Access', 
    'Tutoring_Sessions', 
    'Family_Income', 
    'Teacher_Quality', 
    'School_Type', 
    'Peer_Influence', 
    'Physical_Activity', 
    'Learning_Disabilities', 
    'Parental_Education_Level', 
    'Distance_from_Home', 
    'Gender', 
    'Exam_Score'
]

# Largo rreshtat me vlera null ne kolonat e specifikuara me larte
pre_df.dropna(subset=kolonat, inplace=True)

# Shfaqni numrin e vlerave null qe kane mbetur ne cdo kolone
print(pre_df.isnull().sum())


Hours_Studied                 0
Attendance                    0
Parental_Involvement          0
Access_to_Resources           0
Extracurricular_Activities    0
Sleep_Hours                   0
Previous_Scores               0
Motivation_Level              0
Internet_Access               0
Tutoring_Sessions             0
Family_Income                 0
Teacher_Quality               0
School_Type                   0
Peer_Influence                0
Physical_Activity             0
Learning_Disabilities         0
Parental_Education_Level      0
Distance_from_Home            0
Gender                        0
Exam_Score                    0
dtype: int64


Identifikimin e duplikimeve (duplicates)

In [60]:
# Funksioni per identifikimin e duplikimeve
print("Duplikimet e gjetura: " + str(pre_df.duplicated().sum()))

Duplikimet e gjetura: 0


Ne dataset-in tone nuk kemi gjetur ndonje duplikate prandaj nuk ishte e nevojshme te bejme asnje fshirje te duplikateve. Kjo konfirmon kualitetin e te dhënave dhe na lejon te vazhdojme me analizen e metejeshme.