In [65]:
import pandas as pd 
import numpy as np

## data1 - student performance factors

### Описание
Этот набор данных дает полное представление о различных факторах, влияющих на успеваемость студентов на экзаменах. Он включает данные об учебных привычках, посещаемости, участии родителей и других аспектах, влияющих на академические успехи.

### Описание столбцов
| Атрибут                  | Описание                                                                 |
|--------------------------|-------------------------------------------------------------------------|
| **Hours_Studied**        | Количество часов, посвящённых учебе в неделю.                          |
| **Attendance**           | Процент посещённых занятий.                                            |
| **Parental_Involvement** | Уровень участия родителей в образовании студента (Низкий, Средний, Высокий). |
| **Access_to_Resources**  | Доступность учебных ресурсов (Низкая, Средняя, Высокая).               |
| **Extracurricular_Activities** | Участие во внеклассных мероприятиях (Да, Нет).                     |
| **Sleep_Hours**          | Среднее количество часов сна за ночь.                                 |
| **Previous_Scores**      | Оценки с предыдущих экзаменов.                                         |
| **Motivation_Level**     | Уровень мотивации студента (Низкий, Средний, Высокий).                |
| **Internet_Access**      | Доступ к интернету (Да, Нет).                                          |
| **Tutoring_Sessions**    | Количество занятий с репетитором в месяц.                             |
| **Family_Income**        | Уровень дохода семьи (Низкий, Средний, Высокий).                      |
| **Teacher_Quality**      | Качество преподавателей (Низкое, Среднее, Высокое).                   |
| **School_Type**          | Тип школы (Государственная, Частная).                                 |
| **Peer_Influence**       | Влияние сверстников на успеваемость (Положительное, Нейтральное, Негативное). |
| **Physical_Activity**    | Среднее количество часов физической активности в неделю.              |
| **Learning_Disabilities**| Наличие нарушений в обучении (Да, Нет).                               |
| **Parental_Education_Level** | Высшее образование родителей (Школа, Колледж, Аспирантура).         |
| **Distance_from_Home**   | Расстояние от дома до школы (Близко, Средне, Далеко).                 |
| **Gender**               | Пол студента (Мужской, Женский).                                      |
| **Exam_Score**           | Итоговая оценка за экзамен.                                           |

In [67]:
data1=pd.read_csv('StudentPerformanceFactors.csv')

In [68]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Hours_Studied               6607 non-null   int64 
 1   Attendance                  6607 non-null   int64 
 2   Parental_Involvement        6607 non-null   object
 3   Access_to_Resources         6607 non-null   object
 4   Extracurricular_Activities  6607 non-null   object
 5   Sleep_Hours                 6607 non-null   int64 
 6   Previous_Scores             6607 non-null   int64 
 7   Motivation_Level            6607 non-null   object
 8   Internet_Access             6607 non-null   object
 9   Tutoring_Sessions           6607 non-null   int64 
 10  Family_Income               6607 non-null   object
 11  Teacher_Quality             6529 non-null   object
 12  School_Type                 6607 non-null   object
 13  Peer_Influence              6607 non-null   obje

In [69]:
data1.head()

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70


In [None]:
data1.value_counts

<bound method DataFrame.value_counts of       Hours_Studied  Attendance Parental_Involvement Access_to_Resources  \
0                23          84                  Low                High   
1                19          64                  Low              Medium   
2                24          98               Medium              Medium   
3                29          89                  Low              Medium   
4                19          92               Medium              Medium   
...             ...         ...                  ...                 ...   
6602             25          69                 High              Medium   
6603             23          76                 High              Medium   
6604             20          90               Medium                 Low   
6605             10          86                 High                High   
6606             15          67               Medium                 Low   

     Extracurricular_Activities  Sleep_Hours  P

## data2 - student_lifestyle_dataset

Этот набор данных подробно описывает образ жизни студентов и его связь с академической успеваемостью, выраженной в среднем балле (GPA). Он содержит 2000 записей о повседневных привычках студентов, включая учебу, внеклассные занятия, сон, социальную активность и физические нагрузки. Уровень стресса каждого студента рассчитывается на основе часов учебы и сна, что дает представление о влиянии образа жизни на академические результаты.

Данные подходят для анализа в области образования, психологии и здравоохранения, а также для проектов, связанных с управлением образом жизни, прогнозированием академической успеваемости и оценкой благополучия.

In [71]:
data2=pd.read_csv('student_lifestyle_dataset.csv')

In [72]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Student_ID                       2000 non-null   int64  
 1   Study_Hours_Per_Day              2000 non-null   float64
 2   Extracurricular_Hours_Per_Day    2000 non-null   float64
 3   Sleep_Hours_Per_Day              2000 non-null   float64
 4   Social_Hours_Per_Day             2000 non-null   float64
 5   Physical_Activity_Hours_Per_Day  2000 non-null   float64
 6   GPA                              2000 non-null   float64
 7   Stress_Level                     2000 non-null   object 
dtypes: float64(6), int64(1), object(1)
memory usage: 125.1+ KB


In [73]:
data2.head()

Unnamed: 0,Student_ID,Study_Hours_Per_Day,Extracurricular_Hours_Per_Day,Sleep_Hours_Per_Day,Social_Hours_Per_Day,Physical_Activity_Hours_Per_Day,GPA,Stress_Level
0,1,6.9,3.8,8.7,2.8,1.8,2.99,Moderate
1,2,5.3,3.5,8.0,4.2,3.0,2.75,Low
2,3,5.1,3.9,9.2,1.2,4.6,2.67,Low
3,4,6.5,2.1,7.2,1.7,6.5,2.88,Moderate
4,5,8.1,0.6,6.5,2.2,6.6,3.51,High


## data3 - student dropout

### Описание
Этот набор данных предоставляет подробный анализ факторов, влияющих на уровень отчислений студентов в средней школе. Он включает демографическую информацию, академические показатели и социальные условия, которые могут способствовать вероятности отчисления.

### Описание столбцов
| **Атрибут**                     | **Описание**                                                                 |
|---------------------------------|-----------------------------------------------------------------------------|
| **School**                      | Название школы (например, MS).                                             |
| **Gender**                      | Пол студента (например, M — Мужской, F — Женский).                        |
| **Age**                         | Возраст студента.                                                         |
| **Address**                     | Тип проживания (U — Город, R — Село).                                     |
| **Family_Size**                 | Размер семьи (GT3 — больше 3, LE3 — меньше или равно 3).                  |
| **Parental_Status**             | Статус родителей (A — вместе, T — раздельно).                             |
| **Mother_Education**            | Уровень образования матери (от 0 до 4).                                   |
| **Father_Education**            | Уровень образования отца (от 0 до 4).                                     |
| **Mother_Job**                  | Работа матери.                                                            |
| **Father_Job**                  | Работа отца.                                                              |
| **Reason_for_Choosing_School**  | Причина выбора школы (например, курс).                                    |
| **Guardian**                    | Опекун студента (например, мать).                                         |
| **Travel_Time**                 | Время на дорогу до школы (в минутах).                                     |
| **Study_Time**                  | Количество часов, затрачиваемых на учебу в неделю (от 1 до 4).            |
| **Number_of_Failures**          | Количество неудач на предыдущих курсах.                                   |
| **School_Support**              | Получает ли студент дополнительную поддержку в школе (Да/Нет).            |
| **Family_Support**              | Семейная поддержка в учебе (Да/Нет).                                      |
| **Extra_Paid_Class**            | Участие в дополнительных платных занятиях (Да/Нет).                      |
| **Extra_Curricular_Activities** | Участие во внеклассных мероприятиях (Да/Нет).                             |
| **Attended_Nursery**            | Посещение детского сада (Да/Нет).                                         |
| **Wants_Higher_Education**      | Желание получить высшее образование (Да/Нет).                             |
| **Internet_Access**             | Наличие интернета дома (Да/Нет).                                          |
| **In_Relationship**             | Наличие романтических отношений (Да/Нет).                                 |
| **Family_Relationship**         | Качество отношений в семье (по шкале от 1 до 5).                          |
| **Free_Time**                   | Количество свободного времени после школы (по шкале от 1 до 5).           |
| **Going_Out**                   | Частота прогулок с друзьями (по шкале от 1 до 5).                         |
| **Weekend_Alcohol_Consumption** | Употребление алкоголя на выходных (по шкале от 1 до 5).                   |
| **Weekday_Alcohol_Consumption** | Употребление алкоголя в будни (по шкале от 1 до 5).                       |
| **Health_Status**               | Оценка здоровья студента (по шкале от 1 до 5).                            |
| **Number_of_Absences**          | Общее количество пропусков в школе.                                       |
| **Grade_1**                     | Оценка за первое тестирование.                                            |
| **Grade_2**                     | Оценка за второе тестирование.                                            |
| **Final_Grade**                 | Итоговая оценка (G3).                                                     |
| **Dropped_Out**                 | Факт отчисления студента (True/False).                                    |

In [75]:
data3=pd.read_csv('student dropout.csv')

In [76]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 649 entries, 0 to 648
Data columns (total 34 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   School                       649 non-null    object
 1   Gender                       649 non-null    object
 2   Age                          649 non-null    int64 
 3   Address                      649 non-null    object
 4   Family_Size                  649 non-null    object
 5   Parental_Status              649 non-null    object
 6   Mother_Education             649 non-null    int64 
 7   Father_Education             649 non-null    int64 
 8   Mother_Job                   649 non-null    object
 9   Father_Job                   649 non-null    object
 10  Reason_for_Choosing_School   649 non-null    object
 11  Guardian                     649 non-null    object
 12  Travel_Time                  649 non-null    int64 
 13  Study_Time                   649 no

In [77]:
data3.head()

Unnamed: 0,School,Gender,Age,Address,Family_Size,Parental_Status,Mother_Education,Father_Education,Mother_Job,Father_Job,...,Free_Time,Going_Out,Weekend_Alcohol_Consumption,Weekday_Alcohol_Consumption,Health_Status,Number_of_Absences,Grade_1,Grade_2,Final_Grade,Dropped_Out
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,3,4,1,1,3,4,0,11,11,False
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,3,3,1,1,3,2,9,11,11,False
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,3,2,2,3,3,6,12,13,12,False
3,GP,F,15,U,GT3,T,4,2,health,services,...,2,2,1,1,5,0,14,14,14,False
4,GP,F,16,U,GT3,T,3,3,other,other,...,3,2,1,2,5,0,11,13,13,False


## data4 - student performance prediction

Этот набор данных создан для практики задач классификации, особенно для прогнозирования, сдаст ли студент курс или провалит его, на основе различных академических и демографических факторов. Набор содержит 40,000 записей студентов с такими атрибутами, как учебные привычки, уровень посещаемости, предыдущие оценки и другие.

Набор данных также включает вызовы, такие как пропущенные значения, некорректные данные и шум, что делает его идеальным для отработки навыков очистки данных, проведения разведочного анализа данных (EDA) и разработки признаков.

In [79]:
data4=pd.read_csv('student_performance_prediction.csv')

In [80]:
data4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 7 columns):
 #   Column                                       Non-Null Count  Dtype  
---  ------                                       --------------  -----  
 0   Student ID                                   40000 non-null  object 
 1   Study Hours per Week                         38005 non-null  float64
 2   Attendance Rate                              38008 non-null  float64
 3   Previous Grades                              38006 non-null  float64
 4   Participation in Extracurricular Activities  38000 non-null  object 
 5   Parent Education Level                       38000 non-null  object 
 6   Passed                                       38000 non-null  object 
dtypes: float64(3), object(4)
memory usage: 2.1+ MB


In [81]:
data4.head()

Unnamed: 0,Student ID,Study Hours per Week,Attendance Rate,Previous Grades,Participation in Extracurricular Activities,Parent Education Level,Passed
0,S00001,12.5,,75.0,Yes,Master,Yes
1,S00002,9.3,95.3,60.6,No,High School,No
2,S00003,13.2,,64.0,No,Associate,No
3,S00004,17.6,76.8,62.4,Yes,Bachelor,No
4,S00005,8.8,89.3,72.7,No,Master,No


## data5 - student math clean

In [83]:
data5=pd.read_csv('student_math_clean.csv')

In [84]:
data5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 34 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   student_id             395 non-null    int64 
 1   school                 395 non-null    object
 2   sex                    395 non-null    object
 3   age                    395 non-null    int64 
 4   address_type           395 non-null    object
 5   family_size            395 non-null    object
 6   parent_status          395 non-null    object
 7   mother_education       395 non-null    object
 8   father_education       395 non-null    object
 9   mother_job             395 non-null    object
 10  father_job             395 non-null    object
 11  school_choice_reason   395 non-null    object
 12  guardian               395 non-null    object
 13  travel_time            395 non-null    object
 14  study_time             395 non-null    object
 15  class_failures         

In [85]:
data5.head()

Unnamed: 0,student_id,school,sex,age,address_type,family_size,parent_status,mother_education,father_education,mother_job,...,family_relationship,free_time,social,weekday_alcohol,weekend_alcohol,health,absences,grade_1,grade_2,final_grade
0,1,GP,F,18,Urban,Greater than 3,Apart,higher education,higher education,at_home,...,4,3,4,1,1,3,6,5,6,6
1,2,GP,F,17,Urban,Greater than 3,Living together,primary education (4th grade),primary education (4th grade),at_home,...,5,3,3,1,1,3,4,5,5,6
2,3,GP,F,15,Urban,Less than or equal to 3,Living together,primary education (4th grade),primary education (4th grade),at_home,...,4,3,2,2,3,3,10,7,8,10
3,4,GP,F,15,Urban,Greater than 3,Living together,higher education,5th to 9th grade,health,...,3,2,2,1,1,5,2,15,14,15
4,5,GP,F,16,Urban,Greater than 3,Living together,secondary education,secondary education,other,...,4,3,2,1,2,5,4,6,10,10


## data6 - studentsPerformance

In [87]:
data6=pd.read_csv('StudentsPerformance.csv')

In [88]:
data6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [89]:
data6.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
