<h1 style="text-align: center">Autistic Spectrum Disorder Screening Data for Children</h1>

## Данные скрининга детей на аутизм, пригодные для задач классификации и прогнозирования.

- 292 примера
- 21 признак

### https://archive.ics.uci.edu/dataset/419/autistic+spectrum+disorder+screening+data+for+children

## 2.1. Описание набора данных, пояснения, позволяющие лучше понять природу данных. Назначение набора данных и возможные модели, которые можно построить на основе данного набора данных (практические задачи, решаемые с использованием данного обучающего набора данных). Описание каждого признака и его тип.


## Назначение набора данных

Данный набор данных предназначен для скрининга признаков расстройства аутистического спектра (РАС) у детей в возрасте от 4 до 11 лет.  
Цель — классификация: определить наличие или отсутствие признаков аутизма на основе ответов на диагностические вопросы и других демографических характеристик.

### Практические задачи:
- Выявление детей с риском аутизма на ранней стадии.
- Построение моделей предсказания диагноза РАС.
- Анализ демографических факторов, связанных с аутизмом.
- Создание вспомогательных систем для врачей и педагогов.

### Возможные модели:
- Классификационные модели (решающие деревья, логистическая регрессия, SVM, нейронные сети).
- Модели отбора признаков (feature selection).
- Системы поддержки принятия решений в медицинской практике.

---

## Описание признаков и их типы

| №  | Название признака      | Тип данных               | Описание |
|----|-------------------------|---------------------------|----------|
| 1  | `A1_Score`               | категориальный {0,1}      | Ответ на первый диагностический вопрос |
| 2  | `A2_Score`               | категориальный {0,1}      | Ответ на второй диагностический вопрос |
| 3  | `A3_Score`               | категориальный {0,1}      | Ответ на третий диагностический вопрос |
| 4  | `A4_Score`               | категориальный {0,1}      | Ответ на четвёртый диагностический вопрос |
| 5  | `A5_Score`               | категориальный {0,1}      | Ответ на пятый диагностический вопрос |
| 6  | `A6_Score`               | категориальный {0,1}      | Ответ на шестой диагностический вопрос |
| 7  | `A7_Score`               | категориальный {0,1}      | Ответ на седьмой диагностический вопрос |
| 8  | `A8_Score`               | категориальный {0,1}      | Ответ на восьмой диагностический вопрос |
| 9  | `A9_Score`               | категориальный {0,1}      | Ответ на девятый диагностический вопрос |
| 10 | `A10_Score`              | категориальный {0,1}      | Ответ на десятый диагностический вопрос |
| 11 | `age`                   | числовой                 | Возраст ребёнка |
| 12 | `gender`                | категориальный {m, f}     | Пол ребёнка |
| 13 | `ethnicity`             | категориальный            | Этническая принадлежность |
| 14 | `jundice`               | категориальный {yes, no}  | Наличие желтухи в анамнезе |
| 15 | `austim`                | категориальный {yes, no}  | Наличие аутизма у родственников |
| 16 | `contry_of_res`         | категориальный            | Страна проживания |
| 17 | `used_app_before`       | категориальный {yes, no}  | Использование диагностического приложения ранее |
| 18 | `result`                | числовой                 | Количество правильных ответов в тесте |
| 19 | `age_desc`              | категориальный {'4-11 years'} | Описание возрастной группы |
| 20 | `relation`              | категориальный            | Связь респондента с ребёнком |
| 21 | `Class/ASD`             | категориальный {YES, NO}  | Наличие признаков аутизма (целевая переменная) |

---

In [7]:
# Импортируем нужные библиотеки
import pandas as pd

# Открываем .arff файл как обычный текстовый файл и читаем в pandas
# Игнорируем строки с метаданными ARFF (начинаются с '@')
# comment='@' пропускает все строки в .arff файле, которые начинаются на @ (это метаинформация, а не данные).
# header=None потому что в файле заголовков для колонок нет.
data = pd.read_csv('Autism-Child-Data.arff', comment='@', header=None)

# Задаем имена столбцов вручную (так как в файле их нет)
data.columns = [
    'A1_Score', 'A2_Score', 'A3_Score', 'A4_Score', 'A5_Score',
    'A6_Score', 'A7_Score', 'A8_Score', 'A9_Score', 'A10_Score',
    'age', 'gender', 'ethnicity', 'jundice', 'austim',
    'contry_of_res', 'used_app_before', 'result', 'age_desc',
    'relation', 'Class/ASD'
]

### Отображаем первые 5 строк датасета

In [8]:
print(data.head())

   A1_Score  A2_Score  A3_Score  A4_Score  A5_Score  A6_Score  A7_Score  \
0         1         1         0         0         1         1         0   
1         1         1         0         0         1         1         0   
2         1         1         0         0         0         1         1   
3         0         1         0         0         1         1         0   
4         1         1         1         1         1         1         1   

   A8_Score  A9_Score  A10_Score  ... gender          ethnicity jundice  \
0         1         0          0  ...      m             Others      no   
1         1         0          0  ...      m  'Middle Eastern '      no   
2         1         0          0  ...      m                  ?      no   
3         0         0          1  ...      f                  ?     yes   
4         1         1          1  ...      m             Others     yes   

  austim    contry_of_res used_app_before result      age_desc relation  \
0     no           Jord

### Отображаем тип данных каждого признака

In [6]:
print(data.dtypes)

A1_Score            int64
A2_Score            int64
A3_Score            int64
A4_Score            int64
A5_Score            int64
A6_Score            int64
A7_Score            int64
A8_Score            int64
A9_Score            int64
A10_Score           int64
age                object
gender             object
ethnicity          object
jundice            object
austim             object
contry_of_res      object
used_app_before    object
result              int64
age_desc           object
relation           object
Class/ASD          object
dtype: object


### Преобразуем символы '?' в NaN

In [9]:
data.replace('?', pd.NA, inplace=True)

### Общая информация: размерность, типы, пропущенные значения и статистика

In [10]:
info = {
    "shape": data.shape,
    "num_features": len(data.columns),
    "num_missing": data.isna().sum().sum(),
    "missing_per_column": data.isna().sum(),
    "numerical_summary": data.describe(),
    "categorical_summary": data.describe(include=['object']),
}

### Количество элементов набора (строк)

In [12]:
# количество наблюдений (детей) в датасете
len(data)

292

### Количество признаков (столбцов)
Признаки — это все столбцы, включая демографические, ответы на тесты и целевой столбец (Class/ASD).

In [13]:
len(data.columns)

21

### Количество пропущенных значений

In [14]:
data.isna().sum().sum()


90

### Количество пропущенных значений по столбцам, чтобы понять, где проблемы сильнее всего

In [15]:
data.isna().sum()


A1_Score            0
A2_Score            0
A3_Score            0
A4_Score            0
A5_Score            0
A6_Score            0
A7_Score            0
A8_Score            0
A9_Score            0
A10_Score           0
age                 4
gender              0
ethnicity          43
jundice             0
austim              0
contry_of_res       0
used_app_before     0
result              0
age_desc            0
relation           43
Class/ASD           0
dtype: int64

### Статистика по числовым признакам
- средние значения
- стандартные отклонения
- минимумы и максимумы
- квартильные значения

In [16]:
data.describe()


Unnamed: 0,A1_Score,A2_Score,A3_Score,A4_Score,A5_Score,A6_Score,A7_Score,A8_Score,A9_Score,A10_Score,result
count,292.0,292.0,292.0,292.0,292.0,292.0,292.0,292.0,292.0,292.0,292.0
mean,0.633562,0.534247,0.743151,0.55137,0.743151,0.712329,0.606164,0.496575,0.493151,0.726027,6.239726
std,0.482658,0.499682,0.437646,0.498208,0.437646,0.453454,0.489438,0.500847,0.500811,0.446761,2.284882
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0
50%,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,6.0
75%,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,8.0
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,10.0


### Частоты категориальных признаков
Это поможет увидеть, например, какие значения у gender, ethnicity, country_of_res и как часто они встречаются.

In [18]:
data.describe(include=['object'])


Unnamed: 0,age,gender,ethnicity,jundice,austim,contry_of_res,used_app_before,age_desc,relation,Class/ASD
count,288,292,249,292,292,292,292,292,249,292
unique,8,2,10,2,2,52,2,1,5,2
top,4,m,White-European,no,no,'United Kingdom',no,'4-11 years',Parent,NO
freq,92,208,108,212,243,49,281,292,214,151


### Первичные предположения
После просмотра статистики можно сделать выводы:

- У некоторых детей пропущен возраст — нужно будет обработать.
- Пол может влиять на диагноз.
- Есть ли перекос по странам или национальностям?