# Лаб. №1: понятие многомерных данных

Влияние оружия на преступность в Америке вызвало множество общественных дебатов. Многие твердо убеждены, что законы штата, разрешающие гражданам носить скрытое огнестрельное оружие, привели к снижению преступности. Согласно этой точке зрения, законы о контроле над огнестрельным оружием отбирают оружие у законопослушных граждан, в то время как потенциальные преступники игнорируют их, оставляя потенциальных жертв беззащитными. В результате многие штаты Соединенных Штатов приняли законы о праве на ношение оружия (также известные как законы о выдаче оружия). 


Для анализа был выбран датасет "More Guns, Less Crime?", представляющий собой набор данных по 50 штатам США плюс округ Колумбия (в общей сложности 51 штат), с разбивкой по годам за 1977-1999 годы.


Описание датасета: https://vincentarelbundock.github.io/Rdatasets/doc/AER/Guns.html

# Описание данных

Данные являются многомерными, поскольку для каждого года фиксируется вектор наблюдений. Каждая запись характеризуется 13-ю признаками:

1) state - фактор, указывающий на штат;

2) year - год, к которому относятся данные;

3) violent - уровень насильственных преступлений (инциденты на 100 000 человек населения);

4) murder - уровень убийств (инцидент на 100 000);

5) robbery - частота ограблений (инцидент на 100 000);

6) prisoners - количество заключенных в предыдущем году (осужденные на 100 000 жителей; значение за предыдущий год);

7) afam - процент афроамериканцев от населения штата в возрасте от 10 до 64 лет;

8) caucasus - процент населения штата, являющегося европеоидом, в возрасте от 10 до 64 лет;

9) male - процентная доля мужского населения штата в возрасте от 10 до 29 лет;

10) population - население штата, в миллионах человек;

11) income - реальный личный доход на душу населения в штате (доллары США);

12) density - численность населения на квадратную милю площади суши, деленная на 1000;

13) law - фактор. Действует ли в этом году в штате закон о ношении оружия*?

*Закон о ношении оружия - это закон, который требует, чтобы правительства выдавали разрешения на скрытое ношение оружия любому заявителю, который соответствует необходимым критериям. Вторая поправка к Конституции Соединенных Штатов защищает право хранить и носить оружие, также известна как закон о ношении оружия.

In [None]:
# импорт библиотек

import pandas as pd

In [None]:
# чтение файла с диска и загрузка в датафрейм

path = "/content/drive/MyDrive/STUDY/Представление знаний и визуализация данных/Lab_1/Guns.csv"
df = pd.read_csv(path, index_col=0) #index_col=0 - убираем нумерацию строк
df.shape #размерность данных

(1173, 13)

In [None]:
list(df.columns) #вывод имен столбцов

['year',
 'violent',
 'murder',
 'robbery',
 'prisoners',
 'afam',
 'cauc',
 'male',
 'population',
 'income',
 'density',
 'state',
 'law']

In [None]:
# выводим первые пять строк

df.head(5)

Unnamed: 0,year,violent,murder,robbery,prisoners,afam,cauc,male,population,income,density,state,law
1,1977,414.4,14.2,96.8,83,8.384873,55.12291,18.17441,3.780403,9563.148,0.074552,Alabama,no
2,1978,419.1,13.3,99.1,94,8.352101,55.14367,17.99408,3.831838,9932.0,0.075567,Alabama,no
3,1979,413.3,13.2,109.5,144,8.329575,55.13586,17.83934,3.866248,9877.028,0.076245,Alabama,no
4,1980,448.5,13.2,132.1,141,8.408386,54.91259,17.7342,3.900368,9541.428,0.076829,Alabama,no
5,1981,470.5,11.9,126.5,149,8.483435,54.92513,17.67372,3.918531,9548.351,0.077187,Alabama,no


In [None]:
# выводим последние пять строк

df.tail(5)

Unnamed: 0,year,violent,murder,robbery,prisoners,afam,cauc,male,population,income,density,state,law
1169,1995,254.2,2.1,17.9,254,1.485849,73.71621,15.37098,0.478447,14070.16,0.004927,Wyoming,yes
1170,1996,249.7,3.3,20.4,289,1.521814,73.85796,15.44601,0.480085,14032.23,0.004944,Wyoming,yes
1171,1997,255.2,3.5,17.7,310,1.527818,73.92731,15.494,0.480031,14790.98,0.004943,Wyoming,yes
1172,1998,247.6,4.8,16.2,326,1.558396,73.98515,15.51021,0.480045,15225.51,0.004944,Wyoming,yes
1173,1999,232.3,2.3,15.4,327,1.613004,74.04952,15.48013,0.479602,15765.07,0.004939,Wyoming,yes


# Типы признаков

In [None]:
# вывод информации о признаках

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1173 entries, 1 to 1173
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   year        1173 non-null   int64  
 1   violent     1173 non-null   float64
 2   murder      1173 non-null   float64
 3   robbery     1173 non-null   float64
 4   prisoners   1173 non-null   int64  
 5   afam        1173 non-null   float64
 6   cauc        1173 non-null   float64
 7   male        1173 non-null   float64
 8   population  1173 non-null   float64
 9   income      1173 non-null   float64
 10  density     1173 non-null   float64
 11  state       1173 non-null   object 
 12  law         1173 non-null   object 
dtypes: float64(9), int64(2), object(2)
memory usage: 128.3+ KB


Типы признаков:

1) state - номинальные категоризованные, неметрическая номинативная шкала;

2) year - обычно года относят к количественным признакам (метрическая интервальная шкала), но в данном случае разумнее будет рассматривать год как категорию;

3) violent - количественные, метрическая шкала отношений;

4) murder -  количественные, метрическая шкала отношений;

5) robbery -  количественные, метрическая шкала отношений;

6) prisoners -  количественные, метрическая шкала отношений;

7) afam - количественные, метрическая шкала отношений;

8) caucasus - количественные, метрическая шкала отношений;

9) male - количественные, метрическая шкала отношений;

10) population - количественные, абсолютная метрическая шкала;

11) income - количественные, метрическая шкала отношений;

12) density - количественные, метрическая шкала отношений;

13) law - номинальные категоризованные, неметрическая номинативная шкала;

# Проверка на пропуски

In [None]:
df.isna().sum() #количество пропущенных значений

year          0
violent       0
murder        0
robbery       0
prisoners     0
afam          0
cauc          0
male          0
population    0
income        0
density       0
state         0
law           0
dtype: int64

В представленном наборе данных отсутствуют пропущенные значения.

Если бы они были, то потребовались бы дополнительные исследования, на основании которых с пропусками можно было поступить одним из следующих образом:

- удаление пропусков (строки)

- отброс признаков, содержащих слишком много пропущенных значений (столбцы)

- замена пропущенных значений (например, медианой или средним для количественных, самым частым значением для категориальных)

- сохранить пропущенные значения, если они являются целью нашего исследования

# Выводы

Датасет содержит 13 признаков, 3 из которых являются категориальными, остальные - количественными, пропуски отсутствуют. 

Дальнейшее исследование данных предполагает:

- проверку на дубликаты

- проверку датасета на сбалансированность (на всякий случай, поскольку в описании датасета сказано, что он сбалансирован)

- проверку распределений данных (в т.ч. выбросы и их обработка), парных зависимостей

- отбор информативных признаков, проверка корреляции