# Лаб. №5: Интерактивная визуализация с Plotly

Влияние оружия на преступность в Америке вызвало множество общественных дебатов. Многие твердо убеждены, что законы штата, разрешающие гражданам носить скрытое огнестрельное оружие, привели к снижению преступности. Согласно этой точке зрения, законы о контроле над огнестрельным оружием отбирают оружие у законопослушных граждан, в то время как потенциальные преступники игнорируют их, оставляя потенциальных жертв беззащитными. В результате многие штаты Соединенных Штатов приняли законы о праве на ношение оружия (также известные как законы о выдаче оружия). 


Для анализа был выбран датасет "More Guns, Less Crime?", представляющий собой набор данных по 50 штатам США плюс округ Колумбия (в общей сложности 51 штат), с разбивкой по годам за 1977-1999 годы.


Описание датасета: https://vincentarelbundock.github.io/Rdatasets/doc/AER/Guns.html

Ссылки на документацию:

https://dev.to/codedex/visualize-youtube-data-with-plotly-express-27cp

https://plotly.com/python/pie-charts/

https://plotly.com/python/histograms/

https://plotly.com/python/box-plots/

# Описание данных

Данные являются многомерными, поскольку для каждого года фиксируется вектор наблюдений. Каждая запись характеризуется 13-ю признаками:

1) state - фактор, указывающий на штат;

2) year - год, к которому относятся данные;

3) violent - уровень насильственных преступлений (инциденты на 100 000 человек населения);

4) murder - уровень убийств (инцидент на 100 000);

5) robbery - частота ограблений (инцидент на 100 000);

6) prisoners - количество заключенных в предыдущем году (осужденные на 100 000 жителей; значение за предыдущий год);

7) afam - процент афроамериканцев от населения штата в возрасте от 10 до 64 лет;

8) caucasus - процент населения штата, являющегося европеоидом, в возрасте от 10 до 64 лет;

9) male - процентная доля мужского населения штата в возрасте от 10 до 29 лет;

10) population - население штата, в миллионах человек;

11) income - реальный личный доход на душу населения в штате (доллары США);

12) density - численность населения на квадратную милю площади суши, деленная на 1000;

13) law - фактор. Действует ли в этом году в штате закон о ношении оружия*?

*Закон о ношении оружия - это закон, который требует, чтобы правительства выдавали разрешения на скрытое ношение оружия любому заявителю, который соответствует необходимым критериям. Вторая поправка к Конституции Соединенных Штатов защищает право хранить и носить оружие, также известна как закон о ношении оружия.

In [None]:
# импорт библиотек

import pandas as pd

In [None]:
# чтение файла с диска и загрузка в датафрейм

path = "/content/drive/MyDrive/STUDY/Представление знаний и визуализация данных/Lab_1/Guns.csv"
df = pd.read_csv(path, index_col=0) #index_col=0 - убираем нумерацию строк
df.shape #размерность данных

(1173, 13)

In [None]:
list(df.columns) #вывод имен столбцов

['year',
 'violent',
 'murder',
 'robbery',
 'prisoners',
 'afam',
 'cauc',
 'male',
 'population',
 'income',
 'density',
 'state',
 'law']

# Типы признаков

In [None]:
# вывод информации о признаках

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1173 entries, 1 to 1173
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   year        1173 non-null   int64  
 1   violent     1173 non-null   float64
 2   murder      1173 non-null   float64
 3   robbery     1173 non-null   float64
 4   prisoners   1173 non-null   int64  
 5   afam        1173 non-null   float64
 6   cauc        1173 non-null   float64
 7   male        1173 non-null   float64
 8   population  1173 non-null   float64
 9   income      1173 non-null   float64
 10  density     1173 non-null   float64
 11  state       1173 non-null   object 
 12  law         1173 non-null   object 
dtypes: float64(9), int64(2), object(2)
memory usage: 128.3+ KB


Типы признаков:

1) state - номинальные категоризованные, неметрическая номинативная шкала;

2) year - обычно года относят к количественным признакам (метрическая интервальная шкала), но в данном случае разумнее будет рассматривать год как категорию;

3) violent - количественные, метрическая шкала отношений;

4) murder -  количественные, метрическая шкала отношений;

5) robbery -  количественные, метрическая шкала отношений;

6) prisoners -  количественные, метрическая шкала отношений;

7) afam - количественные, метрическая шкала отношений;

8) caucasus - количественные, метрическая шкала отношений;

9) male - количественные, метрическая шкала отношений;

10) population - количественные, абсолютная метрическая шкала;

11) income - количественные, метрическая шкала отношений;

12) density - количественные, метрическая шкала отношений;

13) law - номинальные категоризованные, неметрическая номинативная шкала;

# Визуализация

Устанавливаем библиотеки

In [None]:
pip install plotly

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly
import plotly.graph_objs as go

init_notebook_mode(connected=True)

In [None]:
import plotly.express as px

In [None]:
import plotly.io as pio
pio.renderers.default = 'colab'

##Боксплоты

In [None]:
fig = px.box(df, y="afam", title="Years Started")
fig.show()

На графике изображен боксплот для признака 'afam'

In [None]:
fig = px.box(df, y="male",  points="all")
fig.show()

Боксплот для признака 'male', на котором также указываются все значения в виде точек.

In [None]:
fig = px.box(df, x="year", y="violent", color="law")
fig.update_traces(quartilemethod="exclusive") # or "inclusive", or "linear" by default
fig.show()

Боксплоты для признака 'violent' по годам с разделением по признаку 'law'.

In [None]:
fig = px.box(df, x="year", y="murder", color="law",
             notched=True, # https://en.wikipedia.org/wiki/Box_plot#Variations
             title="Box plot",
             hover_data=["state"] # данные при наведении мыши
            )
fig.show()

Аналогичный график, только изменен вид боксплота и добавлено всплывающее значение признака 'state' при наведении мыши.

##Гистограммы

In [None]:
fig = px.histogram(df, x="violent", title="Histogram of violent")
fig.update_traces(marker_line_width=1,marker_line_color="white")
fig.show()

Гистограмма для признака violent.

In [None]:
fig = px.histogram(df, x="male",
                   title='Histogram of male',
                   labels={'total_bill':'total bill'}, 
                   opacity=0.8,
                   color_discrete_sequence=['indianred'], # цвет столбиков
                   text_auto=True
                   )
fig.update_traces(marker_line_width=1,marker_line_color="white")
fig.show()

Гистограмма для признака 'male' с подписями значений на столбиках.

In [None]:
fig = px.histogram(df, x="violent", color="law", marginal="rug", # can be `box`, `violin`
                         hover_data=df.columns)
fig.show()

Гистограмма для признака 'violent' с разделением по признаку 'law'.

##Круговые диаграммы

In [None]:
years = df['year'].value_counts()

In [None]:
fig = px.pie(values=years.values, names=years.index, title="Years",color_discrete_sequence=px.colors.sequential.Plasma)
fig.update_traces(marker_line_width=1,marker_line_color="white")
fig.show()

Круговая диаграмма для признака 'year'. Диаграмма показывает сбалансированность датасета.

# Выводы

Интерактивная визуализация позволяет отображать гораздо больше информации, чем статическая, но при этом не перегружает восприятие, так как обладает возможностью показывать некоторую информацию только по запросу. Таким образом, интерактивная визуализация потенциально может содержать гораздо больше информации, что позволяет быстро понять ключевые моменты.