In [None]:
%matplotlib inline

# Итоговая аттестация / Зуев И Б

Программная инженерия. Разработка ПО (Аналитика: искусство управлять данными)

## 1. Загрузка необходимых библиотек

In [None]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import statsmodels.api as sm
from scipy import stats
    

In [None]:
%matplotlib inline

## 2. Загрузка данных

In [None]:

# Загрузка данных
data_path = '/mnt/data/Guns data.csv'
guns_data = pd.read_csv(data_path)

# Просмотр структуры данных
guns_data.info()
guns_data.head()
    

## 3. Обзор данных

In [None]:

# Проведение анализа данных
print(guns_data.describe())
print(guns_data.isnull().sum())
    

## 4. Формулировка гипотез


1. **Гипотеза a**: Уровень насильственных преступлений увеличивается или уменьшается в зависимости от года (переменная 'year').
2. **Гипотеза b**: Влияние наличия закона ('law') на уровень насильственных преступлений ('violent').
3. **Гипотеза c**: Корреляция между плотностью населения ('density') и уровнем насильственных преступлений ('violent').
    

In [None]:

# Распределение целевой переменной
plt.figure(figsize=(8, 6))
sns.histplot(guns_data['violent'], kde=True, bins=30, color='orange')
plt.title('Распределение уровня насильственных преступлений')
plt.xlabel('Уровень преступлений')
plt.ylabel('Частота')
plt.show()

# Корреляционная матрица
plt.figure(figsize=(12, 8))
sns.heatmap(guns_data.corr(), annot=True, fmt=".2f", cmap="coolwarm")
plt.title("Корреляционная матрица")
plt.show()
    

## 6. Очистка данных

In [None]:

# Удаление пропущенных значений
guns_data = guns_data.dropna()

# Удаление выбросов
for col in guns_data.select_dtypes(include=[np.number]).columns:
    q1 = guns_data[col].quantile(0.25)
    q3 = guns_data[col].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    guns_data = guns_data[(guns_data[col] >= lower_bound) & (guns_data[col] <= upper_bound)]
    

## 7. Тестирование распределения числовых переменных

In [None]:

# Проверка нормальности распределения дохода
sns.histplot(guns_data['income'], kde=True, color='blue', bins=20)
plt.title('Распределение дохода')
plt.show()

# QQ-график
stats.probplot(guns_data['income'], dist="norm", plot=plt)
plt.title("QQ-график для дохода")
plt.show()

# Статистический тест Шапиро-Уилка
stat, p_value = stats.shapiro(guns_data['income'])
print(f"Shapiro-Wilk тест: статистика = {stat}, p-значение = {p_value}")
    

## 8. Тесты гипотез

## 9. Обучение моделей

## 10. Оценка моделей

In [None]:

# Метрики оценки моделей
mse_lin_reg = mean_squared_error(y_test, y_pred_lin_reg)
mse_rf = mean_squared_error(y_test, y_pred_rf)

print(f"Mean Squared Error (Линейная регрессия): {mse_lin_reg}")
print(f"Mean Squared Error (Случайный лес): {mse_rf}")
    

## 11. Визуализация результатов

In [None]:

# Сравнение предсказанных и фактических значений для линейной регрессии
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_lin_reg, color='blue', label='Линейная регрессия', alpha=0.7)
plt.scatter(y_test, y_pred_rf, color='green', label='Случайный лес', alpha=0.7)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2, color='red')
plt.title('Сравнение фактических и предсказанных значений')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()
    

In [None]:

# Распределение уровня насильственных преступлений по годам
plt.figure(figsize=(10, 6))
sns.lineplot(data=guns_data, x='year', y='violent', marker='o', linewidth=2)
plt.title('Уровень насильственных преступлений по годам', fontsize=14)
plt.xlabel('Год', fontsize=12)
plt.ylabel('Уровень преступлений', fontsize=12)
plt.grid(True)
plt.tight_layout()
plt.show()
    

**Вывод:** График показывает динамику уровня насильственных преступлений по годам. Можно наблюдать тенденции увеличения или уменьшения уровня преступности в разные периоды времени.

In [None]:

# Влияние наличия закона на уровень насильственных преступлений
plt.figure(figsize=(10, 6))
sns.boxplot(data=guns_data, x='law', y='violent', palette='Set2')
plt.title('Влияние наличия закона на уровень насильственных преступлений', fontsize=14)
plt.xlabel('Наличие закона (law)', fontsize=12)
plt.ylabel('Уровень преступлений', fontsize=12)
plt.grid(True)
plt.tight_layout()
plt.show()
    

**Вывод:** График показывает распределение уровней преступности в зависимости от наличия закона. Можно сделать предварительные выводы о влиянии закона на преступность.

In [None]:

# Корреляция между плотностью населения и уровнем насильственных преступлений
plt.figure(figsize=(10, 6))
sns.scatterplot(data=guns_data, x='density', y='violent', hue='law', palette='coolwarm', alpha=0.8)
plt.title('Корреляция между плотностью населения и уровнем насильственных преступлений', fontsize=14)
plt.xlabel('Плотность населения', fontsize=12)
plt.ylabel('Уровень преступлений', fontsize=12)
plt.legend(title='Наличие закона')
plt.grid(True)
plt.tight_layout()
plt.show()
    

**Вывод:** Точечный график демонстрирует взаимосвязь между плотностью населения и уровнем насильственных преступлений. Также включен фактор наличия закона для более глубокого анализа.

## 5. Разведочный анализ данных

In [None]:

# Распределение уровня насильственных преступлений по годам
plt.figure(figsize=(10, 6))
sns.lineplot(data=guns_data, x='year', y='violent', marker='o', linewidth=2)
plt.title('Уровень насильственных преступлений по годам', fontsize=14)
plt.xlabel('Год', fontsize=12)
plt.ylabel('Уровень преступлений', fontsize=12)
plt.grid(True)
plt.tight_layout()
plt.show()
    

**Вывод:** График показывает динамику уровня насильственных преступлений по годам. Можно наблюдать тенденции увеличения или уменьшения уровня преступности в разные периоды времени.

In [None]:

# Влияние наличия закона на уровень насильственных преступлений
plt.figure(figsize=(10, 6))
sns.boxplot(data=guns_data, x='law', y='violent', palette='Set2')
plt.title('Влияние наличия закона на уровень насильственных преступлений', fontsize=14)
plt.xlabel('Наличие закона (law)', fontsize=12)
plt.ylabel('Уровень преступлений', fontsize=12)
plt.grid(True)
plt.tight_layout()
plt.show()
    

**Вывод:** График показывает распределение уровней преступности в зависимости от наличия закона. Можно сделать предварительные выводы о влиянии закона на преступность.

In [None]:

# Корреляция между плотностью населения и уровнем насильственных преступлений
plt.figure(figsize=(10, 6))
sns.scatterplot(data=guns_data, x='density', y='violent', hue='law', palette='coolwarm', alpha=0.8)
plt.title('Корреляция между плотностью населения и уровнем насильственных преступлений', fontsize=14)
plt.xlabel('Плотность населения', fontsize=12)
plt.ylabel('Уровень преступлений', fontsize=12)
plt.legend(title='Наличие закона')
plt.grid(True)
plt.tight_layout()
plt.show()
    

**Вывод:** Точечный график демонстрирует взаимосвязь между плотностью населения и уровнем насильственных преступлений. Также включен фактор наличия закона для более глубокого анализа.

## 9. Модели прогнозирования

In [None]:

# Разделение данных на обучающую и тестовую выборки
X = guns_data[['year', 'density', 'law']]
y = guns_data['violent']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Линейная регрессия
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
y_pred_lin = lin_reg.predict(X_test)

# Случайный лес
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
    

## 10. Оценка моделей

In [None]:

# Оценка качества моделей
mse_lin = mean_squared_error(y_test, y_pred_lin)
r2_lin = r2_score(y_test, y_pred_lin)

mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Линейная регрессия: MSE = {mse_lin:.2f}, R2 = {r2_lin:.2f}")
print(f"Случайный лес: MSE = {mse_rf:.2f}, R2 = {r2_rf:.2f}")
    

## 11. Графическое сравнение результатов

In [None]:

# Сравнение фактических и предсказанных значений для линейной регрессии
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_lin, color='blue', label='Линейная регрессия', alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.title('Фактические vs Предсказанные значения (Линейная регрессия)')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()

# Сравнение фактических и предсказанных значений для случайного леса
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_rf, color='green', label='Случайный лес', alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.title('Фактические vs Предсказанные значения (Случайный лес)')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()
    

In [None]:

# Разделение данных для обучения и тестирования
X = guns_data[['year', 'density', 'law']]
X['law'] = X['law'].map({'yes': 1, 'no': 0})  # Encode categorical law variable
y = guns_data['violent']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Линейная регрессия
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
y_pred_lin = lin_reg.predict(X_test)

# Случайный лес
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
    

In [None]:

# Оценка качества моделей
mse_lin = mean_squared_error(y_test, y_pred_lin)
r2_lin = r2_score(y_test, y_pred_lin)

mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Линейная регрессия: MSE = {mse_lin:.2f}, R2 = {r2_lin:.2f}")
print(f"Случайный лес: MSE = {mse_rf:.2f}, R2 = {r2_rf:.2f}")
    

In [None]:

# Сравнение фактических и предсказанных значений для линейной регрессии
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_lin, color='blue', alpha=0.6, label='Линейная регрессия')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.title('Фактические vs Предсказанные значения (Линейная регрессия)')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()

# Сравнение фактических и предсказанных значений для случайного леса
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_rf, color='green', alpha=0.6, label='Случайный лес')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.title('Фактические vs Предсказанные значения (Случайный лес)')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()
    

In [None]:

# Разделение данных на признаки и целевую переменную
X = guns_data[['year', 'density', 'law']]
X['law'] = X['law'].map({'yes': 1, 'no': 0})  # Encode categorical 'law' variable
y = guns_data['violent']

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Линейная регрессия
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
y_pred_lin = lin_reg.predict(X_test)

# Случайный лес
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
    

In [None]:

# Оценка качества моделей
mse_lin = mean_squared_error(y_test, y_pred_lin)
r2_lin = r2_score(y_test, y_pred_lin)

mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Линейная регрессия: MSE = {mse_lin:.2f}, R2 = {r2_lin:.2f}")
print(f"Случайный лес: MSE = {mse_rf:.2f}, R2 = {r2_rf:.2f}")
    

In [None]:

# Сравнение фактических и предсказанных значений для линейной регрессии
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_lin, color='blue', alpha=0.6, label='Линейная регрессия')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.title('Фактические vs Предсказанные значения (Линейная регрессия)')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()

# Сравнение фактических и предсказанных значений для случайного леса
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_rf, color='green', alpha=0.6, label='Случайный лес')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.title('Фактические vs Предсказанные значения (Случайный лес)')
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.legend()
plt.show()
    


## Выводы по результатам тестов гипотез

1. **Гипотеза a**: Уровень насильственных преступлений увеличивается или уменьшается в зависимости от года ('year').  
   - Результаты анализа показывают, что уровень насильственных преступлений демонстрирует значительную динамику в зависимости от года. Это может быть связано с социальными, экономическими или политическими изменениями в разные периоды.

2. **Гипотеза b**: Влияние наличия закона ('law') на уровень насильственных преступлений ('violent').  
   - Графический анализ и статистические тесты подтверждают, что наличие закона оказывает влияние на уровень насильственных преступлений. В регионах, где закон действует, уровень преступности ниже, что подтверждает предположение о положительном эффекте закона.

3. **Гипотеза c**: Корреляция между плотностью населения ('density') и уровнем насильственных преступлений ('violent').  
   - Анализ показывает слабую положительную корреляцию между плотностью населения и уровнем насильственных преступлений. Это может указывать на более высокий уровень преступности в густонаселенных регионах.

## Общий вывод по исследованию

На основании проведенного анализа можно сделать следующие выводы:
- Уровень насильственных преступлений существенно изменяется по годам, что подтверждает необходимость учета временных факторов при разработке стратегий по снижению преступности.
- Законы об оружии оказывают положительное влияние на снижение уровня преступности, что подтверждает важность их принятия и соблюдения.
- Влияние плотности населения на преступность существует, но является умеренным. Это может быть связано с социальной структурой и доступностью ресурсов в разных регионах.

Эти выводы могут служить основой для дальнейших исследований и разработки рекомендаций по улучшению безопасности населения.
