# **Jour 44 : USArrests**

Le jeu de données **USArrests** est un ensemble de statistiques classiques qui fournit des informations sur la criminalité et le nombre d'arrestations dans chacun des **50** États américains en **1973**.

$\bigoplus$ **Signification des variables**

+  Murder :	Taux d'homicides volontaires (meurtres)	
+  Assault :	Taux d'agressions physiques (violentes)	
+  UrbanPop :	Pourcentage de la population vivant en zone urbaine
+  Rape :	Taux de viols déclarés	

## 0. Chargement des librairies 

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error
import plotly.express as px
import statsmodels.api as sm


## 1. Chargement de la base données

In [3]:
data = pd.read_csv("../data/USArrests.csv")

data.columns.values[0]= 'Etats'

In [4]:
data.head()

Unnamed: 0,Etats,Murder,Assault,UrbanPop,Rape
0,Alabama,13.2,236,58,21.2
1,Alaska,10.0,263,48,44.5
2,Arizona,8.1,294,80,31.0
3,Arkansas,8.8,190,50,19.5
4,California,9.0,276,91,40.6


## 2. Vérification des valeurs manquantes et quelques statistiques 

### 2.1. Les valeurs manquantes 


In [6]:
print(data.isnull().sum())

Etats       0
Murder      0
Assault     0
UrbanPop    0
Rape        0
dtype: int64


Aucune valeur manquante ne se trouve dans la base.

### 2.2. Statistiques descriptives

In [10]:
data.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Murder,50.0,7.788,4.35551,0.8,4.075,7.25,11.25,17.4
Assault,50.0,170.76,83.337661,45.0,109.0,159.0,249.0,337.0
UrbanPop,50.0,65.54,14.474763,32.0,54.5,66.0,77.75,91.0
Rape,50.0,21.232,9.366385,7.3,15.075,20.1,26.175,46.0


Avec la variable **UrbanPop** par exemple, si on devrait avoir la même proportion de population vivant en zone urbaine dans chaque Etat, alors ça serait **65,54%** et les valeurs de notre base s'écartent de **14,47 unités** par raport à cette dernière.

### 3. Exploration visuelle 

In [12]:
# Matrice de corrélation (Plotly)

fig = px.imshow(data.corr(), color_continuous_scale='RdBu', title="Corrélation entre les variables")
fig.show()

ValueError: could not convert string to float: 'Alabama'

In [11]:
# Nuage de points 3D (Murder vs Assault vs Rape)
fig = px.scatter_3d(data, x='Murder', y='Assault', z='Rape', color='UrbanPop', 
                    hover_name=data.index, title="3D Crime Analysis")
fig.show()