# Análisis Exploratorio USArrests

En esta sección emplearemos la base de datos `USArrests` en la que se recoge información sobre el crimen en cada estado de Estados Unidos durante el año 1973. Comenzamos explorando esta base de datos para familiarizarnos con la información contenida en ella.

<div>
<img src="./media/crime.jpeg" width="500"/>
</div>

Para el análisis exploratorio empleamos los siguientes módulos:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Comenzamo cargando nuestros datos en un dataframe de pandas:

In [None]:
crime_data = pd.read_csv('./data/USArrests.csv', index_col = 0)

Comprobamos que los datos se hayan cargado de manera correcta:

In [None]:
crime_data.head()

Inspeccionamos las dimensiones de nuestros dataframe:

In [None]:
crime_data.shape

Observamos que tiene 50 observaciones, algo bastante congruente, sabiendo que Estados Unidos se divide en 50 estados y 4 variables, a saber: Murder, Assault, UrbanPop y Rape.

A continuación se presenta el diccionario de datos:

## Diccinario de datos

A continuación se explican las cuatro variables que componen este dataframe:

* **Murder**.  Esta variable mide los asesinatos ocurridos por cada 100.000 habitantes.
* **Assault**.  Esta variable mide los asaltos ocurridos por cada 100.000 habitantes.
* **Rape**.  Esta variable mide las violaciones ocurridas por cada 100.000 habitantes.
* **UrbanPop**.  Esta variable mide el porcentaje de la población que reside en ciudades.

## Valores perdidos

Comprobamos si existen valores perdidos para alguna de las variables:

In [None]:
crime_data.info()

Observamos que todas las variables se encuentran completas. No existen huecos en nuestra base de datos.

A excepción del índice todas las variables son numéricas. Como sabemos el índice de un DataFrame está formado por valores únicos (no pueden existir dos filas con el mismo índice) ergo no puede haber estados repetidos. 

Exploramos pues las variables numéricas.

## Estadísticos relevantes

Comenzamos calculando los estadísticos más relevantes:

In [None]:
crime_data.describe()

Vemos que en general son variables equilibradas (en el sentido de que la media y la mediana se encuentran bastante próximas). Observamos también en que se mueven en rangos muy distintos. La variable **UrbanPop** evidentemente se ve acotada por 100 por ser un porcentaje. Además observamos que los asaltos (**Assault**) son el crimen más frecuente siendo mucho más frecuentes que el asesinato (**Murder**) y la violación (**Rape**). Observamos que el asesinato es el crimen menos frecuente.

## Visualización de los datos

A continuación construimos los histogramas de cada variable para familiarizarnos más con la base de datos:

In [None]:
def plot_quantitative_variables(dataframe, list_quantitative_columns):
    for variable in list_quantitative_columns:
        plt.figure()
        dataframe[variable].plot(kind = 'hist', title=variable)

In [None]:
plot_quantitative_variables(crime_data, crime_data.columns)

Aunque en un princio parecían variables equilibradas al representarlas vemos que no todas son campaniformes. La variable más próximma a una normal es la violación **Rape**.

Para concluir nuestro análisis exploratorios y por tratarse de variables numéricas todas ellas es interesante construir la matriz de correlación.

## Matriz de correlación

Calculamos como siempre la matriz de correlación:

In [None]:
corr_matrix = crime_data.corr()
corr_matrix

Observamos que el asesinato y el asalto están altamente correlacionada. Además observamos que la matriz no presenta ningún negativo, todos los crímenes se encuentran correlacionado positivamente, es decir, al aumentar alguno aumentan los demás. La menor correlación se encuentra asociada al porcentaje de población urbana, en la que solo se aprecia una ligera correlación con la violación. Podemos visualizar toda esta información mediante un mapa de calor:

In [None]:
# Construimos la figura en matplotlib
f, ax = plt.subplots(figsize=(11, 9))

# Generamos el mapa de calor
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Dibujamos el mapa usando la máscara y añadiendo algunos parámetros que mejoran la visualización
sns.heatmap(corr_matrix, cmap=cmap, vmax=1,vmin=-1, center=0, square=True, linewidths=.5, cbar_kws={"shrink": .5});



En los siguientes notebooks continuaremos profundizando en la exploración de este dataset calculando primero las componentes principales y posteriormente segmentando en clusters.