# Análisis de componentes principales para el estudio del delito en Chile. Medium.

## Histogramas

Introducidos por Karl Pearson, un histograma es la representación precisa de la distribución de datos numéricos, que es una estimación de la distribución de probabilidad de una variable continua (CORAL). Parece similar al gráfico de barras, pero un gráfico de barras relaciona dos variables, mientras que un histograma relaciona solo una.

Un histograma requiere de un contenedor que divida el rango completo de valores en una serie de intervalos, y luego cuenta cuántos valores caen en cada uno. Los contenedores generalmente se especifican como intervalos consecutivos, no superpuestos de una variable. Los contenedores deben ser adyacentes y, a menudo, son del mismo tamaño. Se levanta un rectángulo sobre el contenedor con una altura proporcional a la frecuencia: el número de casos en cada contenedor.

La función go.Histogram( ) devuelve el objeto de rastreo de histograma. Su personalización se realiza mediante varios argumentos o atributos. Un argumento esencial es x o y establecido en una lista, un numpy array o un objeto DataFrame Pandas que se distribuirá en contenedores.

Por defecto, Plotly distribuye los puntos de datos en contenedores de tamaño automático. Sin embargo, puedes definir un tamaño de contenedor personalizado. Para ello necesitas establecer autobins en falso, especificar4 nbins (número de bins), sus valores y tamaño de inicio y fin.

In [581]:
import pandas as pd
import plotly.graph_objects as go
import numpy as np

In [582]:
df = pd.read_csv("C:/Users/usuario/Documents/GitHub_Personal/Bases_de_Datos_DS/dmcs1.csv" , delimiter=";",encoding='latin1',decimal=",")

In [583]:
df.head(5)

Unnamed: 0,REGION,UNIDAD TERRITORIAL,Rob_vio_o_int,Rob_sor,Rob_fuerza,Rob_vehi,Rob_acc_vehi,Robo_lug_habi,Robo_lug_no_habi,Otros_rob_fuerza,Hurtos,Lesiones,Lesiones_leves,Lesiones_graves,Homicidio,Violacion
0,3,Alto del Carmen,0.0,0.0,231.238175,0.0,0.0,84.086609,147.151566,0.0,147.151566,105.108261,63.064957,42.043305,0.0,0.0
1,12,Ant rtica,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,12,Cabo de Hornos,0.0,0.0,132.013201,0.0,0.0,0.0,132.013201,0.0,99.009901,99.009901,66.006601,33.0033,0.0,0.0
3,15,Camarones,0.0,0.0,420.38886,0.0,52.548607,210.19443,157.645822,0.0,367.840252,262.743037,262.743037,0.0,0.0,52.548607
4,1,Cami¤a,0.0,0.0,353.35689,0.0,0.0,117.78563,117.78563,117.78563,117.78563,824.499411,706.713781,117.78563,0.0,0.0


Robo con violencia o intimidación:  Consiste en la apropiación de una cosa mueble ajena, efectuada sin la voluntad de su dueño y con ánimo de lucro, ejerciendo el autor fuerza física o moral sobre una persona.

Robo por sorpresa: Se trata de una figura intermedia entre el hurto y el robo, porque en su comisión no se emplea la violencia propia del delito de robo con violencia o intimidación, pero tampoco se actúa en la clandestinidad normalmente inherente al hurto. Es lo que se conoce como el “lanzazo”. Ocurre cuando los autores actúan por sorpresa, aparentando riñas o montando maniobras para causar confusión en lugares públicos.

In [584]:
df['Rob_vio_o_int']

0         0.000000
1         0.000000
2         0.000000
3         0.000000
4         0.000000
          ...     
341    1257.437970
342    1335.613356
343    1453.901251
344    1641.376497
345    2790.062525
Name: Rob_vio_o_int, Length: 346, dtype: float64

In [626]:

trace1 = go.Histogram(
    x = df['Rob_vio_o_int'],   
    # histnorm = 'percent')
    histnorm = 'probability',
    opacity = 0.55,
    name = 'Robos con violencia o intimidacion',
    nbinsx=40)              
                      
trace2 = go.Histogram(
    x = df['Rob_sor'],   
    # histnorm = 'percent')
    histnorm = 'probability',
    opacity = 0.55,
    name = 'Robos por sorpresa',
    nbinsx=40,

    yaxis = 'y2')

data = [trace1, trace2]

layout = go.Layout(
    title='Distribución de la probabilidad de los delitos por comuna',
    barmode='overlay',
    xaxis=dict(
    title='tasa'
    ),
    yaxis=dict(
        title='Probabilidad de robos con violencia o intimidación'
    ),
    yaxis2=dict(
        title='Probabilidad de robos por sorpresa',
        anchor='free',
        overlaying='y',
        side='right',
        position=1
    ),
    height=600, width=700
) 

fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

### Estandarización

In [594]:
from sklearn.preprocessing import StandardScaler

In [640]:
Rob_vio_o_int = df['Rob_vio_o_int'].values.reshape(-1, 1)
X_std = StandardScaler().fit_transform(Rob_vio_o_int)

Rob_sor = df['Rob_sor'].values.reshape(-1, 1)
Y_std = StandardScaler().fit_transform(Rob_sor)


### Valores y vectores propios de la matriz de covarianzas

In [649]:
from IPython.display import display, Math, Latex

In [651]:
display(Math(r'\sigma_{jk}'))

<IPython.core.display.Math object>

In [653]:
mean_vect = np.mean(X_std, axis = 0)
mean_vect

array([4.10718344e-17])

In [668]:
XX = df.iloc[:,2:16].values
XXX_std = StandardScaler().fit_transform(XX)
XXX_std

array([[-0.59205174, -0.47772132, -0.87329994, ..., -0.52716388,
        -0.35003877, -0.9448288 ],
       [-0.59205174, -0.47772132, -1.19678041, ..., -1.45300438,
        -0.35003877, -0.9448288 ],
       [-0.59205174, -0.47772132, -1.01210635, ..., -0.72623487,
        -0.35003877, -0.9448288 ],
       ...,
       [ 4.72703242,  1.90834892,  3.59948094, ..., -0.17503371,
         0.09043172, -0.19846676],
       [ 5.41290886,  2.63127889,  1.6239929 , ..., -0.20901018,
         1.91286132, -0.06839311],
       [ 9.61536597, 12.82841662,  7.6808065 , ...,  3.47748357,
         1.64921029,  3.02357123]])

In [672]:
cov_matrix = (XXX_std - mean_vect).T.dot((XXX_std - mean_vect))/(XXX_std.shape[0]-1)
cov_matrix

array([[1.00289855, 0.88726619, 0.67174996, 0.89569005, 0.74883205,
        0.16077972, 0.36457155, 0.36174833, 0.54530548, 0.42933983,
        0.42090644, 0.256208  , 0.24003096, 0.15085524],
       [0.88726619, 1.00289855, 0.65247305, 0.83443403, 0.71398555,
        0.15848785, 0.38711711, 0.41340505, 0.70216694, 0.44027414,
        0.43007971, 0.26778486, 0.20160005, 0.18618732],
       [0.67174996, 0.65247305, 1.00289855, 0.72192447, 0.84571054,
        0.68980662, 0.71387785, 0.56387628, 0.64862178, 0.51053137,
        0.52686554, 0.2185292 , 0.11722592, 0.1011118 ],
       [0.89569005, 0.83443403, 0.72192447, 1.00289855, 0.78579275,
        0.17829465, 0.38609732, 0.38563118, 0.57967705, 0.40462934,
        0.40231516, 0.22305546, 0.19473972, 0.14924678],
       [0.74883205, 0.71398555, 0.84571054, 0.78579275, 1.00289855,
        0.27469006, 0.46896683, 0.52418702, 0.64250066, 0.34380511,
        0.36555511, 0.112041  , 0.09379647, 0.06646868],
       [0.16077972, 0.15848785, 0.6

In [673]:
np.cov(XXX_std.T)

array([[1.00289855, 0.88726619, 0.67174996, 0.89569005, 0.74883205,
        0.16077972, 0.36457155, 0.36174833, 0.54530548, 0.42933983,
        0.42090644, 0.256208  , 0.24003096, 0.15085524],
       [0.88726619, 1.00289855, 0.65247305, 0.83443403, 0.71398555,
        0.15848785, 0.38711711, 0.41340505, 0.70216694, 0.44027414,
        0.43007971, 0.26778486, 0.20160005, 0.18618732],
       [0.67174996, 0.65247305, 1.00289855, 0.72192447, 0.84571054,
        0.68980662, 0.71387785, 0.56387628, 0.64862178, 0.51053137,
        0.52686554, 0.2185292 , 0.11722592, 0.1011118 ],
       [0.89569005, 0.83443403, 0.72192447, 1.00289855, 0.78579275,
        0.17829465, 0.38609732, 0.38563118, 0.57967705, 0.40462934,
        0.40231516, 0.22305546, 0.19473972, 0.14924678],
       [0.74883205, 0.71398555, 0.84571054, 0.78579275, 1.00289855,
        0.27469006, 0.46896683, 0.52418702, 0.64250066, 0.34380511,
        0.36555511, 0.112041  , 0.09379647, 0.06646868],
       [0.16077972, 0.15848785, 0.6

In [674]:
eig_vals, eig_vectors = np.linalg.eig(cov_matrix)
print("Valores propios \n%s"%eig_vals)
print("Vectores propios \n%s"%eig_vectors)

Valores propios 
[ 6.50830289e+00  1.78439266e+00  1.37409698e+00  1.01071505e+00
  9.01052105e-01  6.88072205e-01  6.78237740e-02  1.22701533e-01
  2.59508206e-01  5.24165480e-01  3.70066274e-01  4.29682550e-01
  2.05157524e-16 -5.02577277e-16]
Vectores propios 
[[-3.18622336e-01 -2.59336213e-01 -2.77725967e-01  8.16704665e-02
   2.28640630e-02  1.85905955e-01  7.29023829e-01  2.33062070e-01
  -2.31503165e-01  8.52680034e-02  2.41171346e-01  8.67025425e-02
   1.44402979e-11 -6.12515264e-12]
 [-3.24461448e-01 -2.29705811e-01 -2.60076578e-01 -1.78143649e-02
   7.02205790e-02  9.74887818e-02 -5.70337157e-01  3.71062305e-01
  -5.18973994e-01 -3.43060836e-02 -1.49958763e-01 -5.99798899e-02
   1.08645318e-10 -1.40404737e-11]
 [-3.49934619e-01 -1.26687407e-01  3.14716842e-01  1.07202922e-01
  -9.05233620e-02  9.34454389e-02 -6.84904727e-02  7.14317117e-03
   1.83453334e-01 -8.74531257e-02  4.44998625e-02  7.44735983e-02
  -3.56445262e-03 -8.21813775e-01]
 [-3.20971011e-01 -2.83936092e-01 -2.