<h1 align="center">Modelado de datos estructurados</h1>
<hr />

## Importación de paquetes a usar

In [1]:
import sqlalchemy
import pandas as pd
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String, Date, Numeric, ForeignKey
import requests
import bs4
import re
import math

## Establecer conexión al servidor

In [38]:
con = sqlalchemy.create_engine("mysql+pymysql://starlord:mmguebo@localhost/")

## Crear la BD

In [39]:
pd.io.sql.execute('create database Criminalidad', con)

<sqlalchemy.engine.result.ResultProxy at 0x9b13858c>

## Se conecta a la BD creada

In [2]:
con = sqlalchemy.create_engine("mysql+pymysql://starlord:mmguebo@localhost/Criminalidad")

## Se declara la Base y Sesion para la creación de tablas

In [45]:
Base = declarative_base()

In [46]:
Session = sessionmaker(bind=con)
session = Session()

## Creación de tablas

### 1. Se declaran las clases

In [47]:
class Departamento(Base):
  extend_existing=True
  __tablename__ = 'Departamento'
  id = Column(Integer, primary_key=True)
  Nombre_Departamento = Column(String(400))

In [48]:
class Provincia(Base):
  extend_existing=True
  __tablename__ = 'Provincia'
  id = Column(Integer, primary_key=True)
  Id_Departamento = Column(Integer, ForeignKey("Departamento.id"))
  Nombre_Provincia = Column(String(400))

In [49]:
class Distrito(Base):
  extend_existing=True
  __tablename__ = 'Distrito'
  id = Column(Integer, primary_key=True)
  Id_Provincia = Column(Integer, ForeignKey("Provincia.id"))
  Nombre_Distrito = Column(String(400))

In [50]:
class Tipo_Robo(Base):
  extend_existing=True
  __tablename__ = 'Tipo_Robo'
  id = Column(Integer, primary_key=True)
  Tipo = Column(String(400))
  Descripcion = Column(String(1000))

In [51]:
class Robos_Lima(Base):
  extend_existing=True
  __tablename__ = 'Robos_Lima'
  id = Column(Integer, primary_key=True)
  Id_Distrito = Column(Integer, ForeignKey("Distrito.id"))
  Id_Tipo_Robo = Column(Integer, ForeignKey("Tipo_Robo.id"))
  Tipo_Arma = Column(String(200))
  Fecha = Column(Date)
  Edad_Victima = Column(String(200))
  Edad_Delincuente = Column(String(200))
  Genero_Victima =  Column(String(200))
  Genero_Delincuente = Column(String(200))
  Nro_Muertos = Column(Integer)
  Nro_Heridos = Column(Integer)
  Ocupacion = Column(String(200))

In [52]:
class Crimen_Generico(Base):
  extend_existing=True
  __tablename__ = 'Crimen_Generico'
  id = Column(Integer, primary_key=True)
  Nombre_Generico = Column(String(400))

In [53]:
class Crimen_Especifico(Base):
  extend_existing=True
  __tablename__ = 'Crimen_Especifico'
  id = Column(Integer, primary_key=True)
  Id_Generico = Column(Integer, ForeignKey("Crimen_Generico.id"))
  Nombre_Especifico = Column(String(400))

In [54]:
class Modalidad_Crimen(Base):
  extend_existing=True
  __tablename__ = 'Modalidad_Crimen'
  id = Column(Integer, primary_key=True)
  Id_Especifico = Column(Integer, ForeignKey("Crimen_Especifico.id"))
  Nombre_Modalidad = Column(String(600))

In [55]:
class Crimenes_DataCrim(Base):
  extend_existing=True
  __tablename__ = 'Crimenes_DataCrim'
  id = Column(Integer, primary_key=True)
  Id_Distrito = Column(Integer, ForeignKey("Distrito.id"))
  Id_Modalidad = Column(Integer, ForeignKey("Modalidad_Crimen.id"))
  Numero_ocurrencias = Column(Integer)
  Año = Column(Integer)

### 2. Se crean todas las clases declaradas poniendo la conexion como parametro

In [52]:
Base.metadata.create_all(con)

## Inserción de datos

### 1. Se establece un request para obtener la información de los departamentos, provincias y distritos

In [53]:
depprovdist = "http://datacrim.inei.gob.pe/csv_controller/index?desde=tematico&id=40514,40515,40516"
html = bs4.BeautifulSoup(requests.get(depprovdist).text)

### 2. Se extraen los valores del HTML

In [54]:
x = [tag.text.split("\n") for tag in html.find("html").select("body")]

y = [val.split(",") for val in x[0]]

### 3. Se crea una matriz para ingresar los valores deseados, se recorre el array anteriormente creado y se ingresan los datos en las respectivas columnas de la matriz

In [55]:
mat = {}

mat["Departamento"] = []
mat["Provincia"] = []
mat["Distrito"] = []
for i in range(1,len(y) - 1):
    mat["Departamento"].append(y[i][2])
    mat["Provincia"].append(y[i][3])
    mat["Distrito"].append(y[i][4])

dfinfo = pd.DataFrame(mat)

dfinfo["Departamento"] = dfinfo["Departamento"].str.extract(r'([A-Za-zÑñ ]+)')#([A-Z]* [A-Z]*)
dfinfo["Provincia"] = dfinfo["Provincia"].str.extract(r'([A-Za-zÑñ ]+)')
dfinfo["Distrito"] = dfinfo["Distrito"].str.extract(r'([A-Za-z ]+)')

dfinfo["Departamento"] = dfinfo["Departamento"].str.strip()
dfinfo["Provincia"] = dfinfo["Provincia"].str.strip()
dfinfo["Distrito"] = dfinfo["Distrito"].str.strip()

### 4. Se consulta la columna de departamentos del DataFrame y se recorre para proceder a insertarla en la BD

In [56]:
for t in dfinfo["Departamento"].drop_duplicates().array:
    objeto_Departamento = Departamento(Nombre_Departamento=t)
    session.add(objeto_Departamento)
session.commit()

### 5. Se hace una consulta a la tabla de Departamento para obtener su id, y luego se hace join con el DataFrame, para obtener el nombre de la provincia con el id del departamento y se procede a hacer insert a la tabla

In [57]:
dfdep = pd.read_sql("select id, Nombre_Departamento as Departamento from Departamento", con)
for index, prov in dfinfo.set_index('Departamento').join(dfdep.set_index('Departamento'))[["id", "Provincia"]].drop_duplicates().to_numpy():
    objeto_Provincia = Provincia(Id_Departamento=index, Nombre_Provincia=prov)
    session.add(objeto_Provincia)
session.commit()

### 6. Este proceso es similara al anterior, con diferencia de que aqui se obtiene el nombre del distrito con el id de la provincia a la cual pertenece

In [58]:
dfprov = pd.read_sql("select id, Nombre_Provincia as Provincia from Provincia", con)
for index, dist in dfinfo.set_index('Provincia').join(dfprov.set_index('Provincia'))[["id", "Distrito"]].drop_duplicates().to_numpy():
    objeto_Distrito = Distrito(Id_Provincia=index, Nombre_Distrito=dist)
    session.add(objeto_Distrito)
session.commit()

### 7. Se extraen los datos del CSV que contiene el crimen y su descripción, se añade a un DataFrame y se inserta en la tabla

In [59]:
df_tipo = pd.read_csv("descripcion_crimen.csv", sep = ';', encoding = "ISO-8859-1")
for crimen, desc in df_tipo.to_numpy():
    objeto_Tipo_Robo = Tipo_Robo(Tipo=crimen, Descripcion=desc)
    session.add(objeto_Tipo_Robo)
session.commit()

### 8. Se inserta en un DataFrame los daros del CSV de Crimenes, que contiene registros de asaltos en la ciudad de Lima

In [33]:
dfcrimen = pd.read_csv("crimenes.csv", sep = ';', encoding = "ISO-8859-1")

### 9. Se recorre el arreglo para darle formato a las fechas, debido a que para insertarlo en la BD se requiere que este en formato YYYY/MM/DD

In [35]:
arr = []
year = ''
month = ''
day = ''
for i in range(len(dfcrimen["FECHA"])):
    
    if(str(dfcrimen["FECHA"][i]) == 'nan'):
        arr.append('1900/01/01')
        
    elif(('/' in dfcrimen["FECHA"][i]) or ('-' in dfcrimen["FECHA"][i])):
        sp = re.findall(r"([0-9]+)", dfcrimen["FECHA"][i])
        year = str(sp[2]) if len(str(sp[2])) > 2 else '20'+str(sp[2])
        year = year.replace('0217','2017')
        year = year.replace('2107','2017')
        month = str(sp[1] if int(sp[1]) <= 12 else sp[0])
        day = str(sp[0] if int(sp[0]) <= 12 else sp[1])
        arr.append(year + '/' + month + '/' + day)
        
    else:
        j = i
        while True:
            j+=1
            if('/' in dfcrimen["FECHA"][j] or '-' in dfcrimen["FECHA"][j]):
                sp = re.findall(r"([0-9]+)", dfcrimen["FECHA"][j])
                break
        arr.append((str(sp[2]) if len(str(sp[2])) > 2 else '20'+str(sp[2])) + '/' + 
                   str(sp[1] if int(sp[1]) <= 12 else sp[0]) + '/' + 
                   str(dfcrimen["FECHA"][i]))
        
dfcrimen["FECHA"] = pd.DataFrame({"FECHA":arr})

### 10. Se hace limpieza a los datos nulos, se procede a poner en mayusculas los nombres de los distritos para posteriormente hacer join, y se retiran las tíldes

In [36]:
text = "No Especifica"
dfcrimen.loc[dfcrimen["EDAD VICTIMA"].isnull(), "EDAD VICTIMA"] = text
dfcrimen.loc[dfcrimen["EDAD DELINCUENTE"].isnull(), "EDAD DELINCUENTE"] = text
dfcrimen.loc[dfcrimen["EDAD VICTIMA"].str.contains('\(n'), "EDAD VICTIMA"] = text
dfcrimen.loc[dfcrimen["EDAD DELINCUENTE"].str.contains('\(n'), "EDAD DELINCUENTE"] = text
dfcrimen.loc[dfcrimen["OCUPACIÓN"].isnull(), "OCUPACIÓN"] = text
dfcrimen.loc[dfcrimen["GENERO DELINCUENTE"].isnull(), "GENERO DELINCUENTE"] = text
dfcrimen.loc[dfcrimen["GENERO VICTIMA"].isnull(), "GENERO VICTIMA"] = text
dfcrimen.loc[dfcrimen["GENERO DELINCUENTE"].str.contains('\(n'), "GENERO DELINCUENTE"] = text
dfcrimen.loc[dfcrimen["GENERO VICTIMA"].str.contains('\(n'), "GENERO VICTIMA"] = text
dfcrimen.loc[dfcrimen["HERIDOS"].isnull(), "HERIDOS"] = 0
dfcrimen.loc[dfcrimen["MUERTOS"].isnull(), "MUERTOS"] = 0
dfcrimen.loc[dfcrimen["TIPO DE ARMA"].isnull(), "TIPO DE ARMA"] = "Otros"
dfcrimen["DISTRITO"] = dfcrimen["DISTRITO"].str.upper()
dfcrimen["DISTRITO"] = dfcrimen["DISTRITO"].str.replace('Í','I')
dfcrimen["DISTRITO"] = dfcrimen["DISTRITO"].str.replace('Ú', 'U')
dfcrimen["DISTRITO"] = dfcrimen["DISTRITO"].str.replace('Ó', 'O')
dfcrimen = dfcrimen.drop(dfcrimen[dfcrimen["GENERO VICTIMA"].str.contains('/')].index)
dfcrimen = dfcrimen.drop(dfcrimen[dfcrimen["GENERO DELINCUENTE"].str.contains('/')].index)
dfcrimen = dfcrimen.drop(dfcrimen[dfcrimen["EDAD VICTIMA"].str.contains('/')].index)
dfcrimen = dfcrimen.drop(dfcrimen[dfcrimen["EDAD DELINCUENTE"].str.contains('/')].index)

In [63]:
#dfcrimen = dfcrimen.drop(dfcrimen[dfcrimen["DISTRITO"].isnull()].index)

### 11. Se hace una consulta a la tabla de distritos y a la de tipo crimenes para obtener los id's y poceder a hacer el join

In [37]:
dfdist = pd.read_sql("select d.id id_distrito, d.Nombre_Distrito from Distrito d inner join Provincia p on d.Id_Provincia = p.id inner join Departamento de on de.id = p.Id_Departamento where de.Nombre_Departamento like %s", con, params=("%LIMA%",))
dfmod = pd.read_sql("select id id_tipo, Tipo from Tipo_Robo", con)

### 12. Se procede a hacer el join con los campos respectivos

In [38]:
dfcrimen = pd.merge(dfcrimen, dfmod, left_on="MODALIDAD DE ROBO", right_on="Tipo", how='inner')
dfcrimen = pd.merge(dfcrimen, dfdist, left_on="DISTRITO", right_on="Nombre_Distrito", how='inner')

### 13. Se extraen las filas deseadas para insertar en la tabla, y luego se insertan los valores

In [56]:
for v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11 in dfcrimen[["id_distrito", "id_tipo","TIPO DE ARMA","FECHA","EDAD VICTIMA","EDAD DELINCUENTE","GENERO VICTIMA",
                                                "GENERO DELINCUENTE","MUERTOS","HERIDOS","OCUPACIÓN"]].to_numpy():
    objeto_robo_lima = Robos_Lima(Id_Distrito = v1, Id_Tipo_Robo = v2, Tipo_Arma = v3, Fecha = v4, Edad_Victima = v5, Edad_Delincuente = v6, 
                                  Genero_Victima = v7, Genero_Delincuente = v8, Nro_Muertos = v9, Nro_Heridos = v10, Ocupacion = v11)
    session.add(objeto_robo_lima)
session.commit()

### 14. Se establece un GET para obtener las denuncias por delitos de el data-crim

In [67]:
delitos = "http://datacrim.inei.gob.pe/csv_controller/index?desde=tematico&id=40171,40172,40173,40516"
htmldelitos = bs4.BeautifulSoup(requests.get(delitos).text)

### 15. Se Extraen las filas del HTML obtenido

In [68]:
arr1 = [tag.text.split("\n") for tag in htmldelitos.find("html").select("body")]

arr2 = [val.split(",") for val in arr1[0]]

### 16. Se crea una matriz para extraer los valores, estos se pasan a un DataFrame y luego se le procede a hacer una normalización

In [69]:
mat = {}

mat["Año"] = []
mat["Numero"] = []
mat["Distrito"] = []
mat["Generica"] = []
mat["Especifica"] = []
mat["Modalidad"] = []

for i in range(1,len(arr2) - 1):
    mat["Año"].append(arr2[i][0])
    mat["Numero"].append(arr2[i][1])
    mat["Generica"].append(arr2[i][2])
    mat["Especifica"].append(arr2[i][3])
    mat["Modalidad"].append(arr2[i][4])
    mat["Distrito"].append(arr2[i][5])

dfdelitos = pd.DataFrame(mat)

dfdelitos["Generica"] = dfdelitos["Generica"].str.extract(r'([A-Za-zÑñÁ-Ú ]+)')
dfdelitos["Especifica"] = dfdelitos["Especifica"].str.extract(r'([A-Za-zÑñÁ-Ú ]+)')
dfdelitos["Modalidad"] = dfdelitos["Modalidad"].str.extract(r'([A-Za-zÑñÁ-Ú ]+)')
dfdelitos["Distrito"] = dfdelitos["Distrito"].str.extract(r'([A-Za-zÑñÁ-Ú ]+)')

dfdelitos["Generica"] = dfdelitos["Generica"].str.strip()
dfdelitos["Especifica"] = dfdelitos["Especifica"].str.strip()
dfdelitos["Modalidad"] = dfdelitos["Modalidad"].str.strip()
dfdelitos["Distrito"] = dfdelitos["Distrito"].str.strip()

### 17. Se recorre la columna de delitos genericos para proceder a insertarlo en la tabla

In [79]:
for t in dfdelitos["Generica"].drop_duplicates().array:
    objeto_Generica = Crimen_Generico(Nombre_Generico=t)
    session.add(objeto_Generica)
session.commit()

### 18. Se hace una consulta a la tabla de delitos genericos para obtener su id y luego se hace un merge para mapear el crimen especifico con el id del crimen generico, se recorre y se inserta en la tabla

In [80]:
dfgen = pd.read_sql("select * from Crimen_Generico", con)
dfgen = pd.merge(dfdelitos[["Generica","Especifica"]].drop_duplicates(), dfgen, left_on="Generica", right_on="Nombre_Generico", how='inner')
for iden, esp in dfgen[["id","Especifica"]].to_numpy():
    objeto_Especifica = Crimen_Especifico(Id_Generico = iden, Nombre_Especifico = esp)
    session.add(objeto_Especifica)
session.commit()

### 19. Se hace una consulta a la tabla de crimen especifico para obtener su id y mapearlo con la su modalidad, se hace un merge, se recorre y se inserta en la tabla

In [81]:
dfesp = pd.read_sql("select * from Crimen_Especifico ", con)
dfesp = pd.merge(dfdelitos[["Especifica","Modalidad"]].drop_duplicates(), dfesp, left_on="Especifica", right_on="Nombre_Especifico", how='inner')
for iden, mod in dfesp[["id","Modalidad"]].to_numpy():
    objeto_Modalidad = Modalidad_Crimen(Id_Especifico = iden, Nombre_Modalidad = mod)
    session.add(objeto_Modalidad)
session.commit()

### 20. Se extraen los id's de los campos de distrito y modalidad, se mapea, se recorren los valores deseados y se insertan a la tabla

In [85]:
dfdist = pd.read_sql("select id id_dist, Nombre_Distrito from Distrito", con)
dfmod = pd.read_sql("select id id_mod, Nombre_Modalidad from Modalidad_Crimen", con)
dfcrim = dfdelitos[["Año","Numero","Modalidad","Distrito"]]
dfcrim = pd.merge(dfcrim, dfdist, left_on="Distrito", right_on="Nombre_Distrito", how='inner')
dfcrim = pd.merge(dfcrim, dfmod, left_on="Modalidad", right_on="Nombre_Modalidad", how='inner')
for v1, v2, v3, v4 in dfcrim[["id_dist","id_mod","Numero","Año"]].to_numpy():
    objeto_DataCrim = Crimenes_DataCrim(Id_Distrito = v1, Id_Modalidad = v2, Numero_ocurrencias = v3, Año = v4)
    session.add(objeto_DataCrim)
session.commit()