<h1 align="center">Modelado de datos estructurados</h1>
<hr />

## Importación de paquetes a usar

In [207]:
import sqlalchemy
import pandas as pd
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String, Date, Numeric, ForeignKey
import re
import math

## Establecer conexión al servidor

In [208]:
con = sqlalchemy.create_engine("mysql+pymysql://starlord:upao_mainframes1@localhost/")

## Crear la BD

In [209]:
pd.io.sql.execute('create database Criminalidad', con)

<sqlalchemy.engine.result.ResultProxy at 0xacdc008c>

## Se conecta a la BD creada

In [210]:
con = sqlalchemy.create_engine("mysql+pymysql://starlord:upao_mainframes1@localhost/Criminalidad")

## Se declara la Base y Sesion para la creación de tablas

In [211]:
Base = declarative_base()

In [212]:
Session = sessionmaker(bind=con)
session = Session()

## Creación de tablas

### 1. Se declaran las clases

In [213]:
class Departamento(Base):
  extend_existing=True
  __tablename__ = 'Departamento'
  id = Column(Integer, primary_key=True)
  Nombre_Departamento = Column(String(400))

In [214]:
class Provincia(Base):
  extend_existing=True
  __tablename__ = 'Provincia'
  id = Column(Integer, primary_key=True)
  Id_Departamento = Column(Integer, ForeignKey("Departamento.id"))
  Nombre_Provincia = Column(String(400))

In [215]:
class Distrito(Base):
  extend_existing=True
  __tablename__ = 'Distrito'
  id = Column(Integer, primary_key=True)
  Id_Provincia = Column(Integer, ForeignKey("Provincia.id"))
  Nombre_Distrito = Column(String(400))

In [216]:
class Tipo_Robo(Base):
  extend_existing=True
  __tablename__ = 'Tipo_Robo'
  id = Column(Integer, primary_key=True)
  Tipo = Column(String(400))
  Descripcion = Column(String(1000))

In [217]:
class Robos_Lima(Base):
  extend_existing=True
  __tablename__ = 'Robos_Lima'
  id = Column(Integer, primary_key=True)
  Id_Distrito = Column(Integer, ForeignKey("Distrito.id"))
  Id_Tipo_Robo = Column(Integer, ForeignKey("Tipo_Robo.id"))
  Tipo_Arma = Column(String(200))
  Fecha = Column(Date)
  Edad_Victima = Column(String(200))
  Edad_Delincuente = Column(String(200))
  Genero_Victima =  Column(String(200))
  Genero_Delincuente = Column(String(200))
  Nro_Muertos = Column(Integer)
  Nro_Heridos = Column(Integer)
  Ocupacion = Column(String(200))

In [218]:
class Crimen_Generico(Base):
  extend_existing=True
  __tablename__ = 'Crimen_Generico'
  id = Column(Integer, primary_key=True)
  Nombre_Generico = Column(String(400))

In [219]:
class Crimen_Especifico(Base):
  extend_existing=True
  __tablename__ = 'Crimen_Especifico'
  id = Column(Integer, primary_key=True)
  Id_Generico = Column(Integer, ForeignKey("Crimen_Generico.id"))
  Nombre_Especifico = Column(String(400))

In [220]:
class Modalidad_Crimen(Base):
  extend_existing=True
  __tablename__ = 'Modalidad_Crimen'
  id = Column(Integer, primary_key=True)
  Id_Especifico = Column(Integer, ForeignKey("Crimen_Especifico.id"))
  Nombre_Modalidad = Column(String(600))

In [221]:
class Crimenes_DataCrim(Base):
  extend_existing=True
  __tablename__ = 'Crimenes_DataCrim'
  id = Column(Integer, primary_key=True)
  Id_Distrito = Column(Integer, ForeignKey("Distrito.id"))
  Id_Modalidad = Column(Integer, ForeignKey("Modalidad_Crimen.id"))
  Numero_ocurrencias = Column(Integer)
  Anio = Column(Integer)

### 2. Se crean todas las clases declaradas poniendo la conexion como parametro

In [222]:
Base.metadata.create_all(con)

## Inserción de datos

### 1. Se almacena en un dataframe los datos del csv

In [223]:
dfDataCrim = pd.read_csv("DataCrim.csv")

### 2. Se consulta la columna de departamentos del DataFrame y se recorre para proceder a insertarla en la BD

In [224]:
dfDataCrim[["Departamento"]].drop_duplicates().rename(columns = {'Departamento':'Nombre_Departamento'}).to_sql('Departamento', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 3. Se hace una consulta a la tabla de Departamento para obtener su id, y luego se hace join con el DataFrame, para obtener el nombre de la provincia con el id del departamento y se procede a hacer insert a la tabla

In [225]:
dfdep = pd.read_sql("select id, Nombre_Departamento as Departamento from Departamento", con)
dfdep = pd.merge(dfDataCrim, dfdep, left_on="Departamento", right_on="Departamento", how='inner')[["id", "Provincia"]]
dfdep.drop_duplicates().rename(columns = {'id':'Id_Departamento','Provincia':'Nombre_Provincia'}).to_sql('Provincia', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 4. Este proceso es similara al anterior, con diferencia de que aqui se obtiene el nombre del distrito con el id de la provincia a la cual pertenece

In [226]:
dfprov = pd.read_sql("SELECT P.id Id_Provincia, D.Nombre_Departamento, P.Nombre_Provincia FROM Departamento D INNER JOIN Provincia P ON D.id = P.Id_Departamento", con)
dfprov = pd.merge(dfDataCrim, dfprov, left_on=["Departamento","Provincia"], right_on=["Nombre_Departamento","Nombre_Provincia"], how='inner')[["Id_Provincia", "Distrito"]]
dfprov.drop_duplicates().rename(columns = {'Distrito':'Nombre_Distrito'}).to_sql('Distrito', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 5. Se recorre la columna de delitos genericos para proceder a insertarlo en la tabla

In [227]:
dfDataCrim[["Generica"]].drop_duplicates().rename(columns = {'Generica':'Nombre_Generico'}).to_sql('Crimen_Generico', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 6. Se hace una consulta a la tabla de delitos genericos para obtener su id y luego se hace un merge para mapear el crimen especifico con el id del crimen generico y se inserta en la tabla

In [228]:
dfgen = pd.read_sql("select * from Crimen_Generico", con)
dfgen = pd.merge(dfDataCrim, dfgen, left_on="Generica", right_on="Nombre_Generico", how='inner')[["id","Especifica"]]
dfgen.drop_duplicates().rename(columns = {'id':'Id_Generico','Especifica':'Nombre_Especifico'}).to_sql('Crimen_Especifico', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 7. Se hace una consulta a la tabla de crimen especifico para obtener su id y mapearlo con la su modalidad, se hace un merge y se inserta en la tabla

In [229]:
dfesp = pd.read_sql("select ce.id, ce.Nombre_Especifico, cg.Nombre_Generico FROM Crimen_Especifico ce INNER JOIN Crimen_Generico cg ON ce.Id_Generico = cg.id", con)
dfesp = pd.merge(dfDataCrim, dfesp, left_on=["Generica", "Especifica"], right_on=["Nombre_Generico", "Nombre_Especifico"], how='inner')[["id","Modalidad"]]
dfesp.drop_duplicates().rename(columns = {'id':'Id_Especifico','Modalidad':'Nombre_Modalidad'}).to_sql('Modalidad_Crimen', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 8. Se extraen los id's de los campos de distrito y modalidad, se mapea, se recorren los valores deseados y se insertan a la tabla

In [230]:
dfmod = pd.read_sql("SELECT cg.Nombre_Generico, ce.Nombre_Especifico, mc.Nombre_Modalidad, mc.id Id_Modalidad FROM Crimen_Generico cg INNER JOIN Crimen_Especifico ce ON cg.id = ce.Id_Generico INNER JOIN Modalidad_Crimen mc ON ce.id = mc.Id_Especifico", con)

In [231]:
dfcrim = pd.merge(dfDataCrim, dfmod, left_on=["Generica","Especifica","Modalidad"], right_on=["Nombre_Generico","Nombre_Especifico","Nombre_Modalidad"], how='inner')

In [232]:
dfdist = pd.read_sql("SELECT D.Nombre_Departamento, P.Nombre_Provincia, DIS.Nombre_Distrito, DIS.id Id_Distrito FROM Departamento D INNER JOIN Provincia P ON D.id = P.Id_Departamento INNER JOIN Distrito DIS ON DIS.Id_Provincia = P.id", con)

In [233]:
dfcrim = pd.merge(dfcrim, dfdist, left_on=["Departamento","Provincia","Distrito"], right_on=["Nombre_Departamento","Nombre_Provincia","Nombre_Distrito"], how='inner')

In [234]:
dfinsert = dfcrim[["Id_Distrito","Id_Modalidad","Numero","Año"]]
dfinsert.rename(columns = {'Numero':'Numero_Ocurrencias','Año':'Anio'}).to_sql('Crimenes_DataCrim', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 9. Se extraen los datos del CSV que contiene el crimen y su descripción, se añade a un DataFrame y se inserta en la tabla

In [235]:
df_tipo = pd.read_csv("descripcion_crimen.csv", sep = ';', encoding = "ISO-8859-1")
df_tipo.rename(columns = {'Crimen':'Tipo'}).to_sql('Tipo_Robo', con = con, if_exists = 'append', chunksize = 1000, index = False)

### 10. Se inserta en un DataFrame los daros del CSV de Crimenes, que contiene registros de asaltos en la ciudad de Lima

In [236]:
dfCrimenLima = pd.read_csv("CrimenesLima.csv")

### 11. Se hace una consulta a la tabla de distritos y a la de tipo crimenes para obtener los id's y poceder a hacer el join

In [237]:
dfdist = pd.read_sql("select d.id id_distrito, d.Nombre_Distrito from Distrito d inner join Provincia p on d.Id_Provincia = p.id inner join Departamento de on de.id = p.Id_Departamento where de.Nombre_Departamento like %s", con, params=("%LIMA%",))
dfmod = pd.read_sql("select id id_tipo, Tipo from Tipo_Robo", con)

### 12. Se procede a hacer el join con los campos respectivos

In [238]:
dfCrimenLima = pd.merge(dfCrimenLima, dfmod, left_on="MODALIDAD DE ROBO", right_on="Tipo", how='inner')
dfCrimenLima = pd.merge(dfCrimenLima, dfdist, left_on="DISTRITO", right_on="Nombre_Distrito", how='inner')

### 13. Se extraen las filas deseadas para insertar en la tabla, y luego se insertan los valores

In [239]:
dfCrimenLima = dfCrimenLima[["id_distrito", "id_tipo","TIPO DE ARMA","FECHA","EDAD VICTIMA","EDAD DELINCUENTE","GENERO VICTIMA",
                                                "GENERO DELINCUENTE","MUERTOS","HERIDOS","OCUPACIÓN"]].rename(columns = {'id_distrito':'Id_Distrito','id_tipo':'Id_Tipo_Robo',
                                                                                                                         'TIPO DE ARMA':'Tipo_Arma','FECHA':'Fecha','EDAD VICTIMA':'Edad_Victima',
                                                                                                                         'EDAD DELINCUENTE':'Edad_Delincuente','GENERO VICTIMA':'Genero_Victima',
                                                                                                                         'GENERO DELINCUENTE':'Genero_Delincuente','MUERTOS':'Nro_Muertos',
                                                                                                                         'HERIDOS':'Nro_Heridos','OCUPACIÓN':'Ocupacion',})
dfCrimenLima.to_sql('Robos_Lima', con = con, if_exists = 'append', chunksize = 1000, index = False)