# Ejemplo procesamiento de excel

Descargue un excel desde el sitio "estadística delictiva" de la policía nacional:
https://www.policia.gov.co/grupo-informacion-criminalidad/estadistica-delictiva



In [1]:
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport

In [5]:
xls_path = r"C:\opt\work\igac\git\ejemplo_data_engineering\data\hurto_a_motocicletas_2020_0.xls"
df = pd.read_excel(xls_path, sheet_name=0, skiprows = range(1, 9), header=1)
df.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,CANTIDAD
0,ANTIOQUIA,BELLO,5088000.0,LLAVE MAESTRA,2020-01-01,1.0
1,ANTIOQUIA,BELLO,5088000.0,ARMA DE FUEGO,2020-01-01,1.0
2,ANTIOQUIA,CAUCASIA,5154000.0,SIN EMPLEO DE ARMAS,2020-01-01,1.0
3,ANTIOQUIA,CHIGORODÓ,5172000.0,SIN EMPLEO DE ARMAS,2020-01-01,1.0
4,ANTIOQUIA,CHIGORODÓ,5172000.0,SIN EMPLEO DE ARMAS,2020-01-01,1.0


In [6]:
df = pd.read_excel(xls_path, sheet_name=0, skiprows = range(1, 9), header=1, dtype={'CODIGO DANE': str})
df.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,CANTIDAD
0,ANTIOQUIA,BELLO,5088000,LLAVE MAESTRA,2020-01-01,1.0
1,ANTIOQUIA,BELLO,5088000,ARMA DE FUEGO,2020-01-01,1.0
2,ANTIOQUIA,CAUCASIA,5154000,SIN EMPLEO DE ARMAS,2020-01-01,1.0
3,ANTIOQUIA,CHIGORODÓ,5172000,SIN EMPLEO DE ARMAS,2020-01-01,1.0
4,ANTIOQUIA,CHIGORODÓ,5172000,SIN EMPLEO DE ARMAS,2020-01-01,1.0


In [7]:
df.shape

(25849, 6)

In [8]:
df.columns

Index(['DEPARTAMENTO', 'MUNICIPIO', 'CODIGO DANE', 'ARMAS MEDIOS',
       'FECHA HECHO', 'CANTIDAD'],
      dtype='object')

In [9]:
# estandarizar nombres de columnas

df.columns= df.columns.str.lower()
df.columns = df.columns.str.strip()
df.columns = df.columns.str.replace(' ','_',regex=False)
df.columns

Index(['departamento', 'municipio', 'codigo_dane', 'armas_medios',
       'fecha_hecho', 'cantidad'],
      dtype='object')

In [11]:
## generar nuevas columnas

df["categoria"] = "HURTO A MOTOCICLETAS"
df["anio"] = 2020
df['codigo_departamento'] = df['codigo_dane'].str[:2]
df['codigo_municipio'] = df['codigo_dane'].str[:5]
df.head()
        

Unnamed: 0,departamento,municipio,codigo_dane,armas_medios,fecha_hecho,cantidad,categoria,anio,codigo_departamento,codigo_municipio
0,ANTIOQUIA,BELLO,5088000,LLAVE MAESTRA,2020-01-01,1.0,HURTO A MOTOCICLETAS,2020,5,5088
1,ANTIOQUIA,BELLO,5088000,ARMA DE FUEGO,2020-01-01,1.0,HURTO A MOTOCICLETAS,2020,5,5088
2,ANTIOQUIA,CAUCASIA,5154000,SIN EMPLEO DE ARMAS,2020-01-01,1.0,HURTO A MOTOCICLETAS,2020,5,5154
3,ANTIOQUIA,CHIGORODÓ,5172000,SIN EMPLEO DE ARMAS,2020-01-01,1.0,HURTO A MOTOCICLETAS,2020,5,5172
4,ANTIOQUIA,CHIGORODÓ,5172000,SIN EMPLEO DE ARMAS,2020-01-01,1.0,HURTO A MOTOCICLETAS,2020,5,5172


In [12]:
df.tail()

Unnamed: 0,departamento,municipio,codigo_dane,armas_medios,fecha_hecho,cantidad,categoria,anio,codigo_departamento,codigo_municipio
25844,TOTAL,,,,NaT,25941.0,HURTO A MOTOCICLETAS,2020,,
25845,FUENTE: DIJIN-POLIC...,,,,NaT,,HURTO A MOTOCICLETAS,2020,,
25846,El contador para este indicador hace referenci...,,,,NaT,,HURTO A MOTOCICLETAS,2020,,
25847,Elaborado: Patrullera Cecilia Angel Neita,,,,NaT,,HURTO A MOTOCICLETAS,2020,,
25848,Revisado: IT Cesar Andres Marquez,,,,NaT,,HURTO A MOTOCICLETAS,2020,,


In [13]:
## REMOVER DATOS INVÁLIDOS

df = df[df['codigo_dane'].notna()]
df.tail()

Unnamed: 0,departamento,municipio,codigo_dane,armas_medios,fecha_hecho,cantidad,categoria,anio,codigo_departamento,codigo_municipio
25839,ANTIOQUIA,MEDELLÍN (CT),5001000,SIN EMPLEO DE ARMAS,2020-12-31,1.0,HURTO A MOTOCICLETAS,2020,5,5001
25840,BOLÍVAR,CARTAGENA (CT),13001000,ARMA DE FUEGO,2020-12-31,1.0,HURTO A MOTOCICLETAS,2020,13,13001
25841,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,SIN EMPLEO DE ARMAS,2020-12-31,1.0,HURTO A MOTOCICLETAS,2020,11,11001
25842,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,SIN EMPLEO DE ARMAS,2020-12-31,1.0,HURTO A MOTOCICLETAS,2020,11,11001
25843,META,CUMARAL,50226000,SIN EMPLEO DE ARMAS,2020-12-31,1.0,HURTO A MOTOCICLETAS,2020,50,50226


In [14]:
# GENERAR REPORTE DE PERFILAMIENTO
profile = ProfileReport(df)
html_report = r"C:\opt\work\igac\git\ejemplo_data_engineering\reports\hurto_a_motocicletas_2020_0.xls.report.html"
profile.to_file(html_report)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [16]:
## EXPORTAR A OTROS FORMATOS

df.to_json(r"C:\opt\work\igac\git\ejemplo_data_engineering\data\hurto_a_motocicletas_2020_0.json", orient='records',
           lines=True)

df.to_csv(r"C:\opt\work\igac\git\ejemplo_data_engineering\data\hurto_a_motocicletas_2020_0.tsv", sep = '\t', index=False)

In [None]:
## exportar a una base de datos postgresql 

from sqlalchemy import create_engine
engine_dw = create_engine('postgresql://user:password@server:5432/db_name')
df.to_sql('ponal_delitos', con=engine_dw,  if_exists='append', schema="public", index=False)

