# Análisis y visualización de datos abiertos con python

El objetivo de este tutorial es analizar dos conjuntos de datos abiertos de la Ciudad de México (Carpetas de investigación PGJ y Víctimas en carpetas de investigación PGJ) usando las herramientas del lenguaje de programación python. El participante aprenderá a usar las bibliotecas pandas, seaborn entre otras bibliotecas, para cargar, estructurar, obtener estadísticas básicas y graficar los datos. Además, el participante aplicará metodologías y criterios de análisis y visualización de datos, que le permitan generar conclusiones sobre los conjuntos de datos analizados.

1. [Obtención de datos](Obtencion)
    1. Instalación de conda
    2. Descargar datos abiertos
    3. ¿Qué es un dato?
    4. Cargar los datos en python
2. [Limpieza de datos](Limpieza)
    1. Pasos de un análisis de datos
    2. pandas_profiling
    3. Operaciones básicas de pandas
    4. Limpieza de datos
3. [Análisis de datos](Analisis)
    1. Medidas estadísticas
    2. Tablas pivote
    3. Agrupar y agregar
    4. Unir tablas
4. [Graficación](Graficacion)
    1. Introducción a la teoría de la visualización
    2. Graficación con pandas
    3. Graficación con seaborn


<a id='Obtencion'></a>
## 1. Obtención de datos

### 1.1 Instalación de conda
Ver las instrucciones en https://www.anaconda.com/distribution/

#### Ejercicio 1
Crea una carpeta para este curso y abre jupyter notebook en conda

### 1.2 Descargar datos abiertos
En este tutorial usaremos dos conjuntos de datos sobre carpetas de investigación y víctimas perteniecientes a la PGJ de la CdMx. Estos datos se encuentran en la página [Datos abiertos del gobierno de la Ciudad de México](https://datos.cdmx.gob.mx/pages/home/), la cual contiene conjuntos de datos de múltiples temas como justicia, transporte y rendición de cuentas.

Al acceder al conjunto de datos, podemos ver que tiene varias secciones:
* Información: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando.
* Tabla: esta sección contiene una vista de los datos en forma tabular, cada fila es una medición.
* Análizar: contiene una serie de herramientas para realizar gráficas y explorar los datos.
* Mapa: el conjunto de datos incluye información sobre localización (coordenadas) que permite hacer mapas para visualizar el comportamiento de los datos en el espacio.
* Exportar: los datos pueden ser descargados en diferentes formatos, en este caso usaremos el formato csv
* API: esta es una forma programática de acceder a los datos

<img src="extras/CP-CarpetasTabla.png">

En este caso vamos a usar dos conjuntos de datos, el de [Carpetas de investigación PGJ de la Ciudad de México (archivo)](https://datos.cdmx.gob.mx/explore/dataset/carpetas-de-investigacion-pgj-cdmx/) y el de [Víctimas en carpetas de investigación PGJ (archivo) ](https://datos.cdmx.gob.mx/explore/dataset/denuncias-victimas-pgj/). 
Las __Carpetas de investigación__ registran los "delitos a nivel calle" de enero de 2016 a junio de 2019, mientras que, las casrpetas de Victimas__ registran información acerca de las víctimas de los delitos de esas carpetas de enero de 2019 a septiembre 2019. Esto implica que nuestros conjuntos de datos tienen una serie de limitaciones:
* Solo incluyen delitos reportados a la PGJ sobre los cuales se abrió carpeta de investigación
* Utilizán la vieja metodología de clasificación de delitos
* Están sujetos a errores de muestro y otros sesgos (ocultamiento de delitos, etc)
* Solo se pueden comparar los datos de seis meses de ambos conjuntos de datos

Para descargar los datos iremos a la sección de exportar y descargaremos el archivo en formato _.csv_.

<img src="extras/CP-CarpetasDescarga.png">

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas. De tal forma que la carpeta __CursoPandas__ contendrá las siguientes subcarpetas:
* __Código__ en este caso jupter notebooks que son los archivos en formato .ipynb
* __data-raw__ carpeta donde pondremos los archivos de datos originales como los _.csv_ descargados
* __data-clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando
* __images__ carpeta con las imagenes que queramos guardar

#### Ejercicio 2
Descarga el conjunto de datos de víctimas y colocalo en la carpeta adecuada

### 1.3 ¿Qué es un dato?

Algunas definiciones:

* Variable: una medida o un atributo. Pueden ser fecha, lugar, altura, peso, sexo, etc.
* Valor: la medida o atributo real. 10 de mayo, México, 152 cm, 80 kg, hembra, etc.
* Observación: Todos los valores miden en la misma unidad. Cada persona.
* Dato: representación simbólica de un atributo o variable cuantitativa o cualitativa.

Existen varios tipos de datos:
* Númericos: valores contables discretos o continuos
* Binarios: verdadero o falso
* Categoricos: número limitado de categorias
* Texto
* Fecha
* Coordenadas

Las tablas que proporciona el gobierno se consideran conjuntos de [datos ordenados](http://vita.had.co.nz/papers/tidy-data.pdf), esto quiere decir que:
* Cada variable forma una columna y contiene valores
* Cada observación forma una fila
* Cada tipo de unidad de observación forma una tabla

#### Ejercicio 3
Identifica cada una de las definiciones, tipos de datos y características anteriormente descritas en __Victimas__ en la sección de [tabla](https://datos.cdmx.gob.mx/explore/dataset/denuncias-victimas-pgj/table/).

### 1.4 Cargar los datos en python

Ahora que los datos ya estan en la computadora podemos abrirlos usando python para empezar a trabajar con ellos.

Necesitamos un jupyter notebook en la carpeta de trabajo y que los archivos esten en la carpeta _data-raw_. A continuación cargaremos la biblioteca de pandas para trabajar con la tabla de datos y cargaremos los archivos.

En primer lugar nos ubicaremos en la carpeta donde esta nuestro código y archivos.

In [38]:
from os import chdir, getcwd
chdir(getcwd())

Para abrir un archivo de excel puedes usar el comando: _pd.read_excel(filename)_

In [39]:
import pandas as pd

df_carpetas = pd.read_csv('data-raw/carpetas-de-investigacion-pgj-cdmx.csv')

Ahora podemos acceder en la tabla

In [None]:
df_carpetas

Para ver cuantas filas y columnas existen el archivo de datos usaremos el comando _shape_. Este conjunto de datos contiene 808871 carpetas de investigación (filas) con 18 campos (columnas)

In [2]:
print(df_carpetas.shape)

(808871, 18)


Con el fin de conocer el nombre de las columnas usaremos el comando _columns_. 
Podemos observar que los datos contienen información sobre:
* Fecha de ocurrencia del delito ('año_hechos', 'mes_hechos', 'fecha_hechos')
* Tipo de delito ('delito', 'categoria_delito')
* Institución que creo la carpeta ('fiscalía', 'agencia', 'unidad_investigacion')
* Fecha en la que se elaboró la carpeta ('fecha_inicio', 'mes_inicio', 'ao_inicio')
* Lugar de ocurrencia del delito ('colonia_hechos', 'alcaldia_hechos', 'calle_hechos', 'calle_hechos2', 'longitud', 'latitud', 'Geopoint')


In [3]:
print(df_carpetas.columns)

Index(['año_hechos', 'mes_hechos', 'fecha_hechos', 'delito',
       'categoria_delito', 'fiscalía', 'agencia', 'unidad_investigacion',
       'colonia_hechos', 'alcaldia_hechos', 'fecha_inicio', 'mes_inicio',
       'ao_inicio', 'calle_hechos', 'calle_hechos2', 'longitud', 'latitud',
       'Geopoint'],
      dtype='object')


Finalmente usaremos el comando _head_ para ver las primeras cinco filas de la tabla

In [4]:
df_carpetas.head()

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
0,2016.0,Enero,2016-01-29 12:00:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN COYOACÁN,COY-2,UI-1CD,EL CENTINELA,COYOACAN,2016-02-19 19:55:38,Febrero,2016,ERASMO CASTELLANOS QUINTO,,-99.141292,19.334955,"19.3349549998,-99.141292"
1,2016.0,Julio,2016-07-15 17:30:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLALPAN,TLP-3,UI-1CD,TLALPAN CENTRO I,TLALPAN,2016-07-18 19:49:39,Julio,2016,AV. DE LOS INSURGENTES SUR,,-99.173959,19.289501,"19.2895013921,-99.1739594597"
2,2017.0,Noviembre,2017-11-13 15:30:00,DAÑO EN PROPIEDAD AJENA INTENCIONAL,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-2SD,OJO DE AGUA,TLAHUAC,2017-11-14 18:22:31,Noviembre,2017,ESTEVBAN CHAVERO,,-99.012265,19.289566,"19.2895659854,-99.0122652658"
3,2017.0,Octubre,2017-10-03 17:30:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLALPAN,TLP-2,UI-3CD,JARDINES DEL AJUSCO,TLALPAN,2017-11-15 18:29:26,Noviembre,2017,CITILCUN,,-99.216467,19.287173,"19.2871730998,-99.2164668"
4,2016.0,Febrero,2016-02-19 13:30:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-10,UI-1SD,MIGUEL DE LA MADRID,IZTAPALAPA,2016-02-19 21:28:19,Febrero,2016,PAROTAS,PAROTAS,-99.005908,19.347618,"19.3476179998,-99.005908"


<a id='Obtencion'></a>
## 2. Limpieza de datos

### 2.1 Pasos de un análisis de datos

Un análisis de datos es un proceso que lleva varios pasos. 

En primer lugar es importante entender los datos, es decir saber su origen y qué representan. Este paso es fundamental, ya que de poco sirve hacer un análisis complejo que no tenga utilidad con respecto a los datos que estamos análizando.

Una vez que se entiende de que tratan los datos se necesita determinar las características del conjunto de datos. Esto generalmente implica saber cuántos son, qué tipos, la distribución de los datos, obtener medidas estadísticas básicas, etc.

Después, se lleva a cabo una limpieza. Este proceso es generalmente el que toma más tiempo. Este paso es iterativo, conforme vamos conociendo más acerca de los datos, puede ser necesario hacer nuevas limpiezas o modificaciones. Para evitar errores es importante guardar los datos originales y documentar todas las transformaciones que se vayan haciendo a los datos y las razones de tales cambios.

El análisis de datos puede conllevar varias actividades como transformar los datos, resumirmos, unirlos con otros conjuntos de datos y finalmente visualizarlos. 



### 2.2 pandas_profiling

Explorar el conjunto de datos, entender los tipos de datos y la distribución de estos. Para lograr esto usaremos una herramienta llamada _pandas_profiling_, la cual hace un análisis básico de un dataframe. Guardaremos el resultado como un archivo en una carpeta llamada _profiles_.

__Nota__: en este tutorial solo sacamos el profile de los últimos mil datos debido a limitaciones de tiempo.

In [5]:
import pandas_profiling

profile = df_carpetas.tail(1000).profile_report(title='Carpetas de investigación')
profile.to_file(output_file="profiles/CP-carpetas-short.html")

El archivo resultante se puede ver en [profiles/CP-carpetas-short.html](profiles/CP-carpetas-short.html)

#### Ejercicio 4
Usando los datos de victimas realiza el pandas_profiling y analiza los resultados.

### 2.3 Operaciones básicas de pandas

Muchas veces no queremos trabajar sobre toda la tabla de datos, en su lugar queremos usar unicamente una fracción de ella. Para ello, existen varias formas de selecionar partes de una tabla.

Por ejemplo, si queremos ver las primeras cinco filas podemos usar el comando _head_ y especificar el número de filas (por default se usan cinco). El comando _tail_ hace algo muy similar pero para las últimas filas.

In [6]:
df_carpetas.head(7)

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
0,2016.0,Enero,2016-01-29 12:00:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN COYOACÁN,COY-2,UI-1CD,EL CENTINELA,COYOACAN,2016-02-19 19:55:38,Febrero,2016,ERASMO CASTELLANOS QUINTO,,-99.141292,19.334955,"19.3349549998,-99.141292"
1,2016.0,Julio,2016-07-15 17:30:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLALPAN,TLP-3,UI-1CD,TLALPAN CENTRO I,TLALPAN,2016-07-18 19:49:39,Julio,2016,AV. DE LOS INSURGENTES SUR,,-99.173959,19.289501,"19.2895013921,-99.1739594597"
2,2017.0,Noviembre,2017-11-13 15:30:00,DAÑO EN PROPIEDAD AJENA INTENCIONAL,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-2SD,OJO DE AGUA,TLAHUAC,2017-11-14 18:22:31,Noviembre,2017,ESTEVBAN CHAVERO,,-99.012265,19.289566,"19.2895659854,-99.0122652658"
3,2017.0,Octubre,2017-10-03 17:30:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLALPAN,TLP-2,UI-3CD,JARDINES DEL AJUSCO,TLALPAN,2017-11-15 18:29:26,Noviembre,2017,CITILCUN,,-99.216467,19.287173,"19.2871730998,-99.2164668"
4,2016.0,Febrero,2016-02-19 13:30:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-10,UI-1SD,MIGUEL DE LA MADRID,IZTAPALAPA,2016-02-19 21:28:19,Febrero,2016,PAROTAS,PAROTAS,-99.005908,19.347618,"19.3476179998,-99.005908"
5,2016.0,Julio,2016-07-18 20:15:00,PERDIDA DE LA VIDA POR PARO CARDIACO,HECHO NO DELICTIVO,INVESTIGACIÓN EN XOCHIMILCO,XO-2,UI-1CD,BARRIO SAN JUAN MOYOTEPEC,XOCHIMILCO,2016-07-18 22:25:33,Julio,2016,NUEVO LEON,PUENTE DE URRUTIA,-99.075589,19.257038,"19.2570384451,-99.0755892098"
6,2016.0,Febrero,2016-02-19 22:00:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN CUAUHTEMOC,CUH-7,UI-1CD,ROMA NORTE,CUAUHTEMOC,2016-02-20 00:44:31,Febrero,2016,AV. ALVARO OBREON,MONTERREY,-99.164111,19.417313,"19.4173129998,-99.164111"


Para ver una columna específica se pone el nombre del dataframe seguido por corchetes con el nombre de la columna. Una sola columna es del tipo _series_.

Por ejemplo, para ver la columna de las alcaldias:

In [7]:
df_carpetas['alcaldia_hechos']

0                    COYOACAN
1                     TLALPAN
2                     TLAHUAC
3                     TLALPAN
4                  IZTAPALAPA
                 ...         
808866    VENUSTIANO CARRANZA
808867             XOCHIMILCO
808868         MIGUEL HIDALGO
808869               COYOACAN
808870             IZTAPALAPA
Name: alcaldia_hechos, Length: 808871, dtype: object

Se pueden hacer varias cosas con una columna. Por ejemplo, se pueden determinar los valores unicos de la columna. Esto nos permite identificar que las carpetas de investigación no solo tratan sobre delitos cometidos dentro de la CdMx, sino también en otros municipios del país.

In [8]:
df_carpetas['alcaldia_hechos'].unique()

array(['COYOACAN', 'TLALPAN', 'TLAHUAC', 'IZTAPALAPA', 'XOCHIMILCO',
       'CUAUHTEMOC', 'GUSTAVO A MADERO', 'BENITO JUAREZ', 'AZCAPOTZALCO',
       'ALVARO OBREGON', 'MIGUEL HIDALGO', 'IZTACALCO',
       'CUAJIMALPA DE MORELOS', 'VENUSTIANO CARRANZA', nan,
       'LA MAGDALENA CONTRERAS', 'ECATEPEC DE MORELOS', 'PACHUCA DE SOTO',
       'MILPA ALTA', 'PUEBLA', 'ZACATECAS', 'HUIXQUILUCAN',
       'TULANCINGO DE BRAVO', 'TECAMAC', 'TLAYACAPAN', 'CHALCO',
       'AHUATLAN', 'IRAPUATO', 'NAUCALPAN DE JUAREZ',
       'ATIZAPAN DE ZARAGOZA', 'ACAPULCO DE JUAREZ',
       'TLALNEPANTLA DE BAZ', 'CHIMALHUACAN', 'NEZAHUALCOYOTL',
       'SIN DATO', 'HUITZILAC', 'COLON', 'LA PAZ', 'OCOYOACAC',
       'IXTAPALUCA', 'IGUALAPA', 'GUANAJUATO', 'DURANGO', 'LERMA',
       'TOLUCA', 'VILLA VICTORIA', 'MERIDA', 'TULTEPEC', 'MORELIA',
       'HUAMANTLA', 'CUAUTITLAN IZCALLI', 'VALLE DE CHALCO SOLIDARIDAD',
       'COACALCO DE BERRIOZABAL', 'ZINACANTEPEC', 'REYNOSA',
       'TEMASCALAPA', 'MIGUEL ALEMAN'

También, se puede contabilizar cuántas veces aparece cada uno de estos valores. Por ejemplo, en el caso de las alcaldias, hay muchos delitos que ocurrieron en municipios que no son de la Ciudad de Mexico. Sin embargo, estos son casos excepcionales que ocurren en baja frecuencia.

In [9]:
df_carpetas['alcaldia_hechos'].value_counts()

CUAUHTEMOC                    131397
IZTAPALAPA                    119926
GUSTAVO A MADERO               80097
BENITO JUAREZ                  70599
COYOACAN                       54235
                               ...  
AMANALCO                           1
JEREZ                              1
AHUATLAN                           1
SAN JUAN BAUTISTA TUXTEPEC         1
PISAFLORES                         1
Name: alcaldia_hechos, Length: 485, dtype: int64

Para ver las 20 alcaldias con mas delitos:

In [10]:
df_carpetas['alcaldia_hechos'].value_counts()[0:20]

CUAUHTEMOC                131397
IZTAPALAPA                119926
GUSTAVO A MADERO           80097
BENITO JUAREZ              70599
COYOACAN                   54235
MIGUEL HIDALGO             53688
ALVARO OBREGON             52568
VENUSTIANO CARRANZA        46224
TLALPAN                    46179
AZCAPOTZALCO               39435
IZTACALCO                  34407
XOCHIMILCO                 24639
TLAHUAC                    18197
LA MAGDALENA CONTRERAS     12064
CUAJIMALPA DE MORELOS      11393
MILPA ALTA                  5159
NEZAHUALCOYOTL              1289
TLALNEPANTLA DE BAZ          803
ECATEPEC DE MORELOS          723
NAUCALPAN DE JUAREZ          580
Name: alcaldia_hechos, dtype: int64

Se pueden seleccionar varias columnas a la vez, poniendo sus nombres en una lista dentro de corchetes. Lo anterior significa que para seleccionar varias columnas hay que usar corchetes dobles.

In [11]:
df_carpetas[['delito','alcaldia_hechos']]

Unnamed: 0,delito,alcaldia_hechos
0,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,COYOACAN
1,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,TLALPAN
2,DAÑO EN PROPIEDAD AJENA INTENCIONAL,TLAHUAC
3,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,TLALPAN
4,ROBO A CASA HABITACION SIN VIOLENCIA,IZTAPALAPA
...,...,...
808866,LESIONES INTENCIONALES POR GOLPES,VENUSTIANO CARRANZA
808867,VIOLENCIA FAMILIAR,XOCHIMILCO
808868,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,MIGUEL HIDALGO
808869,AMENAZAS,COYOACAN


La primera columna que podemos observar en la tabla y carece de nombre, es el índice de las filas. Por default, pandas asigna números de identificación a cada una de las filas, empezando por el cero . Podemos seleccionar filas con el comando _loc_ más el número de posición de la fila, sin olvidar que la numeración empieza en 0. Por ejemplo, seleccionemos la novena fila.

In [12]:
df_carpetas.loc[9]

año_hechos                                              2016
mes_hechos                                             Julio
fecha_hechos                             2016-07-18 22:30:00
delito                  ROBO A CASA HABITACION SIN VIOLENCIA
categoria_delito                      DELITO DE BAJO IMPACTO
fiscalía                         INVESTIGACIÓN EN IZTAPALAPA
agencia                                                IZP-6
unidad_investigacion                                  UI-1SD
colonia_hechos                EJERCITO DE ORIENTE ZONA PEÑON
alcaldia_hechos                                   IZTAPALAPA
fecha_inicio                             2016-07-19 01:09:07
mes_inicio                                             Julio
ao_inicio                                               2016
calle_hechos                                FUERTE DE LORETO
calle_hechos2                                            NaN
longitud                                            -99.0338
latitud                 

De la misma manera, se pueden seleccionar varias filas usando una lista.

In [13]:
df_carpetas.loc[[9, 13, 62,201]]

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
9,2016.0,Julio,2016-07-18 22:30:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-6,UI-1SD,EJERCITO DE ORIENTE ZONA PEÑON,IZTAPALAPA,2016-07-19 01:09:07,Julio,2016,FUERTE DE LORETO,,-99.033802,19.368988,"19.3689882145,-99.033801541"
13,2016.0,Julio,2016-07-18 14:30:00,AMENAZAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN AZCAPOTZALCO,AZ-1,UI-2SD,SAN MARTÍN XOCHINAHUAC,AZCAPOTZALCO,2016-07-19 11:19:55,Julio,2016,AVENIDA SAN PABLO,,-99.183641,19.502262,"19.5022619967,-99.1836411696"
62,2016.0,Mayo,2016-05-09 13:30:00,DAÑO EN PROPIEDAD AJENA CULPOSA POR TRÁNSITO V...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN GUSTAVO A. MADERO,GAM-3,UI-3SD,RESIDENCIAL ZACATENCO,GUSTAVO A MADERO,2016-05-09 20:06:53,Mayo,2016,PARANAGUA,TICOMAN,-99.127304,19.502688,"19.5026879998,-99.127304"
201,2016.0,Abril,2016-04-01 20:40:00,ROBO A PASAJERO / CONDUCTOR DE VEHICULO CON VI...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN MIGUEL HIDALGO,MH-1,UI-1CD,ANAHUAC,MIGUEL HIDALGO,2016-04-13 12:31:05,Abril,2016,LAGO PATZCUARO,ESQUINA LAGUNA DE TERMINOS,-99.172207,19.442144,"19.4421439998,-99.172207"


Este comando también se puede usar para seleccionar un conjunto de filas y columnas específico. Para hacerlo se utiliza el formato: _df.loc[filas, columnas]_

df_carpetas.loc[[9, 13, 62,201], ['delito','alcaldia_hechos']]

Es posible seleccionar los datos de acuerdo a una condición. Por ejemplo, todos los delitos cometidos en la delegación Tlahuac. Para lograrlo es necesario poner la condición dentro de los corchetes.

In [14]:
df_carpetas.loc[df_carpetas['alcaldia_hechos']=='TLAHUAC']

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
2,2017.0,Noviembre,2017-11-13 15:30:00,DAÑO EN PROPIEDAD AJENA INTENCIONAL,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-2SD,OJO DE AGUA,TLAHUAC,2017-11-14 18:22:31,Noviembre,2017,ESTEVBAN CHAVERO,,-99.012265,19.289566,"19.2895659854,-99.0122652658"
27,2016.0,Febrero,2016-02-27 01:10:00,TRATA DE PERSONAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN PARA LA ATENCIÓN DEL DELITO DE T...,TP-1,UI-1CD,,TLAHUAC,2016-02-27 04:03:45,Febrero,2016,,,,,
120,2015.0,Septiembre,2015-09-01 10:00:00,FRAUDE,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-1SD,LA GUADALUPE,TLAHUAC,2016-07-13 07:21:55,Julio,2016,CERRADA HERMENEGILDO GALEANA,,-99.007578,19.267633,"19.2676334386,-99.0075775307"
127,2016.0,Junio,2016-06-16 13:30:00,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-2SD,MIGUEL HIDALGO,TLAHUAC,2016-07-13 12:27:22,Julio,2016,BODAS DE FIGARO,PINDARO (SIN REGISTRO DEL SAP),-99.044065,19.291226,"19.2912260876,-99.0440648833"
248,2018.0,Marzo,2018-03-10 21:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-3SD,FRANCISCO VILLA,TLAHUAC,2018-03-15 10:42:11,Marzo,2018,AVENIDA NORTE DEL COMERCIO,,-99.000921,19.245891,"19.2458905336,-99.0009213319"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
808708,2015.0,Diciembre,2015-12-12 12:00:00,DESPOJO,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-1SD,JARDINES DEL LLANO,TLAHUAC,2017-01-29 11:18:03,Enero,2017,CAMINO REAL A TETELCO NUMERO 437,,-98.992319,19.233253,"19.2332532998,-98.9923192"
808739,2017.0,Enero,2017-01-31 09:30:00,DENUNCIA DE HECHOS,HECHO NO DELICTIVO,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-1SD,DEL MAR,TLAHUAC,2017-02-01 14:14:01,Febrero,2017,GITANA,PIRAÑA,-99.059866,19.292124,"19.2921241032,-99.0598664677"
808790,2017.0,Enero,2017-01-09 18:00:00,DENUNCIA DE HECHOS,HECHO NO DELICTIVO,JUZGADOS FAMILIARES,75,UI-2SD,EL ROSARIO,TLAHUAC,2017-01-31 14:12:06,Enero,2017,JALISCO,,-99.007443,19.238486,"19.2384859998,-99.0074429"
808800,2017.0,Enero,2017-01-31 09:00:00,PORNOGRAFIA INFANTIL,DELITO DE BAJO IMPACTO,INVESTIGACIÓN PARA LA ATENCIÓN DE DELITOS SEXU...,FDS-1,FDS-1-03,LOS OLIVOS,TLAHUAC,2017-01-31 18:22:29,Enero,2017,ESCALARIO,,-99.058526,19.301552,"19.3015515362,-99.0585260291"


Si nuestro objetivo es seleccionar filas que se encuentren en una lista, podemos usar el comando _isin_. En el siguiente ejemplo, seleccionamos los delitos en las delegaciones Tlahuac, Xochimilco y Milpa Alta.

In [15]:
df_carpetas.loc[df_carpetas['alcaldia_hechos'].isin(['TLAHUAC','XOCHIMILCO','MILPA ALTA'])]

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
2,2017.0,Noviembre,2017-11-13 15:30:00,DAÑO EN PROPIEDAD AJENA INTENCIONAL,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-2SD,OJO DE AGUA,TLAHUAC,2017-11-14 18:22:31,Noviembre,2017,ESTEVBAN CHAVERO,,-99.012265,19.289566,"19.2895659854,-99.0122652658"
5,2016.0,Julio,2016-07-18 20:15:00,PERDIDA DE LA VIDA POR PARO CARDIACO,HECHO NO DELICTIVO,INVESTIGACIÓN EN XOCHIMILCO,XO-2,UI-1CD,BARRIO SAN JUAN MOYOTEPEC,XOCHIMILCO,2016-07-18 22:25:33,Julio,2016,NUEVO LEON,PUENTE DE URRUTIA,-99.075589,19.257038,"19.2570384451,-99.0755892098"
26,2016.0,Julio,2016-07-15 23:40:00,ROBO A TRANSEUNTE DE CELULAR SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN XOCHIMILCO,XO-1,UI-2SD,SAN LORENZO LA CEBADA,XOCHIMILCO,2016-07-19 14:44:25,Julio,2016,PROLONGACION DIVISION DEL NORTE,,-99.120475,19.274688,"19.2746878998,-99.1204747"
27,2016.0,Febrero,2016-02-27 01:10:00,TRATA DE PERSONAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN PARA LA ATENCIÓN DEL DELITO DE T...,TP-1,UI-1CD,,TLAHUAC,2016-02-27 04:03:45,Febrero,2016,,,,,
33,2016.0,Julio,2016-07-16 17:00:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN XOCHIMILCO,XO-1,UI-2SD,EL MIRADOR I(SAN LUCAS XOCHIMANCA),XOCHIMILCO,2016-07-19 17:58:44,Julio,2016,PROLONGACION BENITO JUAREZ,CERRADA LA BARRANCA,-99.106129,19.234673,"19.2346725671,-99.1061286898"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
808819,2019.0,Mayo,2019-05-26 11:00:00,DAÑO EN PROPIEDAD AJENA CULPOSA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN XOCHIMILCO,XO-2,UI-1SD,SAN LORENZO LA CEBADA,XOCHIMILCO,2019-06-03 16:47:44,Junio,2019,PLAN DE SAN LUIS,10 DE ANBRIL DE 1919,-99.118000,19.279331,"19.2793312339,-99.1180000618"
808820,2019.0,Mayo,2019-05-19 14:45:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,JUZGADOS FAMILIARES,75,UI-1SD,Pueblo San Antonio Tecomitl (LAS JOYAS),MILPA ALTA,2019-06-03 17:17:18,Junio,2019,QUINTA CERRADA DE 16 DE SEPTIEMBRE,,-98.985236,19.208606,"19.2086062986,-98.9852359959"
808839,2019.0,Mayo,2019-05-31 06:25:00,AMENAZAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLALPAN,TLP-4,UI-1CD,SANTA ANA PONIENTE,TLAHUAC,2019-06-03 18:28:39,Junio,2019,ESTACIONAMIENTO DE LA CALLE AMADO NERVO N . 126,,-99.047882,19.304119,"19.3041190004,-99.0478818"
808855,2019.0,Junio,2019-06-12 13:45:00,AMENAZAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN XOCHIMILCO,XO-1,UI-1SD,LA NORIA,XOCHIMILCO,2019-06-12 19:19:12,Junio,2019,PROLONGACION GUADALUPE I. RAMIREZ,,-99.127326,19.267716,"19.2677162983,-99.1273262996"


Se pueden usar varias condiciones al mismo tiempo, por ejemplo para ver los delitos cometidos en la alcaldía Tlahuac durante el mes de julio seleccionamos tanto la alcaldia como el mes.

In [16]:
df_carpetas.loc[(df_carpetas['alcaldia_hechos']=='TLAHUAC') & (df_carpetas['mes_hechos']=='Julio')]

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
2022,2017.0,Julio,2017-07-07 21:30:00,SUSTRACCION DE MENORES,DELITO DE BAJO IMPACTO,"INVESTIGACIÓN PARA LA ATENCIÓN DE NIÑOS, NIÑAS...",59,UI-2CD,GUADALUPE TLALTENCO,TLAHUAC,2017-07-08 14:48:17,Julio,2017,AVENIDA PASEO NUEVO,,-99.015112,19.292860,"19.2928604353,-99.015111738"
3647,2017.0,Julio,2017-07-11 10:15:00,DAÑO EN PROPIEDAD AJENA CULPOSA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-1SD,SAN FRANCISCO TLALTENCO,TLAHUAC,2017-07-11 14:16:34,Julio,2017,MORELOS,,-99.016510,19.293603,"19.2936027802,-99.0165095077"
3649,2017.0,Julio,2017-07-09 11:30:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,JUZGADOS FAMILIARES,AEAMZO,4 SIN DETENIDO 4 S/D,OJO DE AGUA,TLAHUAC,2017-07-11 14:38:53,Julio,2017,GUADALUPE AMADOR SALAZAR,PABLO GONZALEZ,-99.011963,19.288511,"19.2885106299,-99.0119629517"
3757,2017.0,Julio,2017-07-06 00:30:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-3SD,SAN MIGUEL ZAPOTITLA,TLAHUAC,2017-07-06 20:44:01,Julio,2017,JOSE SEVERINO DE LA SOTA,FRANCISCO DE HACHA,-99.039216,19.310415,"19.3104145348,-99.0392156381"
5370,2017.0,Julio,2017-07-20 14:00:00,ROBO DE MOTOCICLETA CON VIOLENCIA,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,INVESTIGACIÓN DE LOS DELITOS COMETIDOS POR SER...,B,UI-1CD,MIGUEL HIDALGO,TLAHUAC,2017-07-31 12:04:02,Julio,2017,AVENIDA TLAHUAC,,-99.047434,19.285975,"19.2859751998,-99.0474345"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
803119,2018.0,Julio,2018-07-14 12:30:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-2SD,MIGUEL HIDALGO,TLAHUAC,2018-07-15 08:45:53,Julio,2018,LUCAS MORENCIO ESQUINA BODAS DE FIGARO,,-99.044173,19.291667,"19.2916667772,-99.0441730185"
803339,2017.0,Julio,2017-07-23 15:00:00,DESPOJO,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-2,UI-1SD,TIERRA BLANCA,TLAHUAC,2018-07-17 13:29:54,Julio,2018,CALLE CERRADA DE MARGARITAS S/N,RAMOS MILLAN,-99.005829,19.235571,"19.2355709998,-99.0058292"
803790,2018.0,Julio,2018-07-19 20:00:00,ROBO A NEGOCIO CON VIOLENCIA,ROBO A NEGOCIO CON VIOLENCIA,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-3SD,CONCHITA A,TLAHUAC,2018-08-01 12:50:51,Agosto,2018,AVENIDA GUILLERMO PRIETO,,-99.040547,19.288270,"19.28827018,-99.0405468878"
805889,2016.0,Julio,2016-07-06 21:00:00,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN TLAHUAC,TLH-1,UI-1SD,SANTIAGO SUR,TLAHUAC,2016-07-07 00:24:35,Julio,2016,EUTERIO MENDEZ,ANTONIO SIERRA (SIN REGISTRO DELS AP),-99.032549,19.293032,"19.2930315998,-99.0325493"


Cuando un dato no existe, pandas lo indica con un NaN. Lo anterior puede representar un problema, ya que significa que los datos son incompletos y generalmente es necesario procesarlos. Podemos determinar si un dato es NA usando _isna_. Este comando se puede emplear para seleccionar conjuntos de datos donde carecemos de información. Por ejemplo, seleccionar todas las carpetas que no tienen coordenadas.

In [17]:
df_carpetas[df_carpetas['Geopoint'].isna()]

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalía,agencia,unidad_investigacion,colonia_hechos,alcaldia_hechos,fecha_inicio,mes_inicio,ao_inicio,calle_hechos,calle_hechos2,longitud,latitud,Geopoint
27,2016.0,Febrero,2016-02-27 01:10:00,TRATA DE PERSONAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN PARA LA ATENCIÓN DEL DELITO DE T...,TP-1,UI-1CD,,TLAHUAC,2016-02-27 04:03:45,Febrero,2016,,,,,
75,2016.0,Julio,2016-07-03 09:30:00,ABUSO DE AUTORIDAD,DELITO DE BAJO IMPACTO,INVESTIGACIÓN DE LOS DELITOS COMETIDOS POR SER...,B,UI-2CD,,CUAUHTEMOC,2016-07-25 17:15:55,Julio,2016,AVENIDA CHAPULTEPEC NO REFIERE COLONIA,,,,
112,2016.0,Abril,2016-04-13 23:00:00,LESIONES INTENCIONALES POR ARMA DE FUEGO,LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO,INVESTIGACIÓN EN GUSTAVO A. MADERO,H5,UI-1CD,,GUSTAVO A MADERO,2016-04-14 07:56:52,Abril,2016,HOSPITAL MAGDALENA DE LAS SALINAS,NOTIFICACION HOSPITALARIA,,,
131,2017.0,Noviembre,2017-11-08 07:00:00,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,INVESTIGACIÓN EN GUSTAVO A. MADERO,GAM-8,UI-2SD,,,2017-11-08 14:10:58,Noviembre,2017,LAGO CHAIN,LAGO VALENCIA (HECHOS EN NEZAHUALCOYOTL EDO DE...,,,
191,2016.0,Julio,2016-07-22 17:00:00,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-6,UI-2CD,,IZTAPALAPA,2016-07-22 17:49:01,Julio,2016,VILLA GONZALEZ (NO SE ENCONTRO CALLE),,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
808712,2017.0,Enero,2017-01-29 12:48:00,LESIONES CULPOSAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN COYOACÁN,COY-5,UI-1SD,,COYOACAN,2017-01-29 12:48:08,Enero,2017,LAS BOMBAS 177,NOTIFICACION MEDICO LEGAL,,,
808723,2017.0,Enero,2017-01-31 18:00:00,LESIONES INTENCIONALES POR ARMA DE FUEGO,LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO,INVESTIGACIÓN EN ÁLVARO OBREGÓN,AO-1,UI-3SD,,ALVARO OBREGON,2017-02-01 07:20:42,Febrero,2017,HOSPITAL DR FERNANDO QUIROZ GUTIERREZ,NOTIFICACION HOSPITALARIA,,,
808758,2017.0,Enero,2017-01-30 13:00:00,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,INVESTIGACIÓN EN MIGUEL HIDALGO,MH-3,UI-1SD,,HUIXQUILUCAN,2017-02-01 23:42:17,Febrero,2017,HECHOS OCURRIDOS EN EL ESTADO DE MEXICO,CALLE DEL PESCADOR,,,
808817,2018.0,Diciembre,2018-12-30 20:00:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN PARA LA ATENCIÓN DE ASUNTOS ESPE...,D,UI-1CD,,CUAUHTEMOC,2019-06-03 17:52:47,Junio,2019,SIN CALLES DEL SAP,,,,


#### Ejercicio

Escribe cinco combinaciones de datos que te interesaria conocer y obtenlas usando pandas. Por ejemplo: todos los robos en delegaciones del norte de la ciudadad, que fue la fiscalia que atendió más delitos.


### 2.4 Limpieza de datos

Generalmente, los conjuntos de datos contienen errores o incluyen datos que no son utiles para los análisis. Durante la limpieza de datos se detectan y corrigen datos incorrectos. Además, es util quitar los datos que no se usaran en el análisis. 

En este caso haremos una serie de correciones:
* Quitar columnas
* Cambiar tipos de datos
* Modificar campos de texto
* Eliminar datos fuera de rango
* Datos faltantes
* Guardar datos

#### Quitar columnas

Podemos quitar las columnas usando el comando _drop_. En este caso quitamos las columas que tienen información redundante (año, mes, coordenadas) o que no nos interesan en este momento (agencia, unidad_investigacion, colonia, calle). Para quitar columnas se debe de agregar el parametro _axis=1_. Si lo que queremos es quitar filas, se puede hacer de una manera similar, poniendo los nombres de las filas entre corchetes y usando el paramentro _axis=0_. 

Para guardar este paso de limpieza es muy importante rescribir los valores de la variable.

In [18]:
df_carpetas = df_carpetas.drop(['año_hechos', 'mes_hechos', 'mes_inicio', 'ao_inicio', 'agencia', 'unidad_investigacion', 
                                'colonia_hechos', 'calle_hechos', 'calle_hechos2', 'longitud', 'latitud'],
                               axis=1)
df_carpetas.tail()

Unnamed: 0,fecha_hechos,delito,categoria_delito,fiscalía,alcaldia_hechos,fecha_inicio,Geopoint
808866,2019-06-12 19:45:00,LESIONES INTENCIONALES POR GOLPES,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN VENUSTIANO CARRANZA,VENUSTIANO CARRANZA,2019-06-12 22:15:19,"19.4258079387,-99.0712176767"
808867,2019-06-12 09:30:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN XOCHIMILCO,XOCHIMILCO,2019-06-12 22:23:25,"19.2438133395,-99.0911927553"
808868,2019-06-12 22:10:00,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,INVESTIGACIÓN EN MIGUEL HIDALGO,MIGUEL HIDALGO,2019-06-12 22:34:24,"19.4032436562,-99.1809734737"
808869,2019-06-05 10:31:00,AMENAZAS,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN COYOACÁN,COYOACAN,2019-06-12 23:21:57,"19.3238914794,-99.1620928567"
808870,2019-06-12 23:00:00,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,INVESTIGACIÓN EN IZTAPALAPA,IZTAPALAPA,2019-06-12 23:45:52,"19.3647714748,-99.0048754891"


#### Cambiar tipos de datos

Como ya vimos exiten varios tipos de datos. En partícular en este conjunto de datos, tenemos dos columnas de fechas, y si revisamos a que tipo de dato pertenecen usando el comando _dtype_ ,podemos observar que pandas las identificó como texto, lo cual dificulta trabajar con ellas. Si cambiamos estas columnas a tipo _datetime_, podemos usar las operaciones definidas para este tipo de datos. Haremos lo anterior empleando el comando _to_datetime_. Debido a que nos interesa guardar la transformación, la reasignaremos a la variable usando el comando  _=_.

In [19]:
df_carpetas['fecha_hechos'] = pd.to_datetime(df_carpetas['fecha_hechos'])
df_carpetas['fecha_inicio'] = pd.to_datetime(df_carpetas['fecha_inicio'])

Usando este tipo de dato ahora es posible seleccionar por año, mes, día, hora y minuto usando los comandos:

* columna.dt.year
* columna.dt.month
* columna.dt.day
* columna.dt.hour
* columna.dt.minute

Esto nos permite ver los delitos cometidos después de las 8pm. Para lograrlo usaremos el comando _dt.hour_.

In [20]:
df_carpetas[df_carpetas['fecha_hechos'].dt.hour>=20]

Unnamed: 0,fecha_hechos,delito,categoria_delito,fiscalía,alcaldia_hechos,fecha_inicio,Geopoint
5,2016-07-18 20:15:00,PERDIDA DE LA VIDA POR PARO CARDIACO,HECHO NO DELICTIVO,INVESTIGACIÓN EN XOCHIMILCO,XOCHIMILCO,2016-07-18 22:25:33,"19.2570384451,-99.0755892098"
6,2016-02-19 22:00:00,FALSIFICACION DE TITULOS AL PORTADOR Y DOCUMEN...,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN CUAUHTEMOC,CUAUHTEMOC,2016-02-20 00:44:31,"19.4173129998,-99.164111"
9,2016-07-18 22:30:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZTAPALAPA,2016-07-19 01:09:07,"19.3689882145,-99.033801541"
25,2017-11-14 22:33:00,DENUNCIA DE HECHOS,HECHO NO DELICTIVO,INVESTIGACIÓN PARA LA ATENCIÓN DE DELITOS SEXU...,BENITO JUAREZ,2017-11-15 02:19:33,"19.37279058,-99.153086516"
26,2016-07-15 23:40:00,ROBO A TRANSEUNTE DE CELULAR SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN XOCHIMILCO,XOCHIMILCO,2016-07-19 14:44:25,"19.2746878998,-99.1204747"
...,...,...,...,...,...,...,...
808860,2019-06-12 21:00:00,PERDIDA DE LA VIDA POR OTRAS CAUSAS,HECHO NO DELICTIVO,INVESTIGACIÓN EN IZTAPALAPA,IZTAPALAPA,2019-06-12 21:36:05,"19.371231531,-99.1039196268"
808863,2019-06-12 20:52:00,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,INVESTIGACIÓN EN AGENCIAS DE ATENCIÓN ESPECIAL...,VENUSTIANO CARRANZA,2019-06-12 22:02:42,"19.4454751023,-99.0873496998"
808865,2019-06-12 21:20:00,ABUSO DE CONFIANZA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN CUAUHTEMOC,CUAUHTEMOC,2019-06-12 22:09:34,"19.4174787382,-99.129886269"
808868,2019-06-12 22:10:00,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,INVESTIGACIÓN EN MIGUEL HIDALGO,MIGUEL HIDALGO,2019-06-12 22:34:24,"19.4032436562,-99.1809734737"


#### Modificar campos de texto

Cuando todas las columnas de texto están con mayúsculas, como en el grupo de datos con el que estamos trabajando, puede dificultarse la lectura. En este caso, vamos a cambiar el texto de mayúsculas de los delitos usando el comando _capitalize_, es decir este comando dejará la primera letra en mayúscula y todas las demás en minúscula. En el caso de las alcaldías y fiscalias usaremos _title_, con el fin de que la primera letra de todas las palabras sea mayúscula.

In [21]:
df_carpetas['delito'] = df_carpetas['delito'].str.capitalize()
df_carpetas['categoria_delito'] = df_carpetas['categoria_delito'].str.capitalize()
df_carpetas['fiscalía'] = df_carpetas['fiscalía'].str.title()
df_carpetas['alcaldia_hechos'] = df_carpetas['alcaldia_hechos'].str.title()

df_carpetas.tail()

Unnamed: 0,fecha_hechos,delito,categoria_delito,fiscalía,alcaldia_hechos,fecha_inicio,Geopoint
808866,2019-06-12 19:45:00,Lesiones intencionales por golpes,Delito de bajo impacto,Investigación En Venustiano Carranza,Venustiano Carranza,2019-06-12 22:15:19,"19.4258079387,-99.0712176767"
808867,2019-06-12 09:30:00,Violencia familiar,Delito de bajo impacto,Investigación En Xochimilco,Xochimilco,2019-06-12 22:23:25,"19.2438133395,-99.0911927553"
808868,2019-06-12 22:10:00,Robo a transeunte en via publica con violencia,Robo a transeunte en vía pública con y sin vio...,Investigación En Miguel Hidalgo,Miguel Hidalgo,2019-06-12 22:34:24,"19.4032436562,-99.1809734737"
808869,2019-06-05 10:31:00,Amenazas,Delito de bajo impacto,Investigación En Coyoacán,Coyoacan,2019-06-12 23:21:57,"19.3238914794,-99.1620928567"
808870,2019-06-12 23:00:00,Robo a pasajero a bordo de pesero colectivo co...,Robo a pasajero a bordo de microbus con y sin ...,Investigación En Iztapalapa,Iztapalapa,2019-06-12 23:45:52,"19.3647714748,-99.0048754891"


#### Datos fuera de rango

En el pandas_profiling vimos que la gran mayoría de los delitos eran "de bajo impacto" o "hecho no delictivo". Quitar estos delitos nos permitiria simplificar el análisis, además de ocupar menos memoria. 

En primer lugar debemos revisar que tipo de delitos están en estas clasificaciones. Para esto seleccionaremos las filas que estén en cada categoría y la columna de 'delito', después obtendremos los elementos únicos.

In [22]:
df_carpetas.loc[df_carpetas['categoria_delito']=='Hecho no delictivo','delito'].unique()

array(['Perdida de la vida por paro cardiaco', 'Denuncia de hechos',
       'Perdida de la vida por otras causas',
       'Perdida de la vida por quemadura', 'Perdida de la vida por caida',
       'Perdida de la vida por suicidio', 'Ddh anonimas', 'Ddh redes',
       'Perdida de la vida por enfermedad',
       'Perdida de la vida asfixia por alimentos/ liquidos',
       'Perdida de la vida por precipitacion', 'Ddh relacionadas',
       'Perdida de la vida por asfixia',
       'Perdida de la vida por derrumbe',
       'Perdida de la vida por intoxicacion', 'Ddh oficio colaboracion',
       'Ddh fds', 'Perdida de la vida por congestion alcoholica',
       'Perdida de la vida por suicidio en el metro',
       'Perdida de la vida por accidente laboral',
       'Perdida de la vida por ahogamiento', 'Ddh sin datos',
       'Ddh otras materias', 'Ddh cereso',
       'Denuncia de hechos por robo de celular', 'Ddh frvt',
       'Ddh incompetencia', 'Exhortos',
       'Perdida de la vida por env

In [23]:
df_carpetas.loc[df_carpetas['categoria_delito']=='Delito de bajo impacto','delito'].unique()

array(['Falsificacion de titulos al portador y documentos de credito publico',
       'Daño en propiedad ajena intencional',
       'Robo a casa habitacion sin violencia', 'Violencia familiar',
       'Fraude', 'Robo de objetos', 'Usurpación de identidad', 'Amenazas',
       'Robo a transeunte de celular con violencia',
       'Lesiones culposas por transito vehicular', 'Encubrimiento',
       'Narcomenudeo posesion simple',
       'Robo a transeunte de celular sin violencia', 'Trata de personas',
       'Robo de objetos del interior de un vehiculo',
       'Robo de vehiculo de pedales', 'Robo de accesorios de auto',
       'Homicidio culposo por tránsito vehicular (atropellado)',
       'Lesiones culposas por transito vehicular en colision',
       'Robo a negocio sin violencia',
       'Daño en propiedad ajena culposa por tránsito vehicular a automovil',
       'Robo de dinero',
       'Daño en propiedad ajena culposa por tránsito vehicular a bienes inmuebles',
       'Robo de placa 

Igualmente, podemos saber los delitos que no son 'Delito de bajo impacto' o 'Hecho no delictivo', siguiendo tres pasos:
* Encontrar todos los delitos que pertenezcan a esta clasificacion usando _isin_
* Obtener todos los delitos que NO pertenezcan a estas clasificaciones usando la negación _~_
* Seleccionar solo la columna de delitos y obtener los unicos con _loc_ y _unique_

In [24]:
df_carpetas.loc[~df_carpetas['categoria_delito'].isin(['Delito de bajo impacto','Hecho no delictivo']),'delito'].unique()

array(['Robo a negocio con violencia',
       'Robo a transeunte saliendo del banco con violencia',
       'Robo de vehiculo de servicio particular con violencia',
       'Robo a transeunte en via publica con violencia',
       'Robo de vehiculo de servicio particular sin violencia',
       'Lesiones intencionales por arma de fuego', 'Violacion',
       'Robo a repartidor con violencia',
       'Robo a casa habitacion con violencia',
       'Robo de motocicleta sin violencia',
       'Robo a transeunte en via publica sin violencia',
       'Robo de vehiculo de servicio público sin violencia',
       'Robo de vehiculo de servicio público con violencia',
       'Robo de motocicleta con violencia',
       'Robo a transportista y vehiculo pesado con violencia',
       'Robo a casa habitacion y vehiculo con violencia',
       'Robo a repartidor y vehiculo con violencia',
       'Robo a pasajero a bordo de metro sin violencia',
       'Homicidio por arma de fuego',
       'Robo de vehiculo d

Quitar los delitos de bajo impacto implica que nos concentramos en los que más afectan a la población, tales como: robo, secuestro y homicidio. No obstante, al mismo tiempo implica ignorar la forma de contacto con la violencia más común dentro de la población. La decisión de ignorar datos siempre debé de tomarse tomando en cuenta las implicaciones.

En este caso, para simplificar los análisis quitaremos los delitos de bajo impacto y los hechos no delictivos. Con la finalidad de quitar los delitos que no nos interesan aplicaremos una modificación del comando _isin_. En el comando anterior vimos los delitos en la lista, para seleccionar los delitos que no están en la lista agregaremos _~_ al inicio del comando, lo cual representa una negación.

In [25]:
df_carpetas = df_carpetas.loc[~df_carpetas['categoria_delito'].isin(['Delito de bajo impacto','Hecho no delictivo'])]
df_carpetas.head()

Unnamed: 0,fecha_hechos,delito,categoria_delito,fiscalía,alcaldia_hechos,fecha_inicio,Geopoint
17,2016-02-26 17:00:00,Robo a negocio con violencia,Robo a negocio con violencia,Investigación En Iztapalapa,Iztapalapa,2016-02-26 17:59:30,"19.3937799998,-99.051688"
20,2017-07-13 11:20:00,Robo a transeunte saliendo del banco con viole...,Robo a cuentahabiente saliendo del cajero con ...,Investigación En Tlalpan,Cuauhtemoc,2017-11-14 22:54:26,"19.4041420505,-99.145001998"
38,2016-07-18 21:30:00,Robo de vehiculo de servicio particular con vi...,Robo de vehículo con y sin violencia,Investigación En Tlalpan,Tlalpan,2016-07-19 19:44:57,"19.2735261699,-99.1804653713"
58,2016-02-18 21:00:00,Robo a transeunte en via publica con violencia,Robo a transeunte en vía pública con y sin vio...,Investigación En Coyoacán,Coyoacan,2016-02-21 17:43:31,"19.3071359998,-99.170732"
83,2015-12-31 22:00:00,Robo de vehiculo de servicio particular sin vi...,Robo de vehículo con y sin violencia,Investigación En Gustavo A. Madero,Gustavo A Madero,2016-01-01 02:13:26,"19.4510649998,-99.086693"


Después, de estas transformaciones nuestros datos son menos, ahora solo hay 121908 con siete columnas.

In [26]:
df_carpetas.shape

(121908, 7)

Una pregunta que podemos hacernos es si la fiscalia es siempre la misma que la alcaldía. Para verificar esto usaremos el comando _drop_duplicates_, el cual quita todas las filas repetidas. En primer lugar seleccionaremos las dos columnas que nos interesan (fiscalía y alcaldia_hechos), para después quitar todos los duplicados y comparar si siempre coinciden.

En este ocasión no vamos a guardar el resultado, solo veremos lo que sucede sin modificar los datos, y a partir de eso tomaremos una decisión.

In [27]:
df_carpetas[['fiscalía', 'alcaldia_hechos']].drop_duplicates()

Unnamed: 0,fiscalía,alcaldia_hechos
17,Investigación En Iztapalapa,Iztapalapa
20,Investigación En Tlalpan,Cuauhtemoc
38,Investigación En Tlalpan,Tlalpan
58,Investigación En Coyoacán,Coyoacan
83,Investigación En Gustavo A. Madero,Gustavo A Madero
...,...,...
802337,Agencia Central De Investigación,Nezahualcoyotl
803700,Investigación En Tlalpan,Ocoyoacac
803741,Investigación En Venustiano Carranza,Chicoloapan
804597,Investigación En Tlalpan,Lagos De Moreno


Podemos apreciar que la físcalia es donde se levanta el reporte del delito, pero no necesariamante donde se cometió. Por lo tanto, mantendremos las dos columnas. Verificaciones como esta, sirven para determinar si la información está duplicada.

En el caso de este conjunto de datos tenemos las carpetas que se crearon entre 2016 y 2019. Sin embargo, esto no significa que todos los delitos hayan sido cometidos durante este periodo de tiempo. Para visualizarlo vamos a contar cuántas carpetas hay por año para la columna: fecha_inicio y fecha_hechos.

In [28]:
df_carpetas['fecha_inicio'].dt.year.value_counts()

2018    34112
2017    31855
2016    29251
2019    26690
Name: fecha_inicio, dtype: int64

In [29]:
df_carpetas['fecha_hechos'].dt.year.value_counts()

2018.0    34905
2017.0    31824
2016.0    29181
2019.0    25186
2015.0      512
2014.0       84
2010.0       27
2012.0       25
2001.0       24
2011.0       24
2013.0       22
2008.0        9
2006.0        8
2007.0        7
2009.0        5
1990.0        3
1998.0        2
1989.0        2
1992.0        2
1987.0        2
1983.0        1
1981.0        1
1984.0        1
1974.0        1
1972.0        1
1976.0        1
1995.0        1
1996.0        1
1999.0        1
2000.0        1
2004.0        1
2005.0        1
1915.0        1
Name: fecha_hechos, dtype: int64

En este caso podemos ver que hay carpetas sobre delitos cometidos en 1915. Para nuestro análisis vamos a quitar todas las carpetas que sean sobre hechos anteriores al 2016. Es decir, dejaremos unicamente las carpetas cuyo año sea mayor o igual a 2016.

In [30]:
df_carpetas = df_carpetas[df_carpetas['fecha_hechos'].dt.year>=2016]
df_carpetas.shape

(121096, 7)

Como ya vimos, en este conjunto de datos hay reportes de delitos de municipios fuera de la CdMx, lo que puede complicar el análisis ya que hay una gran cantidad de municipios donde se cometen pocos delitos, y que no necesariamente nos interesan. Tenemos dos opciones, 1) quitar todos los delitos cuya alcaldía no sea una de las 16 alcaldías de la ciudad y 2) cambiar los nombres de municipios por "OTRO". Usaremos la segunda opción. Sin embargo, la elección depende del análisis que se desee hacer. 

Existen dos comandos que nos pueden ser de utilidad, _map_ y _replace_.

Veamos las 20 alcaldias con más delitos

In [31]:
df_carpetas['alcaldia_hechos'].value_counts()[0:20]

Iztapalapa                24782
Cuauhtemoc                15924
Gustavo A Madero          15226
Miguel Hidalgo             7655
Venustiano Carranza        7263
Alvaro Obregon             6820
Coyoacan                   6304
Benito Juarez              6246
Azcapotzalco               5772
Iztacalco                  5658
Tlalpan                    5435
Xochimilco                 4746
Tlahuac                    3471
La Magdalena Contreras     1163
Cuajimalpa De Morelos       801
Nezahualcoyotl              649
Milpa Alta                  605
Tlalnepantla De Baz         391
Ecatepec De Morelos         330
Naucalpan De Juarez         258
Name: alcaldia_hechos, dtype: int64

El comando _replace_ toma un diccionario de python para hacer una lista de remplazo. Por ejemplo, si quisieramos remplazar Nezahualcoyotl y Ecatepec lo podríamos hacer usando el siguiente diccionario. 
Nota, como cada par de palabras esta unido por _:_ y separado del siguiente par por _,_.  

remplazo = {'Nezahualcoyotl':'Otro', 
            'Ecatepec De Morelos':'Otro'}
df_carpetas['alcaldia_hechos'].replace(remplazo).value_counts()[0:20]

In [32]:
df_carpetas['alcaldia_hechos'].value_counts()[0:20].index

Index(['Iztapalapa', 'Cuauhtemoc', 'Gustavo A Madero', 'Miguel Hidalgo',
       'Venustiano Carranza', 'Alvaro Obregon', 'Coyoacan', 'Benito Juarez',
       'Azcapotzalco', 'Iztacalco', 'Tlalpan', 'Xochimilco', 'Tlahuac',
       'La Magdalena Contreras', 'Cuajimalpa De Morelos', 'Nezahualcoyotl',
       'Milpa Alta', 'Tlalnepantla De Baz', 'Ecatepec De Morelos',
       'Naucalpan De Juarez'],
      dtype='object')

Ahora tanto Nezahualcoyotl como Ecatepec han sido remplazados por la leyeda 'Otro' y los delitos cometidos en ambos municipios se han sumado. Sin embargo, todos los municipios que no estaban en el diccionario de remplazo quedaron exactamente igual. Este metodo puede ser muy costoso cuando se quieren hacer muchos remplazos, ya que tendriamos que crear un diccionario con todas las opciones que deseamos remplazar. 

En lugar de eso usaremos el comando _map_. El comando map remplaza solo los datos que están en el diccionario y llena todos aquellos que no están con NaN. Entonces, lo que haremos será generar un diccionario solo con los nombres de las alcaldias, y el comando map borrara todo lo que no este en ellas. Nota como ambos lados del diccionario de remplazo son iguales.

In [33]:
alcaldias = {'Cuauhtemoc':'Cuauhtemoc',
             'Iztapalapa':'Iztapalapa',
             'Gustavo A Madero':'Gustavo A Madero',
             'Benito Juarez':'Benito Juarez',
             'Coyoacan':'Coyoacan',
             'Miguel Hidalgo':'Miguel Hidalgo',
             'Alvaro Obregon':'Alvaro Obregon',
             'Venustiano Carranza':'Venustiano Carranza',
             'Tlalpan':'Tlalpan',
             'Azcapotzalco':'Azcapotzalco',
             'Iztacalco':'Iztacalco',
             'Xochimilco':'Xochimilco',
             'Tlahuac':'Tlahuac',
             'La Magdalena Contreras':'La Magdalena Contreras',
             'Cuajimalpa De Morelos':'Cuajimalpa De Morelos',
             'Milpa Alta':'Milpa Alta',
            }
df_carpetas['alcaldia_hechos'] = df_carpetas['alcaldia_hechos'].map(alcaldias)

#### Datos faltantes

Ahora si revisamos que en la columna de las alcaldias solo nos aparecen los nombres de las 16 alcaldias, pero hay una serie de filas que tienen como valor NaN

In [34]:
df_carpetas[df_carpetas['alcaldia_hechos'].isna()]

Unnamed: 0,fecha_hechos,delito,categoria_delito,fiscalía,alcaldia_hechos,fecha_inicio,Geopoint
131,2017-11-08 07:00:00,Robo de vehiculo de servicio particular sin vi...,Robo de vehículo con y sin violencia,Investigación En Gustavo A. Madero,,2017-11-08 14:10:58,
278,2016-02-21 00:05:00,Lesiones intencionales por arma de fuego,Lesiones dolosas por disparo de arma de fuego,Investigación En Gustavo A. Madero,,2016-02-22 13:37:44,
852,2019-04-03 01:59:00,Homicidio por golpes,Homicidio doloso,Investigación En Miguel Hidalgo,,2019-04-03 11:24:44,
1388,2017-05-25 15:40:00,Homicidio por arma de fuego,Homicidio doloso,Investigación En Cuauhtemoc,,2017-05-25 21:23:19,
1654,2019-01-07 07:00:00,Violacion,Violación,Investigación Para La Atención De Delitos Sexu...,,2019-01-08 13:59:26,
...,...,...,...,...,...,...,...
808252,2016-04-17 07:25:00,Lesiones intencionales por arma de fuego,Lesiones dolosas por disparo de arma de fuego,Investigación En Gustavo A. Madero,,2016-04-17 07:26:52,
808424,2016-04-07 03:00:00,Robo de motocicleta sin violencia,Robo de vehículo con y sin violencia,Investigación En Álvaro Obregón,,2016-04-09 16:44:18,
808454,2019-06-18 20:30:00,Robo de vehiculo de servicio particular con vi...,Robo de vehículo con y sin violencia,Investigación En Tlalpan,,2019-06-18 22:39:31,
808758,2017-01-30 13:00:00,Robo de vehiculo de servicio particular sin vi...,Robo de vehículo con y sin violencia,Investigación En Miguel Hidalgo,,2017-02-01 23:42:17,


Vamos a remplazar estos valores que tienen NaN con el texto 'Otro', lo haremos usando el comando _fill_na_.

In [35]:
df_carpetas['alcaldia_hechos'] = df_carpetas['alcaldia_hechos'].fillna('Otro')
df_carpetas['alcaldia_hechos'].value_counts()

Iztapalapa                24782
Cuauhtemoc                15924
Gustavo A Madero          15226
Miguel Hidalgo             7655
Venustiano Carranza        7263
Alvaro Obregon             6820
Coyoacan                   6304
Benito Juarez              6246
Azcapotzalco               5772
Iztacalco                  5658
Tlalpan                    5435
Xochimilco                 4746
Tlahuac                    3471
Otro                       3225
La Magdalena Contreras     1163
Cuajimalpa De Morelos       801
Milpa Alta                  605
Name: alcaldia_hechos, dtype: int64

#### Guardar datos

Es posible guardar los datos limpios que hemos obtenido de varias formas, podemos guardarlos como csv o excel usando los comandos _.to_csv_ y _.to_excel_. Estos formatos tienen la ventaja de que son faciles de compartir. 

Nosotros guardaremos los datos limpios en la carpeta _data_clean_ como un csv, debido a que el tamaño de la base de datos es grande, puede ser complicado para manipularla en excel. Sin embargo, es posible abrir archivos csv usando excel.

In [36]:
df_carpetas.to_csv('data-clean/CarpetasPgjCdmx-AltoImpacto.csv' ,index=False)

Una desventaja de guardar los archivos usando csv o excel, es que podemos perder el formato y los tipos de datos. Esto es importante sobretodo para tipos de datos como _datetime_. Una opción es guardar nuestros datos en un formato que sea facilmente interpretable para python, aunque este no se pueda trabajar con excel.

In [37]:
from joblib import dump

with open('data-clean/CarpetasPgjCdmx-AltoImpacto.pkl', 'wb') as f:
    dump(df_carpetas, f)

Hasta este momento:
    1) Nos hemos familiarizado con nuestro conjunto de datos
    2) Hemos realizado una serie de análisis preliminares 
    3) Hemos realizado la limpieza de los mismos

#### Ejercicio 5

Revisa el archivo [CP-EjemploLimpiezaVictimas](./extras/CP-EjemploLimpiezaVictimas) que se encuentra en la sección de extras. Este archivo realiza una limpieza similar para el conjunto de datos de víctimas. Escribe que hace cada uno de los pasos y da las razones por las cuales se hacen.