# Análisis y visualización de datos abiertos con python


El objetivo de este tutorial es analizar dos conjuntos de datos abiertos de la Ciudad de México (Carpetas de investigación PGJ y Víctimas en carpetas de investigación PGJ) usando las herramientas del lenguaje de programación python. El participante aprenderá a usar las biblioteca pandas y otras bibliotecas, para cargar, estructurar, obtener estadísticas básicas y graficar los datos. Además, el participante aplicará metodologías y criterios de análisis y visualización de datos, que le permitan generar conclusiones sobre los conjuntos de datos analizados.


1. [Introducción a python](./CP-Introduccion.ipynb)
2. __Exploración de datos__
    1. [Obtención de datos](#obtencion)
        * descargar datos abiertos
        * ¿qué es un dato?
        * estructura del proyecto
        * cargar tablas en pandas (read_csv, read_excel)
    2. [Exploración básica](#exploracion)
        * estructura de una tabla (index, columns, values, shape, dtype)
        * slicing (head, tail, select column(s), row(s), loc, iloc)
        * subsetting  (==, !=, isin, isna, notna, multiple statements)
        * descripcion automática (pandas_profiling)
    3. [Operaciones básicas](#operaciones)
        * documentación
        * ordenar (sort_values)
        * unicos y conteo (unique, nunique, value_counts)
        * conteo y suma (count, max, min, sum)
    4. [Estadística](#estadistica)
        * definiciones de estadística
        * medidas de tendencia central (mean, median, mode)
        * disperción y asimetría (std, skew)
3. [Limpieza de datos](./CP-Limpieza.ipynb)
4. [Gráficación básica](./CP-AnalisisGraficas.ipynb)
5. [Análisis de datos](./CP-AnalisisGraficas.ipynb)
6. Extras


<a id='obtencion'></a>

## 2.1. Obtención de datos

### Descargar datos abiertos
En este tutorial usaremos dos conjuntos de datos sobre carpetas de investigación y víctimas perteniecientes a la PGJ de la CdMx. Estos datos se encuentran en la página [Datos abiertos del gobierno de la Ciudad de México](https://datos.cdmx.gob.mx/pages/home/), la cual contiene conjuntos de datos de múltiples temas como justicia, transporte y rendición de cuentas.

Al acceder al conjunto de datos, podemos ver que tiene varias secciones:
* Información: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando.
* Tabla: esta sección contiene una vista de los datos en forma tabular, cada fila es una medición.
* Análizar: contiene una serie de herramientas para realizar gráficas y explorar los datos.
* Mapa: el conjunto de datos incluye información sobre localización (coordenadas) que permite hacer mapas para visualizar el comportamiento de los datos en el espacio.
* Exportar: los datos pueden ser descargados en diferentes formatos, en este caso usaremos el formato csv
* API: esta es una forma programática de acceder a los datos

<img src="extras/CP-VictimasTabla.png">

En este caso vamos a usar dos conjuntos de datos:
* [Víctimas en carpetas de investigación PGJ (archivo) ](https://datos.cdmx.gob.mx/explore/dataset/denuncias-victimas-pgj/) registran información acerca de las víctimas de los delitos de esas carpetas de enero de 2019 a septiembre 2019
* [Carpetas de investigación PGJ de la Ciudad de México (archivo)](https://datos.cdmx.gob.mx/explore/dataset/carpetas-de-investigacion-pgj-cdmx/) registran los "delitos a nivel calle" de enero de 2016 a junio de 2019

Nuestros conjuntos de datos tienen una serie de limitaciones:
* Solo incluyen delitos reportados a la PGJ sobre los cuales se abrió carpeta de investigación
* Utilizán la vieja metodología de clasificación de delitos
* Están sujetos a errores de muestro y otros sesgos (ocultamiento de delitos, etc)
* Solo se pueden comparar los datos de seis meses de ambos conjuntos de datos

Para descargar los datos iremos a la sección de exportar y descargaremos el archivo en formato _.csv_.

<img src="extras/CP-VictimasDescarga.png"  width="400">

### ¿Qué es un dato?

Algunas definiciones:

* Variable: una medida o un atributo. Pueden ser fecha, lugar, altura, peso, sexo, etc.
* Valor: la medida o atributo real. 10 de mayo, México, 152 cm, 80 kg, hembra, etc.
* Observación: Todos los valores miden en la misma unidad. Cada persona.
* Dato: representación simbólica de un atributo o variable cuantitativa o cualitativa.

Existen varios tipos de datos:
* Númericos: valores contables discretos o continuos
* Binarios: verdadero o falso
* Categoricos: número limitado de categorias
* Texto
* Fecha
* Coordenadas

Los datos no siempre están completos, es decir, a veces desconocemos el valor de un dato. Esto se puede representar de varias formas. En el caso de pandas se usa _NaN_ para representar los datos faltantes o desconocidos.

Las tablas que proporciona el gobierno se consideran conjuntos de [datos ordenados](http://vita.had.co.nz/papers/tidy-data.pdf), esto quiere decir que:
* Cada variable forma una columna y contiene valores
* Cada observación forma una fila
* Cada tipo de unidad de observación forma una tabla

#### Ejercicio 1
Identifica cada una de las definiciones, tipos de datos y características anteriormente descritas en __Victimas__ en la sección de [tabla](https://datos.cdmx.gob.mx/explore/dataset/denuncias-victimas-pgj/table/).

### Estructura del proyecto

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas. De tal forma que la carpeta __CursoPandas__ contendrá las siguientes subcarpetas:
* __data-raw__ carpeta donde pondremos los archivos de datos originales como los _.csv_ descargados
* __data-clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando
* __extras__ carpeta con las imagenes y otros archivos de referencia que queramos guardar
* __profiles__ carpeta con las descripciones automáticas de las tablas de datos

#### Ejercicio 2
1. Crea una carpeta para el proyecto
2. Crea las carpetas mencionadas anteriormente
3. Descarga el conjunto de datos de víctimas y colocalo en la carpeta adecuada. 

### Cargar los datos en python

Ahora que los datos ya estan en la computadora podemos abrirlos usando python para empezar a trabajar con ellos.

Necesitamos un jupyter notebook en la carpeta de trabajo y que los archivos esten en la carpeta _data-raw_. A continuación cargaremos la biblioteca de pandas para trabajar con la tabla de datos y cargaremos los archivos.

En primer lugar nos ubicaremos en la carpeta donde esta nuestro código y archivos.

In [1]:
from os import chdir, getcwd
chdir(getcwd())

Despues vamos a abrir la tabla con los datos de las víctimas. 

Para lograr esto en primer lugar es necesario importar la biblioteca de pandas usando _import_. Como estaremos usando constantemente esta bibliteca la importaremos con la abreviatura _pd_. 

Despues usaremos el comando _pd.read_csv()_. De esta forma podemos abrir un .csv como si fuera un dataframe de pandas.

Para abrir un archivo de excel puedes usar el comando: _pd.read_excel(filename)_.


In [2]:
import pandas as pd

df_vic = pd.read_csv('data-raw/denuncias-victimas-pgj.csv')

Ahora podemos acceder en la tabla.

In [3]:
df_vic

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
0,8417090,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.040775,19.328346,"19.3283464986,-99.0407749002"
1,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,Masculino,,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
2,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,,,MORAL,VICTIMA,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
3,8417096,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 13:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.147046,19.434979,"19.4349789028,-99.1470464003"
4,8417097,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 18:30:00,2019.0,Abril,Femenino,36.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.081784,19.257187,"19.2571868053,-99.0817841843"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145865,8525726,LESIONES CULPOSAS POR CAIDA DE VEHÍCULO EN MOV...,DELITO DE BAJO IMPACTO,2019-09-20 03:30:00,2019.0,Septiembre,Masculino,42.0,FISICA,LESIONADO,FUERO COMUN,-99.027951,19.344391,"19.3443909603,-99.0279509938"
145866,8525732,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-09-20 04:30:00,2019.0,Septiembre,Masculino,45.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-98.965693,19.306199,"19.3061992087,-98.9656925188"
145867,8525737,PERDIDA DE LA VIDA POR SUICIDIO,HECHO NO DELICTIVO,2019-09-20 05:00:00,2019.0,Septiembre,Masculino,33.0,FISICA,CADAVER,HECHOS NO DELICTIVOS,-99.162281,19.410293,"19.4102934856,-99.1622807104"
145868,8525740,HOMICIDIO POR ARMA BLANCA,HOMICIDIO DOLOSO,2019-09-20 04:00:00,2019.0,Septiembre,Masculino,27.0,FISICA,CADAVER,FUERO COMUN,-99.042766,19.322345,"19.3223447722,-99.0427655635"


Esto nos muestra la tabla, pero ya que esta es muy grande solo nos muestra las primeras y últimas filas, representando las faltantes con _..._ .

<a id='exploracion'></a>

## 2.2 Exploración básica

### Estructura de una tabla 

Una tabla de pandas o dataframe consta de varios elementos:
* Nombres de columnas, las cuales pueden ser vistas como la primera fila en letras negritas. Para verlas usa _.columns_.
* Nombres de filas, las cuales pueden ser vistas como la primera columna, la cual carece de nombre. Para verlas usa _.index_.
* Valores, los datos dentro de la tabla. Para verlas usa _.values_.
* El número de filas y columnas total. Para verla usa _.shape_.
* Tipo de datos de cada columna. Para verla usa _.dtype_.

Con el fin de conocer el nombre de las columnas usaremos la opción _.columns_. Es importante notar que esta opción no tiene paréntesis no corchetes, ya que es un elemento del objeto.

In [4]:
df_vic.columns

Index(['idCarpeta', 'Delito', 'Categoria', 'FechaHecho', 'Año_hecho',
       'Mes_hecho', 'Sexo', 'Edad', 'TipoPersona', 'CalidadJuridica',
       'ClasificacionDelito', 'lon', 'lat', 'geopoint'],
      dtype='object')

Podemos observar que los datos contienen información sobre:
* idCarpeta: folio de la carpeta de investigación
* Tipo de delito ('Delito', 'Categoria', 'ClasificacionDelito')
* Fecha de ocurrencia del delito ('FechaHecho', 'Año_hecho', 'Mes_hecho')
* Características de la víctima ('Sexo', 'Edad', 'TipoPersona', 'CalidadJuridica')
* Lugar de ocurrencia del delito ('lon', 'lat', 'Geopoint')

### Ejercicio 3

Usa cada una de las opciones mencionadas en esta sección y describe que regresa.

### Slicing

Muchas veces no queremos trabajar sobre toda la tabla de datos, en su lugar queremos usar unicamente una fracción de ella. Para ello, existen varias formas de selecionar partes de una tabla.

Por ejemplo, la función _.head()_ devuelve las primeras filas de la tabla. Por defecto estos comandos muestran solo cinco filas, pero es posible cambiar el número de filas poniendo un número entre paréntesis.
Si queremos ver las últimas filas se puede usar el comando _.tail()_. 

In [5]:
df_vic.head()

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
0,8417090,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.040775,19.328346,"19.3283464986,-99.0407749002"
1,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,Masculino,,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
2,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,,,MORAL,VICTIMA,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
3,8417096,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 13:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.147046,19.434979,"19.4349789028,-99.1470464003"
4,8417097,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 18:30:00,2019.0,Abril,Femenino,36.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.081784,19.257187,"19.2571868053,-99.0817841843"


Para ver una columna específica se pone el nombre del dataframe seguido por corchetes con el nombre de la columna. Una sola columna es del tipo _series_. Por ejemplo, para ver la columna de la categoria de los delitos ponemos su nombre 'Categoria' entre corchetes. Esto es similar a la forma en la que se seleccionan elementos en listas o diccionarios.

In [6]:
df_vic['Categoria']

0                                    DELITO DE BAJO IMPACTO
1                                    DELITO DE BAJO IMPACTO
2                                    DELITO DE BAJO IMPACTO
3                                    DELITO DE BAJO IMPACTO
4                                    DELITO DE BAJO IMPACTO
                                ...                        
145865                               DELITO DE BAJO IMPACTO
145866    ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...
145867                                   HECHO NO DELICTIVO
145868                                     HOMICIDIO DOLOSO
145869                               DELITO DE BAJO IMPACTO
Name: Categoria, Length: 145870, dtype: object

Se pueden seleccionar varias columnas a la vez, poniendo sus nombres en una lista dentro de corchetes. Lo anterior significa que para seleccionar varias columnas hay que usar corchetes dobles.

In [7]:
df_vic[['Categoria','Sexo']]

Unnamed: 0,Categoria,Sexo
0,DELITO DE BAJO IMPACTO,
1,DELITO DE BAJO IMPACTO,Masculino
2,DELITO DE BAJO IMPACTO,
3,DELITO DE BAJO IMPACTO,
4,DELITO DE BAJO IMPACTO,Femenino
...,...,...
145865,DELITO DE BAJO IMPACTO,Masculino
145866,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,Masculino
145867,HECHO NO DELICTIVO,Masculino
145868,HOMICIDIO DOLOSO,Masculino


La primera columna que podemos observar en la tabla y carece de nombre, es el índice de las filas. Por default, pandas asigna números de identificación a cada una de las filas, empezando por el cero . Podemos seleccionar filas con el comando _loc_ más el número de posición de la fila, sin olvidar que la numeración empieza en 0. Por ejemplo, seleccionemos la novena fila.

In [8]:
df_vic.loc[9]

idCarpeta                                   8417121
Delito                           VIOLENCIA FAMILIAR
Categoria                    DELITO DE BAJO IMPACTO
FechaHecho                      2019-04-30 14:30:00
Año_hecho                                      2019
Mes_hecho                                     Abril
Sexo                                       Femenino
Edad                                             35
TipoPersona                                  FISICA
CalidadJuridica               VICTIMA Y DENUNCIANTE
ClasificacionDelito                     FUERO COMUN
lon                                        -98.9899
lat                                          19.342
geopoint               19.3419891943,-98.9898602543
Name: 9, dtype: object

De la misma manera, se pueden seleccionar varias filas usando una lista.

In [9]:
df_vic.loc[[9, 13, 62,201]]

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
9,8417121,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 14:30:00,2019.0,Abril,Femenino,35.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-98.98986,19.341989,"19.3419891943,-98.9898602543"
13,8417145,ROBO A TRANSEUNTE EN VIA PUBLICA SIN VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-04-24 20:20:00,2019.0,Abril,Masculino,26.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.070039,19.420158,"19.4201584349,-99.0700393867"
62,8417320,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-05-01 16:00:00,2019.0,Mayo,Femenino,37.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.004519,19.364808,"19.3648077867,-99.0045190479"
201,8417929,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-04-26 20:00:00,2019.0,Abril,Masculino,43.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.101377,19.403984,"19.4039843955,-99.1013772999"


Este comando también se puede usar para seleccionar un conjunto de filas y columnas específico. Para hacerlo se utiliza el formato: _df.loc[filas, columnas]_

In [10]:
df_vic.loc[[9, 13, 62,201], ['Categoria','Sexo']]

Unnamed: 0,Categoria,Sexo
9,DELITO DE BAJO IMPACTO,Femenino
13,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,Masculino
62,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,Femenino
201,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,Masculino


### Subsetting

Es posible seleccionar los datos de acuerdo a una (o más) condición. 

Por ejemplo para seleccionar todos los delitos que afectan a mujeres buscamos las filas donde el 'Sexo' es 'Femenino' con la condición:

In [11]:
df_vic['Sexo']=='Femenino'

0         False
1         False
2         False
3         False
4          True
          ...  
145865    False
145866    False
145867    False
145868    False
145869     True
Name: Sexo, Length: 145870, dtype: bool

Esta condicion nos dice para cada fila si el valos es 'Femenino', si ponemos esto dentro de _.loc[]_ podemos usarlo para encontrar las filas de víctimas de mujeres

In [12]:
df_vic.loc[ df_vic['Sexo']=='Femenino' ]

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
4,8417097,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 18:30:00,2019.0,Abril,Femenino,36.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.081784,19.257187,"19.2571868053,-99.0817841843"
5,8417098,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,2019-05-01 14:00:00,2019.0,Mayo,Femenino,,FISICA,VICTIMA,FUERO COMUN,-99.199058,19.395592,"19.3955919976,-99.1990578017"
6,8417104,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,2019-04-30 09:00:00,2019.0,Abril,Femenino,36.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.124425,19.408905,"19.4089045993,-99.1244252481"
8,8417118,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,2019.0,Mayo,Femenino,29.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.256926,19.316439,"19.3164389252,-99.2569261035"
9,8417121,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 14:30:00,2019.0,Abril,Femenino,35.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-98.989860,19.341989,"19.3419891943,-98.9898602543"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145848,8525632,ROBO DE DINERO,DELITO DE BAJO IMPACTO,2019-09-19 18:30:00,2019.0,Septiembre,Femenino,25.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-98.997716,19.178243,"19.1782432954,-98.9977164597"
145851,8525647,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-09-19 17:30:00,2019.0,Septiembre,Femenino,40.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.123057,19.324326,"19.3243262168,-99.1230568491"
145855,8525673,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-09-19 23:55:00,2019.0,Septiembre,Femenino,46.0,FISICA,LESIONADO,FUERO COMUN,-99.199452,19.449316,"19.4493162437,-99.19945177"
145856,8525677,TENTATIVA DE VIOLACION,DELITO DE BAJO IMPACTO,2019-09-19 22:20:00,2019.0,Septiembre,Femenino,37.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.287792,19.356380,"19.3563799373,-99.2877924663"


Para seleccionar los delitos que NO afectan a las mujeres buscamos aquellos donde el sexo es diferenente (_!=_) a 'Femenino'

In [13]:
df_vic[df_vic['Sexo']!='Femenino']

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
0,8417090,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.040775,19.328346,"19.3283464986,-99.0407749002"
1,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,Masculino,,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
2,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,,,MORAL,VICTIMA,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
3,8417096,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 13:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.147046,19.434979,"19.4349789028,-99.1470464003"
7,8417117,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 08:00:00,2019.0,Mayo,Masculino,20.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.150687,19.439538,"19.4395382992,-99.1506873006"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145864,8525723,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,2019-09-19 04:40:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.084433,19.476406,"19.4764059388,-99.0844327201"
145865,8525726,LESIONES CULPOSAS POR CAIDA DE VEHÍCULO EN MOV...,DELITO DE BAJO IMPACTO,2019-09-20 03:30:00,2019.0,Septiembre,Masculino,42.0,FISICA,LESIONADO,FUERO COMUN,-99.027951,19.344391,"19.3443909603,-99.0279509938"
145866,8525732,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-09-20 04:30:00,2019.0,Septiembre,Masculino,45.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-98.965693,19.306199,"19.3061992087,-98.9656925188"
145867,8525737,PERDIDA DE LA VIDA POR SUICIDIO,HECHO NO DELICTIVO,2019-09-20 05:00:00,2019.0,Septiembre,Masculino,33.0,FISICA,CADAVER,HECHOS NO DELICTIVOS,-99.162281,19.410293,"19.4102934856,-99.1622807104"


En varios casos podemos ver que no hay datos sobre el sexo de la victima, lo cual se representa con _NaN_. Para ver las filas con valor _NaN_ se usa la función _isna()_.

Lo anterior puede representar un problema, ya que significa que los datos son incompletos y generalmente es necesario procesarlos como veremos mas adelante.

In [14]:
df_vic[df_vic['Sexo'].isna()]

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
0,8417090,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.040775,19.328346,"19.3283464986,-99.0407749002"
2,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,,,MORAL,VICTIMA,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
3,8417096,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 13:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.147046,19.434979,"19.4349789028,-99.1470464003"
12,8417130,ROBO A NEGOCIO CON VIOLENCIA,ROBO A NEGOCIO CON VIOLENCIA,2019-05-01 17:25:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.165803,19.368343,"19.3683431972,-99.1658033655"
17,8417154,ENCUBRIMIENTO,DELITO DE BAJO IMPACTO,2019-05-01 17:15:00,2019.0,Mayo,,,,VICTIMA,FUERO COMUN,-99.087921,19.487274,"19.4872744343,-99.0879209091"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145841,8525594,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-09-19 20:58:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.074430,19.412640,"19.4126402833,-99.0744298656"
145850,8525640,AMENAZAS,DELITO DE BAJO IMPACTO,2019-09-09 17:42:00,2019.0,Septiembre,,,,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.216495,19.475626,"19.4756264985,-99.2164952002"
145852,8525649,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-09-19 21:55:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.220267,19.349177,"19.3491769353,-99.2202674231"
145863,8525718,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-07-29 08:00:00,2019.0,Julio,,,MORAL,VICTIMA,FUERO COMUN,-99.101146,19.324442,"19.3244423035,-99.1011455003"


Si los datos son numéricos es posible usar operaciones como mayor, menor o igual para seleccionar con esas condiciones. Por ejemplo para ver los delitos que suceden a gente menor de edad podriamos buscar todos las filas donde el valor de la edad es menor que 18.

In [15]:
df_vic[df_vic['Edad']<18]

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
11,8417126,DDH FDS,HECHO NO DELICTIVO,2019-05-01 12:00:00,2019.0,Mayo,Femenino,15.0,FISICA,VICTIMA,HECHOS NO DELICTIVOS,-99.211367,19.484704,"19.4847041037,-99.2113669023"
27,8417187,SUSTRACCION DE MENORES,DELITO DE BAJO IMPACTO,2019-04-30 21:30:00,2019.0,Abril,Femenino,14.0,FISICA,VICTIMA,FUERO COMUN,-99.079363,19.402716,"19.4027156981,-99.0793629997"
50,8417271,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-04-30 14:35:00,2019.0,Abril,Masculino,15.0,FISICA,VICTIMA,FUERO COMUN,-99.131967,19.453138,"19.4531379995,-99.1319668006"
56,8417297,ABUSO SEXUAL,DELITO DE BAJO IMPACTO,2019-05-01 19:00:00,2019.0,Mayo,Femenino,17.0,FISICA,VICTIMA,FUERO COMUN,,,
69,8417344,PERSONAS EXTRAVIADAS,DELITO DE BAJO IMPACTO,2019-05-02 01:30:00,2019.0,Mayo,Femenino,8.0,FISICA,VICTIMA,FUERO COMUN,-99.145034,19.433434,"19.4334339796,-99.1450342157"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145728,8525110,ABUSO SEXUAL,DELITO DE BAJO IMPACTO,2019-09-15 20:00:00,2019.0,Septiembre,Femenino,2.0,FISICA,VICTIMA,FUERO COMUN,-98.996693,19.366347,"19.3663470594,-98.9966931905"
145773,8525286,ABANDONO DE PERSONA,DELITO DE BAJO IMPACTO,2019-09-11 10:00:00,2019.0,Septiembre,Masculino,13.0,FISICA,VICTIMA,FUERO COMUN,-99.168427,19.362813,"19.362813398,-99.1684270997"
145826,8525535,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-09-19 14:00:00,2019.0,Septiembre,Masculino,14.0,FISICA,VICTIMA,FUERO COMUN,-99.030307,19.370535,"19.3705345135,-99.030306894"
145849,8525636,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-09-19 21:30:00,2019.0,Septiembre,Masculino,17.0,FISICA,VICTIMA,FUERO COMUN,-99.123039,19.545743,"19.5457434095,-99.1230389601"


A veces no queremos seleccionar las columnas que tienen un solo valor, sino varios. Por ejemplo, si queremos ver los delitos de alto impacto esto significa que la categoría es homicidio, violación o secuestro. Como son varios delitos los vamos a guardar en una lista llamada 'delitos_alto_impacto' y despues los buscamos con el comando _.isin()_

In [16]:
delitos_alto_impacto = ['HOMICIDIO DOLOSO','VIOLACIÓN','SECUESTRO']
df_vic[df_vic['Categoria'].isin(delitos_alto_impacto)]

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
64,8417328,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-05-01 23:35:00,2019.0,Mayo,Masculino,23.0,FISICA,CADAVER,FUERO COMUN,-99.052265,19.358608,"19.3586075668,-99.0522649899"
258,8418188,HOMICIDIO POR GOLPES,HOMICIDIO DOLOSO,2019-05-03 01:13:00,2019.0,Mayo,Masculino,37.0,FISICA,CADAVER,FUERO COMUN,-99.178608,19.230380,"19.2303795406,-99.1786079386"
266,8418212,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-05-03 01:30:00,2019.0,Mayo,Masculino,25.0,FISICA,CADAVER,FUERO COMUN,-99.195792,19.336013,"19.3360132874,-99.1957915946"
271,8418217,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-05-03 00:15:00,2019.0,Mayo,Femenino,30.0,FISICA,CADAVER,FUERO COMUN,-99.122745,19.445689,"19.4456893868,-99.1227445383"
273,8418222,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-05-03 01:12:00,2019.0,Mayo,Masculino,27.0,FISICA,VICTIMA,FUERO COMUN,-99.114785,19.481291,"19.4812906044,-99.1147850231"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145703,8524959,VIOLACION,VIOLACIÓN,2019-09-18 11:30:00,2019.0,Septiembre,Femenino,21.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.092462,19.493150,"19.4931497283,-99.0924621397"
145846,8525617,VIOLACION,VIOLACIÓN,2019-07-01 15:00:00,2019.0,Julio,Femenino,18.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.141292,19.431203,"19.4312032061,-99.1412919501"
145854,8525673,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-09-19 23:55:00,2019.0,Septiembre,Masculino,43.0,FISICA,CADAVER,FUERO COMUN,-99.199452,19.449316,"19.4493162437,-99.19945177"
145855,8525673,HOMICIDIO POR ARMA DE FUEGO,HOMICIDIO DOLOSO,2019-09-19 23:55:00,2019.0,Septiembre,Femenino,46.0,FISICA,LESIONADO,FUERO COMUN,-99.199452,19.449316,"19.4493162437,-99.19945177"


Se pueden usar varias condiciones al mismo tiempo.
Para combinar varias condiciones es necesario poner cada condición entre parentesis.
Las condiciones se unen usando los operadores booleanos:
* _&_ se cumplen ambas condiciones
* _|_ se cumple al menos una de las condiciones
* _~_ negación

Por ejemplo, para seleccionar las víctimas de delitos menores de 18 años ponemos cada uno de los selectores de edades antes visto entre paréntesis y los unimos con _&_


In [17]:
# df.loc[ (seleccionar_mujeres) & (seleccionar_menores_de_edad)] 
df_vic.loc[(df_vic['Sexo']=='Femenino') & (df_vic['Edad']<18)]

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
11,8417126,DDH FDS,HECHO NO DELICTIVO,2019-05-01 12:00:00,2019.0,Mayo,Femenino,15.0,FISICA,VICTIMA,HECHOS NO DELICTIVOS,-99.211367,19.484704,"19.4847041037,-99.2113669023"
27,8417187,SUSTRACCION DE MENORES,DELITO DE BAJO IMPACTO,2019-04-30 21:30:00,2019.0,Abril,Femenino,14.0,FISICA,VICTIMA,FUERO COMUN,-99.079363,19.402716,"19.4027156981,-99.0793629997"
56,8417297,ABUSO SEXUAL,DELITO DE BAJO IMPACTO,2019-05-01 19:00:00,2019.0,Mayo,Femenino,17.0,FISICA,VICTIMA,FUERO COMUN,,,
69,8417344,PERSONAS EXTRAVIADAS,DELITO DE BAJO IMPACTO,2019-05-02 01:30:00,2019.0,Mayo,Femenino,8.0,FISICA,VICTIMA,FUERO COMUN,-99.145034,19.433434,"19.4334339796,-99.1450342157"
75,8417370,TENTATIVA DE SUICIDIO,DELITO DE BAJO IMPACTO,2019-05-01 11:30:00,2019.0,Mayo,Femenino,13.0,FISICA,VICTIMA,FUERO COMUN,-99.186135,19.305189,"19.305188655,-99.1861347689"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145621,8524561,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-09-16 03:00:00,2019.0,Septiembre,Femenino,11.0,FISICA,VICTIMA,FUERO COMUN,-99.020078,19.355424,"19.3554241967,-99.0200781003"
145668,8524807,ABUSO SEXUAL,DELITO DE BAJO IMPACTO,2019-09-18 20:00:00,2019.0,Septiembre,Femenino,16.0,FISICA,VICTIMA,FUERO COMUN,,,
145683,8524859,ABUSO SEXUAL,DELITO DE BAJO IMPACTO,2019-09-18 20:00:00,2019.0,Septiembre,Femenino,4.0,FISICA,VICTIMA,FUERO COMUN,-99.161785,19.396341,"19.3963405601,-99.16178492"
145728,8525110,ABUSO SEXUAL,DELITO DE BAJO IMPACTO,2019-09-15 20:00:00,2019.0,Septiembre,Femenino,2.0,FISICA,VICTIMA,FUERO COMUN,-98.996693,19.366347,"19.3663470594,-98.9966931905"


#### Ejercicio 4

1. Escribe tres combinaciones de datos que te interesaria conocer y escribelas. Por ejemplo los delitos cometidos a personas morales durante enero.
2. Tratá de resolver estas combinaciones de datos usando pandas. En caso de no poder anota que datos u operaciones hacen falta.


### Descripcion automática

Para explorar rápidamente el conjunto de datos, entender los tipos de datos y la distribución de estos esto usaremos una herramienta llamada _pandas_profiling_, la cual hace una descripción automática de un dataframe. Guardaremos el resultado como un archivo en una carpeta llamada _profiles_. 

Este análisis puede ser muy tardado, ya que tenemos 145870. Por esto en este tutorial solo sacamos el profile de los últimos mil datos debido a limitaciones de tiempo, pero puedes ver el profile de todos los datos en la carpeta de profiles.

In [18]:
import pandas_profiling

df_vic_short = df_vic.tail(1000)

profile_short = df_vic_short.profile_report(title='Víctimas de carpetas de investigación')
profile_short.to_file(output_file="profiles/CP-victimas-short.html")

El archivo resultante se puede ver en [profiles/CP-carpetas-short.html](profiles/CP-carpetas-short.html)

#### Ejercicio 5
Usando los datos de victimas realiza el pandas_profiling y analiza los resultados.

<a id='operaciones'></a>

## 2.3 Operaciones básicas

### Documentación
Muchas de las funciones tienen opciones o paramétros que pueden cambiar. Además, es muy común no saber el nombre exacto de la función aunque si tengamos una idea general de como debé de llamarse. O simplemente olvidar cual era el nombre de la función. 

En ese caso la mejor idea es googlear "pandas"o "python" y el nombre de la función o descripción de que queremos hacer. Existen dos recursos particularmente útiles:

* La documentación oficial de la biblioteca, en este caso la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/).
* [StackOverflow](stackoverflow.com/), donde generalmente la mejor respuesta tiene la mayor cantidad de votos.

Si no puedes encontrar la respuesta recuerda [googlear antes de preguntar](https://xkcd.com/627/) y revisa [como hacer buenas preguntas en los foros ](https://stackoverflow.com/help/how-to-ask).


### Ordenar

Además de poder seleccionar los datos muchas veces es muy importante poder ordenarlos. Para eso usaremos _.sort_values()_

Para ordenar una sola columna:



In [19]:
df_vic['Sexo'].sort_values()

145869    Femenino
56669     Femenino
56677     Femenino
56678     Femenino
56681     Femenino
            ...   
145841         NaN
145850         NaN
145852         NaN
145863         NaN
145864         NaN
Name: Sexo, Length: 145870, dtype: object

Por default _.sort_values()_ ordena en orden alfábetico o de menor a mayor, en caso de datos númericos. Para cambiar esto podemos usar el parámetro _ascending_. Por default los datos con NaN siempre van al final de la tabla.

In [20]:
df_vic['Sexo'].sort_values(ascending=False)

87636     No se especifica
138136    No se especifica
53890     No se especifica
142508    No se especifica
8840      No se especifica
                ...       
145841                 NaN
145850                 NaN
145852                 NaN
145863                 NaN
145864                 NaN
Name: Sexo, Length: 145870, dtype: object

Para ordenar todo el dataframe por una columna es necesario decir explicitamente que columna se va a usar.

In [21]:
df_vic.sort_values('Sexo')

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
145869,8525746,LESIONES CULPOSAS,DELITO DE BAJO IMPACTO,2019-09-18 07:20:00,2019.0,Septiembre,Femenino,5.0,FISICA,LESIONADO,FUERO COMUN,,,
56669,8490285,LESIONES CULPOSAS,DELITO DE BAJO IMPACTO,2019-07-15 12:00:00,2019.0,Julio,Femenino,0.0,MORAL,VICTIMA,FUERO COMUN,-99.139180,19.521589,"19.5215894956,-99.1391795863"
56677,8490324,DESPOJO,DELITO DE BAJO IMPACTO,2019-04-04 13:00:00,2019.0,Abril,Femenino,53.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.158425,19.380243,"19.3802428153,-99.1584248188"
56678,8490325,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,2019-08-04 20:15:00,2019.0,Agosto,Femenino,37.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.223971,19.359223,"19.3592230349,-99.2239714537"
56681,8490340,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,2019-08-05 08:08:00,2019.0,Agosto,Femenino,39.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.138633,19.443787,"19.4437865132,-99.1386334602"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145841,8525594,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-09-19 20:58:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.074430,19.412640,"19.4126402833,-99.0744298656"
145850,8525640,AMENAZAS,DELITO DE BAJO IMPACTO,2019-09-09 17:42:00,2019.0,Septiembre,,,,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.216495,19.475626,"19.4756264985,-99.2164952002"
145852,8525649,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-09-19 21:55:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.220267,19.349177,"19.3491769353,-99.2202674231"
145863,8525718,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-07-29 08:00:00,2019.0,Julio,,,MORAL,VICTIMA,FUERO COMUN,-99.101146,19.324442,"19.3244423035,-99.1011455003"


Es posible ordenar por varias columnas especificando el nombre de las columnas en una lista y la forma de ordenarlas usando _ascending_.

In [22]:
df_vic.sort_values(['Sexo','Edad'],ascending=[True,False])

Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
187,8417865,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-04-19 17:00:00,2019.0,Abril,Femenino,100.0,FISICA,VICTIMA,FUERO COMUN,-99.204922,19.310210,"19.3102100003,-99.2049224278"
22498,8443368,ABANDONO DE PERSONA,DELITO DE BAJO IMPACTO,2019-05-26 18:00:00,2019.0,Mayo,Femenino,100.0,FISICA,VICTIMA,FUERO COMUN,-99.097183,19.422686,"19.4226861871,-99.0971828909"
128862,8346348,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2018-03-01 00:00:00,2018.0,Marzo,Femenino,100.0,FISICA,VICTIMA,FUERO COMUN,-99.120827,19.365765,"19.3657652068,-99.1208265871"
95766,8351846,ALLANAMIENTO DE MORADA,DELITO DE BAJO IMPACTO,2019-02-02 12:00:00,2019.0,Febrero,Femenino,99.0,FISICA,VICTIMA,FUERO COMUN,-99.155329,19.292867,"19.2928674019,-99.1553287713"
54536,8480158,DESPOJO,DELITO DE BAJO IMPACTO,2019-07-18 15:00:00,2019.0,Julio,Femenino,98.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.212787,19.446361,"19.4463612458,-99.2127871523"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145841,8525594,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-09-19 20:58:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.074430,19.412640,"19.4126402833,-99.0744298656"
145850,8525640,AMENAZAS,DELITO DE BAJO IMPACTO,2019-09-09 17:42:00,2019.0,Septiembre,,,,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.216495,19.475626,"19.4756264985,-99.2164952002"
145852,8525649,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-09-19 21:55:00,2019.0,Septiembre,,,MORAL,VICTIMA,FUERO COMUN,-99.220267,19.349177,"19.3491769353,-99.2202674231"
145863,8525718,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-07-29 08:00:00,2019.0,Julio,,,MORAL,VICTIMA,FUERO COMUN,-99.101146,19.324442,"19.3244423035,-99.1011455003"


#### Ejercicio 4

1. Escribe tres formas en las que te gustaría ordenar los datos.
2. Obten las tablas ordenadas, en caso de no poder hacerlo indica que datos te harían falta.

### Únicos y conteo

Se pueden hacer varias cosas con una columna. Por ejemplo, se pueden determinar los valores unicos de la columna. Esto nos permite identificar que las diferentes categorias de delitos.

In [23]:
df_vic['Categoria'].unique()

array(['DELITO DE BAJO IMPACTO', 'HECHO NO DELICTIVO',
       'ROBO A NEGOCIO CON VIOLENCIA',
       'ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA',
       'ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VIOLENCIA',
       'ROBO DE VEHÍCULO CON Y SIN VIOLENCIA',
       'LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO',
       'HOMICIDIO DOLOSO',
       'ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA',
       'ROBO A REPARTIDOR CON Y SIN VIOLENCIA',
       'ROBO A CASA HABITACIÓN CON VIOLENCIA',
       'ROBO A CUENTAHABIENTE SALIENDO DEL CAJERO CON VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN VIOLENCIA',
       'VIOLACIÓN', 'SECUESTRO',
       'ROBO A TRANSPORTISTA CON Y SIN VIOLENCIA'], dtype=object)

Si lo único que nos interesa saber es cuantos datos únicos hay, y no cuales son, se puede usar la función _.nunique()_.

También, se puede contabilizar cuántas veces aparece cada uno de estos valores. Esto permite saber cuantas veces aparece cada valor único. Por ejemplo, podemos usar esto para saber cual es el género que aparece mas como víctima..

In [24]:
df_vic['Sexo'].value_counts()

Masculino           68288
Femenino            53770
No se especifica        5
Name: Sexo, dtype: int64

Cabe destacar que en este caso no se cuentan aquellas filas donde no se conoce el dato. Para incluir los NaN es necesario cambiar los parámetros de la función, de tal forma que no se ignoren los NaN por defecto usando el parámetro _dropna_.

In [25]:
df_vic['Sexo'].value_counts(dropna=False)

Masculino           68288
Femenino            53770
NaN                 23807
No se especifica        5
Name: Sexo, dtype: int64

Para ver estos resultados como porcentaje se puede usar el parámetro _normalize_. 

Es importante usar este parámetro con cuidado de los NaN, ya que el porcentaje cambiara si estos se toman, o no, en cuenta.

In [26]:
df_vic['Sexo'].value_counts(dropna=False, normalize=True)

Masculino           0.468143
Femenino            0.368616
NaN                 0.163207
No se especifica    0.000034
Name: Sexo, dtype: float64

Para seleccionar las cinco categorias con mas víctimas podemos usar un proceso de selección muy similar al de las listas de python. Por ejemplo, para ver las cinco categorias de delito con mas victimas obtendremos el conteo de valores con _.value_counts()_ y después seleccionaremos los cinco primeros usando un slicing de lista.

In [27]:
df_vic['Categoria'].value_counts()[0:5]

DELITO DE BAJO IMPACTO                                  110969
ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA     10452
ROBO DE VEHÍCULO CON Y SIN VIOLENCIA                      8516
ROBO A NEGOCIO CON VIOLENCIA                              3352
HECHO NO DELICTIVO                                        2633
Name: Categoria, dtype: int64

#### Ejercicio 7

1. Plantea cuatro preguntas que incluyan selección de un subconjunto de datos y luego determinar cuales son los que tienen mayor o menor valor. Por ejemplo, cual es el delito que mas afecta a las mujeres o cuál es el mes en el que se cometieron mas homicidios.
2. Usando las operaciones aprendidas responde la pregunta. En caso de no ser posible escribe que dato u operación te haría falta para lograrlo.


<a id='estadistica'></a>

## 2.4 Estadística

### Definiciones 

Definiciones
* Población: conjunto de todos los elementos de interés (N).
* Parámetros: métricas que obtenemos al trabajar con una población.
* Muestra: subgrupo de la población (n).
* Estadísticos: métricas que obtenemos al trabajar con poblaciones.

Una muestra debe ser
* Representativa: un subgrupo de la poblaciòn que refleja exactamente a los miembros de toda la población.
* Tomada al azar: recolectada cuando cada miembro de la muestra es elegida de la población estrictamente por casualidad

Para saber si la muestra es representativa y calcular el tamaño de la muestra es importante:
* Nivel de confianza: garantizar que los resultados no ocurrieron solo por azar. Generalmente debé de ser de 95-99%
* Porcentaje de diferencia por detectar: entre más pequeña sea la diferencia que quieres detectar, más grande debe ser la muestra
* Valor absoluto de las probabilidades en las que desea detectar diferencias
* La distribución de los datos (principalmente del resultado)



### Operaciones numéricas

Para saber cuantos valores tenemos, que no sean NaN, podemos usar la función _.count()_. Esta función puede funcionar sobre todo el dataframe o solo sobre una columna.

In [28]:
df_vic.count()

idCarpeta              145870
Delito                 145870
Categoria              145870
FechaHecho             145743
Año_hecho              145743
Mes_hecho              145743
Sexo                   122063
Edad                   100547
TipoPersona            144444
CalidadJuridica        145870
ClasificacionDelito    145870
lon                    140143
lat                    140143
geopoint               140143
dtype: int64

En el caso de las columnas con datos númericos hay varias operaciones que podemos usar. 

El mínimo y máximo nos dicen respectivamente el valor mas pequeño y grande de un conjunto de datos. Se obtiene usado la funcion _.min()_ y _.max()_.

In [29]:
df_vic['Edad'].max()

258.0

En este caso podemos ver que la edad máxima es irrealmente alta. Una explicación es que esto se debá a un error de captura de los datos. Hablaremos mas sobre esto en la sección de limpieza.

La sumatoria es la suma todos los valores númericos de la columna. Como esta es una operación númerica solo se puede usar en columnas con valores numéricos. Se obtiene usado la funcion _.sum()_.

In [30]:
df_vic['Edad'].sum()

3889300.0

### Medidas de tendencia central

* __Media__: Tambien conocida como promedio, se obtiende sumando todos los elementos de una variable y dividiéndola por el número de ellos. Es afectada por valores extremos. Se obtiene usado la funcion _.mean()_.
* __Mediana__: Número de la posición central de las observaciones (en orden ascendente). No es afectada por valores extremos. Se obtiene usado la funcion _.median()_. 
* __Moda__: El dato más común, puede existir más de una moda. Se obtiene usado la funcion _.mode()_.

<img src="extras/CP-TendenciaCentral.png">


In [31]:
df_vic['Edad'].mean()

38.68141267268044

### Disperción y asimetría

La distribución de los valores no es siempre igual. En particular podemos ver que alrededor del promedio los datos pueden distribuirse de distintas maneras.

La varianza es una medida de dispersión de un grupo de datos alrededor de la media, es decir, que tan "ancha" es la distribución. 

Una forma más fácil de “visualizar” la varianza es por medio de la __desviación estandar__, en la mayoría de los casos esta es más significativa. Se obtiene usado la funcion .std(). 

In [32]:
df_vic['Edad'].std()

16.410693453594877

El __sesgo__ indica si los datos se concentran en un lado de la curva. Se obtiene usado la funcion .skew(). 
* Si sesgo=0 significa que los datos son simétricos, 
* Si sesgo>0 es que hay mas datos hacia la derecha
* Si sesgo<0 es que hay mas datos hacia la izquierda.

In [33]:
df_vic['Edad'].skew()

0.40180579900465746

#### Ejercicio 8
Calcula máximo, mínimo, las tres medidas de tendencia central, desviación estandar y sesgo y ubica cada una en la gráfica de 'Edad' que se encuentr en el [profile de victimas](./profiles/CP-victimas.html).