# Análisis y visualización de datos abiertos con python

Analizar dos conjuntos de datos abiertos de la Ciudad de México (Carpetas de investigación PGJ y Víctimas en carpetas de investigación PGJ) usando las herramientas del lenguaje de programación python. El participante aprenderá a usar las bibliotecas pandas, seaborn y otras bibliotecas para cargar, estructurar, obtener estadísticas básicas y graficar los datos. Además, el participante aplicará metodologías y criterios de análisis y visualización de datos, que le permitan generar conclusiones sobre los conjuntos de datos analizados.

1. Obtención de datos
    1. Instalación de conda
    2. Descargar datos abiertos
    3. ¿Qué es un dato?
    4. Cargar los datos en python
2. Limpieza de datos
    1. Pasos de un análisis de datos
    2. pandas_profiling
    3. Operaciones básicas de pandas
    4. Limpieza de datos
3. Análisis de datos
    1. Medidas estadísticas
    2. Tablas pivote
    3. Agrupar y agregar
    4. Unir tablas
4. Gráficación
    1. Introducción a la teoría de la visualización
    2. Graficación con pandas
    3. Graficación con seaborn


## 1. Obtención de datos

### 1.1 Instalación de conda
Ver las instrucciones en https://www.anaconda.com/distribution/

#### Ejercicio
Crea una carpeta para este curso y abre jupyter notebook en conda

### 1.2 Descargar datos abiertos
En este tutorial usaremos dos conjuntos de datos sobre carpetas de investigación y víctimas de la PGJ de la CdMx. Estos datos se encuentran en la página [Datos abiertos del gobierno de la Ciudad de México](https://datos.cdmx.gob.mx/pages/home/), la cual contiene conjuntos de datos de múltiples temas como justicia, transporte y rendición de cuentas.

Si accedemos al conjunto de datos podemos ver que tiene varias secciones:
* Información: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando
* Tabla: esta sección contiene una vista de los datos en forma tabular, cada fila es una medición
* Análizar: una serie de herramientas para realizar gráficas y explorar los datos
* Mapa: cuando el conjunto de datos incluye información sobre localización (coordenadas) esto permite hacer mapas para ver el comportamiento de los datos en el espacio
* Exportar: formatos para descargar los datos, en este caso usaremos el formato csv
* API: una forma programática de acceder a los datos

<img src="images/CP-CarpetasTabla.png">

En este caso vamos a usar dos conjuntos de datos, el de [Carpetas de investigación PGJ de la Ciudad de México (archivo)](https://datos.cdmx.gob.mx/explore/dataset/carpetas-de-investigacion-pgj-cdmx/) y el de [Víctimas en carpetas de investigación PGJ (archivo) ](https://datos.cdmx.gob.mx/explore/dataset/denuncias-victimas-pgj/). 
Las __Carpetas de investigación__ registran los "delitos a nivel calle" de enero de 2016 a junio de 2019, por otro lado, las __Victimas__ registran información de las víctimas de los delitos de esas carpetas de enero de 2019 a septiembre 2019. Esto implica que nuestros conjuntos de datos tienen una serie de limitaciones:
* Solo incluyen delitos reportados a la PGJ sobre los cuales se abrió carpeta de investigación
* Utilizán la vieja metodología de clasificación de delitos
* Están sujetos a errores de muestro y otros sesgos (ocultamiento de delitos, etc)
* Solo se pueden comparar los datos de seis meses de ambos conjuntos de datos

Para descargar los datos iremos a la sección de exportar y descargaremos el archivo en formato _.csv_.

<img src="images/CP-CarpetasDescarga.png">

Para organizar la información y nuestro espació de trabajo haremos una carpeta dobre el curso (en mi computadora esta se llama ´CursoPandas´). Dentro de esta carpeta organizaremos todos nuestros archivos. Esta carpeta contiene:
* __Código__ en este caso jupter notebooks que son los archivos en formato .ipynb
* __data-raw__ carpeta donde pondremos los archivos de datos originales como los _.csv_ descargados
* __data-clean__ carpeta donde pondremos los archivos de datos que vayamos limpiando y generando
* __images__ carpeta con las imagenes que queramos guardar

#### Ejercicio
Descarga el conjunto de datos de víctimas y colocalo en la carpeta adecuada

### ¿Qué es un dato?

Algunas definiciones:

* Variable: una medida o un atributo. Pueden ser fecha, lugar, altura, peso, sexo, etc.
* Valor: la medida o atributo real. 10 de mayo, México, 152 cm, 80 kg, hembra, etc.
* Observación: Todos los valores miden en la misma unidad. Cada persona.
* Dato: representación simbólica de un atributo o variable cuantitativa o cualitativa.

Las tablas que proporciona el gobierno se consideran conjuntos de [datos ordenados](http://vita.had.co.nz/papers/tidy-data.pdf), esto quiere decir que:
* Cada variable forma una columna y contiene valores
* Cada observación forma una fila
* Cada tipo de unidad de observación forma una tabla

#### Ejercicio
Identifica cada una de las definiciones y de las características anteriormente descritas en __Victimas__ en la sección de [tabla](https://datos.cdmx.gob.mx/explore/dataset/denuncias-victimas-pgj/table/).

### Cargar los datos en python

Ahora que los datos ya estan en la computadora podemos abrirlos usando python para empezar a trabajar con ellos.

Necesitamos un jupyter notebook en la carpeta de trabajo y que los archivos esten en la carpeta "data-raw". A continuación cargaremos la biblioteca de pandas para trabajar con la tabla de datos y cargaremos los archivos.


In [None]:
import pandas as pd

df_carpetas = pd.read_csv('data-raw/')
