# Análisis y visualización de datos abiertos con python

El objetivo de este tutorial es analizar dos conjuntos de datos abiertos de la Ciudad de México (Carpetas de investigación PGJ y Víctimas en carpetas de investigación PGJ) usando las herramientas del lenguaje de programación python. El participante aprenderá a usar las biblioteca pandas y otras bibliotecas, para cargar, estructurar, obtener estadísticas básicas y graficar los datos. Además, el participante aplicará metodologías y criterios de análisis y visualización de datos, que le permitan generar conclusiones sobre los conjuntos de datos analizados.


1. __Introducción a python__
    1. [Instalación de conda](#instalacion)
    2. [Jupyter notebooks](#notebooks)
        * Crear o abrir carpetas y notebook
        * Tipos de celdas
        * Correr celdas y el kernel
    3. [Introducción a python](#intropython)
        * Valores, variables y tipos
        * Operaciones y funciones
        * Comentarios y errores
2. [Obtención de datos](./CP-ObtencionLimpieza.ipynb)
3. [Limpieza de datos](./CP-ObtencionLimpieza.ipynb)
4. [Gráficación básica](./CP-AnalisisGraficas.ipynb)
5. [Análisis de datos](./CP-AnalisisGraficas.ipynb)
6. Extras


<a id='instalacion'></a>

# 1. Introducción

## 1.1 Instalación de conda

Ver las instrucciones en https://www.anaconda.com/distribution/

<a id='notebooks'></a>
## 1.2 Jupyter notebooks

### Crear o abrir carpetas y notebook
Un jupyter notebook es una aplicación que permite combinar texto código e imagenes de manera interactiva.

Antes de empezar un nuevo proyecto siempre es importante pensar en como ordenar los archivos. Un primer paso es generar una carpeta del curso o proyecto.
Jupyter incluye un manejador de archivos.

Se puede abrir un notebook dando doble click en el navegador de archivos de Jupyter.

Para crear un notebook nuevo se puede usar: File -> New -> Notebook. 
* ! Recuerda guardar el notebook en la carpeta correcta.

### Tipos de celdas
Un jupyter notebook consta de celdas, estas pueden ser:
* Markdown: texto en [formato markdown](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet)
* Code: el lenguaje de programación dependiendo del kernel, contiene:
    * código: es decir, las instrucciones que se le da a la computadora
    * output: la salida generada por el código, puede ser texto, tablas, imagenes, etc
    * warnings and errors: mensajes de aviso y de error generados por el código

### Correr celdas y el kernel
Se puede correr una celda usando el botón de Run o usando Ctrl+Enter.

Además un notebook incluye el Kernel en esquina superior derecha. Dice el lenguaje de programación y si esta corriendo el código.

### Ejercicio 1
* Crea una carpeta para este curso y abre el jupyter notebook
* Ejecuta la siguiente celda, determina las diferentes partes de la celda

In [1]:
print("Hello world!")

Hello world!


<a id='intropython'></a>
## 1.3 Introducción a python

### Valores, variables y tipos

Algunas definiciones:

* Valor: la medida o atributo real
* Variable: una medida o atributo que puede cambiar

In [2]:
5

5

In [3]:
a = 5
a

5

Python tiene varios tipos de valores:
* integer: número entero
* float: número decimal
* string: cadena de texto
* boolean: verdadero o falos
* None y nan: cuando no existe

para saber el tipo de un valor usamos la función _type()_

In [4]:
a, type(a)

(5, int)

In [5]:
a = 5.1
a, type(a)

(5.1, float)

In [6]:
a = "cinco"
a, type(a)

('cinco', str)

In [7]:
a = False
a, type(a)

(False, bool)

None y nan se utilizan para representar cuando el valor "no existe" o "no es un número"

In [8]:
a = None
a, type(a)

(None, NoneType)

In [9]:
from numpy import nan
a = nan
a, type(a)

(nan, float)

Sdemás existen tipos que son colecciones de otros valores:
* list: lista ordenada
* dic: diccionario con llaves

In [10]:
a = [1,2,3,4,5,6,7,8,9,0]
a, type(a)

([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], list)

Podemos acceder a las elementos de las listas por su posición. Las listas empiezan de cero. También podemos acceder a multiples elementos de la lista

In [11]:
a[0]

1

In [12]:
a[-1]

0

In [13]:
a[2:6]

[3, 4, 5, 6]

In [14]:
a[4:]

[5, 6, 7, 8, 9, 0]

Las listas pueden contener valores de distintos tipos, incluyendo otras listas

In [15]:
a = [1,2, 'tres', 4, ['cinco','five', '5','cinq', 5], 6, 'siete']
a, type(a)

([1, 2, 'tres', 4, ['cinco', 'five', '5', 'cinq', 5], 6, 'siete'], list)

Los diccionarios son pares de números, tienen una llave y un valor. Podemos acceder al valor usando la llave.

In [16]:
a = {'uno':1, 'dos':2, 'tres':3, 'cuatro':4, 'cinco':5}
a, type(a)

({'uno': 1, 'dos': 2, 'tres': 3, 'cuatro': 4, 'cinco': 5}, dict)

In [17]:
a['tres']

3

### Operaciones y funciones

Podemos realizar varias operaciones en python, estas dependen del tipo de variable.

Para los tipos numéricos podemos hacer operaciones matemáticas

In [18]:
a = 5
b = 17
a + b

22

Tambien podemos verificar si dos variables son iguales, diferentes, etc.

In [19]:
a == b

False

In [20]:
a != b

True

In [21]:
a > b

False

En el caso de las cadenas existen funciones como unir, capitalizar, remplazar o quitar acentos

In [22]:
a = 'foo'
b = 'bar'
a+b

'foobar'

In [23]:
' '.join([a,b])

'foo bar'

In [24]:
a.capitalize()

'Foo'

In [25]:
b.replace('ar','arggggg')

'barggggg'

In [26]:
from unidecode import unidecode
a = 'foó'
unidecode(a)

'foo'

Una función toma una serie de argumentos y realiza una serie de pasos y regresa un resultado (generalmente). 

Podemos distinguir las funciones por que usan parentesis.
* print('Hola mundo')
* ' '.join(['a','b','c','d'])

Los corchetes se usan para encontrar la posición dentro de una estructura de datos

### Comentarios y errores

Es importante documentar los pasos que seguimos dentro de un análisis, parte de esta documentación son los comentarios.

Los comentarios son pequeños textos dentro del código que explican lo que este hace. Los comentarios empiezan con #.

In [27]:
# Importa la funcion unidecode para quitar acentos
from unidecode import unidecode
a = 'foó' #declara variable
# Ejecuta la funcion
unidecode(a)

'foo'

Cuando python no encuentra un problema puede levantar un warning o error. Un warning es una advertencia, mientras que un error implica que algo fallo. Estos se muestran como celdas rojas.

Para leer un error es importante recordar:
* La flecha verde indica en que linea se cometio el error
* La última linea dice el resumen del error, esta linea es la que se googlea para buscar una solución

In [28]:
a = {'uno':1, 'dos':2, 'tres':3, 'cuatro':4, 'cinco':5}
a[3]

KeyError: 3

### Ejercicio dos
* Crea una nueva celda de código
* Crea una lista con cinco elementos y guardala en una variable _b_
* Encuentra el primer, tercer y ultimo elemento
* En una celda nueva escribe una expresión que generé un error y reconoce cada uno de los elementos