<center>
    <h3>Programación - Grado en Ciencia de Datos</h3>
    <h3>Universitat Politècnica de València</h3>
    <h1>Práctica 1 - Parte I. Análisis de datos tabulados: delitos en la ciudad de Chicago</h1>
</center>

**Práctica realizada por:**

<a id='indice'></a>
## Índice
1. ### [Objetivos](#objetivos)
1. ### [Actividad 1: Cargar datos en un dataframe](#act1)
1. ### [Actividad 2: Datos faltantes](#act2)
1. ### [Actividad 3: Tipos de delito](#act3)
1. ### [Actividad 4: Crear columnas Day, Month y Hour](#act4)
1. ### [Actividad 5: Frecuencia de delitos en función del día, mes y hora](#act5)
1. ### [Actividad 6: Localización geográfica de los delitos](#act6)

<a id='objetivos'></a>
## Objetivos:
- Aprender a analizar y visualizar datos tabulados (estructurados en filas y columnas) mediante la realización de operaciones básicas (ordenación, selección, agrupamiento, agregación, ...)
- Aprender a usar los tipos de datos **DataFrame** y **Series** de la biblioteca pandas.
- Usar la librería **matplotlib.pyplot** para representar gráficamente los datos del estudio.

<a id='act1'></a>
## ACTIVIDAD 1: Cargar datos en un DataFrame

Almacena el fichero "Crimes_2014.csv" en un dataframe de pandas y muestra las 5 primeras filas. El fichero contiene como separador de campos la coma (separador por defecto de la función `read_csv`).

[Volver al índice](#indice)

In [None]:
import pandas as pd

# Almacenar datos en un dataframe
df = pd.read_csv('Crimes_2014.csv', delimiter=',')

# Mostrar las 5 primeras lineas
df.head(5)

<a id='act2'></a>
## ACTIVIDAD 2: Datos faltantes

Muestra las filas del dataset en las que falte algún valor. A continuación, borra dichas filas del dataframe.

> **Nota:** Puedes consultar el tutorial *Manejo de datos tabulados con pandas DataFrame* (fichero `pandas_dataframe.ipynb`) disponible en el apartado de *Tutoriales* de PoliformaT para ver cómo operar con datos faltantes.

[Volver al índice](#indice)

In [None]:
# Localizar y mostrar las filas (eje 'columns' horizontal) en las que algun valor (any) sea nulo (isnull)
df.loc[df.isnull().any(axis='columns')]

In [None]:
# Borra las filas que tengan al menos un valor faltante
df.dropna(axis='rows', how='any', inplace=True)

<a id='act3'></a>
## ACTIVIDAD 3: Tipos de delito

1. Muestra los distintos tipo de delito registrados. Para ello, selecciona la columna 'Primary Type' y ejecuta la función `unique()` sobre esta selección para mostrar únicamente un elemento de cada tipo.
1. Muestra un diagrama de barras horizontal con el número de delitos de cada tipo. Para ello:
    1. Usa `value_counts` para contar cuántos delitos hay de cada tipo. Esta función devuelve un objeto de tipo `Series`, en el que el atributo `index` son las etiquetas de la serie (tipos de delito) y el atributo `values` los valores.
    1. Ordena la serie anterior de manera ascendente.
    1. Crea y muestra una gráfica de barras horizontal con la función `plt.barh`, en la que el primer parámetro deberá ser los tipos de delito y el segundo las cantidades.
    1. Personaliza la figura:
        - Usa la instrucción `plt.figure(figsize=(10,10))` para adecuar el tamaño.
        - Usa la instrucción `plt.grid(axis='x')` para mostrar las líneas verticales de una rejilla.
        - Usa la instrucción `plt.title` para poner un título a la gráfica.
        
Consulta el tutorial `pandas_dataframe.ipynb` mencionado anteriormente para ver cómo realizar las distintas operaciones.
        
[Volver al índice](#indice)

In [None]:
# Selecciona la columna 'Primary Type' de las todas filas. Aplica la funcion unique sobre esta seleccion para obtener todos los valores que no se repitan
pd.unique(df.loc[:,'Primary Type'])

In [None]:
# Cuenta el numero de delitos de cada tipo
ds = pd.value_counts(df.loc[:,'Primary Type']).sort_values(ascending=True)

In [None]:
# Ordenar ascendentemente
ds = ds.sort_values(ascending=True)

In [None]:
import matplotlib.pyplot as plt
# Graficar ds con plt.barh. Primer parametro son los tipos de delito y el segundo las cantidades
# El orden de las instrucciones importa. La primera es el tamano siempre
plt.figure(figsize=(10,10))
plt.title("Crimenes 2014 Chicago")
plt.barh(ds.index, ds.values)
plt.grid(axis='x')

<a id='act4'></a>
## ACTIVIDAD 4: Crear columnas Day, Month y Hour

En el dataframe cargado, el campo 'Date' contiene la fecha del delito en formato "mm/dd/aaaa hh:mm:ss AM|PM". Si queremos analizar los datos en función del día, el mes, la hora, etc., conviene separar este campo y crear columnas específicas para el día, el mes, etc. Esto puede hacerse mediante las funciones `map` o `apply`. La segunda es más flexible y potente, pero muy lenta para dataframes con muchas filas, por lo que usaremos la primera.

1. Consulta el tutorial `pandas_dataframe.ipynb` mencionado anteriormente para entender el uso de la función `map`.
1. Implementa las funciones `get_dia` y `get_hora` de modo similar a como está implementada `get_mes`. La función `get_hora` debe, además, convertir la hora de formato 12h a formato 24h. Para ello, en primer lugar se deberá dejar la hora en el rango [0-11] mediante la operación `%12`y, a continuación, si el último campo de la fecha es 'PM', se deberá sumar 12 a este valor.

    > **Nota:** No se pide `get_año` porque el dataframe ya tiene un campo `Year`.

1. Utiliza la función `map` para crear en el dataframe las nuevas columnas 'Day', 'Month' y 'Hour'
1. Muestra las primeras filas del dataframe resultante y comprueba que se hayan creado correctamente las nuevas columnas.

[Volver al índice](#indice)

In [None]:
# Crear las tres funciones
import re

def get_mes(fecha):
    '''
    Recibe una fecha con formato "mm/dd/aaaa hh:mm:ss AM|PM"
    Devuelve el mes mm convertido a tipo int
    '''
    items =  re.split(':|/| ', fecha)  # Lista con cada uno de los campos que componen la fecha por separado  
    return int(items[0])

def get_dia(fecha):
    '''
    Recibe una fecha con formato "mm/dd/aaaa hh:mm:ss AM|PM"
    Devuelve el dia dd convertido a tipo int
    '''
    items = re.split(':|/| ', fecha)  # Lista con cada uno de los campos que componen la fecha por separado
    return int(items[1])

def get_hora(fecha):
    '''
    Recibe una fecha con formato "mm/dd/aaaa hh:mm:ss AM|PM"
    Devuelve la hora hh convertida al formato 24h en tipo int
    '''
    items = re.split(':|/| ', fecha)  # Lista con cada uno de los campos que componen la fecha por separado
    hora = int(items[3]) % 12
    if items[-1] == 'PM':
        hora += 12
    return hora

In [None]:
# Usar map para crear las nuevas columnas 'Day' 'Month' y 'Hour'
df['Day'] = df['Date'].map(get_dia)
df['Month'] = df['Date'].map(get_mes)
df['Hour'] = df['Date'].map(get_hora)

In [None]:
# Muestra las primeras filas del Data Frame resultante para comprobar que se hayan creado correctamente las nuevas columnas
df.head()

<a id='act5'></a>
## ACTIVIDAD 5: Frecuencia de delitos en función del día, mes y hora

Una vez creadas las columnas Day, Month, Year y Hour, podemos analizar los datos en función de estas variables. 

- Muestra gráficas de barras verticales del número de delitos en función de la hora, día y mes, con el objetivo de detectar si hay alguna relación entre estas variables y la actividad delictiva.
- Muestra también una gráfica de barras del número de delitos en función del mes, en este caso particularizado únicamente para los delitos relacionados con el juego (Primary Type = GAMBLING).
- Muestra las cuatro gráficas en una sola figura. Consulta el tutorial `pandas_dataframe.ipynb` para ver cómo crear múltiples gráficas en una sola figura.

[Volver al índice](#indice)

### Delitos en funcion de HORA

In [None]:
# Grafico de barras verticales del numero de delitos en funcion de HORA

# Cuenta el numero de delitos en cada hora que hay, despues de agruparlos por HORA. Ordenarlos por hora
ds1 = pd.value_counts(df.loc[:,'Hour']).sort_index(ascending=True)

# Graficar ds1 con plt.bar. Primer parametro son los tipos de delito y el segundo las cantidades
# El orden de las instrucciones importa. La primera es el tamano siempre
plt.figure(figsize=(6,6))
plt.title("Delitos en funcion de HORA")
plt.bar(ds1.index, ds1.values)
plt.grid(axis='y')

### Delitos en funcion de DIA

In [None]:
# Grafico de barras verticales del numero de delitos en funcion de DIA

# Cuenta el numero de delitos en cada dia que hay, despues de agruparlos por DIA. Ordenarlos por dia
ds2 = pd.value_counts(df.loc[:,'Day']).sort_index(ascending=True)

# Graficar ds2 con plt.barh. Primer parametro son los tipos de delito y el segundo las cantidades
# El orden de las instrucciones importa. La primera es el tamano siempre
plt.figure(figsize=(6,6))
plt.title("Delitos en funcion de DIA")
plt.bar(ds2.index, ds2.values)
plt.grid(axis='y')


### Delitos en funcion de MES

In [None]:
# Grafico de barras verticales del numero de delitos en funcion de MES

# Cuenta el numero de delitos en cada mes que hay, despues de agruparlos por mes. Ordenarlos por mes
ds3 = pd.value_counts(df.loc[:,'Month']).sort_index(ascending=True)

# Graficar ds3 con plt.barh. Primer parametro son los tipos de delito y el segundo las cantidades
# El orden de las instrucciones importa. La primera es el tamano siempre
plt.figure(figsize=(6,6))
plt.title("Delitos en funcion de MES")
plt.bar(ds3.index, ds3.values)
plt.grid(axis='y')


### Delitos de GAMBLING en funcion de MES

In [None]:
# Grafico de barras verticales del numero de delitos de GAMBLING en funcion de MES

# Genera una serie auxiliar con el mes de todas las filas donde el tipo de delito es gambling
ds4 = df.loc[df['Primary Type'] == 'GAMBLING', 'Month']

# Agrupar el numero de delitos en cada mes que hay y ordenarlos por mes 
ds4 = pd.value_counts(ds4).sort_index(ascending=True)

# Las dos anteriores se podrian agrupar en una sola linea

# Graficar
plt.figure(figsize=(6,6))
plt.title("Delitos de GAMBLING por MES")
plt.bar(ds4.index, ds4.values)
plt.grid(axis='y')

### Las 4 graficas juntas

In [None]:
plt.figure(figsize=(10, 10)) # Tamaño total de la figura

# Gráfica 1
plt.subplot(2, 2, 1) 
plt.title('Delitos en funcion de HORA')
plt.bar(ds1.index, ds1.values)

# Gráfica 2
plt.subplot(2, 2, 2) 
plt.title('Delitos en funcion de DIA')
plt.bar(ds2.index, ds2.values)

# Gráfica 3
plt.subplot(2, 2, 3) 
plt.title('Delitos en funcion de MES')
plt.bar(ds3.index, ds3.values)

# Gráfica 4
plt.subplot(2, 2, 4) 
plt.title('Delitos de GAMBLING por MES')
plt.bar(ds4.index, ds4.values)

<a id='act6'></a>
## ACTIVIDAD 6: Localización geográfica de los delitos

Con el fin de visualizar la distribución geográfica de los delitos, muestra un *scatter plot* con las variables 'Latitude' frente a 'Longitude'. 

1. Utiliza la función `plt.scatter(x,y)` para generar el gráfico, donde x debe ser la longitud e y la latitud.
1. Observa que el tamaño de los puntos es excesivamente grande en relación al tamaño de la gráfica. Para corregirlo, añade el parámetro `s=0.01` en la llamada a la función `scatter` para cambiar el tamaño de los puntos, y utiliza la función `plt.figure(figsize=(10, 10))` para cambiar el tamaño de la gráfica.
1. Con el fin de comprobar si ciertos delitos se localizan en puntos concretos de la ciudad, sobreimprime otro *scatter plot* con la geolocalización de los delitos de juego ('Primary Type = GAMBLING). Pon el tamaño del punto a 1 y el color magenta (`s=1, c='magenta'`).
1. Haz lo mismo para los delitos de prostitución ('Primary Type = PROSTITUTION). Pon el tamaño del punto a 1 y el color 'red'.

[Volver al índice](#indice)

In [None]:
# Graficar un ScatterPlot de todos los delitos
plt.figure(figsize=(10, 10))
plt.title("Localizacion geografica de los delitos")
plt.scatter(df['Longitude'], df['Latitude'], s=0.01)

# Graficar un ScatterPlot nuevo con solo los delitos de GAMBLING
df_aux = df.loc[df['Primary Type'] == 'GAMBLING', ['Longitude', 'Latitude']]
plt.scatter(df_aux['Longitude'], df_aux['Latitude'], s=2, c='magenta')

# Graficar un ScatterPlot nuevo con solo los delitos de PROSTITUTION
df_aux = df.loc[df['Primary Type'] == 'PROSTITUTION', ['Longitude', 'Latitude']]
plt.scatter(df_aux['Longitude'], df_aux['Latitude'], s=2, c='red')