# PROYECTO - SEGUNDO BIMESTRE - PROGRAMACION DE ALGORITMOS

#### PROGRAMA ELABORADO EN PYTHON PARA TABULACION Y VISUALIZACION DE DATOS UTILIZANDO LAS LIBRERIAS DE PANDAS Y BOKEH

# Nombre: David Burneo

#### SET DE DATOS
Los datos que se trabajaran son los datos basicos de jugadores pertenecientes a la primera división de futbol de España

Para proceder a la lectura de datos se procede a importar la libreria pandas

In [1]:
import pandas as pd

Los datos estan ingresados en un archivo .csv, por lo cual se utilizará el comando read_csv haciendo referencia a pandas

In [2]:
df = pd.read_csv('Jugadores_primera_division_Espania.csv', engine = 'python', header = 0, sep = ';', decimal = ".")

print(df)

                      Pais  Jugadores  Porcentaje  Arqueros  Defensa  \
0                   España       7931       73.49      1012     2424   
1                Argentina        554        5.13        40      140   
2                   Brasil        299        2.77         9       79   
3                  Francia        215        1.99        14       74   
4                  Uruguay        196        1.82        14       54   
5                 Portugal        126        1.17         8       41   
6                 Paraguay        122        1.13         6       28   
7                   Serbia         93        0.86         8       28   
8             Paises Bajos         68        0.63         5       17   
9                   Italia         66        0.61         7       22   
10                 Croacia         53        0.49         5       12   
11                Colombia         53        0.49         4       13   
12                Alemania         48        0.44         7     

El comando read_csv crea un DataFrame que contiene las filas y columnas proporcionadas por pandas. 

Al ejecutar el comando print(df) se genera una representación de los datos cargados

Esto muestra que se tienen 106 registros de futbolistas, con 13 columnas por registro.

Para visualizar los nombres de las columnas se puede utilizar el comando df.columns.tolist()

In [3]:
df.columns.tolist()

['Pais',
 'Jugadores',
 'Porcentaje',
 'Arqueros',
 'Defensa',
 'Medio_Campo',
 'Delanteros',
 'Goles',
 'Goles/Jugador',
 'Amarillas',
 'Amarillas/Jugador',
 'Rojas',
 'Rojas/Jugador ',
 'Longitud',
 'Latitud']

## Gráficas utilizando Bokeh

Para visualizar los datos tabulados por pandas de una manera gráfica integrando Pandas Data Frame con visualizaciones de Bokeh.

# Gráfica de Dispersión

A mas de la importacion de Pandas se procede a importar el objeto "figure", las funciones basicas de bokeh y la herramienta de HoverTool.

Se crea un archivo de salida en formato html

Seguidamente se procede al metodo read_csv para cargar los datos a un DataFrame

In [4]:
from bokeh.plotting import figure, output_file, show
from bokeh.models import ColumnDataSource
from bokeh.models.tools import HoverTool

output_file('grafico_dispersion.html')

df = pd.read_csv('Jugadores_primera_division_Espania.csv', engine='python', header=0, sep=';', decimal = '.')

Para evitar una grafica sumamente confusa debido a la superposicion de datos, se procede a seleccionar 60 datos aleatoriamente para la grafica mediante el metodo sample, seguidamente al constructor ColumnDataSource almacenando la variable source

In [5]:
sample = df.sample(60)
source = ColumnDataSource(sample)

Se crea un objeto llamado figura y se llama al metodo circle para trazar los datos, definiendo los argumentos que seran los valores de x e y

In [6]:
p = figure() 
p.circle(x = 'Jugadores', y = 'Goles', source = source, size = 10, color = 'green')

A continuacion se añade el titulo y se da nombre a los ejes

In [7]:
p.title.text = 'Numero de Jugadores'
p.xaxis.axis_label = 'Jugadores'
p.yaxis.axis_label = 'Goles por pais'

Se utiliza la herramienta de trazado HoverTool para visualizar datos específicos en cada punto de la gráfica 

In [8]:
hover = HoverTool()
hover.tooltips =[('Goles', '@Goles'), ('Pais', '@Pais'), ('Jugadores del pais', '@Jugadores'), ('Tarjetas amarillas', '@Amarillas'), ('Tarjetas rojas', '@Rojas')]

#metodo para añadir 
p.add_tools(hover)

Finalmente se agrega el comando para presentar la gráfica e interactuar con ella

In [9]:
show(p)

## Gráfico de barras

Se añaden unas importaciones adicionales como el ¨palettes¨ y el transform

In [10]:
from bokeh.palettes import Inferno256 # paletas de colores para las graficas
from bokeh.palettes import Blues3
from bokeh.transform import factor_cmap # método auxiliar para la asignacion de colores a las barras 

Mediante el método groupby se realizará la agrupación de datos para la gráfica

Luego de esto se emplea el metodo sum para que Pandas agrege las filas diferentes

In [11]:
output_file('grafico_barras.html')

grouped = df.groupby('Pais')['Arqueros', 'Defensa', 'Medio_Campo', 'Delanteros'].sum()

Se crea el ColumnDataSource a partir de los paises agrupados

Seguidamente se definen los paises en el eje x mediante el objeto source.data y el nombre de la columna.

Luego se pasa la lista de paises al constructor figure como x_range. Como es una lista de datos de texto, el eje x es categórico. En el mismo constructor se define el ancho y alto de la gráfica

In [12]:
source = ColumnDataSource(grouped)
paises = source.data['Pais'].tolist()
p = figure(x_range = paises, plot_width = 6000, plot_height = 1000)

Para dar color a las barras se emplea la función factor_cmap, la cual hace coincidir un color con cada categoria, empleando la paleta de colores Inferno 256, seguidamente se envia el mapa de color como argumento al vbar.

Seguidamente se dan nombre a los ejes y un titulo a la gráfica


In [13]:
color_map = factor_cmap(field_name = 'Pais', palette = Inferno256, factors = paises)

p.vbar(x = 'Pais', top = 'Arqueros', source = source, width = 0.50, color = color_map)

p.title.text = 'Jugadores en la primera division de España clasificados por Pais'
p.xaxis.axis_label = 'Pais'
p.yaxis.axis_label = 'Jugadores'

Se inserta el metodo HoverTool para visualizar datos especificos en cada barra

con el vline cada vez que el cursor pase por una barra imaginaria se mostrará una ventana emergente.

Posteriormente se presenta la gráfica

In [14]:
hover = HoverTool()
hover.tooltips = [('Arqueros', '@Arqueros'), ('Defensas', '@Defensa'), ('Medio Campo', '@Medio_Campo'), ('Delanteros', '@Delanteros')]

hover.mode = 'vline'

p.add_tools(hover)

show(p)

## Gráfico de barras apiladas

Se utilizan las mismas importaciones en el codigo anterior, haciendo enfasis en la paleta Blues3, la cual dispone de 3 colores para cada dato a graficar.

In [15]:
output_file('grafico_barras_apiladas.html')

Se define el eje x con los datos categóricos que se van a graficar, especificando que solo debe tomar en cuenta datos de Argentina y Francia con el .isin

El df es el encargado de verificar si "Pais" tiene un dato de Argentina o Francia. Si lo hace, el valor de la variable es True, caso contrario es False descartando la fila

In [16]:
filter = df['Pais'].isin(('Argentina','Francia'))
df = df[filter]

Se agrupan los datos a graficarse y se agregan las 3 columnas que contienen los hitos a graficar, seguidamente los mismos pasos del programa anterior para establecer el eje x

In [17]:
grouped = df.groupby('Pais')['Goles', 'Amarillas', 'Rojas'].sum()

In [18]:
source = ColumnDataSource(grouped)
paises = source.data['Pais'].tolist()
p = figure(x_range = paises)

Para crear la grafica se llama al metodo vbar_stack, el cual envia una lista de nombres en lugar de uno. EL legend proporciona el texto para cada apilador y el Blues3 el color de cada uno

In [19]:
p.vbar_stack(stackers = ['Goles', 'Amarillas', 'Rojas'], x = 'Pais', source = source,
	legend = ['Goles', 'Tarjetas amarillas', 'Tarjetas Rojas'], width = 0.5, color = Blues3)

[GlyphRenderer(id='1278', ...),
 GlyphRenderer(id='1292', ...),
 GlyphRenderer(id='1307', ...)]

Posteriormente se da nombre a los ejes y a la grafica 

In [20]:
p.title.text = 'Hitos por pais'
p.legend.location = 'top_left'

p.xaxis.axis_label = 'Pais'
p.yaxis.axis_label = 'Hitos'
p.xgrid.grid_line_color = None # para que no se vean las lineas verticales

show(p)


## Datos Espaciales

In [21]:
from bokeh.layouts import layout
from bokeh.tile_providers import CARTODBPOSITRON
from pyproj import Proj, transform
from bokeh.models import Range1d

output_file('mapping_targets.html')

Se define la funcion de conversion

In [22]:
def LongLat_to_EN(long, lat):
    try:
        easting, northing = transform(
            Proj(init = 'epsg:4326'), Proj(init = 'epsg:3857'), long, lat)
        return easting, northing
    except:
        return None, None
df = pd.read_csv('Jugadores_primera_division_Espania.csv', engine='python', header=0, sep=';', decimal = '.')

df['E'], df['N'] = zip(*df.apply(lambda x: LongLat_to_EN(x['Longitud'], x['Latitud']), axis=1))

In [23]:
grouped = df.groupby(['E', 'N'])['Jugadores', 'Porcentaje'].sum().reset_index()

filter = grouped['Porcentaje']!=0
grouped = grouped[filter]

source = ColumnDataSource(grouped)

In [24]:
left = -2150000
right = 18000000
bottom = -5300000
top = 11000000

p = figure(x_range=Range1d(left, right), y_range=Range1d(bottom, top))

In [25]:
p.add_tile(CARTODBPOSITRON)
p.circle(x = 'E', y = 'N', source = source, line_color = 'grey', fill_color = 'red')

p.axis.visible = False

hover = HoverTool()
hover.tooltips = [('Jugadores', '@Jugadores'), ('Porcentaje', '@Porcentaje')]

p.add_tools(hover)

show(p)

## Grafica de lineas

Se ha tomado los datos del Ecu911 a nivel nacional en cuanto a respuesta a incidencias

In [26]:
from bokeh.palettes import Plasma11
from bokeh.layouts import gridplot

output_file('lineas_de_dispersion.html')

dff = pd.read_csv('estadisticas911.csv', sep = ',', decimal = '.')
df = dff.fillna(value = 0) # los espacios en blanco los convierte en 0
print(df)

          CENTRO  ANIO         MES  INCIDENTE_POLICIAL INCIDENTE_TRANSITO  \
0    SAMBORONDÓN  2012     FEBRERO              17.684              2.602   
1    SAMBORONDÓN  2012       MARZO              21.836              2.945   
2    SAMBORONDÓN  2012       ABRIL              20.856              3.161   
3    SAMBORONDÓN  2012        MAYO              24.164              3.736   
4    SAMBORONDÓN  2012       JUNIO              23.639              3.819   
5    SAMBORONDÓN  2012       JULIO              25.994              4.800   
6    SAMBORONDÓN  2012      AGOSTO              23.662              3.128   
7    SAMBORONDÓN  2012  SEPTIEMBRE              21.233              3.399   
8    SAMBORONDÓN  2012     OCTUBRE              19.950              3.754   
9    SAMBORONDÓN  2012   NOVIEMBRE              20.685              3.410   
10   SAMBORONDÓN  2012   DICIEMBRE              25.570              4.604   
11   SAMBORONDÓN  2013       ENERO              37.598              3.234   

Se implementa el to_datetime para asegurar de que la columna ANIO sera leida como tiempo. Se envia datetime al constructor de figuras como dato del eje x como tiempo.

Seguidamente se envian al constructor los datos que seran graficados y especificando un color

In [27]:
df['ANIO'] = pd.to_datetime(df['ANIO'], format='%Y')

grouped = df.groupby('ANIO')['INCIDENTE_POLICIAL', 'INCIDENTE_TRANSITO', 'INCIDENTE_SALUD', 'INCIDENTE_SERVICIOS_MUNICIPALES', 'INCIDENTE_BOMBEROS', 'INCIDENTE_GESTIÓN_DE_RIESGO', 'INCIDENTE_MILITAR'].sum()

source = ColumnDataSource(grouped)

p = figure(x_axis_type = 'datetime',
	plot_height = 500,
	plot_width = 900)

p.line(x = 'ANIO', y = 'INCIDENTE_POLICIAL', line_width = 2, source = source, legend = 'Incidentes policiacos')
p.line(x = 'ANIO', y = 'INCIDENTE_SALUD', line_width = 2, source = source, color = Plasma11[1],  legend = 'Incidentes de salud')
p.line(x = 'ANIO', y = 'INCIDENTE_BOMBEROS', line_width = 2, source = source, color = Plasma11[5],  legend = 'Incidentes de bomberos')

p.yaxis.axis_label = 'Incidencia'

show(p)

La grafica nos demuestra los aumentos y disminuciones de incidencias en bomberos, policia y servicios de salud en el intervalo 2012, 2015