# Laboratorio 1: Acceso a datos mediante pandas

En esta práctica accederemos a la Wikipedia para recabar los datos de población de un conjunto de países y realizaremos algunas representaciones gráficas.

En la página web titulada "List of countries by past and future population" se muestra la evolución de un buen número de países y territorios del mundo entre 1950 y 2050, organizada en un conjunto de tablas. En esta práctica combinaremos los datos de todos los países-territorios y todos los años en una sola trama de datos de panda, y visualizaremos los cambios en la población de los distintos países-territorios.

### Utilizaremos en esta práctica las siguientes librerías: 
[pandas](http://pandas.pydata.org/) proporciona estructuras de datos fáciles de usar y funciones de acceso a datos desde múltiples fuentes y formatos.  
[matplotlib](matplotlib.org) permite generar múltiples tipos de gráficos.  
 

### Realizaremos esta práctica en los siguientes pasos:

* Reunir los datos en una trama de datos panda
* Visualizar los datos

A continuación indicamos algunas operaciones iniciales para incorporar al proyecto algunas librerías útiles

In [None]:
# comando IPython para preparar el cuaderno para matplotlib
%matplotlib inline 

import pandas as pd
import matplotlib.pyplot as plt


## Extraer las tablas a partir de un documento html de la Wikipedia
Utilizaremos el método read_html() de la librería pandas para leer las tablas que hay en el fichero html

In [None]:
# Ojo, en este documento html el separador de miles es una coma
url = "https://en.wikipedia.org/wiki/List_of_countries_by_past_and_future_population"


# Imprimimos el número de tablas que hemos leído con datos de países mediante la función len(). Deberían ser 3.


## Construimos una sola tabla con la información de población
Reunimos las tablas con los diferentes periodos en una sola tabla, mediante los métodos de pandas join(), merge(), o concat(), extraemos la cabecera y seleccionamos las columnas que corresponden solamente a fechas. Podemos utilizar el método head() para inspeccionar las primeras filas de la tabla y que la salida sea más manejable.

In [None]:
# Reunimos las tres tablas en una sola.


# Imprimimos las primeras filas a modo de comprobación, mediante head()


# Generamos una lista con la información almacenada en las columnas mediante list()


# Seleccionamos de la cabecera las columnas correspondientes a las fechas mediante isnumeric() 
# Puede ser útil el utilizar la noción de 'list comprehension' por sencillez


# Leemos la tabla por fechas y la almacenamos para su uso. Imprimimos para verificar que es correcto



## Algunas funciones de acceso a datos para una trama de pandas
Jugaremos con las posibilidades de pandas para manejar tablas mediante un conjunto sencillo de ejercicios.

### Ejercicio 1
Imprimir la tabla correspondiente a las poblaciones de Alemania, Andorra y Angola desde 2015 a 2025.

In [None]:
# Creamos una subtabla a partir de una indexación mediante el uso de la opción .loc


### Ejercicio 2
Imprimir la subtabla que va desde las filas 3 a 8 y desde las columnas 5 a 9.

In [None]:
# Creamos una subtabla a partir de una indexación mediante el uso de la opción .iloc


### Ejercicio 3
Imprimir la columna correspondiente al año 1955.

In [None]:
# Creamos una columna mediante selección por el título de la columna


### Ejercicio 4
Imprimir los datos de la fila número 15.

In [None]:
# Seleccionamos una fila mediante la opción .iloc


### Ejercicio 5
Imprimir la población de Barbados en 1995.

In [None]:
# Seleccionamos una celda mediante la opción .loc


### Ejercicio 6
Imprimir el valor máximo de las poblaciones de 1975 e identificar el país correspondiente.

In [None]:
# Utilizamos la función drop() para eliminar los valores totales mundiales


# Utilizamos la función max() para calcular el máximo


# Utilizamos idxmax() para identificar el país que corresponde al valor máximo


### Ejercicio 7
Imprimir los nombres de las filas.

In [None]:
# Utilizamos la opción .index


## Dibujar la población de 4 países en un año
Dibujar mediante un diagrama de barras la población de Argentina, Suecia, Polonia y Libia en 1995, ordenadas de menor a mayor, utilizando las librerías matplotlib.

In [None]:
# Mediante la función plt.bar() de las librerías matplotlib


In [None]:
# Generamos una lista con los nombres de los países del enunciado


# Utilizamos la opción .loc para seleccionar la subtabla que dibujaremos


# Utilizamos la función .sort_values() para ordenar la subtabla y .plot(kind='bar') para dibujar    


# Podemos utilizar plt.ylabel() para especificar 'población (miles)'

# Podemos utilizar plt.xlabel() para especificar 'País (o territorio dependiente)'


## Dibujar la evolución de la población de 4 países
Dibujar la evolución de la población en todo el periodo para los siguientes países: Alemania, España, Estados Unidos e Italia.

In [None]:
# Mediante la función plot de las librerías matplotlib

    


In [None]:
# Generamos una lista con los nombres de los países del enunciado


# Generamos la subtabla correspondiente con la opción .loc

    
# Utilizamos la función plot(kind='line') para dibujar


# Etiquetamos con plt.xlabel() y plt.ylabel()



## Dibujar la evolución de los 5 países más populosos hasta 2010 y 2050  
Dibujar dos gráficas: una con la evolución para todo el período de los países más populosos en 2010, y otra con los países más populosos en 2050. Utilizaremos una función plot_populosos() a la que daremos como argumento el año de interés.

In [None]:
# Mediante la función plot de las librerías matplotlib
def plot_populosos(taboa, ano):
    # Ordenamos la tabla según el año



plot_populosos(taboa, '2010')
plot_populosos(taboa, '2050')

In [None]:
# Definimos la funión plot_populosos()
def plot_populosos(taboa, ano):
    
    # Ordenamos la tabla según el año

    
    # Seleccionamos los cinco primeros países mediante .iloc, y extraemos sus nombres

    
    # Utilizamos los nombres para invocar la subtabla mediante .loc y dibujamos mediante plot(kind='line')


# Aquí invocamos la función plot_populosos()
# Para ello, debemos eliminar en primer lugar los valores mundiales

