# Matplotlib

<center><h1 style="font_size:2em">Datos de libre acceso del Banco Mundial</center>

<img src="https://upload.wikimedia.org/wikipedia/commons/4/46/North_South_divide.svg" align="middle" style="width:550px;height:360px"/>

Indicadores de Desarrollo Económico: 
* https://datos.bancomundial.org/data-catalog/world-development-indicators

Este conjunto de datos del Banco Mundial contiene más de mil indicadores anuales del desarrollo económico de cientos de países de todo el mundo.

Conjunto de Datos:
* https://www.kaggle.com/worldbank/world-development-indicators

Descripción de los Datos:
* Indicadores: https://www.kaggle.com/benhamner/d/worldbank/world-development-indicators/indicators-in-data
* Países: https://www.kaggle.com/benhamner/d/worldbank/world-development-indicators/countries-in-the-wdi-data



# Descarga de Datos
Fuente de los Datos: https://www.kaggle.com/worldbank/world-development-indicators

Descargar el fichero **world-development-indicators.zip** y descomprimir en el directorio de trabajo.

Creará los datos en un subdirectorio denominado: **'./world-development-indicators'**

# Exploración Inicial de Datos

In [None]:
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('../datasets/world-development-indicators/Indicators.csv')
data.shape

In [None]:
data.head()

## ¿Cuantos países?

In [None]:
countries = data['CountryName'].unique().tolist()
len(countries)

## ¿Cuantos códigos de países?

In [None]:
countryCodes = data['CountryCode'].unique().tolist()
len(countryCodes)

## ¿Cuantos indicadores?

In [None]:
indicators = data['IndicatorName'].unique().tolist()
len(indicators)

## ¿Cuantos años?

In [None]:
years = data['Year'].unique().tolist()
len(years)

## ¿Cual es el rango de años?

In [None]:
print(min(years)," to ",max(years))

# Visualización Básica

## Consultamos los códigos de paises

In [None]:
countryCodes = data['CountryCode'].unique()
print(countryCodes)


## Consultamos los indicadores

In [None]:
mask = data['IndicatorName'].str.contains('CO2')
indicators = data[mask]
print(indicators['IndicatorName'].head())

## Seleccionamos un país y un indicador para explorar:

In [None]:
hist_indicator = 'CO2 emissions \(metric tons per capita\)'
hist_country = 'ESP'

mask1 = data['IndicatorName'].str.contains(hist_indicator) 
mask2 = data['CountryCode'].str.contains(hist_country)

stage = data[mask1 & mask2]

In [None]:
stage.head()

In [None]:
stage.shape

## ¿Cuál es la evolución de los valores de CO2 a lo largo del tiempo?

In [None]:
# Consultamos los años
years = stage['Year'].values
# Consultamos los valores de CO2
co2 = stage['Value'].values

# Creamos un Diagrama de Barras
plt.bar(years,co2)
plt.show()

In [None]:
# switch to a line plot
plt.plot(stage['Year'].values, stage['Value'].values)

# Label the axes
plt.xlabel('Year')
plt.ylabel(stage['IndicatorName'].iloc[0])

#label the figure
plt.title('Emisiones de CO2 en España')
# Podemos seleccionar el rango de datos que queremos representar 
plt.axis([1970, 2011,0,10])

plt.show()

## ¿Cuál es la distribución de los valores?

In [None]:
# If you want to just include those within one standard deviation fo the mean, you could do the following
# lower = stage['Value'].mean() - stage['Value'].std()
# upper = stage['Value'].mean() + stage['Value'].std()
# hist_data = [x for x in stage[:10000]['Value'] if x>lower and x<upper ]

# Otherwise, let's look at all the data
hist_data = stage['Value'].values

In [None]:
print(len(hist_data))

In [None]:
# the histogram of the data
plt.hist(hist_data, 10, normed=False, facecolor='green')

plt.xlabel(stage['IndicatorName'].iloc[0])
plt.ylabel('# of Years')
plt.title('Histogram Example')

plt.grid(True)

plt.show()

### España ha producido entre 5 y 6 toneladas de CO2 per capita durante muchos años

## ¿Cómo se compara España con otros países?

In [None]:
# select CO2 emissions for all countries in 2011
hist_indicator = 'CO2 emissions \(metric'
hist_year = 2011

mask1 = data['IndicatorName'].str.contains(hist_indicator) 
mask2 = data['Year'].isin([hist_year])

# apply our mask
co2_2011 = data[mask1 & mask2]
co2_2011.count()

In [None]:
co2_2011.head()

In [None]:
# Histograma con las emisiones per capita por país

# subplots returns a touple with the figure, axis attributes.
fig, ax = plt.subplots()

ax.annotate("ESP",
            xy=(6, 60), xycoords='data',
            xytext=(18, 90), textcoords='data',
            arrowprops=dict(arrowstyle="->",
                            connectionstyle="arc3"),
            )

plt.hist(co2_2011['Value'], 10, normed=False, facecolor='green')

plt.xlabel(stage['IndicatorName'].iloc[0])
plt.ylabel('# of Countries')
plt.title('Histogram of CO2 Emissions Per Capita')

#plt.axis([10, 22, 0, 14])
plt.grid(True)

plt.show()

### Relationship between GPD and CO2 Emissions in USA

## ¿Cuál es la evolución del PIB (GDP)?

In [None]:
# Seleccionamos Indicador y País
hist_indicator = 'GDP per capita \(constant 2005'
hist_country = 'ESP'

mask1 = data['IndicatorName'].str.contains(hist_indicator) 
mask2 = data['CountryCode'].str.contains(hist_country)

# Consultamos los Datos aplicando los filtros definidos
gdp_stage = data[mask1 & mask2]

#plot gdp_stage vs stage

In [None]:
# Consultamos los Datos
gdp_stage.tail()

In [None]:
stage.head()

In [None]:
# Creamos un Diagrama
plt.plot(gdp_stage['Year'].values, gdp_stage['Value'].values)

# Etiquetamos los ejes
plt.xlabel('Year')
plt.ylabel(gdp_stage['IndicatorName'].iloc[0])

# Definimos el título del Diagrama
plt.title('PIB per capita ESP')

# Definimos los ejes del diagrama
#plt.axis([1959, 2011,0,25])

plt.show()

## ¿Cuál es la relación entre PIB y Emisiones de CO?

In [None]:
# Consultamos el Rango de Años con Datos Disponibles
print("GDP Min Year = ", gdp_stage['Year'].min(), "max: ", gdp_stage['Year'].max())
print("CO2 Min Year = ", stage['Year'].min(), "max: ", stage['Year'].max())

In [None]:
# Tenemos que igualar el número de valores para crear un Diagrama de Dispersión
gdp_stage_trunc = gdp_stage[gdp_stage['Year'] < 2012]
print(len(gdp_stage_trunc))
print(len(stage))

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

fig, axis = plt.subplots()
# Grid lines, Xticks, Xlabel, Ylabel

axis.yaxis.grid(True)
axis.set_title('CO2 Emissions vs. GDP \(per capita\)',fontsize=10)
axis.set_xlabel(gdp_stage_trunc['IndicatorName'].iloc[0],fontsize=10)
axis.set_ylabel(stage['IndicatorName'].iloc[0],fontsize=10)

X = gdp_stage_trunc['Value']
Y = stage['Value']

axis.scatter(X, Y)
plt.show()

In [None]:
# Calculemos la Correlación entre PIB y Emisiones de CO2
np.corrcoef(gdp_stage_trunc['Value'],stage['Value'])

## Otros Ejemplos de Matplotlib

http://matplotlib.org/gallery.html
