# Ejercicio de ampliación: Agrupando países por su nivel de felicidad

El informe de la felicidad mundial (http://worldhappiness.report/) es una encuesta que mide en nivel de felicidad por país. Este informe hace un ranking de 155 países a partir de su nivel de felicidad. Las puntuaciones están basadas en 6 factores: producción económica, apoyo social, experanza de vida, libertad, ausencia de corrupción y generosidad. El objetivo de este ejercicio consiste en utilizar distintos algoritmos de clustering para agrupar a los países por su nivel de felicidad.

A continuación se indican las librerías que es necesario cargar para esta parte de la práctica. Es posible que necesites instalar alguna de ellas. Para ello abre una terminal y ejecuta el siguiente comando:

```pip install pandas, numpy, matplotlib, scipy, sklearn, types, plotly```

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from sklearn import datasets
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn import cluster, mixture # For clustering
import types
import plotly
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
init_notebook_mode(connected=True)
%matplotlib inline

Cargamos el dataset que está almacenado en el fichero 2017.csv

In [2]:
df = pd.read_csv("2017.csv", header=0)

***
### Pregunta 
Según el ranking, ¿cuáles son los 10 países con mayor nivel de felicidad?, ¿en qué puesto aparece España?.

In [3]:
Con el codigo de abajo se ve que son:
    0       Norway            7.537   
    1      Denmark            7.522  
    2      Iceland            7.504   
    3  Switzerland            7.494
    4      Finland            7.469 
    5  Netherlands            7.377
    6       Canada            7.316
    7  New Zealand            7.314
    8       Sweden            7.284
    9    Australia            7.284

SyntaxError: invalid syntax (<ipython-input-3-23224fcbb347>, line 1)

In [4]:
print (df[0:10])


       Country  Happiness.Rank  Happiness.Score  Whisker.high  Whisker.low  \
0       Norway               1            7.537      7.594445     7.479556   
1      Denmark               2            7.522      7.581728     7.462272   
2      Iceland               3            7.504      7.622030     7.385970   
3  Switzerland               4            7.494      7.561772     7.426227   
4      Finland               5            7.469      7.527542     7.410458   
5  Netherlands               6            7.377      7.427426     7.326574   
6       Canada               7            7.316      7.384403     7.247597   
7  New Zealand               8            7.314      7.379510     7.248490   
8       Sweden               9            7.284      7.344095     7.223905   
9    Australia              10            7.284      7.356651     7.211349   

   Economy..GDP.per.Capita.    Family  Health..Life.Expectancy.   Freedom  \
0                  1.616463  1.533524                  0.796667 

In [5]:
print (df[11:50])

                     Country  Happiness.Rank  Happiness.Score  Whisker.high  \
11                Costa Rica              12            7.079      7.168112   
12                   Austria              13            7.006      7.070670   
13             United States              14            6.993      7.074657   
14                   Ireland              15            6.977      7.043352   
15                   Germany              16            6.951      7.005382   
16                   Belgium              17            6.891      6.955821   
17                Luxembourg              18            6.863      6.923686   
18            United Kingdom              19            6.714      6.783792   
19                     Chile              20            6.652      6.739251   
20      United Arab Emirates              21            6.648      6.722047   
21                    Brazil              22            6.635      6.725470   
22            Czech Republic              23        

Spain esta el 33

Vamos a mostrar el ranking de países usando un mapa coropléptico (https://en.wikipedia.org/wiki/Choropleth_map). Para ello definimos un diccionario con los datos y otro con el diseño. Por último generemos la figura y la mostramos. 


In [11]:
data = dict(type='choropleth',
            locations=df['Country'],
            locationmode='country names',
            z=df['Happiness.Rank'],
            text=df['Country'],
            colorbar={'title': 'Happiness'})
layout = dict(title='Felicidad Global',
              geo=dict(showframe=False,
                       projection={'type': 'Mercator'}))
choromap = go.Figure(data=[data], layout=layout)
iplot(choromap)

A continuación se muestra cómo se pueden agrupar los países utilizando el algoritmo de k-means.

Comenzamos almacenando en una variable paises la lista de países del ranking, y además eliminamos las dos primeras columnas de los datos ya que no aportan información relevante para el proceso de clustering.

In [14]:
paises=df[df.columns[0]]
data= df.iloc[:,2:]
print (paises)

0                        Norway
1                       Denmark
2                       Iceland
3                   Switzerland
4                       Finland
5                   Netherlands
6                        Canada
7                   New Zealand
8                        Sweden
9                     Australia
10                       Israel
11                   Costa Rica
12                      Austria
13                United States
14                      Ireland
15                      Germany
16                      Belgium
17                   Luxembourg
18               United Kingdom
19                        Chile
20         United Arab Emirates
21                       Brazil
22               Czech Republic
23                    Argentina
24                       Mexico
25                    Singapore
26                        Malta
27                      Uruguay
28                    Guatemala
29                       Panama
                 ...           
125     

Iniciamos el algoritmo de k-means con 2 clusters, y llevamos a cabo el agrupamiento. 

In [15]:
km= cluster.KMeans(2)
km_result = km.fit_predict(data)

Creamos un dataframe con los resultados y los almacenamos, concatenamos los datos obtenidos con los países, y mostramos los resultados

In [16]:
data['Kmeans'] = pd.DataFrame(km_result)
dataset=pd.concat([data,paises],axis=1)
dataPlot = dict(type='choropleth',
                locations=dataset['Country'],
                locationmode='country names',
                z=dataset['Kmeans'],
                text=dataset['Country'],
                colorbar={'title': 'Cluster Group'})
layout = dict(title='Kmeans Clustering',
              geo=dict(showframe=False,
                       projection={'type': 'Mercator'}))
choromap_kmeans = go.Figure(data=[dataPlot], layout=layout)
iplot(choromap_kmeans)

## Ejercicio
Utilizando el método del codo o de las siluetas, determina el número óptimo de clusters para este dataset utilizando el método de k-means. Agrupa los países utilizando dicho valor y muestra el resultado en el mapa. 

In [34]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
happiness = df_noclass.values
%matplotlib inline  

def drawElbow(maxClusters,data):
    kmeans = [KMeans(n_clusters=k).fit(data) for k in range(1,maxClusters)]
    costFunction = [estimator.inertia_ for estimator in kmeans]
    plt.plot(costFunction)
    plt.title("Cost function")
    plt.show()

In [36]:
print(happiness)

[['Norway' 1 7.537000179290769 ... 0.635422587394714 0.36201223731041
  0.31596383452415505]
 ['Denmark' 2 7.52199983596802 ... 0.626006722450256 0.3552804887294771
  0.40077006816863997]
 ['Iceland' 3 7.50400018692017 ... 0.6271626353263849 0.47554022073745705
  0.15352655947208402]
 ...
 ['Tanzania' 153 3.34899997711182 ... 0.390017777681351 0.354256361722946
  0.0660351067781448]
 ['Burundi' 154 2.90499997138977 ... 0.0599007532000542
  0.20443518459796897 0.0841479450464249]
 ['Central African Republic' 155 2.69300007820129 ... 0.270842045545578
  0.280876487493515 0.0565650761127472]]


## Ejercicio 
Utilizando los distintos métodos de clustering disponibles en sklearn y que hemos visto en la práctica muestra los resultados en un mapa.

## Entrega
Guarda este fichero para entregarlo junto con el resto de ficheros de la práctica