## Procesamiento de distintos Datasets de religiones en el mundo
El objetivo de este procesamiento de datos es limpiar, integrar y transformar los datos de distintos set de datos para posteriormente poder realizar un analisís mediante visualizaciones realizadas con SVG.


Para esto utilizaré la libreria Pandas de Python para el procesamiento de los datos que se encuentran en formato CSV y JSON


In [39]:
import pandas as pd
import json
from heapq import nlargest
from pandas.io.json import json_normalize

from IPython.display import display

Vamos a crear los distintos dataframes para poder generar los archivos a utilizar en el punto2. 


Creamos los dataframes con los distintos datasets:

In [40]:
wrp_global = pd.read_csv('data/WRP_global.csv')
wrp_nation = pd.read_csv('data/WRP_national.csv')
wrp_region = pd.read_csv('data/WRP_regional.csv')
wrp_COW = pd.read_csv('data/COW_country_codes.csv')

with open('data/dataset_countries.json') as json_data:
    countries = json.load(json_data)
    json_data.close()



## Heatmap
La preparación de los datos para esta visualización consiste en varios pasos que detallaré a continuacion:
1. Determinar las religiones mas numerosas en funcion de el dataset WRP_global, de donde determinare que religiones van a estar en el heatmap.
2. Cruzar datos entre los paises que están en **WRP_national** y la lista de paises según continentes que se encuentra en **dataset_json**. De manera de determinar a que continente pertenecen los paises que estan en **WRP_national**. De esto va a salir un nuevo dataframe de **Pandas** que va a contener a los paises según continente.
Ya que la información que se tiene en **WRP_regional** no incluye a America y Oceania especificamente como tal.  
3. Del dataframe anterior contamos la cantidad total de personas por continente. 
4. Procedemos a calcular la cantidad de practicantes por religion por continente según la lista de religiones obtenida en (2)


**Importante**: Esta selección la haré en función de los últimos datos obtenidos en 2010.

Empezamos la preparación de datos siguiendo el esquema anterior.


Religiones más numerosas:

In [41]:
# Seleccionamos la fila correspondiente al año 2010 y solo columnas con el numero de practicantes por religion
allReligions= wrp_global[wrp_global['year'] == 2010].as_matrix()[0][0:36]

row = wrp_global[wrp_global['year'] == 2010].as_matrix()[0]

majorReligs = [row[6], row[11], row[19], row[23], row[24], row[25], row[26], row[27], row[28],
               row[29], row[30], row[31], row[32], row[33], row[34], row[35]]

majorReligs = list(map(lambda x: float(x.replace(',', '')), majorReligs))

majorReligsName = ['chrstgen', 'judgen', 'islmgen', 'budgen', 'zorogen', 'hindgen', 'sikhgen', 'shntgen', 'bahgen',
                 'taogen', 'jaingen', 'confgen', 'syncgen', 'anmgen', 'nonrelig', 'othrgen']

# cambiamos las comas por espacios vacios para castear a float y obtener maximos
# global_religions = list(map(lambda x: float(x.replace(',','')) if type(x) == str else float(x), global_religions))

largestReligions = []
majorReligsCopy = majorReligs[:]

for i in range(10):
    index = majorReligsCopy.index(max(majorReligsCopy))
    largestReligions.append(majorReligsName[index])    
    majorReligsCopy[index] = 0
    
# nombre de las 10 religiones mas numerosas en orden descendiente de izquierda a derecha
print("Religiones con más practicantes a nivel mundial:\n{}".format(largestReligions))

Religiones con más practicantes a nivel mundial:
['chrstgen', 'islmgen', 'hindgen', 'nonrelig', 'syncgen', 'budgen', 'anmgen', 'shntgen', 'othrgen', 'sikhgen']


Ahora necesitamos cruzar datos entre los dataset WRP_national y dataset_json, de manera de tener la correlacion pais-continente.

Partimos relacionando pais-continente:

In [42]:
# CONTINENTES Y SUS RESPECTIVOS PAISES
def initialize_continentes():
    continentes = {'europe': list(map(lambda x: x['name']['common'], countries['Europe'])),
                   'america': list(map(lambda x: x['name']['common'], countries['Americas'])),
                   'asia': list(map(lambda x: x['name']['common'], countries['Asia'])),
                   'oceania': list(map(lambda x: x['name']['common'], countries['Oceania'])),
                   'africa': list(map(lambda x: x['name']['common'], countries['Africa']))}

    # transformamos la lista de paises en diccionarios para poder agregar caracteristicas
    for continente in continentes:
        aux = {}
        for pais in continentes[continente]:
            aux[pais] = {}
        continentes[continente] = aux

    count = 0
    for continente in continentes:
        for pais in continentes[continente]:
            count += 1

    # Ocupamos el dataset auxiliar COW_country_codes y asociamos el codigo con el nombre del pais
    code_abr = wrp_nation[wrp_nation['year'] == 2010].ix[:,1:3]

    # tenemos 194 paises con datos del año 2010 y 148 paises en el dataset_countries.json
    # revisamos si 46 paises paises de diferencia son realmente significativos en el porcentaje total de problación

    # Utilizamos el dataset de codigos de paises
    code_name = code_abr.join(wrp_COW.set_index(['CCode']), on='state')

    
    # Consideramos los datos del año 2010 de los paises 
    wrp_countries_2010 = wrp_nation[wrp_nation['year'] == 2010]

    # agregamos a nuestro diccionario de continentes el codigo de pais correspondiente, según el dataset auxiliar
    for index, row in code_name.iterrows():
        for continente, paises in continentes.items():
            for name, value in paises.items():
                if name in row['StateNme']:
                    continentes[continente][name]['state_code'] = row['state']

    # cruzamos los datos de poblacion de WRP_national con los paises que tenemos en countries.json
    # agregamos informacion relacionada a la poblacion total de cada pais
    for index, row in wrp_countries_2010.iterrows():
         for continente, paises in continentes.items():
                for name, value in paises.items():
                    if value != {}:
                        if value['state_code'] == row['state']:
                            continentes[continente][name]['pop'] = row['pop']
    return continentes
# Según los 194 países en WRP_nation, al año 2010 existe una poblacion total de:
wrp_total_pop = wrp_nation[wrp_nation['year'] == 2010]['pop'].sum()


# Consideramos los datos del año 2010 de los paises 
wrp_countries_2010 = wrp_nation[wrp_nation['year'] == 2010]
    
continentes = initialize_continentes()

# buscamos paises de los que no tenemos informacion en WRP_national pero se encuentran en countries.json
def filtrar_paises(continentes):
    no_info = []
    no_info_countries = []
    for continente, paises in continentes.items():
        for name, values in paises.items():
            if values == {}:
                no_info.append((continente, name))
                no_info_countries.append(name)
    print("Paises de los que no tenemos informacion en WRP_nation.csv pero que estan en data_countries.json:\n", no_info)
    # eliminamos estos paises
    for x in no_info:
        del continentes[x[0]][x[1]] 
        
    return continentes

continentes = filtrar_paises(continentes)

# sumamos la cantidad de poblacion total que se tiene en este conjunto reducido de paises
seleccion_total_pop = 0
for continente, paises in continentes.items():
    for name, value in paises.items():
        seleccion_total_pop += value['pop']

# Si comparamos la poblacion total de los paises que seleccionamos en base a la lista data_countries.json y 
# la poblacion total obtenida de WRP_national

print("Poblacion total según WRP_national: {}\n"
      "Poblacion total de mi selección de paises:{}\n"
      "Población total que dejamos fuera: {} ,que equivale a un: {}% de la población según WRP_national\n".format(wrp_total_pop,seleccion_total_pop,
                                                                              wrp_total_pop - seleccion_total_pop,
                                                                              round(100 - (seleccion_total_pop * 100 / wrp_total_pop), 2)))

Paises de los que no tenemos informacion en WRP_nation.csv pero que estan en data_countries.json:
 [('america', 'Saint Lucia'), ('europe', 'Serbia'), ('asia', 'Palestine'), ('asia', 'Timor-Leste')]
Poblacion total según WRP_national: 6830615581
Poblacion total de mi selección de paises:6406584710
Población total que dejamos fuera: 424030871 ,que equivale a un: 6.21% de la población según WRP_national



Tomaré la decisión de dejar fuera este 6% de la población, debido a que de esta manera puedo representar mejor el numero de practicantes por religion por continente. Si hubiese tomado los datos del año 2010 del dataset `WRP_global`, no tendría certeza acerca de que paises componen los continentes mencionados en este dataset. 

Gracias al resultado anterior podemos agregar los practicantes de las diez religiones mas numerosas a cada pais de mi selección y podemos calcular la poblacion total por continente:

In [43]:
for religion in largestReligions:
    for index, row in wrp_countries_2010.iterrows():
        for continente, paises in continentes.items():
            for name, value in paises.items():
                if value['state_code'] == row['state']:
                    continentes[continente][name][religion] = row[religion]


Ahora voy a calcular la población total por continente: 

In [44]:
pop_per_continent = {}
for continente, paises in continentes.items():
    aux = 0
    for name, value in paises.items():
        aux += value['pop']
    pop_per_continent[continente] = aux
print("Poblacion por continente:\n",pop_per_continent)

Poblacion por continente:
 {'america': 916165463, 'asia': 3799998439, 'europe': 717572985, 'oceania': 23251222, 'africa': 949596601}


Ahora podemos realizar el punto **4** descrito anteriormente y obtenemos la cantidad de practicantes por religion por continente:

In [45]:
religion_per_continent = {'asia':{}, 'america': {}, 'oceania':{}, 'africa':{}, 'europe': {}}
# print(continentes)

# for religion in largestReligions:
#     for continente, paises in continentes.items():
#         for name, value in paises.items():
#             if value['state_code'] == row['state']:
#                 print(row)
#                 continentes[continente][name][religion] = row[religion]

for religion in largestReligions:
    for continente, paises in continentes.items():
        aux = 0
        for name, value in paises.items():
#             print(continentes)
            aux += value[religion]
        religion_per_continent[continente][religion] = aux
#         print(aux, religion, continente)     
print("Numero de practicantes por religion por continente:\n",religion_per_continent)

Numero de practicantes por religion por continente:
 {'america': {'sikhgen': 682441, 'anmgen': 7244680, 'budgen': 4402791, 'othrgen': 4855249, 'shntgen': 313241, 'islmgen': 4467445, 'hindgen': 2727755, 'syncgen': 5350252, 'nonrelig': 101983605, 'chrstgen': 778436653}, 'oceania': {'sikhgen': 34200, 'anmgen': 105613, 'budgen': 531866, 'othrgen': 125649, 'shntgen': 0, 'islmgen': 529549, 'hindgen': 420609, 'syncgen': 70333, 'nonrelig': 6659707, 'chrstgen': 14583581}, 'europe': {'sikhgen': 490470, 'anmgen': 210455, 'budgen': 1556268, 'othrgen': 8522205, 'shntgen': 0, 'islmgen': 40297516, 'hindgen': 1124771, 'syncgen': 506600, 'nonrelig': 121751715, 'chrstgen': 541687398}, 'asia': {'sikhgen': 22446341, 'anmgen': 63324503, 'budgen': 362144542, 'othrgen': 7821689, 'shntgen': 108000000, 'islmgen': 1022742779, 'hindgen': 1006258003, 'syncgen': 567689622, 'nonrelig': 462977583, 'chrstgen': 242761350}, 'africa': {'sikhgen': 71387, 'anmgen': 78201101, 'budgen': 211225, 'othrgen': 2833529, 'shntgen'

Con esta información ya estoy en condiciones de poder realizar el **Heatmap**

Pero antes de eso, creamos el archivo con la información anterior:

In [46]:
# damos referencia de los nombres 
religNames = ['Christianity','Islam', 'Hindu', 'Non-Relig', 
               'Syncretic', 'Buddhism', 'Animist', 'Shinto',                               
               'Other', 'Sikh']

procesed_data = {'Population': pop_per_continent, 'PracticantesPerContinent':religion_per_continent, 
                 'religions_code':largestReligions,
                 'major_relig_names': religNames}
with open('processed_data/heatmap.json', 'w') as fp:
    json.dump(procesed_data, fp)

El archivo se compone de dos entidades. La primera de ellas *Population*, contiene la poblacion total por continente. La segunda entidad *PracticantesPerContinent* contiene la cantidad de practicantes por religion por continente. 

## Bubblechart

En esta sección generare los archivos necesarios para realizar los bubblecharts.
Del mismo modo que para el **Heatmap** describiré los pasos a seguir, pero considerando que son dos visualizaciones a genenerar. 


#### Continente como color: 
1. Utilizaré la lista de paises con información que obtuve para hacer el Heatmap
2. Del archivo data_countries.json obtengo la información asociada a continente, población, IDH y coef.Gini
3. Doy formato a esta información y se exporta para realizar el Bubblechart.

**Nota**: A pesar de que toda la información la puedo sacar directamente de data_countries.json, prefiero mantenerme con la selección de paises que realicé para poder tener la mayor consistencia posible


Lista de paises de las que tengo información:

In [47]:
## Seleccionamos los paises de lso que tenemos informacion

continentes = filtrar_paises(initialize_continentes())
no_info_countries = ['Saint Lucia', 'Serbia', 'Palestine', 'Timor-Leste']
# bubblecharts va a contener la data para ambas visualizaciones 
bubblecharts = {}
for continente in countries.keys():
    for countrie in countries[continente]:
        if countrie['name']['common'] not in no_info_countries:
            bubblecharts[countrie['name']['common']]= {'area':countrie['area'], 'hdi': float(countrie['hdi']), 
                     
                                                                     'gini':float(countrie['gini']), 'continente':continente}



Paises de los que no tenemos informacion en WRP_nation.csv pero que estan en data_countries.json:
 [('america', 'Saint Lucia'), ('europe', 'Serbia'), ('asia', 'Palestine'), ('asia', 'Timor-Leste')]


Exportaré esta información para usarla en crear el primer bubblechart.

#### Religión mas prácticada como color:
1. Buscar la religión más popular del pais segun los datos en WRP_nation.csv 
2. Utilizaré la información del pimer bubblechart pero reemplazando el continente por la religion.

In [60]:

# best_relig_in_country almacena la religion mas popular del pais
count = 0
best_relig_in_country = {}

for index, row in wrp_countries_2010.iterrows():
    for continente in continentes.keys():
        for pais,values in continentes[continente].items():
            if row['state'] == values['state_code'] :
                # uso solo los valores correspondientes a las religiones mayores, sin sus familias religiosas
                religions = [row[8], row[13], row[21], row[25], row[26], row[27], row[28], row[29], row[30],
                             row[31], row[32], row[33], row[34], row[35], row[36], row[37]]
                biggest_relig = max(religions)
                relig_names = ['Christianity','Judaism', 'Islam', 'Buddhism', 'Zoroastrian', 'Hindu', 'Sikh', 'Shinto',
                               'Baha’i', 'Taoism', 'Confucianism', 'Jain', 'Syncretic', 'Animist', 'Non. Religious',
                               'Other']
                best_relig_in_country[pais] = relig_names[religions.index(biggest_relig)]
                
# Cruzamos con los datos del json
for country in bubblecharts.keys():
    bubblecharts[country]['religion'] = best_relig_in_country[country]


Logré obtener toda la información que necesitaba y la guarde en el diccionario `bubblecharts`.

Ahora se puede exportar este diccionario a un archivo y usarlo para generar las visualizaciones.

In [49]:
with open('processed_data/bubblecharts.json', 'w') as fp:
    json.dump(bubblecharts, fp)

## Stacked area graphs

En esta sección generare los archivos necesarios para realizar los stacked area graph. Las religiones que consideraré para esta parte son: *Christianity*, *Islam*, *Hindu*, *Non-Relig*,

Realizaré primero los stacked graphs para los continentes.

In [58]:
# evolucion poblacional y de practicantes por continentes
stackedContinentes = filtrar_paises(initialize_continentes())

chosenReligs = ['chrstgen', 'islmgen', 'hindgen', 'nonrelig']
startYear = 1945

# stacked area graphs guarda la cantidad de practicantes por continente y año de las religiones elegidas 
stackedAreas = {}
while startYear < 2015:
    wrp_nation_year = wrp_nation[wrp_nation['year'] == startYear]
    for religion in chosenReligs:
        for index, row in wrp_nation_year.iterrows():
            for continente, paises in stackedContinentes.items():
                for name, value in paises.items():
                    if value['state_code'] == row['state']:
                        stackedContinentes[continente][name][religion] = row[religion]
                        stackedContinentes[continente][name]['pop'] = row['pop']
                        
# #     poblacion total por continente
#     pop_per_continent = {}
#     for continente, paises in continentes.items():
#         aux = 0
#         for name, value in paises.items():
#             aux += value['pop']
#         pop_per_continent[continente] = aux
#     print("Poblacion por continente:\n",pop_per_continent)
                        
    religion_per_continent = {'asia':{}, 'america': {}, 'oceania':{}, 'africa':{}, 'europe': {}}
    for religion in chosenReligs:
        for continente, paises in stackedContinentes.items():
            aux = 0
            for name, value in paises.items():
                if religion in value.keys():    ## hay paises que no tienen informacion para todos los años Ej. Montenegro
                    aux += value[religion]
                religion_per_continent[continente][religion] = aux

#     calculamos la poblacion por año por continente 
    
    
    stackedAreas[startYear] = religion_per_continent
    startYear += 5



Paises de los que no tenemos informacion en WRP_nation.csv pero que estan en data_countries.json:
 [('america', 'Saint Lucia'), ('europe', 'Serbia'), ('asia', 'Palestine'), ('asia', 'Timor-Leste')]


Con esta información podemos generar las áreas stackeadas, iterando de manera poder pintar las religiones una encima de otra

In [None]:
stacked_points = {}
    religions = ['nonrelig', 'hindgen', 'islmgen', 'chrstgen']
    years = sorted(list(map(lambda x: x, data.keys())))
    stack = 0
    aux = []
    
    while religions != []:
        for year in years: 
            xCoord = 0
            yCoord = 0
            for i in religions:
                xCoord += data[year][continente]
                
    
    for i in range(4):
        for year in years:
            xCoord = 0
            yCoord = 0
            for i in religions[stack:]:
                xCoord += data[year][continente][i]
                yCoord = year
            aux.append((xCoord, yCoord))
            print()
            if year == 2010:
                stacked_points[religions[stack]] = aux
                aux = []
                stack += 1

    while religions != []:
        for year in years:
            for i in religions:
                xCoord += data[year][continente][i]
                yCoord = year
            aux.append((xCoord, yCoord))

            if year == 2010: 

Con los datos obtenidos podemos generar el archivo para realizar los distintos gráficos correspondientes a los continentes.

In [55]:
with open('processed_data/stackedgraphs.json', 'w') as fp:
    json.dump(stackedAreas, fp)