# Autores iberoamericanos

In [1]:
import ast
import csv
import os
import pickle
import re
from collections import defaultdict
from collections import Counter
from datetime import datetime
from datetime import timedelta
from string import punctuation

import matplotlib
import numpy as np
import networkx as nx
import pandas as pd
import requests
import seaborn as sns
from geolocation.main import GoogleMaps
from matplotlib import pyplot as plt
from SPARQLWrapper import SPARQLWrapper, JSON

from googlemaps_key import KEY

## Autores

In [2]:
%%time

autores_df = pd.read_csv(
    'autores7.csv',
    header=0,
    converters={
        'GEOLOC_CAPITAL_AUTOR': ast.literal_eval,
        'GEOLOC_CAPITAL_EJEMPLAR': ast.literal_eval
    }
)
autores_df = autores_df.fillna('')

CPU times: user 2.83 s, sys: 31.4 ms, total: 2.86 s
Wall time: 2.86 s


In [3]:
autores_df.shape

(87200, 9)

In [4]:
autores_df.head()

Unnamed: 0,TITULO,PAIS_EJEMPLAR,AUTOR,PAIS_AUTOR,FECHA_PUB,CAPITAL_AUTOR,CAPITAL_EJEMPLAR,GEOLOC_CAPITAL_AUTOR,GEOLOC_CAPITAL_EJEMPLAR
0,Adivina en qué pais ...,Spain,Martina Badstuber,Germany,2010,Berlin,Madrid,"(52.52000659999999, 13.404954)","(40.4167754, -3.7037902)"
1,¡No quiero hacer pipí en el orinal!,Spain,Roser Rius,Mexico,2009,Mexico City,Madrid,"(19.4326077, -99.133208)","(40.4167754, -3.7037902)"
2,Humo,Spain,Antón Fortes Torres,Spain,2008,Madrid,Madrid,"(40.4167754, -3.7037902)","(40.4167754, -3.7037902)"
3,Galleta para perros,Spain,Helen Cooper,United Kingdom,2008,London,Madrid,"(51.5073509, -0.1277583)","(40.4167754, -3.7037902)"
4,Autobio,Spain,Cyril Pedrosa,France,2009,Paris,Madrid,"(48.856614, 2.3522219)","(40.4167754, -3.7037902)"


## Autores iberoamericanos

In [5]:
paises_iberoamericanos = [
    # Español
    'Argentina', 'Bolivia', 'Brasil', 'Chile', 'Colombia', 'Costa Rica', 'Cuba', 'Ecuador',
    'El Salvador', 'Guatemala', 'Honduras', 'México', 'Nicaragua', 'Panamá', 'Paraguay',
    'Perú', 'Puerto Rico', 'República Dominicana', 'Uruguay', 'Venezuela',
    # Inglés
    'Argentina', 'Bolivia', 'Brazil', 'Chile', 'Colombia', 'Costa Rica', 'Cuba', 'Ecuador',
    'El Salvador', 'Guatemala', 'Honduras', 'Mexico', 'Nicaragua', 'Panama', 'Paraguay',
    'Peru', 'Puerto Rico', 'Dominican Republic', 'Uruguay', 'Venezuela',
]

In [6]:
autores_iberoamericanos_df = autores_df[autores_df.PAIS_AUTOR.isin(paises_iberoamericanos)]

In [7]:
autores_iberoamericanos_df.shape

(19260, 9)

In [8]:
autores_iberoamericanos_df.head()

Unnamed: 0,TITULO,PAIS_EJEMPLAR,AUTOR,PAIS_AUTOR,FECHA_PUB,CAPITAL_AUTOR,CAPITAL_EJEMPLAR,GEOLOC_CAPITAL_AUTOR,GEOLOC_CAPITAL_EJEMPLAR
1,¡No quiero hacer pipí en el orinal!,Spain,Roser Rius,Mexico,2009,Mexico City,Madrid,"(19.4326077, -99.133208)","(40.4167754, -3.7037902)"
7,En la laguna más profunda,Colombia,Oscar Collazos,Colombia,2011,Bogotá,Bogotá,"(4.710988599999999, -74.072092)","(4.710988599999999, -74.072092)"
30,"¡Oh, los colores!",Spain,Jorge Luján,Panama,2010,Panama City,Madrid,"(8.9823792, -79.51986959999999)","(40.4167754, -3.7037902)"
40,Galileo Galilei,Spain,Guilherme de Almeida,Brazil,2009,Brasília,Madrid,"(-15.7942287, -47.8821658)","(40.4167754, -3.7037902)"
41,Haiku,Argentina,Iris Rivera,Argentina,2009,Buenos Aires,Buenos Aires,"(-34.6036844, -58.3815591)","(-34.6036844, -58.3815591)"


## Resultados

### Ciclos

In [9]:
ciclos_df = autores_iberoamericanos_df[
    (autores_iberoamericanos_df.PAIS_EJEMPLAR == autores_iberoamericanos_df.PAIS_AUTOR)
]

In [10]:
len(ciclos_df)

10315

#### Obras escritas por autores iberoamericanos y editadas en el mismo país de origen del autor

In [11]:
ciclos_df.TITULO.value_counts()

Obras completas                                                 33
Antología poética                                               26
Antología                                                       22
Obra poética                                                    22
Cuentos                                                         22
María                                                           19
Cuentos completos                                               15
El coronel no tiene quien le escriba                            15
Poesía                                                          15
La vorágine                                                     13
Cien años de soledad                                            13
Poesía completa                                                 12
Obras selectas                                                  11
Obras                                                           10
Los grandes conflictos sociales y económicos de nuestra hist  

#### Número de obras

In [12]:
ciclos_df.TITULO.nunique()

9000

#### Autores

In [13]:
ciclos_df.AUTOR.value_counts()

Gabriel García Márquez         204
Fernando Soto Aparicio          98
Jorge Luis Borges               98
Javier Ocampo López             79
Eduardo Caballero Calderón      78
José María Vargas Vila          76
Octavio Paz                     76
Rafael Pombo                    75
Celso Román                     67
Estanislao Zuleta               67
Juan Gustavo Cobo Borda         64
Germán Arciniegas               61
William Ospina                  57
José Martí                      55
Germán Castro Caycedo           55
Germán Espinosa                 55
Manuel Mejía Vallejo            54
Tomás Carrasquilla              51
Orlando Fals Borda              48
Andrés Caicedo Estela           47
Manuel Zapata Olivella          45
Jorge Isaacs                    43
León de Greiff                  43
Eduardo Lemaitre                43
Juan Manuel Roca                42
Alfonso López Michelsen         41
Jesús Arango Cano               41
Antonio Cacua Prada             40
Ruth Rocha          

#### Número de autores

In [14]:
ciclos_df.AUTOR.nunique()

2370

#### Países

In [15]:
%%time

paises_cy = []
for i, x in ciclos_df.iterrows():
    pais_autor = x['PAIS_AUTOR']
    pais_ejemplar = x['PAIS_EJEMPLAR']
    paises_cy.append((pais_autor, pais_ejemplar))

CPU times: user 1.4 s, sys: 11.5 ms, total: 1.41 s
Wall time: 1.41 s


In [16]:
paises_cy_c = Counter(paises_cy)

In [17]:
top_paises_cy = paises_cy_c.most_common()

In [18]:
top_paises_cy

[(('Colombia', 'Colombia'), 4754),
 (('Argentina', 'Argentina'), 1824),
 (('Mexico', 'Mexico'), 1679),
 (('Venezuela', 'Venezuela'), 486),
 (('Chile', 'Chile'), 340),
 (('Peru', 'Peru'), 301),
 (('Brazil', 'Brazil'), 285),
 (('Cuba', 'Cuba'), 264),
 (('Ecuador', 'Ecuador'), 154),
 (('Uruguay', 'Uruguay'), 85),
 (('El Salvador', 'El Salvador'), 24),
 (('Costa Rica', 'Costa Rica'), 20),
 (('Guatemala', 'Guatemala'), 20),
 (('Bolivia', 'Bolivia'), 20),
 (('Dominican Republic', 'Dominican Republic'), 15),
 (('Nicaragua', 'Nicaragua'), 13),
 (('Panama', 'Panama'), 11),
 (('Puerto Rico', 'Puerto Rico'), 8),
 (('Paraguay', 'Paraguay'), 8),
 (('Honduras', 'Honduras'), 4)]

### Rutas iberoamericanas

In [19]:
rutas_iberoamericanas_df = autores_iberoamericanos_df[
    (autores_iberoamericanos_df.PAIS_EJEMPLAR.isin(paises_iberoamericanos)) &
    (autores_iberoamericanos_df.PAIS_EJEMPLAR != autores_iberoamericanos_df.PAIS_AUTOR)
]

In [20]:
len(rutas_iberoamericanas_df)

4929

#### Obras escritas por autores iberoamericanos y editadas en Iberoamérica, pero en un país diferente del país de origen del autor

In [21]:
rutas_iberoamericanas_df.TITULO.value_counts()

Antología poética                                               14
Obras completas                                                 13
Antología                                                       12
Cuentos                                                         12
La vorágine                                                     12
Poesía                                                          11
Las venas abiertas de América Latina                            11
Antología personal                                              11
María                                                           10
Aura                                                             9
Derecho constitucional colombiano                                9
Cuentos completos                                                7
Obra poética                                                     7
Cien años de soledad                                             7
Veinte poemas de amor y una canción desesperada               

#### Número de obras

In [22]:
rutas_iberoamericanas_df.TITULO.nunique()

4312

#### Autores

In [23]:
rutas_iberoamericanas_df.AUTOR.value_counts()

Diana Uribe                   169
Pablo Neruda                   94
Carlos Fuentes                 90
Mario Vargas Llosa             58
Horacio Quiroga                48
Rubén Darío                    48
Gabriel García Márquez         48
Eduardo Galeano                44
Diego Younes Moreno            42
Marta Traba                    39
José Martí                     38
César Vallejo                  37
Antonio Orlando Rodríguez      37
Jorge Luis Borges              35
Jorge Amado                    34
Juan Carlos Onetti             33
Simón Bolívar                  33
Paulo Freire                   32
Ernesto Guevara                32
Germán Arciniegas              31
Augusto Monterroso             29
Mario Mendoza                  29
José María Arguedas            28
Paulo Coelho                   28
Rubem Fonseca                  27
Marta Harnecker                27
Hugo Cerda Gutiérrez           27
Enrique D. Dussel              26
Isabel Allende                 26
Carlos Medina 

#### Número de autores

In [24]:
rutas_iberoamericanas_df.AUTOR.nunique()

1491

#### Países

In [25]:
%%time

paises_ri = []
for i, x in rutas_iberoamericanas_df.iterrows():
    pais_autor = x['PAIS_AUTOR']
    pais_ejemplar = x['PAIS_EJEMPLAR']
    paises_ri.append((pais_autor, pais_ejemplar))

CPU times: user 640 ms, sys: 0 ns, total: 640 ms
Wall time: 638 ms


In [26]:
paises_ri_c = Counter(paises_ri)

In [27]:
top_paises_ri = paises_ri_c.most_common()

In [28]:
top_paises_ri

[(('Argentina', 'Colombia'), 410),
 (('Brazil', 'Colombia'), 336),
 (('Mexico', 'Colombia'), 303),
 (('Argentina', 'Mexico'), 302),
 (('Chile', 'Colombia'), 238),
 (('Venezuela', 'Colombia'), 220),
 (('Peru', 'Colombia'), 171),
 (('Cuba', 'Colombia'), 154),
 (('Uruguay', 'Argentina'), 137),
 (('Colombia', 'Mexico'), 128),
 (('Chile', 'Mexico'), 124),
 (('Brazil', 'Argentina'), 110),
 (('Brazil', 'Mexico'), 104),
 (('Chile', 'Argentina'), 103),
 (('Cuba', 'Mexico'), 102),
 (('Uruguay', 'Colombia'), 92),
 (('Panama', 'Mexico'), 91),
 (('Peru', 'Mexico'), 90),
 (('Colombia', 'Argentina'), 83),
 (('Peru', 'Argentina'), 72),
 (('Uruguay', 'Mexico'), 69),
 (('Cuba', 'Argentina'), 59),
 (('Argentina', 'Venezuela'), 57),
 (('Ecuador', 'Colombia'), 57),
 (('Mexico', 'Argentina'), 55),
 (('Venezuela', 'Mexico'), 52),
 (('Colombia', 'Venezuela'), 49),
 (('Cuba', 'Venezuela'), 43),
 (('Argentina', 'Cuba'), 41),
 (('Venezuela', 'Argentina'), 39),
 (('Nicaragua', 'Mexico'), 38),
 (('Panama', 'Colomb

### Rutas mundiales

In [29]:
rutas_mundiales_df = autores_iberoamericanos_df[
    ~autores_iberoamericanos_df.PAIS_EJEMPLAR.isin(paises_iberoamericanos)
]

In [30]:
len(rutas_mundiales_df)

4016

#### Obras escritas por autores iberoamericanos y editadas fuera de Iberoamérica

In [31]:
rutas_mundiales_df.TITULO.value_counts()

Antología poética                                               16
Obras completas                                                 15
La ciudad y los perros                                          10
Poesía                                                           9
Historia contemporánea de América Latina                         8
Poesía completa                                                  8
Cuentos                                                          7
Cuentos completos                                                7
La casa verde                                                    7
Obra poética                                                     6
Pantaleón y las visitadoras                                      6
Antología                                                        6
Primer ensayo sobre la población                                 6
Conversación en la catedral                                      6
Juntacadáveres                                                

#### Número de obras

In [32]:
rutas_mundiales_df.TITULO.nunique()

3603

#### Autores

In [33]:
rutas_mundiales_df.AUTOR.value_counts()

Gabriel García Márquez       115
Mario Vargas Llosa            97
Jorge Luis Borges             83
Italo Calvino                 59
Pablo Neruda                  55
Octavio Paz                   54
Alejandro Jodorowsky          44
Santo Agustín                 39
Rubén Darío                   37
Carlos Fuentes                31
Guillermo Cabrera Infante     31
Juan Carlos Onetti            30
Adolfo Bioy Casares           30
Cristina Peri Rossi           29
Mario Bunge                   29
Isabel Allende                28
José Martí                    27
Leonardo Boff                 27
José Donoso                   27
Roberto Bolaño                24
Horacio Quiroga               23
Alfredo Bryce Echenique       22
Jorge Edwards                 19
Juan José Benítez             19
César Vallejo                 19
Jorge Amado                   19
Eduardo Galeano               19
Alberto Manguel               19
Juan Rulfo                    18
José Lezama Lima              18
          

#### Número de autores

In [34]:
rutas_mundiales_df.AUTOR.nunique()

1257

#### Países

In [35]:
%%time

paises_rw = []
for i, x in rutas_mundiales_df.iterrows():
    pais_autor = x['PAIS_AUTOR']
    pais_ejemplar = x['PAIS_EJEMPLAR']
    paises_rw.append((pais_autor, pais_ejemplar))

CPU times: user 515 ms, sys: 3.32 ms, total: 518 ms
Wall time: 517 ms


In [36]:
paises_rw_c = Counter(paises_rw)

In [37]:
top_paises_rw = paises_rw_c.most_common()

In [38]:
top_paises_rw

[(('Argentina', 'Spain'), 889),
 (('Mexico', 'Spain'), 447),
 (('Cuba', 'Spain'), 380),
 (('Chile', 'Spain'), 354),
 (('Peru', 'Spain'), 315),
 (('Colombia', 'Spain'), 270),
 (('Brazil', 'Spain'), 218),
 (('Uruguay', 'Spain'), 195),
 (('Venezuela', 'Spain'), 111),
 (('Nicaragua', 'Spain'), 77),
 (('Colombia', 'United States'), 50),
 (('Colombia', 'France'), 48),
 (('Argentina', 'United States'), 37),
 (('Panama', 'Spain'), 35),
 (('Cuba', 'United States'), 30),
 (('Dominican Republic', 'Spain'), 27),
 (('Honduras', 'Spain'), 21),
 (('Guatemala', 'Spain'), 21),
 (('Ecuador', 'Spain'), 20),
 (('Puerto Rico', 'Spain'), 20),
 (('Mexico', 'United States'), 17),
 (('Brazil', 'United States'), 16),
 (('Peru', 'United States'), 15),
 (('Bolivia', 'Spain'), 15),
 (('Argentina', 'France'), 15),
 (('Colombia', 'Portugal'), 14),
 (('Paraguay', 'Spain'), 13),
 (('Colombia', 'Germany'), 13),
 (('Colombia', 'England'), 12),
 (('Costa Rica', 'Spain'), 11),
 (('Chile', 'United States'), 11),
 (('Brazil

## Grafos

In [39]:
%%time

coords = {}
for i, x in autores_df.iterrows():
    coords[x.PAIS_AUTOR] = x.GEOLOC_CAPITAL_AUTOR
    coords[x.PAIS_EJEMPLAR] = x.GEOLOC_CAPITAL_EJEMPLAR

CPU times: user 18.1 s, sys: 0 ns, total: 18.1 s
Wall time: 18.1 s


In [40]:
cycles_graph = nx.DiGraph()
r_iber_graph = nx.DiGraph()
r_wrld_graph = nx.DiGraph()

In [41]:
for k in paises_cy_c:
    if k[0] not in cycles_graph:
        lat, lng = coords[k[0]]
        cycles_graph.add_node(k[0], latitude=lat, longitude=lng, weight=paises_cy_c[k])
    
    cycles_graph.add_edge(k[0], k[0], weight=paises_cy_c[k])

In [42]:
for k in paises_ri_c:
    if k[0] not in r_iber_graph:
        lat, lng = coords[k[0]]
        r_iber_graph.add_node(k[0], latitude=lat, longitude=lng, weight=0)
    r_iber_graph.node[k[0]]['weight'] += paises_ri_c[k]
    
    if k[1] not in r_iber_graph:
        lat, lng = coords[k[1]]
        r_iber_graph.add_node(k[1], latitude=lat, longitude=lng, weight=0)
    r_iber_graph.node[k[1]]['weight'] += paises_ri_c[k]
    
    r_iber_graph.add_edge(k[0], k[1], weight=paises_ri_c[k])

In [43]:
for k in paises_rw_c:
    if k[0] not in r_wrld_graph:
        lat, lng = coords[k[0]]
        r_wrld_graph.add_node(k[0], latitude=lat, longitude=lng, weight=0)
    r_wrld_graph.node[k[0]]['weight'] += paises_rw_c[k]
    
    if k[1] not in r_wrld_graph:
        lat, lng = coords[k[1]]
        r_wrld_graph.add_node(k[1], latitude=lat, longitude=lng, weight=0)
    r_wrld_graph.node[k[1]]['weight'] += paises_rw_c[k]
    
    r_wrld_graph.add_edge(k[0], k[1], weight=paises_rw_c[k])

In [44]:
cycles_graph.number_of_nodes()

20

In [45]:
cycles_graph.number_of_edges()

20

In [46]:
r_iber_graph.number_of_nodes()

20

In [47]:
r_iber_graph.number_of_edges()

186

In [48]:
r_wrld_graph.number_of_nodes()

75

In [49]:
r_wrld_graph.number_of_edges()

168

## Filtering labels

In [50]:
def select_top_nodes(g, p):
    ns = [(n, d['weight']) for n, d in g.nodes_iter(data=True)]
    ns = sorted(ns, key=lambda x: x[1], reverse=True)
    amount = round(len(ns) * p)
    taken = ns[:amount]
    labels = [n for n, w in taken]
    return labels

In [51]:
for i in range(10, 100, 10):
    p = i / 100
    top_cy_labels = select_top_nodes(cycles_graph, p)
    for k in cycles_graph:
        if k in top_cy_labels:
            cycles_graph.node[k]['show_label_' + str(i)] = k
        else:
            cycles_graph.node[k]['show_label_' + str(i)] = ''

In [52]:
for i in range(10, 100, 10):
    p = i / 100
    top_ri_labels = select_top_nodes(r_iber_graph, p)
    for k in r_iber_graph:
        if k in top_ri_labels:
            r_iber_graph.node[k]['show_label_' + str(i)] = k
        else:
            r_iber_graph.node[k]['show_label_' + str(i)] = ''

In [53]:
for i in range(10, 100, 10):
    p = i / 100
    top_rw_labels = select_top_nodes(r_wrld_graph, p)
    for k in r_wrld_graph:
        if k in top_rw_labels:
            r_wrld_graph.node[k]['show_label_' + str(i)] = k
        else:
            r_wrld_graph.node[k]['show_label_' + str(i)] = ''

# Saving results

In [54]:
nx.write_gexf(cycles_graph, 'grafo_ciclos_iberoamericanos.gexf')
nx.write_gexf(r_iber_graph, 'grafo_rutas_iberoamericanas.gexf')
nx.write_gexf(r_wrld_graph, 'grafo_rutas_mundiales.gexf')