<img src="img/banner.jpg">

# Marvel's Superheroes

Mar Lizana
<br>
Data Analytics PT 2020
<br>
Ironhack

## Introducción

### Motivación

El principal objetivo de la selección de este dataset es observar los subconjuntos que se forman dentro de los diferentes personajes de Marvel en los cómics.
El multiverso Marvel hace referencia a la existencia de varios universos con sus propias características en una misma línea temporal.

### Dataset

## Análisis previo

In [1]:
import numpy as np
import pandas as pd
import random
import re

#Visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly
import cufflinks as cf
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

#Grafo
import networkx as nx 
import plotly.graph_objects as go
import itertools

#Interactivo
import altair
import ipywidgets as widgets
from IPython.display import display
from ipywidgets import interact, interact_manual

#De lista de tuplas a dict
from collections import defaultdict

In [2]:
plt.rcParams["figure.figsize"] = (15,10)

Importamos los diferentes datasets:

In [3]:
#Usaremos este dataset para el apartado de análisis estadístico y visualización.
character_stats = pd.read_csv("marvel-superheroes/charcters_stats.csv")
character_info = pd.read_csv("marvel-superheroes/marvel_characters_info.csv")

#Este segundo dataset será contruido para poder elaborar el grafo final.
marvel_charanther = pd.read_csv("marvel-superheroes/characters.csv")
marvel_comics = pd.read_csv("marvel-superheroes/charactersToComics.csv")
comics = pd.read_csv("marvel-superheroes/comics.csv")

Los unimos para poder trabajar con toda la información:

In [4]:
marvel_stats = pd.merge(character_stats, character_info, on='Name')

marvel_graph = pd.merge(marvel_charanther, marvel_comics, on='characterID')
marvel_graph = pd.merge(marvel_graph, comics, on = "comicID")

## Examinar y preparar los datasets

### Marvel Stats

In [8]:
marvel_stats.head()

Unnamed: 0,Name,Alignment_x,Intelligence,Strength,Speed,Durability,Power,Combat,Total,ID,Alignment_y,Gender,EyeColor,Race,HairColor,Publisher,SkinColor,Height,Weight
0,A-Bomb,good,38,100,17,80,17,64,316,0,good,Male,yellow,Human,No Hair,Marvel Comics,-,203.0,441.0
1,Abe Sapien,good,88,14,35,42,35,85,299,1,good,Male,blue,Icthyo Sapien,No Hair,Dark Horse Comics,blue,191.0,65.0
2,Abin Sur,good,50,90,53,64,84,65,406,2,good,Male,blue,Ungaran,No Hair,DC Comics,red,185.0,90.0
3,Abomination,bad,63,80,53,90,55,95,436,3,bad,Male,green,Human / Radiation,No Hair,Marvel Comics,-,203.0,441.0
4,Abraxas,bad,88,100,83,99,100,56,526,4,bad,Male,blue,Cosmic Entity,Black,Marvel Comics,-,-99.0,-99.0


In [9]:
marvel_stats.shape

(600, 19)

Con esta información podemos concluir que nuestra base de datos contiene registros de un total de 600 superhéroes.

In [10]:
marvel_stats.isnull().sum()

Name            0
Alignment_x     3
Intelligence    0
Strength        0
Speed           0
Durability      0
Power           0
Combat          0
Total           0
ID              0
Alignment_y     0
Gender          0
EyeColor        0
Race            0
HairColor       0
Publisher       7
SkinColor       0
Height          0
Weight          0
dtype: int64

### Marvel Graph

In [12]:
marvel_graph.head()

Unnamed: 0,characterID,name,comicID,title,issueNumber,description
0,1009220,Captain America,16232,Cap Transport (2005) #12,12.0,
1,1010740,Winter Soldier,16232,Cap Transport (2005) #12,12.0,
2,1009220,Captain America,16248,Cap Transport (2005) #9,9.0,
3,1009471,Nick Fury,16248,Cap Transport (2005) #9,9.0,
4,1009552,S.H.I.E.L.D.,16248,Cap Transport (2005) #9,9.0,


In [13]:
marvel_graph.shape

(82185, 6)

In [14]:
marvel_graph.isnull().sum()

characterID        0
name               0
comicID            0
title              0
issueNumber        0
description    26479
dtype: int64

Extraer el año de la columna título puede resultar interesante para la posterior visualización.

In [36]:
years = [",".join(re.findall("\d{4}", i)) for i in marvel_graph['title']]
marvel_graph['Year']=years

In [37]:
marvel_graph['Year'].value_counts()

             10998
1963          8602
2010          5397
1998          3498
1991          2890
             ...  
1953             1
2006,2006        1
1602,2015        1
2099,1994        1
2011,1000        1
Name: Year, Length: 92, dtype: int64

In [None]:
marvel_graph['Year'].iplot(kind ='hist', bins = 10)

In [38]:
print(max(marvel_graph['Year']))
print(min(marvel_graph['Year']))

3000



Hay años futuros... y años previos a la creación de los comics...

In [39]:
marvel_graph[marvel_graph['Year'] == max(marvel_graph['Year'])]['title']

63717    Guardians of The Galaxy Classic: In The Year 3...
63718    Guardians of The Galaxy Classic: In The Year 3...
63719    Guardians of The Galaxy Classic: In The Year 3...
63720    Guardians of The Galaxy Classic: In The Year 3...
63721    Guardians of The Galaxy Classic: In The Year 3...
63722    Guardians of The Galaxy Classic: In The Year 3...
63723    Guardians of The Galaxy Classic: In The Year 3...
63724    Guardians of The Galaxy Classic: In The Year 3...
63725    Guardians of The Galaxy Classic: In The Year 3...
63726    Guardians of The Galaxy Classic: In The Year 3...
63727    Guardians of The Galaxy Classic: In The Year 3...
63728    Guardians of The Galaxy Classic: In The Year 3...
63729    Guardians of The Galaxy Classic: In The Year 3...
63730    Guardians of The Galaxy Classic: In The Year 3...
63731    Guardians of The Galaxy Classic: In The Year 3...
63732    Guardians of The Galaxy Classic: In The Year 3...
74582    Guardians 3000 Vol. 1: Time After Time (Trade .

## Análisis estadístico y visualización

Haremos una primera visualización de la información con un gráfico interactivo de correlación entre habilidades de superhéroes:

In [None]:
def make_plot(x, y): 
    sns.jointplot(x=x,y=y, data=marvel_stats,kind="kde", color = "r")
marvel_num_col=['Intelligence','Strength','Speed','Durability','Power','Combat',
               'Total','Height','Weight']
_= interact(make_plot, x = marvel_num_col, y = marvel_num_col)

In [None]:
marvel_stats.columns

In [None]:
@interact(Gender=list(marvel_stats['Gender'].unique()), 
          Alignment_x=list(marvel_stats['Alignment_x'].unique()),
          Alignment_y=list(marvel_stats['Alignment_y'].unique()), 
         )

def scatter(Gender, Alignment_x, Alignment_y):
    data = marvel_stats[(marvel_stats['Gender']==Gender) & 
              (marvel_stats['Alignment_x']==Alignment_x) & 
              (marvel_stats['Alignment_y']==Alignment_y)] 
                        
    data.iplot(kind='scatter', x='Power', y='Speed', 
           categories='Gender', text='Name', 
           xTitle='Tenure', yTitle='Monthly Charges',
           title='Charges vs. Tenure')

## Grafo

### Observación

Hacemos una primera observación de como queda el dataset con el que trabajaremos.

In [None]:
marvel_graph.head()

In [None]:
marvel_graph['name'].value_counts()

Gracias a las función <CODE>pivot_table</CODE> podemos empezar a hacernos una idea real de los personajes que puede haber por comic.

In [None]:
comicID_name=pd.DataFrame(marvel_graph.pivot_table(index = ["comicID", "name"]))
#Hago un head para evitaros el scrolldown...pero creedme que se ve.
comicID_name.head()

### Obtención de la estructura de datos necesarea.

Y ahora es cuando empieza lo divertido:
1. Creamos tuplas con la relación <CODE>'comicID'</CODE>, <CODE>'name'</CODE>.
2. Con estas tuplas y la función <CODE>setdefault</CODE> pasada a los elementos de la lista de tuplas conseguimos un diccionario donde las llaves son los <CODE>'comicID'</CODE> y los valores los distintos <CODE>'name'</CODE> relacionados.
3. Aplicaremos la función <CODE>combinations</CODE> para obtener todas las permutaciones que hay dentro de cada comic.

In [None]:
#Con esto obtenemos la lista de tuplas
lst = []
for i in range(0, len(marvel_graph["comicID"])):
    d = (marvel_graph["comicID"][i],marvel_graph["name"][i])
    lst.append(d)

In [None]:
#Pasamos a diccionario
d = {}
for k, v in lst:
    d.setdefault(k, []).append(v)

In [None]:
#Nos quedamos solo con los valores del diccionario porque no nos interesa que aparezcan las llaves.
comic_persons = d.values()

In [None]:
#Creamos las permutaciones
lst = []
for i in comic_persons:
    lst.append(list(itertools.combinations(i, 2)))

In [None]:
#Por último sacamos las tuplas de las listas para obtener solo una lista de tuplas y no una lista
#de listas de tuplas.
total_relationships=[]
for i in lst:
    for e in i:
        total_relationships.append(e)

### Generando el grafo

In [None]:
#Añadimos un slider para limitar la visualización y que el ordenador pueda...
slider = widgets.IntSlider(
    min=20,
    max=len(total_relationships)/2,
    step=100,
    description='Tamaño muestra:')
display(slider)

In [None]:
slider = widgets.IntSlider(
    min=min(marvel_graph['Year']),
    max=max(marvel_graph['Year']),
    step=100,
    description='Año:')
display(slider)

In [None]:
G=nx.Graph()

In [None]:
d = random.sample(total_relationships, slider.value)

In [None]:
G.add_edges_from(total_relationships[:-500])

In [None]:
nx.draw(G, with_labels=True)