# Grafo de Semejanza

El siguiente paso es unir lo mejor de ambos mundos mundos, el análisis basado en grafos con los cálculos de semenjanza, y para eso vamos a armar Grafos de Semejanza donde vamos a poder incluir más variables en el análisis aprovechando las potencialidades que tienen los Grafos

En este caso y para no hacer grafos muy extensos que quizá no nos aporten mucho valor análitico vamos a definir un *nivel de similitud*, de tal manera que solamente llevaremos al grafo aquellas muestras que sean lo suficientemente similares. En la bibliografía recomiendan un valor cercano a 0.8, pero como parte del análisis puedes variar este valor para ver como cambian los grafos.

In [143]:
#!/usr/bin/python

import os
import networkx
import itertools
import pprint
from networkx.drawing.nx_agraph import write_dot

nivel_similitud= 0.8
muestras = [] 
atributos_muestras = dict()
grafo_similitud = networkx.Graph()


In [146]:
for root, carpetas, rutas in os.walk('/Agrega la ruta donde están las muestras'):
        
    for ubicacion in rutas:
        
        ruta_completa = os.ubicacion.join(root,ubicacion)
                
        muestras.append(ruta_completa)

In [123]:
for sample in muestras:
    
    strings = os.popen("strings '{0}'".format(sample)).read()
    strings = set(strings.split("\n"))
   
    atributos_muestras[sample] = strings

    nombre_nodo=path.split('/')[-2][:3]+'_'+path.split('/')[-1][:40]
    graph.add_node(nombre_nodo,label=os.path.split(path)[-1][:40],color='green')

Hasta este punto hicimos básicamente lo mismo que en el caso anterior: extraer los strings para conformar nuestro *corpus* de análisis.

Ahora simplemente,vamos a calcular el índice de Jaccard para cada par de muestras y dejar como aristas solamente aquellos en los cuales el valor del índice sobrepasa el nivel de similitud establecido.

In [124]:
for malware1,malware2 in itertools.combinations(muestras,2):

    interseccion = atributos_muestras[malware1].intersection(atributos_muestras[malware2])
    elementos_comun = float(len(intersection))
    
    union = atributos_muestras[malware1].union(atributos_muestras[malware2])
    total_elementos = float(len(union))
    
    indice_jaccard = elementos_comun / total_elementos
    
    if indice_jaccard > nivel_similitud:
        
        nombre_malware1=malware1.split('/')[-2][:3]+'_'+malware1.split('/')[-1][:40]
        nombre_malware2=malware2.split('/')[-2][:3]+'_'+malware2.split('/')[-1][:40]
        grafo_similitud.add_edge(nombre_malware1,nombre_malware2,penwidth=1+(indice_jaccard-nivel_similitud)*10)
        


In [125]:
write_dot(grafo_similitud,'/home/hcamiloga/eko/jaccard.dot')

## Grafo de similitud
`$fdp jaccard.dot -T png -o jaccard2.png -Gsplines=true`
<a href="https://ibb.co/n7pk8hj"><img src="https://i.ibb.co/wSt6rD4/curvas.jpg" alt="curvas" border="0"></a>

## Análisis de muestras en Colombia
<a href="https://ibb.co/2hD7CzB"><img src="https://i.ibb.co/kBRgwLF/muestras-COL.jpg" alt="muestras-COL" border="0"></a>

## Análisis de +600 muestras detectadas en diferentes países
<a href="https://ibb.co/ctf0jrB"><img src="https://i.ibb.co/wCGVfzk/muestras-LATAM.jpg" alt="muestras-LATAM" border="0"></a>

## Agregando colores al grafo por país
<a href="https://ibb.co/sjfXvg7"><img src="https://i.ibb.co/dBTH0fZ/muestras-LATAM2.jpg" alt="muestras-LATAM2" border="0"></a>

## Campañas diferentes en países diferentes (?)
<a href="https://ibb.co/51Xtz7f"><img src="https://i.ibb.co/RgGZM5V/muestras-LATAM3.jpg" alt="muestras-LATAM3" border="0"></a>


## ¿Cómo seguimos?
Es muy probable que estés pensando que este modelo es muy costoso en cuato a procesamiento se refiere, y estás en lo correcto... en la medida que crece la cantidad de muestras a analizar la cantidad de combinaciones también crece de manera exponencial. Así que si quieres reducir los tiempos de análisis podríamos utilizar `MinHash`, aunque ese será tema de otro workshop