# Channel Scraping and ID verification

La idea detras de esta libreta, es brindar total transparencia al procedimiento que estamos utilizandom de manera que pueda ser auditable por cualquier persona con minimos conocimientos del lenguaje Python

Al proporcionar esta transparencia, estamos asegurando que no hay ninguna clase de modificacion o manipulacion en los datos, excepto en lo que esta publicado en el sitio del que extraeremos la evidencia forense

Use esta libreta para los fines legales que a usted convenga.

La libreta explicara los pasos que desarrolla el programa, siguiendo el estilo de programacion literaria. El *kernel* configurado es Python 3, y el ambiente de desarrolloes la ultima version disponible del proyecto Jupyter.

El codigo fuente, asi como instrucciones para instalar y ejecutar esta libreta por su propia cuenta, estan disponibles en el repositorio oficial de Github.

## 1 Configuracion del programa y librerias adicionales
En esta seccion, se definen y cargan las librerias adicionales a la librera estandar del lenguaje que se utilizaran en este programa. De particular interes es la libreria py8chan que proporciona una interfaz al API de datos del sitio 8chan 


In [1]:
import py8chan
import re

from bs4 import BeautifulSoup

Definimos funciones auxiliares:


In [2]:
def alt_unique(input_list):
    ''' implementacion eficiente de elementos uniicos usando
    conversion intermedia a set() que no permite duplicados. de
    esta manera evitamos caminar por cada elemento de la lista en 
    un bucle convencional'''
    output = set(input_list)
    return list(output)

Crearemos ahora las estructuras de datos correspondientes a los *boards* que queremos capturar

In [3]:
tablero = py8chan.Board('ensenada')        # creamos una instancia de py8chan.board, Objeto de enlace al API del sitio 8chan. 
                                           # Atraves de sus metodos obtendremos los datos requeridos

conversaciones = tablero.get_all_threads() # Genera un arreglo  donde cada elemento es un objeto
                                           # del API que representa una conversacion

En este punto, el programa ha realizado un enlace al API del servidor del sitio 8chan. ademas, hemos creado una instancia de datos que representa todo el conjunto de informacion en el tablero identificado al crear la instancia. 

Esta instancia contiene varios metodos que nos permitiran acceder a los datos de mas bajo nivel. Lo primero que hemos hecho es obtener un arreglo de objetos que contiene en cada elemento una conversacion perteneciente a dicho tablero.

Podremos usar esta lista para obtener mensajes individuales de cada conversacion

In [4]:
emailpattern = re.compile(r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}')
emails = []
mensajes = 0

Antes de proseguir, hemos definido algunas variables auxiliares. el primer caso se trata de una expresion regular muy popular para extraer direcciones de correo electronico. En resumen, esta expresion dispara una coincidencia cada vez que encuentra un texto que corresponde al formato indicado. 

En el caso de las ultimas dos variables, su uso es obvio: en la primera almacenaremos una lista de todos los correos que encontremos usando la expresion regular. La segunda es un contador para tener idea de la cantidad de mensajes individuales que hemos procesado 

In [5]:
for conversacion in conversaciones:             # camnaremos por cada conversacon en la lista de conversaciones
    mensajes += len(conversacion.all_posts)     # sumamos el numero de mensajes de la lista al total de procesados
    for msg in conversacion.all_posts:          # caminaremos por cada mensaje que forma parte de cada conversacion
        em = emailpattern.findall(msg.comment)  # examinamos la propiedad 'comment' que contiene el texto de cada mensaje
        if em:                                  # si hay una o mas coincidencias con el patron que representa un correo electronico
            for m in em:                        # entonces caminamos la lista de coincidencias, en caso de que sean 2 o mas
                emails.append(m)                # y agregamos cada elemento al arreglo que definimos anteriormente 
                                                # para almacenar el dato.

unique_emails = alt_unique(emails)              # Aqui limpiamos el arreglo al eliminar los correos electronicos duplicados
unique_emails.sort()                            # y ordenamos alfabeticamente el arreglo de correos unicos.

Ahora podemos imprimr un reporte de las direcciones de correo que fueron minadas del tablero:

In [6]:
print('Hemos capturado ', len(conversaciones), 'conversaciones que contienen ', mensajes,' mensajes en total, de los cuales \
logramos la extraccion de ', len(unique_emails), ' direcciones de correo electronico, mismas que mostramos a continuacion:')
      

Hemos capturado  375 conversaciones que contienen  3203  mensajes en total, de los cuales logramos la extraccion de  215  direcciones de correo electronico, mismas que mostramos a continuacion:


Finalmente podemos generar la lista de correos que nos interesa:

In [7]:
list(unique_emails)

['23@mailinator.com',
 '3rick.garcia20@gmail.com',
 'Adrianpack95@gmail.com',
 'Alexhander2002@gmail.com',
 'Alexriver@1000gmail.com',
 'All3in@8chan.co',
 'Anofisjimenez1@gmail.com',
 'Anofisjimenez1@gmail.con',
 'Anonpcks.14@gmail.com',
 'Anwincalavera@gmail.com',
 'Areejpg@aol.com',
 'Arsd.0606@gmail.com',
 'Bmomedina@live.com',
 'Calamidadroll@gmail.com',
 'Capedero@gmail.com',
 'Carlitoscj1212@gmail.com',
 'Carloscj1212@gmail.com',
 'Chekobeltran@hotmail.com',
 'Clubchilaquil@gmail.com',
 'Cotapaco123456788@outlook.com',
 'Culosens@gmail.com',
 'Diego.arme09@gmail.com',
 'Elbuenchilaquil@gmail.com',
 'Eldelospacksbc@gmail.com',
 'Elfisgon-01@gmail.com',
 'Enfermitostj@outlook.com',
 'Ensenadanasty@hotmail.com',
 'Ensgirls646@gmail.com',
 'Ensgirs646@gmail.com',
 'Ferna_skate3@hotmail.com',
 'Fulanodetalfaker@gmail.com',
 'Gabrielgalindo0507@gmail.com',
 'Highallien@gmail.com',
 'Ivanglz715@gmail.com',
 'Japacksens@gmail.com',
 'Jessemay38@hotmail.com',
 'Jessyens1@gmail.com',
 'Jo