<a href="https://colab.research.google.com/github/aldosanchezg11/Trafico-de-animales-silvestres/blob/main/AnimalesSilvestres.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Programa para encontrar tráfico de animales silvestres en redes sociales usando Google Dorks**

*Este programa es una herramienta para poder encontrar informacion en metadatos a base de Google Dorks. En este caso va a ser usado para encontrar publicaciones de usuarios en las redes sociales más conocidas (facebook, instagram y twitter/x). Las consultas tratadas son sobre tráfico de animales silvestres en diferentes países. Para cada país se utilizaron dorks para poder visualizar cuáles son los animales más traficados y luego se buscaron este tipo de animales en las redes sociales seleccionadas para despues ser analizados en un software para análisis de metadatos.*

Lo primero que se debe de hacer es la importación de librerías:

**json:** funciona para crear archivos de terminación json, en este caso son creados para poner los metadatos en algun orden

**requests:** para realizar peticiones HTTP. En este caso para interactuar con la API de google

**os:** Para realizar tareas con el sistema operativo. En este caso para guardar los archivos json en la maquina virtual de Google Colab (funciona sin nigun problema en cualquier interpretador de python).

**spaCY:** Esta se utliza para trabajar con procesamiento de lenguaje natural (NLP), en este caso para implementar un sistema listo de "Hugging Face"

**transformers y pipeline:** Para implementar el analisis de sentimiento con el proposito de facilitar el análisis de datos.

In [None]:
import json
import requests
import os
import spacy
from transformers import pipeline

Esta importación solo se debe de hacer en un ambiente local de python (visual studio code, pycharm, entre otros). El ambiente pedirá que se instale pytorch o tensorflow con el motivo de que el código trabaja con machine learning.

In [None]:
pip install torch torchvision torchaudio



Estas 2 lineas solo son si se correrá en el ambiente de Google colab, en el que se usara un "secreto" (llave oculta para poder trabajar con los diferentes modelos de "Hugging Face"). En este caso se tendrá que importar en la ventana de secretos en Google Colab encontrada a la izquierda superior de la interfaz, arriba del ícono de carpeta. Tiene un ícono de llave. En este ícono se tendrá que añadir un nuevo secreto y el nombre será "Animales Silvestrea" y la contraseña será "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"


In [None]:
from google.colab import userdata
userdata.get('AnimalesSilvestres')

'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'

Este bloque inicializará las herramientas de NLP, donde se cargará el modelo utilizado en español (si se quieren datos en ingles, simplemente se cambiaría el modelo a uno que soporte este idioma).

In [None]:
# Initialize NLP tools
nlp = spacy.load('en_core_web_sm')
spanish_sentiment_model = 'edumunozsala/roberta_bne_sentiment_analysis_es'
transformer_pipeline = pipeline("sentiment-analysis", model=spanish_sentiment_model)

model.safetensors:   0%|          | 0.00/499M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.09k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/851k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/509k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.46M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Este bloque contiene una función para realizar el analisis de sentimientos con el modelo cargado anteriormente. El programa regresará el sentimiento, este modelo entrenado podrá analizar el texto de cada publicación y determinará si el texto es positivo o negativo, junto a un score de que tan confiado se encuentra de la decisión. Esto ayuda mucho al poder separar algunas publicaciones que son sobre noticias o no tienen que ver con los temas que se quieren abordar. Las entidades serán palabras clave o datos de vital importancia, estos se presentarán separados y funcionan para poder ver si un animal es llamado de diferente forma para poder comercializarlo pasando desapercividos.

In [None]:
def perform_nlp_analysis(text):
    # Entity Recognition
    doc = nlp(text)
    entities = [(entity.text, entity.label_) for entity in doc.ents]

    # Sentiment Analysis with Transformer
    sentiment = transformer_pipeline(text)

    return {
        'sentiment': sentiment,
        'entities': entities
    }

El bloque actua como bucador de google. Contiene una función donde recibirá el termino buscado, la llave API de Google, el id del motor de busqueda y el contenido como un número de variable. Se utilizó la APi de Google para poder administrar y controlar las busquedas realizadas. En la función se recibe todos los permisos para poder correr la busqeuda, despues, hará una petición de busqueda y sacará los resultaods en un URL. Finalmente, regresa el json con lo encontrado.

In [None]:
def google_search(search_term, api_key, cse_id, **kwargs):
    service_url = 'https://www.googleapis.com/customsearch/v1'
    params = {
        'q': search_term,
        'key': api_key,
        'cx': cse_id
    }
    params.update(kwargs)
    response = requests.get(service_url, params=params)
    return response.json()

Estas 2 líneas son la llave de la API y el identificador del motor de busqueda. Para utlizar la API de Google, te pide que inicies sesión y crees un proyecto, en este caso se creo uno espeficamente para animales silvestres.

In [None]:
API_KEY = 'AIzaSyCtS2LJ41LX9kvGv7cmgmoe9BLC3QGOEAQ'
CSE_ID = '00b7bb4000576490c'

Esta función es simplemente para filtrar la etiqueta puesta por sentimiento (ya sea negativo o positivo), para este mismo proyecto, realmente no se necesita este tipo de filtro debido a que ambos resultados resultan útilies para diferentes casos. El positivo funciona para detectar noticias y ver palabras clave de como estan reportando a los diferentes tipos de animales. El negativo generalmente podrá mostrar publicaciones sospechosas o noticias más explicitas que las positivas.

In [None]:
def sort_by_sentiment_score(item):
   # This assumes that 'item' is a dictionary with an 'nlp_analysis' key, which is another dictionary
    # containing a 'sentiment' key, which is a list of sentiments with 'label' and 'score'.
    # Modify as needed based on the actual structure of your results.
    for sentiment in item['nlp_analysis']['sentiment']:
        if sentiment['Negativo'] == 'label':  # This label depends on your model's output
            return -sentiment['score']  # Negative sign for descending order
    return 0  # Default if no negative sentiment found

Este sección es los Google Dorks utilizados, en este caso, se enceuntrar los de Haiti, donde el caracol rosado es el animal más traficado hacia otros países. Tambien, las primeras 3 busquedas, son iguales para cada país, solamente cambia el país. Esta busqueda ayudo a encontrar los diferentes aniamles que son traficados o estan en peligro de serlo y los demás serviran para encontrar ese tipo de animales en las redes sociales.

In [None]:
# Google dorks focused on wildlife trafficking
SEARCH_PATTERNS = [
    '"animales", "silvestre" OR "silvestres", "venta", "Haiti" site:facebook.com',
    '"animales", "silvestre" OR "silvestres", "venta", "Haiti" site:twitter.com',
    '"animales", "silvestre" OR "silvestres", "Haiti" site:instagram.com',
    '"caracol rosado" OR "caracoles rosados", "venta", "Haiti" site:facebook.com',
    '"caracol rosado" OR "caracoles rosados", "venta", "Haiti" site:twitter.com',
    '"wildlife", "traffic" OR "trafficking" "Haiti" site:twitter.com',
]

Este bloque funciona para crear el directorio con el json y guardarlo en el sistema operativo. Tambien manda a llamar a la gran mayoría de las funciones mencionadas anteriormente para que el resultado de las busquedas sean simplemente las consultas ya filtradas de acuerdo a lo que se este buscando (en este caso, los scores mas cercanos a cero se mostraran primero, para poder ver las noticias e identificar las especies).

In [None]:
OUTPUT_DIRECTORY = 'Haiti'
if not os.path.exists(OUTPUT_DIRECTORY):
    os.makedirs(OUTPUT_DIRECTORY)

for pattern in SEARCH_PATTERNS:
    results = google_search(pattern, API_KEY, CSE_ID)
    aggregated_results = []

    for item in results.get("items", []):
        text_to_analyze = item.get("snippet", "")
        nlp_results = perform_nlp_analysis(text_to_analyze)
        item['nlp_analysis'] = nlp_results
        aggregated_results.append(item)

    # Sort the results by sentiment score (from lower to higher)
    aggregated_results.sort(key=lambda x: x['nlp_analysis']['sentiment'][0]['score'])

    # Save the sorted search results to file
    filename = os.path.join(OUTPUT_DIRECTORY, pattern.replace(' ', '_').replace(':', '').replace('"', '') + ".json")
    with open(filename, 'w') as f:
        json.dump(aggregated_results, f, indent=4)

In [None]:
#OUTPUT_DIRECTORY = 'Guatemala2'
#if not os.path.exists(OUTPUT_DIRECTORY):
    #os.makedirs(OUTPUT_DIRECTORY)

#for pattern in SEARCH_PATTERNS:
    #results = google_search(pattern, API_KEY, CSE_ID)
    #aggregated_results = []

    #for item in results.get("items", []):
        #text_to_analyze = item.get("snippet", "")
        #nlp_results = perform_nlp_analysis(text_to_analyze)
        ## Combine the NLP results with the current item
        #item['nlp_analysis'] = nlp_results
        #aggregated_results.append(item)

    ## Sort the aggregated results by negative sentiment score in descending order
    #aggregated_results.sort(key=sort_by_sentiment_score)

    ## Save sorted search results to file
    #filename = os.path.join(OUTPUT_DIRECTORY, pattern.replace(' ', '_').replace(':', '').replace('"', '') + ".json")
    #with open(filename, 'w') as f:
        #json.dump(aggregated_results, f, indent=4)

Finalmente, estos 2 bloques solo serán utilies en Google Colab, debido a que la pplataforma no guarda de forma automática los archivos json, estos 2 bloques servirán para guardar en la maquina local, primero se creara un archivo zip del json y en el último bloque, se descargará en la maquina local.

In [None]:
import shutil
from google.colab import files
#Change parameters 1 and 3 to the name of the output directory
shutil.make_archive('Haiti', 'zip', 'Haiti')


'/content/Haiti.zip'

In [None]:
#files.download('Honduras.zip')
files.download('Haiti.zip')
#files.download('Guatemala.zip')
#files.download('Paraguay.zip')
#files.download('Uruguay.zip')
#files.download('Venezuela.zip')
#files.download('Nicaragua.zip')
#files.download('Panama.zip')
#files.download('Peru.zip')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>