# Código para realizar descarga automatizada en Google Trends

Para que el código funcione es neceario instalar las siguientes librerías: 
- **pandas**: Para manipulación de bases de datos en python
- **pytrends**: API no oficial (actualmente *Google Trends* no tiene APIs oficiales) para agilizar/automatizar las descargas por dicha plataforma. Se usa esta API porque es la que recomendó el BID desde el principio. 

La manera en la que se sugiere que se instale los paquetes y se corra el código es la siguiente: 
1. Descargar los programas: 
    - **VSCode**: Editor de texto para correr python en el computador
    - **Anaconda**: Tener python instalado en el computador y poder utilizar **conda** para el manejor de paquetes
2. Utilizando la consola de VSCode ejecturar las siguientes líneas de comando en el siguiente orden: 
    - Crear un nuevo ambiente virtual utilizando *conda*: `conda create --name <<nombre del ambiente>>`
    - Activar el ambiente virtual: `conda activate <<nombre del ambiente>>`
    - Instalar los paquetes que requiere el código: `conda install pandas pytrends requests tenacity urllib3=1.26.18`
3. Indicar a VSCode el ambiente virtual `<<nombre del ambiente>>` para correr python
4. Ya se puede ejecutar el código en el cuaderno

### Librerías de python y rutas de trabajo

In [4]:
# Descripcion del script: Descarga las palabras de Google Trends por sector

# Librerias de trabajo 
import time 
from pathlib import Path  # Librería para trabajar con rutas de archivos
import pandas as pd  # Liberaría pandas para trabajar con "dataframes" en python
from pytrends.request import TrendReq 
import urllib3

# Importar la función del script "gtrends_functions" que permite hacer la descarga de las palabras de Google Trends por sector
from gtrends_functions import busqueda_google_trends

# Especificar el directorio de trabajo principal del Script actual 
main = Path.cwd().parent

In [3]:
main

PosixPath('/home/germankux/Documents/Ejercicio3')

In [None]:
# Especificar tamaño de grupos y palabras para descargar a la vez
WORDS_BEFORE_STOP = 1
GROUP_SIZE = 5

# Especificar tiempos de ejecución
SLP_TIME_WORDS = 30
SLP_TIME_GROUPS = 60
SLP_TIME_SECTORS = 400

### Descarga de indicadores de búsqueda de palabras de la plataforma de Google Trends por la API no oficial de `pytrends`

##### Recomendaciones para hacer la descarga 
Para la descarga de indicadores de búsqueda de palabras de la platataforma de Google Trends por la API no oficial de `pytrends` se recomienda tener lo siguiente en consideración: 
- `pytrends` es una API no oficial, y actualmente Google Trends no tiene ninguna API para hacer la descarga de manera automática desde su plataforma. Por lo anterior, se recomienda hacer la descarga de manera no muy rápida de tal forma que se evite que Google bloquee la IP desde donse se hace la descarga, y ésta deje de funcionar. 
- El error más común que genera *Google Trends* por la API *pytrends* es: `TooManyRequestsError: The request failed: Google returned a response with code 429` que lo genera cuando detecta que un bot o un scraper está intentando descargar palabras de su plataforma. Si se genera muchas veces dicho error, puede que google trends bloquee la IP. 
- Si se puede utilizar un VPN, mejor aún para evitar problemas con las descargas y bloqueo de la API a la hora de hacer la descarga. 
- La función principal que hace la descarga es `busqueda_google_trends` y se encuentra en el archivo `gtrends_functions.py`. No es neceario, entender la función para que el código funcione, pero si se desea se puede revisar la función para entender mejor su funcionamiento. 
    - Los paramétros importantes que tiene que tener en cuenta la persona que ejecute el código a la hora de utilizar el código son los siguientes: 
        - `WORDS_BEFORE_STOP`: Cuántas palabras descargar antes de que se suspenda la descarga. A pesar de que el programa permite descargar múltiples palabras, se recomienda hacer la descarga de una sola palabra y pausar el programa, para que Google Trends no ponga problemas con la descarga
        - `GROUP_SIZE`: Es otro temporizador que se emplear para suspender la descarga de palabras. De tal forma, que cada cierto grupo de palabras descargadas, se suspende para que Google no detecte el bot o el scraper automatizado. Se sugiere colocar un número bajo de palabras descargadas antes de suspender la descarga, para evitar problemas en la descarga con Google. 
        - `SLP_TIME_WORDS`: Tiempo de pausa por cada grupo pequeño de palabras
        - `SLP_TIME_GROUPS`: 
        - `SLP_TIME_SECTORS`: 