# EXTRACCIÓN DE LOS DATOS DE INSTAGRAM

Para la red social de Instagram, se extraerán datos con dos scripts diferentes.<br>
- Script para sacar información de los perfiles e introducirlos en la BBDD
- Script para sacar información de los posts e introducirlos en la BBDD

## PSEUDOCÓDIGO

**El pseudocódigo del programa será de la siguiente manera**

Abrir Base de Datos
Seleccionar y extraer los datos de la tabla donde se almacenan los enlaces de los diferentes enlaces a los canales de Instagram<br><br>
Extraer las cuentas de Instagram<br><br>
Para cada una de las cuentas:<br>
   &emsp; extraer los datos de la cuentas<br>
   &emsp; introducir los datos en la tabla correspondiente<br><br>
   &emsp; Para cada uno de los mensajes de la cuenta:<br>
   &emsp; &emsp; extraer los datos de los mensajes<br>
   &emsp; &emsp; introducir los datos en la tabla correspondiente<br>

## LIBRERÍAS

Para la correcta extracción y recopilación de los datos, se aplicarán diferentes librerías, pero las librerias especializadas son:<br><br>
**__INSTAGRAM_SCRAPER__**:Una librería especializada en el uso de las APIS de instagram para la extracción de cierta infromación de la red social. Su uso es limitado pero más libre y moldeable que una app de pago o pre-constuida. Está desarrollada por el usuario de Github arc298 y su código se encuentra __[aquí](https://github.com/arc298/instagram-scraper)__.<br><br>
**__IGRAM_SCRAPER__**: Similar a la anterior, es una librería especializada en el uso de las APIS de instagram para la extracción de cierta infromación de la red social. Su uso es limitado pero más libre y moldeable que una app de pago o pre-constuida. Está desarrollada por el usuario de Github realsirjoe y su código se encuentra __[aquí](https://github.com/realsirjoe/instagram-scraper)__.<br><br>
**__SELENIUM__**: Es un entorno de pruebas de software para aplicaciones basadas en la web. Su función principal es realizar web scraping de manera automatizada mediante diferentes métodos posibles como HTML, CSS, XPATH, etc..<br><br>Esto es gracias a la implantación de un driver que automatizará el navegador y que se puede descargar __[aquí](https://selenium-python.readthedocs.io/installation.html)__.<br><br>
La documentación de Selenium para Python se puede consultar __[aquí](https://selenium-python.readthedocs.io/getting-started.htmly)__.<br><br>

Otras librerías que se usan son:<br><br>
- **Pandas** : Manipulación de datos
- **Mysql.connector**: Conexión con la base de datos
- **Codecs**: Normalización de caracteres
- **Time**: Manipula y da información de la cantidad de tiempo
- **Datetime**: Facilita la manipulación de datos tipo fecha


## PASOS PREVIOS

Para realizar estos scripts, primeramente se añaden dos tablas a la BBDD con la siguiente sintaxis:

- **TABLA PARA PERFILES DE INSTAGRAM**:

CREATE TABLE IF NOT EXISTS perfiles_instagram(<br>
    &emsp; Universidad VARCHAR(100),<br>
	&emsp; Abreviatura VARCHAR(20),<br>
    &emsp; Perfil VARCHAR(200),<br>
    &emsp; Nombre VARCHAR(200),<br>
    &emsp; Verificado BOOL,<br>
    &emsp; Biografia VARCHAR(500),<br>
    &emsp; Url VARCHAR(100),<br>
    &emsp; Seguidores BIGINT,<br>
    &emsp; Seguidos BIGINT,<br>
    &emsp; Posts BIGINT,<br>
    &emsp; Cuenta_profesional BOOL,<br>
    &emsp; Facebook_conectado VARCHAR(100),<br>
    &emsp; Email VARCHAR(100),<br>
    &emsp; Telefono VARCHAR(100),<br>
    &emsp; PRIMARY KEY(Universidad)<br>
)ENGINE = INNODB;<br>



- **TABLA PARA LOS POSTS DE INSTAGRAM**:

CREATE TABLE IF NOT EXISTS posts_instagram(<br>
    &emsp; Universidad VARCHAR(100),<br>
	&emsp; Id_post VARCHAR(20),<br>
    &emsp; Fecha TIMESTAMP,<br>
    &emsp; Tipo_publicacion VARCHAR(50),<br>
    &emsp; n_urls int(2),<br>
    &emsp; Biografia TEXT,<br>
    &emsp; Likes BIGINT,<br>
    &emsp; Comentarios BIGINT,<br>
    &emsp; Tags TEXT,<br>
    &emsp; Visualizaciones BIGINT<br>
)ENGINE = INNODB;<br>




## CÓDIGO

Ya que se tiene todo los requisitos, ahora se abre la conexión con la Base de Datos y se empieza a codificar. <br>
Lo primero de todo es importar las librerias que necesitamos, para este caso, usaremos la libreía **instagram_scraper** para recoger los datos de los perfiles y la librería de **igram_scraper** para obtener los datos de los posts

In [None]:
#pip install igramscraper


In [None]:
#pip install instagram_scraper

In [None]:
import pandas as pd
from random import randint
import datetime
import pandas as pd
import mysql.connector
import codecs
from igramscraper.instagram import Instagram
import instagram_scraper
import time

Acto seguido, se abre la conexión de la base de Datos con Python 

In [None]:
database = mysql.connector.connect(
    host= "localhost",
    user= "root",
    passwd= "",
    database= "TFG",
    use_unicode = True, 
    charset="utf8mb4",
    collation = "utf8mb4_general_ci"
)
database.set_charset_collation("utf8mb4","utf8mb4_general_ci")

cursor= database.cursor()

Se extraen las cuentas de Twitter de la tabla de la Base de Datos **"universidades"**

In [None]:
datos = pd.read_sql("SELECT * FROM universidades",database)
cuentas_instagram = datos["Instagram"].tolist()
abreviaturas = datos["Abreviatura"].tolist()
print(datos.info())

Como no todas las universidades tienen cuenta de instagram, se pasará a limpiar la lista.

In [None]:
for a in range(len(cuentas_instagram)-1,-1,-1):
    if type(cuentas_instagram[a]) != str:
        cuentas_instagram.remove(cuentas_instagram[a])
        abreviaturas.remove(abreviaturas[a])
print(cuentas_instagram)

Empezamos recogiendo la información de los perfiles.

Ahora paseremos a identificarnos en Instagram, ya que debido a la política de Meta, sólo se accede al contenido de la red social mediante autentificación.

In [None]:
instagram = Instagram()
instagram.with_credentials('ces_v0t', 'cesar_vot')
instagram.login()

Acto seguido se pasa a elaborar el bucle que recogerá los datos de los perfiles

In [None]:
for a in range(len(cuentas_instagram)):
    if a == 30 or a == 50:
        print("descanso para evitar phishing")
        time.sleep(30)

        perfil = instagram.get_account("https://www.instagram.com/universidadcarlosiiidemadrid/")
        print(perfil)

        datos_perfil = [perfil,
        abreviaturas[a],
        perfil.username,
        perfil.full_name,
        perfil.is_verified,
        perfil.biography,
        perfil.external_url,
        perfil.followed_by_count,
        perfil.follows_count,
        perfil.media_count,
        perfil.is_business_account,
        perfil.connected_fb_page,
        perfil.business_phone_number,
        perfil.connected_fb_page]

        cursor.execute("INSERT INTO perfiles_instagram VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)",datos_perfil)
        database.commit()

Despues de extraer los perfiles, vamos a extraer los post con **instagram_scraper**<br><br>
Lo primero que hacemos ahora también, es identificarnos.

In [None]:
args = {"login_user": "ces_v0t", "login_pass": "cesar_vot"}
insta_scraper = instagram_scraper.InstagramScraper(**args)
insta_scraper.authenticate_with_login()
print("logged")

Una vez identificado, se pasa a la extracción de datos

In [None]:
for a, perfil in enumerate(cuentas_instagram):
    shared_data = insta_scraper.get_shared_data_userinfo(username=perfil) # se saca el perfil
    print(perfil)
    for i,item in enumerate(insta_scraper.query_media_gen(shared_data)): #empieza el bucle
        datos_post = [
        perfil,#cuenta
        item["id"],#id
        item["taken_at_timestamp"],#fecha
        item["__typename"],
        len(item["urls"])]# se sacan los elementos
        try:#el try es por si ese dato no está, que no de error
            datos_post.append(item["edge_media_to_caption"]["edges"][0]["node"]["text"])#descripción
        except:
            datos_post.append("null")
        datos_post.append(item["edge_media_preview_like"]["count"])#num likes
        datos_post.append(item["edge_media_to_comment"]["count"])#num comentarios
        try:
            datos_post.append(item["tags"])#hastag
        except:
            datos_post.append(["null"])
        if item["is_video"] == True:#es video
            datos_post.append(item["video_view_count"])#visualozaciones
        else:
            datos_post.append(None)
        datos_post[2] = datetime.datetime.fromtimestamp(datos_post[2])#conversion fecha
        datos_post[-2] = " ".join(datos_post[-2])
        datos_post= tuple(datos_post)
        cursor.execute("INSERT INTO posts_instagram VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)",datos_post)# se mete en la base de datos
        database.commit()
        print(i+1, end = " ")
        if i%12 == 0: #antiphising
            time.sleep(randint(1,10))

### Con este pequeño script están los datos de la red social Instagram extraidos.<br><br> Duración aproximada 32h