# Instagram Scraper usando pygram

In [222]:
# Se importan las librerias
from pygram import PyGram
import pandas as pd
from datetime import datetime
from pathlib import Path

pygram = PyGram()

Se seleccionan los usuarios a los cuales se les van a buscar los posts y se establece la ruta de la carpeta de trabajo

In [223]:
# usernames
usernames = ['offcorss', 'epk', 'babyfreshoficial', 'politokids']
# folder path
folder_path = r'C:\Users\DavidCordoba\Google Drive\Estudio\Cursos\2020. DS4A\Project\Instagram_Scraper\proyect_DS4A-master'

## Función para extraer las publicaciones de los usuarios seleccionados

En primer lugar, se crea una función para extraer la información de un solo usuario, después se crea otra función para extraer la información de múltiples usuarios. Se busca (en caso de que exista), una base de datos con información de publiaciones anteriores y se actualiza con la nueva información encontrada (si la publicación ya estaba en la base de datos, se actualizan sus parámetros tales cómo comentarios, likes, vistas, etc y si la publicación no estaba en la base de datos entonces se añade).

In [224]:
def get_posts_df(username, limit = 10):
    """ Extrae los posts del usuario y los convierta en un pandas dataframe.
    RETORNA:
    pandas.DataFrame: pandas.DataFrame con la información de los posts solicitados del usuario seleccionado.
    """
    
    # Devuelve una lista de diccionarios
    posts = list(pygram.get_posts(username, limit = limit))
    print(len(posts), ' posts collected from ', username)

    # Convierte la lista de diccionarios en pd dataframe
    posts_df = pd.DataFrame(posts)
    # Cambia el timestamp por fecha en columna date
    posts_df['date'] = posts_df.timestamp.apply(lambda x: datetime.fromtimestamp(x))
    posts_df.drop('timestamp', axis=1, inplace = True)
    
    return posts_df

In [225]:
def get_posts_from_usernames(usernames, limit = 10):
    """ Crea una dataframe con un número especifico de posts de todos los usernames ingresados.
    RETORNA:
    pandas.DataFrame: pandas.DataFrame con la información de los posts solicitados de los usuarios seleccionados.
    """
    
    # Se crea una lista con los dataframes de cada user
    posts_df = []
    for user in usernames:
        posts_df.append(get_posts_df(user, limit = limit))
        
    # Se concatenan los dataframes en uno solo
    posts_df = pd.concat(posts_df)
    
    return posts_df

In [226]:
# Se llaman las funciones para recolectar la última información de posts de los usuarios
posts_df = get_posts_from_usernames(usernames, limit = 7000)

try:
    # Se lee la base de datos
    posts_database = pd.read_csv(Path(folder_path)/'posts_database.csv')
    # Se actualiza la base de datos
    posts_database = pd.concat([posts_database, posts_df])
    posts_database['id'] = posts_database['id'].astype('int64')
    posts_database.drop_duplicates(subset = 'id', keep = 'last', inplace = True)
    # Se guarda la base de datos
    posts_database.to_csv(Path(folder_path)/'posts_database.csv', index = False)
    
except:
    # Se guarda la base de datos
    posts_df.to_csv(Path(folder_path)/'posts_database.csv', index = False)

6923  posts collected from  offcorss
3288  posts collected from  epk
5531  posts collected from  babyfreshoficial
4226  posts collected from  politokids


In [227]:
posts_database = pd.read_csv(Path(folder_path)/'posts_database.csv')

print(posts_database.shape)
print(len(posts_database.reset_index()['id'].unique()))
posts_database.describe()

(19966, 11)
19966


Unnamed: 0,id,comments_count,likes_count,author,video_views_count
count,19966.0,19966.0,19966.0,19966.0,2269.0
mean,1.517779e+18,7.970901,298.998047,228790200.0,3573.475981
std,5.319395e+17,28.194182,405.188846,20257070.0,6843.098607
min,2.578409e+17,0.0,0.0,208034700.0,0.0
25%,1.101829e+18,0.0,85.0,214277300.0,0.0
50%,1.559528e+18,3.0,181.0,222130800.0,1212.0
75%,1.941515e+18,8.0,360.0,260550300.0,5040.0
max,2.410075e+18,1578.0,11048.0,260550300.0,117163.0


## Función para extraer comentarios

In [90]:
def get_comments_list(posts_list, limit=100):
    """Return list of dict"""
    comments_list = []
    
    
    for i,post in enumerate(posts_list):
        
        comments = pygram.get_comments(post, limit=limit)
        
        print(f'Start Scrapy post {i+1}')
        
        
        for i ,comment in enumerate(comments):
            if comment:
                comments_list.append(comment)
                print(f'\tScrapy comment {i+1}')
        
    
    return comments_list
            
        
        
    

In [91]:
comments_list = get_comments_list(list_posts, limit=10)


Start Scrapy post 1
Start Scrapy post 2
Start Scrapy post 3
Start Scrapy post 4
Start Scrapy post 5
Start Scrapy post 6
Start Scrapy post 7
Start Scrapy post 8
Start Scrapy post 9
Start Scrapy post 10
Start Scrapy post 11
Start Scrapy post 12
Start Scrapy post 13
Start Scrapy post 14
Start Scrapy post 15
Start Scrapy post 16
	Scrapy comment 1
	Scrapy comment 2
Start Scrapy post 17
	Scrapy comment 1
	Scrapy comment 2
	Scrapy comment 3
Start Scrapy post 18
Start Scrapy post 19
	Scrapy comment 1
	Scrapy comment 2
	Scrapy comment 3
	Scrapy comment 4
Start Scrapy post 20
Start Scrapy post 21
Start Scrapy post 22
Start Scrapy post 23
Start Scrapy post 24
	Scrapy comment 1
	Scrapy comment 2
Start Scrapy post 25
Start Scrapy post 26
	Scrapy comment 1
	Scrapy comment 2
	Scrapy comment 3
	Scrapy comment 4
	Scrapy comment 5
	Scrapy comment 6
Start Scrapy post 27
	Scrapy comment 1
	Scrapy comment 2
	Scrapy comment 3
	Scrapy comment 4
	Scrapy comment 5
	Scrapy comment 6
Start Scrapy post 28
Start S

ActionError: [GET] https://www.instagram.com/graphql/query/?query_hash=33ba35852cb50da46f5b5e889df7d159&variables={"shortcode":"Bp4iQq3gKL_","first":10}

In [None]:
profile = pygram.get_profile('offcorss.us')
profile