In [99]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import warnings
import psycopg2
import os
from sqlalchemy import create_engine
from dotenv import load_dotenv
warnings.filterwarnings('ignore')

pd.set_option('display.max_columns', 500)
load_dotenv()

True

In [100]:
BASE_URL = "https://datos.gob.ar/dataset/mincyt-proyectos-ciencia-tecnologia-e-innovacion"
BASE_DIR = 'C:\\Users\\PC\\Documents\\Matias\\data_projects\datos_abiertos_ciencia_tecnologia'

In [101]:
def extract_links(url):
  r = requests.get(url)
  if r.status_code != 200:
    print('url is invalid, cannot access')
  soup = BeautifulSoup(r.text, "html.parser")
  links_csvs = [link['href'] for link in soup.find_all('a') if 'csv' in link.get('href', '') and 'proyectos_20' in link.get('href', '')]
  return links_csvs

In [102]:
links = extract_links(BASE_URL)
print(links)

['https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/854345e8-99a9-416f-98d2-d4892485c3eb/download/proyectos_2008.csv', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/8cffb10e-225c-438c-a9bb-e8e0bf269945/download/proyectos_2009.csv', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/08257f42-14d6-4a5f-803f-c5bf904bf1b7/download/proyectos_2010.csv', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/21284041-ce67-413d-ab06-2b6582316014/download/proyectos_2011.csv', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/40a8a8e1-97fd-487d-a9dd-5ca8bae7e705/download/proyectos_2012.csv', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/195bac80-7b07-4e23-acbc-5e4c50d08453/download/proyectos_2013.csv', 'https://datasets.datos.mincyt.gob.ar/dataset

In [103]:
def extract_data(anios=[]):
  if len(anios) > 0:
    for link in links:
      if any(str(anio) in link for anio in anios):
        df = pd.read_csv(link, sep=None)
        anio_ = link.split("/")[8][10:14]
        df['año'] = anio_
        df.to_csv(f'../CSV/proyectos_{anio_}.csv', index=False)
  else:
    for link in links:
      df = pd.read_csv(link, sep=None)
      anio_ = link.split("/")[8][10:14]
      df['año'] = anio_
      df.to_csv(f'../CSV/proyectos_{anio_}.csv', index=False)

In [104]:
# extract_data([2009, 2010])
extract_data()

In [105]:
dir = os.listdir(BASE_DIR+'/CSV')
print(dir)

['proyectos_2008.csv', 'proyectos_2009.csv', 'proyectos_2010.csv', 'proyectos_2011.csv', 'proyectos_2012.csv', 'proyectos_2013.csv', 'proyectos_2014.csv', 'proyectos_2015.csv', 'proyectos_2016.csv', 'proyectos_2017.csv', 'proyectos_2018.csv', 'proyectos_2019.csv']


In [106]:
def transform_data(anios=[]):
    proyectos = pd.DataFrame()
    if len(anios) > 0:
        for file in dir:
            if any(str(anio) in file for anio in anios):
                df = pd.read_csv(BASE_DIR+'/CSV/'+file)
                proyectos = pd.concat([proyectos, df], ignore_index=True)
                proyectos['fecha_inicio'] = pd.to_datetime(proyectos['fecha_inicio'], errors='coerce')
                proyectos['fecha_finalizacion'] = pd.to_datetime(proyectos['fecha_finalizacion'], errors='coerce')
                proyectos['duracion'] = proyectos['fecha_finalizacion']-proyectos['fecha_inicio']
                proyectos['duracion'] = proyectos['duracion'].dt.days
    else:
        for file in dir:
            df = pd.read_csv(BASE_DIR+'/CSV/'+file)
            proyectos = pd.concat([proyectos, df], ignore_index=True)
            proyectos['fecha_inicio'] = pd.to_datetime(proyectos['fecha_inicio'], errors='coerce')
            proyectos['fecha_finalizacion'] = pd.to_datetime(proyectos['fecha_finalizacion'], errors='coerce')
            proyectos['duracion'] = proyectos['fecha_finalizacion']-proyectos['fecha_inicio']
            proyectos['duracion'] = proyectos['duracion'].dt.days
    return proyectos

In [107]:
proyectos = transform_data()

In [108]:
proyectos.sample(5)

Unnamed: 0,proyecto_id,proyecto_fuente,titulo,fecha_inicio,fecha_finalizacion,resumen,moneda_id,monto_total_solicitado,monto_total_adjudicado,monto_financiado_solicitado,monto_financiado_adjudicado,tipo_proyecto_id,codigo_identificacion,palabras_clave,estado_id,fondo_anpcyt,cantidad_miembros_F,cantidad_miembros_M,sexo_director,año,duracion
7318,5619,ANPCYT,'Procedimientos judiciales en contexto',2012-09-21,2012-10-21,"Desde Distintos Encuadres, El Poder Judicial, ...",1,121123.0,121123.0,106412.0,106412.0,20.0,PICTO-2010-0047,acceso - resolución de conflictos - procedimie...,1,FONCYT,5.0,5.0,F,2012,30.0
9611,13232,ANPCYT,Fortalecimiento Productivo Apache - Proveedore...,2013-11-27,NaT,No publicable,1,2059936.27,2059936.27,1097421.17,1097421.17,15.0,PDP 005 MADRE,,2,FONTAR,,,M,2013,
5668,16786,CONICET,DESARROLLO DE ESTUDIOS AEROBIOLÓGICOS EN AMBIE...,2012-01-01,2014-12-31,Los monitoreos aerobiológicos permiten describ...,1,36000.0,36000.0,36000.0,36000.0,22.0,11220110100087CO,"1) monitoreos exterior: polen, esporas fúngica...",1,,1.0,0.0,F,2012,1095.0
11829,4445,ANPCYT,Continuidades y rupturas en el Estado Argentin...,2014-11-07,2015-02-07,"La Presente Investigación Tiene Por Objeto, De...",1,447873.6,447873.6,222913.6,222913.6,19.0,PICT-2013-1420,Estado - administración Pública - Modernizació...,1,FONCYT,2.0,3.0,M,2014,92.0
10120,16555,CONICET,Análisis molecular del Sistema de Reparación d...,2014-01-01,2016-12-31,El objetivo general del presente proyecto es c...,1,450000.0,450000.0,450000.0,450000.0,22.0,11220130100360CO,Reparación de ADN; Recombinación genetica; P. ...,1,,4.0,1.0,M,2014,1095.0


In [109]:
proyectos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19266 entries, 0 to 19265
Data columns (total 21 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   proyecto_id                  19266 non-null  int64         
 1   proyecto_fuente              19266 non-null  object        
 2   titulo                       19266 non-null  object        
 3   fecha_inicio                 19266 non-null  datetime64[ns]
 4   fecha_finalizacion           15257 non-null  datetime64[ns]
 5   resumen                      19220 non-null  object        
 6   moneda_id                    19266 non-null  int64         
 7   monto_total_solicitado       18593 non-null  float64       
 8   monto_total_adjudicado       19266 non-null  float64       
 9   monto_financiado_solicitado  18593 non-null  float64       
 10  monto_financiado_adjudicado  19266 non-null  float64       
 11  tipo_proyecto_id             17307 non-nu

In [110]:
database_url = os.getenv("DATABASE_URL")

def create_db_connection(uri):
    engine = None
    try:
        engine = create_engine(uri)
        with engine.connect():
            print(f"CONNECTED TO {engine.url}")
        return engine
    except:
        print(f"CANNOT CONNECT TO {engine.url}")

In [111]:
def load_data(output):
    engine = create_db_connection(database_url)
    output.to_sql('science_projects', engine, if_exists='replace', schema='public', index=False)
    return "TABLE science_projects SAVED SUCCESSFULLY"

In [112]:
load_data(proyectos)

CONNECTED TO postgresql://root:***@localhost:5432/database_1


'TABLE science_projects SAVED SUCCESSFULLY'