In [69]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import warnings
import psycopg2
import os
from sqlalchemy import create_engine
from dotenv import load_dotenv
warnings.filterwarnings('ignore')

pd.set_option('display.max_columns', 500)
load_dotenv()

True

In [70]:
BASE_URL = "https://datos.gob.ar/dataset/mincyt-proyectos-ciencia-tecnologia-e-innovacion"
BASE_DIR = 'C:\\Users\\PC\\Documents\\Matias\\data_projects\datos_abiertos_ciencia_tecnologia'

In [71]:
def extract_links(url):
  r = requests.get(url)
  if r.status_code != 200:
    print('url is invalid, cannot access')
  soup = BeautifulSoup(r.text, "html.parser")
  json_links = [link['href'] for link in soup.find_all('a') if 'json' in link.get('href', '') and 'proyectos_20' in link.get('href', '')]
  return json_links

In [72]:
links = extract_links(BASE_URL)
print(links)

['https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/e53e50fa-d2d4-4797-8327-06190525d95f/download/proyectos_2008.json', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/e4d7b119-4453-4215-b17c-a79faab4831e/download/proyectos_2009.json', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/9078dcf4-502d-4a4d-84da-afc8af1487d3/download/proyectos_2010.json', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/b2253b66-93e6-4564-bc50-0640d960fe8c/download/proyectos_2011.json', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/6867050a-10cc-490e-9ee8-70f084812501/download/proyectos_2012.json', 'https://datasets.datos.mincyt.gob.ar/dataset/79e643e7-c75f-4f2b-9e8a-66ca8050a262/resource/d633f2bd-995a-414c-8d91-28ac36d9adda/download/proyectos_2013.json', 'https://datasets.datos.mincyt.gob.ar/d

In [73]:
def extract_data(anios=[]):
  proyectos = pd.DataFrame()
  if len(anios) > 0:
    for link in links:
      if any(str(anio) in link for anio in anios):
        print(link[-19:])
        json_data = pd.read_json(link)
        data_list = json_data['data'].tolist()
        df = pd.DataFrame(data_list)
        anio_ = link.split("/")[8][10:14]
        df['año'] = anio_
        df.to_csv(f'../CSV/proyectos_{anio_}.csv', index=False)
        print("-----------------EACH DF----------------------")
        print(df.head())
  else:
    for link in links:
      if 'proyectos_20' in link:
        print(link[-19:])
        json_data = pd.read_json(link)
        data_list = json_data['data'].tolist()
        df = pd.DataFrame(data_list)
        anio_ = link.split("/")[8][10:14]
        df['año'] = anio_
        df.to_csv(f'../CSV/proyectos_{anio_}.csv', index=False)
        print("-----------------EACH DF----------------------")
        print(df.head())
  return proyectos

In [74]:
# extract_data([2009, 2010])
extract_data()

proyectos_2008.json
-----------------EACH DF----------------------
   estado_id             fecha_inicio cantidad_miembros_F  \
0          1  2008/11/05 00:00:00.000                None   
1          1  2008/11/12 00:00:00.000                None   
2          1  2008/01/10 00:00:00.000                None   
3          1  2008/09/24 00:00:00.000                None   
4          1  2008/05/23 00:00:00.000                None   

                                              titulo        resumen  \
0  Desarrollo a escala piloto de liposomas de ver...  No publicable   
1  Desarrollo de tecnología de cultivo de células...  No publicable   
2  Desarrollo de un Sistema de Administración Tra...  No publicable   
3  Desarrollo de un sistema de geoposicionamiento...  No publicable   
4  Desarrollo de una plantación modelo de una nue...  No publicable   

   monto_total_solicitado       fecha_finalizacion  proyecto_id  \
0               384996.50  2012/12/21 00:00:00.000         8051   
1    

In [75]:
dir = os.listdir(BASE_DIR+'/CSV')
print(dir)

['proyectos_2008.csv', 'proyectos_2009.csv', 'proyectos_2010.csv', 'proyectos_2011.csv', 'proyectos_2012.csv', 'proyectos_2013.csv', 'proyectos_2014.csv', 'proyectos_2015.csv', 'proyectos_2016.csv', 'proyectos_2017.csv', 'proyectos_2018.csv', 'proyectos_2019.csv']


In [76]:
def transform_data(anios=[]):
    proyectos = pd.DataFrame()
    if len(anios) > 0:
        for file in dir:
            if any(str(anio) in file for anio in anios):
                df = pd.read_csv(BASE_DIR+'/CSV/'+file)
                proyectos = pd.concat([proyectos, df], ignore_index=True)
                proyectos['fecha_inicio'] = pd.to_datetime(proyectos['fecha_inicio'], errors='coerce')
                proyectos['fecha_finalizacion'] = pd.to_datetime(proyectos['fecha_finalizacion'], errors='coerce')
                proyectos['duracion'] = proyectos['fecha_finalizacion']-proyectos['fecha_inicio']
                proyectos['duracion'] = proyectos['duracion'].dt.days
    else:
        for file in dir:
            df = pd.read_csv(BASE_DIR+'/CSV/'+file)
            proyectos = pd.concat([proyectos, df], ignore_index=True)
            proyectos['fecha_inicio'] = pd.to_datetime(proyectos['fecha_inicio'], errors='coerce')
            proyectos['fecha_finalizacion'] = pd.to_datetime(proyectos['fecha_finalizacion'], errors='coerce')
            proyectos['duracion'] = proyectos['fecha_finalizacion']-proyectos['fecha_inicio']
            proyectos['duracion'] = proyectos['duracion'].dt.days
    return proyectos

In [77]:
proyectos = transform_data()

In [78]:
proyectos.sample(5)

Unnamed: 0,estado_id,fecha_inicio,cantidad_miembros_F,titulo,resumen,monto_total_solicitado,fecha_finalizacion,proyecto_id,proyecto_fuente,palabras_clave,sexo_director,monto_financiado_adjudicado,monto_total_adjudicado,codigo_identificacion,cantidad_miembros_M,monto_financiado_solicitado,fondo_anpcyt,tipo_proyecto_id,moneda_id,año,duracion
11000,1,2014-11-07,4.0,"Comunicación, política y seguridad. La insegur...",La Agenda Noticiosa Y Política De La Ciudad De...,159924.0,2015-01-07,575,ANPCYT,"comunicación, cultura, campañas electorales, s...",F,79924.0,159924.0,PICT-2013-2257,2.0,79924.0,FONCYT,19.0,1,2014,61.0
4112,1,2011-08-26,2.0,Representación sucinta de la información en in...,El Proyecto Está Basado En La Investigación Te...,1130500.0,2015-02-26,696,ANPCYT,"algoritmica, ingeniería de software, complejid...",M,280000.0,1130500.0,PICT-2010-0525,3.0,280000.0,FONCYT,19.0,1,2011,1280.0
9949,1,2014-01-01,3.0,Cazadores-recolectores patagónicos entre la co...,Este proyecto se propone abordar desde una per...,288680.0,2016-12-31,14984,CONICET,Patagonia; Arqueología; Cazadores-recolectores,F,288680.0,288680.0,11220130100599CO,1.0,288680.0,,22.0,1,2014,1095.0
9406,1,2013-09-20,5.0,ASPECTOS BÁSICOS DEL ENVEJECIMIENTO E INFLAMAC...,En Los Mamíferos La Edad Tiene Una Correlación...,1607839.1,2017-03-18,4168,ANPCYT,"Reproducción, inmunosenescencia",F,329839.12,1607839.1,PICT-2012-0290,3.0,329839.12,FONCYT,19.0,1,2013,1275.0
4816,1,2011-10-28,2.0,"ASPECTOS MOLECULARES, BIOQUÍMICOS Y FUNCIONALE...",Las O-Glicoproteínas Ricas En Hidroxiprolina (...,240000.0,2012-01-28,2902,ANPCYT,"glicobiologia, Arabidopsis, pared celular, pro...",M,120000.0,240000.0,PICT-2010-0658,3.0,120000.0,FONCYT,19.0,1,2011,92.0


In [79]:
proyectos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19266 entries, 0 to 19265
Data columns (total 21 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   estado_id                    19266 non-null  int64         
 1   fecha_inicio                 19266 non-null  datetime64[ns]
 2   cantidad_miembros_F          12467 non-null  float64       
 3   titulo                       19266 non-null  object        
 4   resumen                      19220 non-null  object        
 5   monto_total_solicitado       18593 non-null  float64       
 6   fecha_finalizacion           15257 non-null  datetime64[ns]
 7   proyecto_id                  19266 non-null  int64         
 8   proyecto_fuente              19266 non-null  object        
 9   palabras_clave               13780 non-null  object        
 10  sexo_director                19266 non-null  object        
 11  monto_financiado_adjudicado  19266 non-nu

In [80]:
database_url = os.getenv("DATABASE_URL")

def create_db_connection(uri):
    engine = None
    try:
        engine = create_engine(uri)
        with engine.connect():
            print(f"CONNECTED TO {engine.url}")
        return engine
    except:
        print(f"CANNOT CONNECT TO {engine.url}")

In [81]:
def load_data(output):
    engine = create_db_connection(database_url)
    output.to_sql('science_projects', engine, if_exists='replace', schema='public', index=False)
    return "TABLE science_projects SAVED SUCCESSFULLY"

In [82]:
load_data(proyectos)

CANNOT CONNECT TO postgresql://root:***@localhost:5432/database_1


AttributeError: 'NoneType' object has no attribute 'cursor'