In [1]:
from Lattes import Lattes
import psycopg2, json

import pandas
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression

import statsmodels.api as sm
from scipy import stats
from urllib.parse import urlencode
from psycopg2.extensions import AsIs

Importando Módulos
Módulos Importados


## Função que Pega os Resultados

In [2]:
def gera_sql (indicador, data='2020-01-01', programa=None, CA=None, área=None, chamada=None):
    
    sql_select = f'''
	select indicadores.id, 
		indicadores.tipo, 
		sum(qty) FILTER (WHERE ano <= 2014) AS qty_2014,
		sum(qty) FILTER (WHERE ano <= 2020) AS qty_2020,
		"Chamada" as chamada,
		"Processo" as processo, 
		pgtos 
        '''
    sql_from = '''
	from demanda_bruta
	left join
			(select "Processo" as processo, sum("Valor Pago") as pgtos from pagamentos
			where "Processo" in (select "Processo" from demanda_bruta)
			group by "Processo") AS pgtos
		on demanda_bruta."Processo" = pgtos.processo
	left join indicadores
		on CAST(demanda_bruta.id as bigint) = indicadores.id
	inner join all_lattes
		on CAST(demanda_bruta.id as bigint) = all_lattes.id
'''

    sql_where = f'''
    WHERE
		all_lattes.dt_atualizacao > '{data}'
		and indicadores.tipo = '{indicador}'
        '''
    
    sql_group_by = '''
	GROUP BY
		indicadores.id 
		,indicadores.tipo
		,demanda_bruta."Processo"
		,demanda_bruta."Chamada"
		,pgtos.pgtos'''
    
    if not programa == None:
        sql_where += f'\n		and demanda_bruta."Programa" = \'{programa}\''
        sql_group_by += '\n		,demanda_bruta."Programa"'
    if not CA == None:
        sql_where += f'\n		and demanda_bruta."CA" = \'{CA}\''
        sql_group_by += '\n		,demanda_bruta."CA"'
    if not área == None:
        sql_select += '\n		,areas_conhecimento.area'
        sql_from += '''
	inner join areas_conhecimento
		on CAST(demanda_bruta.id as bigint) = areas_conhecimento.id'''
        sql_where += f"\n		and areas_conhecimento.area = \'{área}\'"
        sql_group_by += '\n		,areas_conhecimento.area'
    if not chamada == None:
        sql_where += f'\n		and demanda_bruta.\"Chamada\" = \'{chamada}\''
        
    
    return sql_select + sql_from + sql_where + sql_group_by


## Função para gravar os resultados das regressões lineares

In [3]:


def grava_resultados (est2, 
                      indicador = None, 
                      data=None, 
                      programa=None, 
                      CA=None, 
                      área=None, 
                      chamada=None, 
                      path = None, 
                      média_investimento = None, 
                      total_investido = None):
    parâmetros = {}
    if path == None:
        path='d:/Lattes/Linnear Regression Models/'
        
    #Saving Regression Results
    parâmetros['chamada'] = chamada
    parâmetros['programa'] = programa
    parâmetros['CA'] = CA
    parâmetros['área'] = área
    parâmetros['indicador'] = indicador
    parâmetros['data'] = data

    
    #Saving Results into BD
    if not est2 == None:
        filename = path + urlencode(parâmetros, doseq=True)    
        est2.save(filename)
        
        resultado = {
                    'chamada': chamada,
                    'programa': programa,
                    'indicador': indicador,
                    'data': data,
                    'ca': CA,
                    'area': área,
                    'total_investido': total_investido,
                    'media_investimento': média_investimento,
                    'f_total': est2.f_pvalue,
                    'f_pagtos': est2.pvalues['pgtos'],
                     'parametro_pgtos': est2.params['pgtos'],
                     'f_qty_2014': est2.pvalues['qty_2014'],
                     'parametro_qty_2014': est2.params['qty_2014'],
                     'f_const': est2.pvalues['const'],
                     'parametro_const': est2.params['const'],
                     'r2': est2.rsquared
        }
    else:
        resultado = {
                    'chamada': chamada,
                    'programa': programa,
                    'indicador': indicador,
                    'data': data,
                    'ca': CA,
                    'area': área,
                    'total_investido': total_investido,
                    'media_investimento': média_investimento,
                    'f_total': None,
                    'f_pagtos': None,
                     'parametro_pgtos': None,
                     'f_qty_2014': None,
                     'parametro_qty_2014': None,
                     'f_const': None,
                     'parametro_const': None,
                     'r2': None
                    }
    columns = resultado.keys()
    values = [resultado[column] for column in columns]
    insert_statement = 'insert into resultados_regressao_linear (%s) values %s'

    params = Database.config_db_connection()
    conn = psycopg2.connect(**params)
    cur = conn.cursor()
    cur.execute(insert_statement, (AsIs(','.join(columns)), tuple(values)))
    conn.commit()
    cur.close()



## Ver se já foi feita a regressão linear

In [4]:
def já_feita(indicador, 
            data='2020-01-01', 
            programa=None, 
            CA=None, 
            área=None, 
            chamada=None,
            path='d:/Lattes/Linnear Regression Models/'
            ):
    parâmetros = {}
    parâmetros['chamada'] = chamada
    parâmetros['programa'] = programa
    parâmetros['CA'] = CA
    parâmetros['área'] = área
    parâmetros['indicador'] = indicador
    parâmetros['data'] = data
    
    filename = path + urlencode(parâmetros, doseq=True)
    if os.isfile(filename):
        return True
    
    SQL = f'''
            SELECT count(*) 
            FROM resultados_regressao_linear
            WHERE
                chamada = {chamada} and
                programa = {programa} and
                ca = {ca} and
                area = {area} and
                indicador = {indicador} and
                data = {data}
            ''' 
    conn = None
    try:
        params = Database.config_db_connection()
        conn = psycopg2.connect(**params)
        cur = conn.cursor()
        cur.execute(SQL)
        lista_indicadores = cur.fetchall()
        conn.commit()
        cur.close()
    except (Exception, psycopg2.DatabaseError) as error:
        print (error)
    finally:
        if conn is not None:
            conn.close()
    

## Função que faz a regressão linear

In [5]:
def pega_resultado (indicador, 
                    data='2020-01-01', 
                    programa=None, 
                    CA=None, 
                    área=None, 
                    chamada=None, 
                    path ='d:/Lattes/Linnear Regression Models/'):
    SQL = gera_sql(indicador = indicador, data=data, programa=programa, CA=CA, área=área, chamada=chamada)
    #print(SQL)
    file = open("d:/resultados.txt", "a")
    engine = Carga.db_engine()
    pd = pandas.read_sql(SQL, engine)
    pd['pgtos'] = pandas.to_numeric(pd['pgtos'].fillna(0))
    pd['qty_2014'] = pandas.to_numeric(pd['qty_2014'].fillna(0))
    pd['qty_2020'] = pandas.to_numeric(pd['qty_2020'].fillna(0))
    X = pd[['pgtos', 'qty_2014']]
    y = pandas.DataFrame(pd, columns=['qty_2020'])
    média_investimento = float(pd[pd['pgtos']!=0].pgtos.mean())
    total_investido = float(pd[pd['pgtos']!=0].pgtos.sum())
    try:
        X2 = sm.add_constant(X)
        est = sm.OLS(y, X2)
        est2 = est.fit()
        

        
        grava_resultados (est2 = est2, 
                          indicador = indicador, 
                          data = data, 
                          programa = programa, 
                          CA = CA, 
                          área = área, 
                          chamada = chamada, 
                          path='d:/Lattes/Linnear Regression Models/', 
                          média_investimento = média_investimento, 
                          total_investido = total_investido)       

        return est2.summary()
    except:
        grava_resultados (est2 = None, 
                          indicador = indicador, 
                          data = data, 
                          programa = programa, 
                          CA = CA, 
                          área = área, 
                          chamada = chamada, 
                          path='d:/Lattes/Linnear Regression Models/', 
                          média_investimento = média_investimento, 
                          total_investido = total_investido) 
        return ''


## Pegar Lista de Indicadores

In [None]:
from Lattes import Lattes
SQL = '''
        select distinct "tipo" from indicadores
        ''' 
conn = None
try:
    params = Database.config_db_connection()
    conn = psycopg2.connect(**params)
    cur = conn.cursor()
    cur.execute(SQL)
    lista_indicadores = [x[0] for x in cur.fetchall()]
    conn.commit()
    cur.close()
except (Exception, psycopg2.DatabaseError) as error:
    print (error)
finally:
    if conn is not None:
        conn.close()



## Pegar Lista de Programas

In [None]:
SQL = '''
        select distinct "Programa" from demanda_bruta
        ''' 
conn = None
try:
    params = Database.config_db_connection()
    conn = psycopg2.connect(**params)
    cur = conn.cursor()
    cur.execute(SQL)
    programas = [x[0] for x in cur.fetchall()]
    conn.commit()
    cur.close()
except (Exception, psycopg2.DatabaseError) as error:
    print (error)
finally:
    if conn is not None:
        conn.close()


## Pegar Lista de Chamadas

In [None]:
SQL = '''
        select distinct "Chamada" from demanda_bruta
        ''' 
conn = None
try:
    params = Database.config_db_connection()
    conn = psycopg2.connect(**params)
    cur = conn.cursor()
    cur.execute(SQL)
    chamadas = [x[0] for x in cur.fetchall()]
    conn.commit()
    cur.close()
except (Exception, psycopg2.DatabaseError) as error:
    print (error)
finally:
    if conn is not None:
        conn.close()

## Pegar Lista de CAs

In [None]:
SQL = '''
        select distinct "CA" from demanda_bruta
        ''' 
conn = None
try:
    params = Database.config_db_connection()
    conn = psycopg2.connect(**params)
    cur = conn.cursor()
    cur.execute(SQL)
    CAs = [x[0] for x in cur.fetchall()]
    conn.commit()
    cur.close()
except (Exception, psycopg2.DatabaseError) as error:
    print (error)
finally:
    if conn is not None:
        conn.close()

## Verificando Resultados da Chamada

In [None]:
data = '2020-01-01'
num_chamada = 0
num_programa = 0
num_indicador = 0
for chamada in chamadas:
    num_chamada += 1
    num_programa = 0
    print(f'VERIFICANDO CHAMADA {chamada}')
    for programa in programas:
        num_programa += 1
        num_indicador = 0
        print(f'Programa: {programa}')
        for indicador in lista_indicadores:
            num_indicador +=1
            result = pega_resultado(indicador=indicador, programa=programa, chamada=chamada, data=data)
            print(f'''
            Chamada {num_chamada}/{len(chamadas)} - {chamada};
            Programa {num_programa}/{len(programas)} - {programa};
            Indicador {num_indicador}/{len(lista_indicadores)} - {indicador}
            {result}
            
            ___
            ''')
