## Import data and libraries

In [259]:
import pandas as pd
import sqlalchemy as sql
from siga_scraper_class import siga_grande_scraper
from siga_scraper_class import siga_curriculum_scraper
from courses_list import courses

## Extract data with Scraper

In [260]:
curriculum_scraper = siga_curriculum_scraper()
grade_scrapper = siga_grande_scraper()

- Extract info from grade horária 2023.1

In [261]:
grade_df = grade_scrapper.get_grande_info(courses)
grade_df.head()

Exception: Bad Request

In [None]:
subject_info = curriculum_scraper.get_subject_info()
subject_info.head()

Complete course Gastroenterologia e Endoscopia Digestiva
Complete course Guerra Acústica
Complete course Imunologia Clínica
Complete course Mastologia
Complete course Medicina Interna
Complete course Reprodução Humana
Complete course Administração
Complete course Arquitetura e Urbanismo
Complete course Artes Cênicas
Complete course Artes Cênicas - Cenografia
Complete course Artes Cênicas - Direção Teatral
Complete course Artes Cênicas - Indumentária
Complete course Artes Visuais - Escultura
Complete course Artes Visuais - Gravura
Complete course Astronomia
Complete course Astronomia - Astrofísica
Complete course Astronomia - Astronomia Computacional
Complete course Astronomia - Astronomia Instrumental
Complete course Astronomia - Astronomia Matemática
Complete course Astronomia - Difusão da Astronomia
Complete course Bacharelado em Letras
Complete course Bac em Letras: Português-Alemão
Complete course Bac em Letras: Português-Árabe
Complete course Bac em Letras: Português-Espanhol
Comp

Unnamed: 0,code,subject_name,course_name
0,FMM600,Displina Gastro I,Gastroenterologia e Endoscopia Digestiva
1,FMM601,Disciplina Gastro II,Gastroenterologia e Endoscopia Digestiva
2,FMM602,Disciplina Gastro III,Gastroenterologia e Endoscopia Digestiva
3,FMM603,Disciplina Gastro IV,Gastroenterologia e Endoscopia Digestiva
4,FMM604,Disciplina Gastro V,Gastroenterologia e Endoscopia Digestiva


In [None]:
subject_info[subject_info['subject_name'].str.contains('Programação Avançada')]

Unnamed: 0,code,subject_name,course_name
11492,EEL418,Programação Avançada,Engenharia Elétrica: Ênfase em Eletrônica
11734,EEL418,Programação Avançada,Engenharia Eletrônica e de Computação
13364,EEL418,Programação Avançada,Engenharia de Computação e Informação


## Insert Scraped DataFrame into DB

In [263]:
class insert_into_db():
    def __init__(self, engine):
        engine = sql.create_engine(engine)
        self.conn = engine.connect()
    
    def _insert_dataframe(self, df, table_name):
        df.to_sql(table_name, conn, if_exists="append", index=False)
        print(f"Insert {table_name} table")
        print(df.head())
        print("Number of lines inserted", df.shape)

        return df
    
    def insert_subject(self, grade_df):
        subject_df = subject_info.merge(grade_df, how='inner', on='code').loc[:, ['code', 'subject_name']]
        subject_df = subject_df.rename(
            columns={
                'subject_name': 'name'
            }
        )
        subject_df = subject_df.drop_duplicates(subset=['code'])
        subject_df['subject_id'] = [i for i in range(1, subject_df.shape[0]+1)]
        return self._insert_dataframe(subject_df, "Subject")
   
    def insert_professor(self, grade_df):
        un_professors = grade_df['professor'].unique()
        professors_df = pd.concat([pd.Series(un_professors), pd.Series([i for i in range(1, len(un_professors) + 1)])], axis=1)
        professors_df = professors_df.rename(columns={
            0:"name", 
            1:"professor_id"
        })
        return self._insert_dataframe(professors_df, "Professor")

    def insert_course(self, subject_info):
        un_courses = subject_info['course_name'].unique()
        courses_df = pd.concat([pd.Series(un_courses), pd.Series([i for i in range(1,len(un_courses)+1)])], axis=1)
        courses_df = courses_df.rename(columns={
            0: "name",
            1: "course_id"
        })
        return self._insert_dataframe(courses_df, "Course")
    def insert_teach(self, grade_df, professors_df, subject_df):
        teach_df = grade_df.merge(professors_df, left_on="professor", right_on="name")
        teach_df = teach_df.merge(subject_df.loc[:, ['code', 'subject_id']], on="code")
        teach_df = teach_df.drop_duplicates(subset=['subject_id', 'professor_id'])
        teach_df['period'] = '2023.1'
        teach_df['teach_id'] = [i for i in range(1, teach_df.shape[0]+1)]
        teach_df = teach_df.loc[:,['teach_id', 'period', 'subject_id', 'professor_id']]
        return self._insert_dataframe(teach_df, "Teach")

    def insert_syllabus(self, subject_info, subject_df, courses_df):
        syllabus_df = subject_info.merge(subject_df, left_on='subject_name', right_on='name')
        syllabus_df = syllabus_df.merge(courses_df, left_on='course_name', right_on='name')
        syllabus_df = syllabus_df.loc[:, ['course_id', 'subject_id']].drop_duplicates()
        syllabus_df['syllabus_id'] = [i for i in range(1, syllabus_df.shape[0]+1)]
        return self._insert_dataframe(syllabus_df, "Syllabus")
    

In [264]:
db = insert_into_db('postgresql+psycopg2://postgres:postgres@localhost/postgres')

In [265]:
subject_df = db.insert_subject(grade_df)


Insert Subject table
      code                           name  subject_id
0   ACA115   Fundamentos da Administração           1
12  ACC211     Introdução à Contabilidade           2
21  IEE127             Microeconomia (CC)           3
69  IUF110          Introdução ao Direito           4
72  MAC119  Matemática para Administração           5
Number of lines inserted (3858, 3)


In [None]:
professor_df = db.insert_professor(grade_df)
course_df = db.insert_course(subject_info)
teach_df = db.insert_teach(grade_df, professors_df, subject_df)
syllabus_df = db.insert_syllabus(subject_info, subject_df, courses_df)

                                    name  professor_id
0                 Andre baptista barcaui             1
1             Joao guilherme leal roorda             2
2                 Margo trindade sartori             3
3     Luiz felipe rimola ribeiro da cruz             4
4            Luis claudio bernardo moura             5
...                                  ...           ...
3235    Priscila blasquez da costa leite          3236
3236               Miryam bonadiu pelosi          3237
3237                Juliana araujo silva          3238
3238               Beatriz akemi takeiti          3239
3239               Olivia souza agostini          3240

[3240 rows x 2 columns]
Insert DF
      code                           name  subject_id
0   ACA115   Fundamentos da Administração           1
12  ACC211     Introdução à Contabilidade           2
21  IEE127             Microeconomia (CC)           3
69  IUF110          Introdução ao Direito           4
72  MAC119  Matemática para Adminis