In [2]:
import pandas as pd
import numpy as np

import rows

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)

import warnings
warnings.filterwarnings('ignore')

from tabula import read_pdf
import camelot

import qgrid
def qg(df):
    return(qgrid.show_grid(df,show_toolbar=True, grid_options={'forceFitColumns': False}))

import matplotlib.pyplot as plt

## Itens Necessários para análise
-  orçamento total obrigatório e discricionário
-  alunos matriculados, vagas no vestibular e alunos formandos, tudo aberto por curso, discriminado o número de anos previsto para conclusão

----
## Dados

#### UNICAMP
- [Anuarios](https://www.aeplan.unicamp.br/anuario/anuario.php)

#### USP
- [Orçamento](http://www.usp.br/codage/?q=node/35)
- [Anuarios](https://uspdigital.usp.br/anuario/AnuarioControle)

#### UNESP
- [Anuarios](https://ape.unesp.br/anuario/)

#### Unicamp

- Vestibular
    (1) A partir de 2019 a UNICAMP passou a adotar 4 formas de ingresso (Vestibular, ENEM-UNICAMP, Vestibular Indígena e Vagas Olímpicas). Foram oferecidas 3.396 vaga para ingresso nos cursos de graduação da UNICAMP, distribuídas nos seguintes sistemas de ingresso: 2.589 vagas oferecidas pelo Vestibular, 645 vagas para ENEM-UNICAMP, 23 vagas para Vestibular Indígena (mais 49 vagas adicionais); e 83 vagas para Vagas Olímpicas (mais 7 vagas adicionais). O candidato inscrito está contado uma única vez, através de seu CPF, independente da forma de ingresso e curso escolhido.
- (2) As vagas regulares não preenchidas, do Vestibular Indígena e das Vagas Olímpicas, voltaram a estar disponiveis para preenchimento pelo Vestibular UNICAMP 2019. As vagas adicionais não preenchidas, do Vestibular Indígena e das Vagas Olímpicas, por serem de preenchimento facultativo não foram transferidas para o Vestibular UNICAM 2019.


# Unicamp

## Vestibular

In [19]:
dd = camelot.read_pdf('files/unicamp_anuario_2019.pdf', pages='28-30', flavor='stream', )

In [53]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

In [61]:
mask = (df[3]!='') & (df[1]!='') & (df[1]!='TOTAL')
df2 = df[mask]

df2[3] = df2[3].str.replace('.','').astype(float)

df2 = df2.drop(columns=[0,9,12,13,14,15])

In [63]:
rename_cols = {
    1:'curso',
    2:'periodo',
    3:'incritos_vestibular',
    4:'incritos_enem',
    5:'incritos_indigena',
    6:'incritos_olimpiada',
    7:'vagas_vestibular',
    8:'vagas_enem',
    10:'vagas_indigena',
    11:'vagas_olimpiada',
    
}

df2 = df2.rename(columns=rename_cols)

In [67]:
df2['ano']=2019

#### 2018 a 2009

In [72]:
dd = camelot.read_pdf('files/unicamp_anuario_2018.pdf', pages='28-34', flavor='stream', )

In [160]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

In [196]:
mask = (df[13]!='') & (df[3]!='Relação Candidatos / Vaga') & (df[4]!='2009')
df2 = df[mask]

df2 = df2.drop(columns=[0])

rename_cols = {
    1:'curso',
    2:'periodo',
    3:'col',
    4:2009,
    5:2010,
    6:2011,
    7:2012,
    8:2013,
    9:2014,
    10:2015,
    11:2016,
    12:2017,
    13:2018
}

df2 = df2.rename(columns=rename_cols)

cursos = df2['curso'].tolist()

curso_final=[]
for i in range(len(cursos)-1):
    if cursos[i]=='':
        curso_final.append(cursos[i])
    else:
        if cursos[i+1]!='':
            curso_final.append(cursos[i] + " " + cursos[i+1])
        else:
            curso_final.append(cursos[i])


curso_final.append(np.nan)

# df2['curso_errado']= df2['curso']
df2['curso']= curso_final

df2 = df2.reset_index(drop=True)
df2 = df2.drop(index=10)
mask = df2[2018]!='Fonte: COMVEST'
df2 = df2[mask]

df2 = df2.reset_index(drop=True)

df2['curso']= np.where(df2.index%2==1, np.nan, df2['curso'])
df2['periodo']= np.where(df2.index%2==1, np.nan, df2['periodo'])

df2['curso'] = df2['curso'].fillna(method='ffill')
df2['periodo'] = df2['periodo'].fillna(method='ffill')

In [252]:
cursos   = df2['curso'].tolist()
periodos = df2['periodo'].tolist()

years = [i+1 for i in range(2008,2018)]

df_final = pd.DataFrame()

for i in range(len(cursos)):
    curso = cursos[i]
    periodo = periodos[i]
#     print(curso)
    for year in years:
        df_f = pd.DataFrame([curso], columns=['curso'])
        df_f['periodo']= periodo
        
        mask = (df2['curso']==curso) & (df2['col']=='Vagas')
        df_f['vagas'] =  df2[mask][year].values[0]
        
        mask = (df2['curso']==curso) & (df2['col']=='Candidatos')
        df_f['candidatos'] =  df2[mask][year].values[0]
        
        df_f['ano'] = year
        
        df_final = pd.concat([df_final,df_f],axis=0)

In [253]:
df_final = df_final.drop_duplicates(subset=df_final.columns).reset_index(drop=True)

In [256]:
# df_final.to_excel('unicamp_vestibular_2009_2018.xlsx', index=False, encoding='utf-8')

### Vagas 2009 - 2018

In [590]:
dd = camelot.read_pdf('files/unicamp_anuario_2019.pdf', pages='48-51', flavor='stream')

In [591]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[83:115] = df.loc[83:115].shift(1,axis=1)
df = df.drop(index=[i for i in range(115,132)], columns=[0])
df.columns = df.loc[0].tolist()


In [597]:
mask = (df[df.columns[0]]!='') & (df['PERÍODO']!='PERÍODO') & (df['PERÍODO']!='')
df2 = df[mask]

cols_rename = {
    df.columns[0]:'curso',
    df.columns[1]:'periodo'
    
}
df2 = df2.rename(columns=cols_rename)

In [598]:
df2['curso'] = df2['curso'].replace(df2['curso'].tolist()[-1], 'Física/Matemática/Mat. Aplicada e Computacional/Engenharia, Física/Física: Médica e Biomédica')
df2['curso'] = df2['curso'].str.replace('\d','', regex=True).str.strip('()').str.strip()

In [600]:
cursos   = df2['curso'].tolist()
periodos = df2['periodo'].tolist()

years = [str(i+1) for i in range(2008,2018)]

df_final = pd.DataFrame()

for i in range(len(cursos)):
    curso = cursos[i]
    periodo = periodos[i]
#     print(curso)
    for year in years:
        df_f = pd.DataFrame([curso], columns=['curso'])
        df_f['periodo']= periodo
        
        mask = (df2['curso']==curso)
        df_f['vagas'] =  df2[mask][year].values[0]
        
        df_f['ano_base'] = year
        
        df_final = pd.concat([df_final,df_f],axis=0)

In [601]:
df_final = df_final.drop_duplicates(subset=df_final.columns).reset_index(drop=True)

In [603]:
# df_final.to_excel('dados/unicamp_vestibular_2009_2018.xlsx', index=False)

## Alunos 2018

In [412]:
dd = camelot.read_pdf('files/unicamp_anuario_2019.pdf', pages='53-59', flavor='stream', )

In [413]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

df.loc[83:115] = df.loc[83:115].shift(1,axis=1)

In [414]:
mask = (df[4]!='')&(df[0]!='UNIDADES') & (df[1]!='OPÇÃO POR INGRESSO')
df2 = df[mask]

In [415]:
df2[1] = np.where(df2[1]=='',df2[0],df2[1] )

df2 = df2[[1,2,3,4,5]]

In [417]:
df2 = df2.drop(index=[84,194,195,196])

In [419]:
df2[1] = df2[1].replace(df2[1].tolist()[-1], 'Física/Matemática/Mat. Aplicada e Computacional/Engenharia, Física/Física: Médica e Biomédica')

In [420]:
cols_rename = {
    1:'curso',
    2:'periodo',
    3:'ingressantes',
    4:'matriculados',
    5:'concluintes'
}
df2 = df2.rename(columns=cols_rename)

df2['ano_base'] = 2018

In [422]:
# df2.to_excel('unicamp_alunos_2018_graduação.xlsx', index=False)

## Alunos 2017

In [423]:
dd = camelot.read_pdf('files/unicamp_anuario_2018.pdf', pages='59-65', flavor='stream', )

In [426]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

df.loc[84:115] = df.loc[84:115].shift(1,axis=1)

In [439]:
mask = (df[4]!='')&(df[0]!='UNIDADES') & (df[1]!='OPÇÃO POR INGRESSO') & (df[2]!='PERÍODO')
df2 = df[mask]

In [440]:
df2[1] = np.where(df2[1]=='',df2[0],df2[1] )

df2 = df2[[1,2,3,4,5]]

In [441]:
df2 = df2.drop(index=[195,196,197])
df2[1] = df2[1].replace(df2[1].tolist()[-1], 'Física/Matemática/Mat. Aplicada e Computacional/Engenharia, Física/Física: Médica e Biomédica')

In [443]:
cols_rename = {
    1:'curso',
    2:'periodo',
    3:'ingressantes',
    4:'matriculados',
    5:'concluintes'
}
df2 = df2.rename(columns=cols_rename)

df2['ano_base'] = 2017

In [445]:
# df2.to_excel('unicamp_alunos_2017_graduação.xlsx', index=False)

## Alunos 2016

In [446]:
dd = camelot.read_pdf('files/unicamp_anuario_2017.pdf', pages='59-65', flavor='stream', )

In [449]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [464]:
mask = (df[4]!='')&(df[0]!='UNIDADES') & (df[1]!='OPÇÃO POR INGRESSO') & (df[2]!='PERÍODO')
df2 = df[mask]

In [465]:
df2[1] = np.where(df2[1]=='',df2[0],df2[1] )

df2 = df2[[1,2,3,4,5]]

In [466]:
df2 = df2.drop(index=[193,194,195])
df2[1] = df2[1].replace(df2[1].tolist()[-1], 'Física/Matemática/Mat. Aplicada e Computacional/Engenharia, Física/Física: Médica e Biomédica')

In [467]:
cols_rename = {
    1:'curso',
    2:'periodo',
    3:'ingressantes',
    4:'matriculados',
    5:'concluintes'
}
df2 = df2.rename(columns=cols_rename)

df2['ano_base'] = 2016

In [115]:
# df2.to_excel('unicamp_alunos_2016_graduação.xlsx', index=False)

### Merge Data

In [725]:
df_2016 = pd.read_excel('dados/unicamp_alunos_2016_graduação.xlsx', dtype={'matriculados':int})
df_2017 = pd.read_excel('dados/unicamp_alunos_2017_graduação.xlsx', dtype={'matriculados':int})
df_2018 = pd.read_excel('dados/unicamp_alunos_2018_graduação.xlsx', dtype={'matriculados':int})



df_final = pd.concat([df_2016,df_2017], axis=0)
df_final = pd.concat([df_final,df_2018], axis=0)

df_final['curso'] = df_final['curso'].str.replace('\d','', regex=True).str.strip('()').str.strip().str.replace('  ',' ')
df_final['ingressantes'] = pd.to_numeric(df_final['ingressantes'],errors='coerce')
df_final['matriculados'] = pd.to_numeric(df_final['matriculados'],errors='coerce')
df_final['concluintes'] = pd.to_numeric(df_final['concluintes'],errors='coerce')




df_final['curso'] = df_final['curso'].str.replace('Letras – Licenciatura','Letras')

df_final = df_final.groupby(by=['curso','periodo','ano_base'], as_index=False).sum()

In [733]:
df_vagas=pd.read_excel('dados/unicamp_vestibular_2009_2018.xlsx')
df_vagas['curso'] = df_vagas['curso'].str.replace('\d','', regex=True).str.strip('()').str.strip().str.replace('  ',' ').str.replace('(','', regex=True).str.replace('CI','', regex=True).str.strip()

df_vagas['ano_base'] = df_vagas['ano_base'].astype(int)
df_vagas['curso'] = np.where(df_vagas['curso'].str.contains('Música'), 'Música', df_vagas['curso'])
df_vagas['vagas'] = pd.to_numeric(df_vagas['vagas'],errors='coerce')

mask = df_vagas['ano_base']>=2016
df_vagas = df_vagas[mask]

df_vagas['curso'] = df_vagas['curso'].str.replace('Física – Licenciatura','Licenciatura em Física').str.replace('Tec. em Análise e Desenvolvimento de Sistemas','Tec. em Análise e Desenvolvim. de Sistemas')
df_vagas['curso'] = df_vagas['curso'].str.replace('Tec. em Análise e Desenvolvimento de Sistemas','Tec. em Análise e Desenvolvim. de Sistemas')
df_vagas['curso'] = df_vagas['curso'].str.replace('Letras – Licenciatura','Letras')

df_vagas = df_vagas.groupby(by=['curso','periodo','ano_base'], as_index=False).sum()

In [734]:
df_merge = pd.merge(df_final,df_vagas,how='outer', on=['curso','periodo','ano_base'])

In [750]:
mask = (df_merge['vagas'].notnull()) & (df_merge['ingressantes'].notnull())

df_merge = df_merge[mask]

In [752]:
df_merge.tail()

Unnamed: 0,curso,periodo,ano_base,ingressantes,matriculados,concluintes,vagas
223,Tec. em Saneamento Ambiental,(N),2016,18.0,149.0,23.0,40.0
224,Tec. em Saneamento Ambiental,(N),2017,0.0,10.0,7.0,40.0
225,Tec. em Saneamento Ambiental,(N),2018,27.0,95.0,15.0,40.0
227,Tec. em Sistemas de Telecomunicações,(D),2016,0.0,13.0,11.0,0.0
228,Tec. em Sistemas de Telecomunicações,(D),2017,0.0,2.0,2.0,0.0


In [754]:
# df_merge.to_excel('dados/unicamp_graduacao_alunos.xlsx', index=False)

# USP

## Vagas e Concluintes

In [856]:
dd = camelot.read_pdf('files/usp_anuario_2019.pdf', pages='202-222', flavor='stream',table_areas=['0,557,1000,50'])

In [857]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [858]:
mask = df[12].isnull()
g1 = df[mask]

g2 = df[np.logical_not(mask)]

In [860]:
rename_cols = {
    0:'curso',
    1:'2015_vagas',
    2:'2015_concluintes',
    3:'2016_vagas',
    4:'2016_concluintes',
    5:'2017_vagas',
    6:'2017_concluintes',
    7:'2018_vagas',
    8:'2018_concluintes',
}

g1 = g1.rename(columns=rename_cols)
g1 = g1.drop(columns=[9,10,11,12])

In [863]:
rename_cols = {
    0:'curso',
    1:'2015_vagas',
    3:'2015_concluintes',
    4:'2016_vagas',
    6:'2016_concluintes',
    7:'2017_vagas',
    9:'2017_concluintes',
    10:'2018_vagas',
    12:'2018_concluintes',
}

g2 = g2.rename(columns=rename_cols)
g2 = g2.drop(columns=[2,5,8,11])

In [900]:
df2 = pd.concat([g2,g1], axis=0)

#remove some lines
mask = (df2['curso']!='') & (df2['curso']!='Unidade') & (df2['curso']!='Total Unidade') & (df2['curso']!='TOTAL')
df2 = df2[mask]

#remove the unitys
cols = df2.columns[1:].tolist()
mask = (df2[cols[0]]=='') & (df2[cols[1]]=='') & (df2[cols[2]]=='') & (df2[cols[3]]=='')& \
       (df2[cols[4]]=='') & (df2[cols[5]]=='') & (df2[cols[6]]=='') & (df2[cols[7]]=='')

df2 = df2[np.logical_not(mask)]


In [903]:
for col in cols:
    df2[col] = pd.to_numeric(df2[col], errors='coerce')

In [106]:
df_vagas = df2[['curso','2015_vagas','2016_vagas','2017_vagas','2018_vagas']]
df_concluintes = df2[['curso','2015_concluintes','2016_concluintes','2017_concluintes','2018_concluintes']]

In [108]:
cols_rename = {
    '2015_vagas':2015,
    '2016_vagas':2016,
    '2017_vagas':2017,
    '2018_vagas':2018
}
df_vagas = df_vagas.rename(columns=cols_rename)

cols_rename = {
    '2015_concluintes':2015,
    '2016_concluintes':2016,
    '2017_concluintes':2017,
    '2018_concluintes':2018
}
df_concluintes = df_concluintes.rename(columns=cols_rename)

In [113]:
# df_vagas.to_excel('usp_alunos_vagas_2015_to_2018.xlsx', index=False, encoding='utf-8')

In [114]:
# df_concluintes.to_excel('usp_alunos_concluintes_2015_to_2018.xlsx', index=False, encoding='utf-8')

## Matriculados 2018

In [263]:
dd = camelot.read_pdf('files/usp_anuario_2019.pdf', pages='59-93', flavor='stream',table_areas=['0,557,1000,50'])

In [264]:
# %matplotlib inline
# for i in range(len(dd)):
#     fig = camelot.plot(dd[i], kind='text')
#     size = fig.get_size_inches()*fig.dpi # size in pixels
# #     print(size)
#     plt.show()

In [265]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [266]:
mask = df[8].isnull()
g1 = df[mask]

g2 = df[np.logical_not(mask)]

mask = g1[7].isnull()
g3 = g1[mask]

g1 = g1[np.logical_not(mask)]

In [267]:
g1 = g1[[0,1,6,7]]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    6:'1_sem',
    7:'2_sem'
}

g1 = g1.rename(columns=cols_rename)

g2 = g2[[0,1,7,8]]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    7:'1_sem',
    8:'2_sem'
}

g2 = g2.rename(columns=cols_rename)

g3 = g3[[0,1,5,6]]
g3[1]=g3[0]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    5:'1_sem',
    6:'2_sem'
}

g3 = g3.rename(columns=cols_rename)

In [268]:
mask = (g1['curso']!='Unidade\nCurso / Habilitação') & (g1['curso']!='A - Ensino e Pesquisa') & (g1['1_sem']!='Total')
g1 = g1[mask]

mask = (g1['curso']=='') & (g1['1_sem']=='') & (g1['2_sem']=='')
g1 = g1[np.logical_not(mask)]


mask = g1['curso'].str.isupper().fillna(False)
g1 = g1[np.logical_not(mask)]

mask = (g1['habilitacao']!='Total Curso') & (g1['habilitacao']!='Total Unidade')
g1 = g1[mask]

g1 = g1.drop(index=[1078,1079,1080])

mask = (g1['curso'].notnull()) & (g1['habilitacao']=='') & (g1['1_sem']=='') & (g1['2_sem']=='')

g1['curso_f'] = np.where(mask, g1['curso'],np.nan)
g1['curso'] = np.where(np.logical_not(mask), g1['curso'],np.nan)

g1['curso_f'] = g1['curso_f'].fillna(method='ffill')

mask = g1['curso'].notnull()
g1 = g1[mask]

g1['habilitacao'] = g1['curso']
g1['curso'] = g1['curso_f']

g1 = g1.drop(columns=['curso_f'])

In [269]:
mask = (g2['curso']!='Unidade\nCurso / Habilitação') & (g2['curso']!='A - Ensino e Pesquisa') & (g2['1_sem']!='Total') & (g2['curso']!='Unidade')
g2 = g2[mask]

mask = (g2['curso']=='') & (g2['1_sem']=='') & (g2['2_sem']=='')
g2 = g2[np.logical_not(mask)]


mask = g2['curso'].str.isupper().fillna(False)
g2 = g2[np.logical_not(mask)]

mask = (g2['habilitacao']!='Total Curso') & (g2['habilitacao']!='Total Unidade')
g2 = g2[mask]


g2['curso'] = np.where(g2['curso']=='', np.nan, g2['curso'])

g2['curso'] = g2['curso'].fillna(method='ffill')
mask = (g2['habilitacao']!='')
g2 = g2[mask]

In [270]:
mask = (g3['curso']!='Unidade\nCurso / Habilitação') & (g3['curso']!='A - Ensino e Pesquisa') & (g3['1_sem']!='Total') & (g3['curso']!='Unidade')
g3 = g3[mask]

mask = (g3['curso']=='') & (g3['1_sem']=='') & (g3['2_sem']=='')
g3 = g3[np.logical_not(mask)]


mask = g3['curso'].str.isupper().fillna(False)
g3 = g3[np.logical_not(mask)]

mask = (g3['habilitacao']!='Total Curso') & (g3['habilitacao']!='Total Unidade') & (g3['2_sem']!='')
g3 = g3[mask]
g3['curso']='Letras'

In [271]:
df2 = pd.concat([g1,g2,g3], axis=0)

mask = (df2['curso']!='Unidade\nCurso / Habilitação') & (df2['curso']!='A - Ensino e Pesquisa') & (df2['1_sem']!='Total')
df2 = df2[mask]

mask = (df2['curso']=='') & (df2['1_sem']=='') & (df2['2_sem']=='')
df2 = df2[np.logical_not(mask)]

# df2['ano_base']=2018

In [272]:
df2['1_sem'] = pd.to_numeric(df2['1_sem'], errors='coerce').fillna(0).astype(int)
df2['2_sem'] = pd.to_numeric(df2['2_sem'], errors='coerce').fillna(0).astype(int)

df2[2018]=df2['1_sem']+df2['2_sem']

df_18 = df2.drop(columns=['1_sem','2_sem'])

In [273]:
df2.to_excel('dados/usp_matriculados_2018.xlsx', index=False, encoding='utf-8')

## Matriculados 2017

In [216]:
dd = camelot.read_pdf('files/usp_anuario_2018.pdf', pages='57-92', flavor='stream',table_areas=['0,557,1000,50'])

In [217]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [221]:
mask = df[8].isnull()
g1 = df[mask]

g2 = df[np.logical_not(mask)]

mask = g1[7].isnull()
g3 = g1[mask]

g1 = g1[np.logical_not(mask)]

In [222]:
g1 = g1[[0,1,6,7]]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    6:'1_sem',
    7:'2_sem'
}

g1 = g1.rename(columns=cols_rename)

g2 = g2[[0,1,7,8]]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    7:'1_sem',
    8:'2_sem'
}

g2 = g2.rename(columns=cols_rename)

g3 = g3[[0,1,5,6]]
g3[1]=g3[0]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    5:'1_sem',
    6:'2_sem'
}

g3 = g3.rename(columns=cols_rename)

In [225]:
mask = (g1['curso']!='Unidade\nCurso / Habilitação') & (g1['curso']!='A - Ensino e Pesquisa') & (g1['1_sem']!='Total')
g1 = g1[mask]

mask = (g1['curso']=='') & (g1['1_sem']=='') & (g1['2_sem']=='')
g1 = g1[np.logical_not(mask)]


mask = g1['curso'].str.isupper().fillna(False)
g1 = g1[np.logical_not(mask)]

mask = (g1['habilitacao']!='Total Curso') & (g1['habilitacao']!='Total Unidade')
g1 = g1[mask]

g1 = g1.drop(index=[1092,1093,1094])

mask = (g1['curso'].notnull()) & (g1['habilitacao']=='') & (g1['1_sem']=='') & (g1['2_sem']=='')

g1['curso_f'] = np.where(mask, g1['curso'],np.nan)
g1['curso'] = np.where(np.logical_not(mask), g1['curso'],np.nan)

g1['curso_f'] = g1['curso_f'].fillna(method='ffill')

mask = g1['curso'].notnull()
g1 = g1[mask]

g1['habilitacao'] = g1['curso']
g1['curso'] = g1['curso_f']

g1 = g1.drop(columns=['curso_f'])

In [227]:
mask = (g2['curso']!='Unidade\nCurso / Habilitação') & (g2['curso']!='A - Ensino e Pesquisa') & (g2['1_sem']!='Total') & (g2['curso']!='Unidade')
g2 = g2[mask]

mask = (g2['curso']=='') & (g2['1_sem']=='') & (g2['2_sem']=='')
g2 = g2[np.logical_not(mask)]


mask = g2['curso'].str.isupper().fillna(False)
g2 = g2[np.logical_not(mask)]

mask = (g2['habilitacao']!='Total Curso') & (g2['habilitacao']!='Total Unidade')
g2 = g2[mask]


g2['curso'] = np.where(g2['curso']=='', np.nan, g2['curso'])

g2['curso'] = g2['curso'].fillna(method='ffill')
mask = (g2['habilitacao']!='')
g2 = g2[mask]

In [229]:
mask = (g3['curso']!='Unidade\nCurso / Habilitação') & (g3['curso']!='A - Ensino e Pesquisa') & (g3['1_sem']!='Total') & (g3['curso']!='Unidade')
g3 = g3[mask]

mask = (g3['curso']=='') & (g3['1_sem']=='') & (g3['2_sem']=='')
g3 = g3[np.logical_not(mask)]


mask = g3['curso'].str.isupper().fillna(False)
g3 = g3[np.logical_not(mask)]

mask = (g3['habilitacao']!='Total Curso') & (g3['habilitacao']!='Total Unidade') & (g3['2_sem']!='')
g3 = g3[mask]
g3['curso']='Letras'

In [256]:
df2 = pd.concat([g1,g2,g3], axis=0)

mask = (df2['curso']!='Unidade\nCurso / Habilitação') & (df2['curso']!='A - Ensino e Pesquisa') & (df2['1_sem']!='Total')
df2 = df2[mask]

mask = (df2['curso']=='') & (df2['1_sem']=='') & (df2['2_sem']=='')
df2 = df2[np.logical_not(mask)]

# df2['ano_base']=2017

In [257]:
df2['1_sem'] = pd.to_numeric(df2['1_sem'], errors='coerce').fillna(0).astype(int)
df2['2_sem'] = pd.to_numeric(df2['2_sem'], errors='coerce').fillna(0).astype(int)

df2[2017]=df2['1_sem']+df2['2_sem']

df_17 = df2.drop(columns=['1_sem','2_sem'])

In [261]:
# df2.to_excel('usp_matriculados_2017.xlsx', index=False, encoding='utf-8')

## Matriculados 2016

In [274]:
dd = camelot.read_pdf('files/usp_anuario_2017.pdf', pages='55-89', flavor='stream',table_areas=['0,557,1000,50'])

In [275]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [284]:
mask = df[8].isnull()
g1 = df[mask]

g2 = df[np.logical_not(mask)]

mask = g1[7].isnull()
g3 = g1[mask]

g1 = g1[np.logical_not(mask)]

In [285]:
g1 = g1[[0,1,6,7]]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    6:'1_sem',
    7:'2_sem'
}

g1 = g1.rename(columns=cols_rename)

g2 = g2[[0,1,7,8]]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    7:'1_sem',
    8:'2_sem'
}

g2 = g2.rename(columns=cols_rename)

g3 = g3[[0,1,5,6]]
g3[1]=g3[0]

cols_rename = {
    0:'curso',
    1:'habilitacao',
    5:'1_sem',
    6:'2_sem'
}

g3 = g3.rename(columns=cols_rename)

In [286]:
mask = (g1['curso']!='Unidade\nCurso / Habilitação') & (g1['curso']!='A - Ensino e Pesquisa') & (g1['1_sem']!='Total')
g1 = g1[mask]

mask = (g1['curso']=='') & (g1['1_sem']=='') & (g1['2_sem']=='')
g1 = g1[np.logical_not(mask)]


mask = g1['curso'].str.isupper().fillna(False)
g1 = g1[np.logical_not(mask)]

mask = (g1['habilitacao']!='Total Curso') & (g1['habilitacao']!='Total Unidade')
g1 = g1[mask]

g1 = g1.drop(index=[1058,1059,1060])

mask = (g1['curso'].notnull()) & (g1['habilitacao']=='') & (g1['1_sem']=='') & (g1['2_sem']=='')

g1['curso_f'] = np.where(mask, g1['curso'],np.nan)
g1['curso'] = np.where(np.logical_not(mask), g1['curso'],np.nan)

g1['curso_f'] = g1['curso_f'].fillna(method='ffill')

mask = g1['curso'].notnull()
g1 = g1[mask]

g1['habilitacao'] = g1['curso']
g1['curso'] = g1['curso_f']

g1 = g1.drop(columns=['curso_f'])

In [288]:
mask = (g2['curso']!='Unidade\nCurso / Habilitação') & (g2['curso']!='A - Ensino e Pesquisa') & (g2['1_sem']!='Total') & (g2['curso']!='Unidade')
g2 = g2[mask]

mask = (g2['curso']=='') & (g2['1_sem']=='') & (g2['2_sem']=='')
g2 = g2[np.logical_not(mask)]


mask = g2['curso'].str.isupper().fillna(False)
g2 = g2[np.logical_not(mask)]

mask = (g2['habilitacao']!='Total Curso') & (g2['habilitacao']!='Total Unidade')
g2 = g2[mask]


g2['curso'] = np.where(g2['curso']=='', np.nan, g2['curso'])

g2['curso'] = g2['curso'].fillna(method='ffill')
mask = (g2['habilitacao']!='')
g2 = g2[mask]

In [289]:
mask = (g3['curso']!='Unidade\nCurso / Habilitação') & (g3['curso']!='A - Ensino e Pesquisa') & (g3['1_sem']!='Total') & (g3['curso']!='Unidade')
g3 = g3[mask]

mask = (g3['curso']=='') & (g3['1_sem']=='') & (g3['2_sem']=='')
g3 = g3[np.logical_not(mask)]


mask = g3['curso'].str.isupper().fillna(False)
g3 = g3[np.logical_not(mask)]

mask = (g3['habilitacao']!='Total Curso') & (g3['habilitacao']!='Total Unidade') & (g3['2_sem']!='')
g3 = g3[mask]
g3['curso']='Letras'

In [298]:
df2 = pd.concat([g1,g2,g3], axis=0)

mask = (df2['curso']!='Unidade\nCurso / Habilitação') & (df2['curso']!='A - Ensino e Pesquisa') & (df2['1_sem']!='Total')
df2 = df2[mask]

mask = (df2['curso']=='') & (df2['1_sem']=='') & (df2['2_sem']=='')
df2 = df2[np.logical_not(mask)]

# df2['ano_base']=2018

In [299]:
df2['1_sem'] = pd.to_numeric(df2['1_sem'], errors='coerce').fillna(0).astype(int)
df2['2_sem'] = pd.to_numeric(df2['2_sem'], errors='coerce').fillna(0).astype(int)

df2[2016]=df2['1_sem']+df2['2_sem']

df_16 = df2.drop(columns=['1_sem','2_sem'])

In [300]:
# df2.to_excel('dados/usp_matriculados_2016.xlsx', index=False, encoding='utf-8')

### Merge All Years

In [301]:
df_merge = pd.merge(df_16,df_17, how='outer', on = ['curso', 'habilitacao'])
df_merge = pd.merge(df_merge,df_18, how='outer', on = ['curso', 'habilitacao'])

In [307]:
# df_merge.to_excel('dados/usp_alunos_matriculados.xlsx', index=False, encoding='utf-8')

# UNESP

## Matriculados

In [2]:
dd = camelot.read_pdf('files/unesp_anuario_2019.pdf', pages='30-38', flavor='stream',table_regions=['64,480,800,28'])

In [9]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [10]:
ranges = [[0,34],[133,164],[196,285]]

g1 = pd.DataFrame()
g2 = df.copy()
for rang in ranges:
    i1 = df.loc[rang[0]:rang[1]]
    g1 = pd.concat([g1,i1], axis=0)
    g2 = g2.drop(index=[i for i in range(rang[0],rang[1]+1)])

mask = g1[18].isnull()

g3 = g1[mask]
g1 = g1[np.logical_not(mask)]

In [11]:
g1 = g1[[2,3,6,9,12,15,18]]

rename_cols = {
    2:'curso',
    3:'periodo',
    6:2014,
    9:2015,
    12:2016,
    15:2017,
    18:2018,

}
g1 = g1.rename(columns=rename_cols)


g2 = g2[[1,2,5,8,11,14,17]]

rename_cols = {
    1:'curso',
    2:'periodo',
    5:2014,
    8:2015,
    11:2016,
    14:2017,
    17:2018,

}
g2 = g2.rename(columns=rename_cols)


g3 = g3[[2,3,5,8,11,14,17]]

rename_cols = {
    2:'curso',
    3:'periodo',
    5:2014,
    8:2015,
    11:2016,
    14:2017,
    17:2018,

}
g3 = g3.rename(columns=rename_cols)

In [12]:
df2 = pd.concat([g1,g2,g3], axis=0)

In [13]:
mask = (df2['curso']!='Cursos') & (df2['curso']!='Subtotal') & (df2['curso']!='Total') & (df2['periodo']!='Período') & (df2['periodo']!='Total Geral') & (df2[2016]!='ALUNOS MATRICULADOS')

df2 = df2[mask]

mask = (df2['curso']=='') & (df2['periodo']=='') & (df2[2014]=='') & (df2[2015]=='') & (df2[2016]=='') & (df2[2017]=='') & (df2[2018]=='')

df2 = df2[np.logical_not(mask)]

In [17]:
df = qg(df2)

In [28]:
df2 = df.get_changed_df()

In [31]:
# df2.to_excel('unesp_alunos_matriculados_2014_to_2018.xlsx', index=False, encoding='tf-8')

## Concluintes

In [23]:
dd = camelot.read_pdf('files/unesp_anuario_2019.pdf', pages='41-51', flavor='stream',table_areas=['114,520,758,51'])

In [25]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [27]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,,Período,,2014,,,2015,,,2016,,,2017,,,2018,
1,Cursos,,F,M,Total,F,M,Total,F,M,Total,F,M,Total,F,M,Total
2,Medicina Veterinária,I,24,7,31,25,7,32,36,12,48,42,17,59,28,4,32
3,Subtotal,,24,7,31,25,7,32,36,12,48,42,17,59,28,4,32
4,Odontologia,I,43,21,64,39,23,62,63,15,78,52,19,71,49,19,68


In [51]:
df2 = df[[0,1,4,7,10,13,16]]

rename_cols = {
    0:'curso',
    1:'periodo',
    4:2014,
    7:2015,
    10:2016,
    13:2017,
    16:2018,

}
df2 = df2.rename(columns=rename_cols)

mask = (df2['curso']!='Cursos') & (df2['curso']!='Subtotal') & (df2['curso']!='Total') & (df2['periodo']!='Período') & (df2['curso']!='Total Geral') & (df2[2016]!='ALUNOS MATRICULADOS')

df2 = df2[mask]


In [52]:
cursos = df2['curso'].tolist()
cursos_f = []
for i in range(len(cursos)):
    if cursos[i]=='':
        cursos_f.append(cursos[i-1] + " " + cursos[i+1])
    else:
        cursos_f.append(cursos[i])

df2['curso'] = cursos_f

mask = df2[2018]!=''
df2 = df2[mask]

In [54]:
df3 = qg(df2)

In [58]:
df2 = df3.get_changed_df()

In [62]:
# df2.to_excel('unesp_alunos_concluintes_2014_to_2018.xlsx', index=False, encoding='utf-8')

## Concluintes

In [73]:
dd = camelot.read_pdf('files/unesp_anuario_2019.pdf', pages='176-183', flavor='stream',table_areas=['112,535,760,65'])

In [74]:
# for i in range(len(dd)):
#     camelot.plot(cdd[i], kind='text')
#     plt.show()

In [82]:
df = pd.DataFrame()

for i in range(len(dd)):
    df = pd.concat([df,dd[i].df], axis=0)
    
df = df.reset_index(drop=True)

# df.loc[85:116] = df.loc[85:116].shift(1,axis=1)

In [84]:
mask = df[25].isnull()
g1 = df[mask]

g2 = df[np.logical_not(mask)]


g2 = g2[[0,1,7,11,15,19,23]]

rename_cols = {
    0:'curso',
    1:'periodo',
    7:2014,
    11:2015,
    15:2016,
    19:2017,
    23:2018,

}
g2 = g2.rename(columns=rename_cols)


g1 = g1[[0,1,5,8,11,14,17]]

rename_cols = {
    0:'curso',
    1:'periodo',
    5:2014,
    8:2015,
    11:2016,
    14:2017,
    17:2018,

}
g1 = g1.rename(columns=rename_cols)


In [99]:
df2 =  pd.concat([g2,g1], axis=0)

mask = (df2['curso']!='Cursos') & (df2['curso']!='Total Humanas') & (df2['curso']!='Subtotal') & (df2['curso']!='Total') & (df2['periodo']!='Período') & (df2['curso']!='Total Geral') & (df2[2014]!='2.330')

df2 = df2.drop(index=[0,70,267,284,291,292])


df2 = df2[mask]


In [100]:
cursos = df2['curso'].tolist()
cursos_f = []
for i in range(len(cursos)):
    if cursos[i]=='':
        cursos_f.append(cursos[i-1] + " " + cursos[i+1])
    else:
        cursos_f.append(cursos[i])

df2['curso'] = cursos_f

mask = df2[2018]!=''
df2 = df2[mask]

In [103]:
# df2.to_excel('unesp_alunos_vagas_2014_to_2018.xlsx', index=False, encoding='utf-8')