In [None]:
import pandas as pd
import datetime as dt
import plotly.express as px
import matplotlib.ticker as ticker
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('../data/processed/emprestimos_exemplares.csv')

In [None]:

df.head()

In [None]:
df = pd.read_parquet('../data/processed/emprestimos_exemplares.parquet')

In [None]:
df['biblioteca'].unique()

In [None]:
df.head()

In [None]:
df.columns

In [None]:
len(df.id_emprestimo.drop_duplicates())

In [None]:
len(df)

In [None]:
df.dtypes

A diretoria da biblioteca gostaria de entender se a quantidade de empréstimos está diminuindo, aumentando ou permanecendo igual ao decorrer dos últimos anos.

In [None]:
df['data_emprestimo'].value_counts()

In [3]:
# convertendo o tipo de data_emprestimo para datetime

df['data_emprestimo'] = pd.to_datetime(df['data_emprestimo'], dayfirst=True, format='ISO8601')

In [4]:
# verifique qual é a quantidade total de exemplares emprestados por cada ano
# plote um gráfico de linhas.

qtd_por_ano = df['data_emprestimo'].value_counts().reset_index()

qtd_por_ano.rename(
    columns={
        'data_emprestimo': 'data',
        'count': 'quantidade'
    },
    inplace=True
)

# qtd_por_ano


In [None]:
# verifique qual é a quantidade total de exemplares emprestados por cada ano
# plote um gráfico de linhas.

qtd_por_ano_agrupado = qtd_por_ano.groupby(
    by=qtd_por_ano.data.dt.year).sum(numeric_only=True).reset_index()

qtd_por_ano_agrupado.rename(
    columns={
        'data': 'ano'
    },
    inplace=True
)

# qtd_por_ano_agrupado.columns


In [7]:

# fig = px.line(
#     qtd_por_ano_agrupado,
#     x='ano',
#     y='quantidade',
#     markers=True,
#     title='verifique qual é a quantidade total de exemplares emprestados por cada ano'
# )

fig = px.bar(
    qtd_por_ano_agrupado,
    x='ano',
    y='quantidade',
    # text_auto=True,
    text='quantidade',
    title='A quantidade de empréstimos está aumentando ou diminuindo ao decorrer dos últimos anos?'
)

fig.add_annotation(
    text='Desde 2014 observa-se uma tendência de queda nos empréstimos, com redução acentuada em 2019 possivelmente relacionada às restrições da pandemia de COVID-19.<br>Em 2022 houve uma leve recuperação, refletindo a retomada das atividades presenciais.<br>Recomenda-se investigar fatores internos e externos que possam ter contribuído para a diminuição contínua desde 2014 e durante o período pandêmico.',
    xref="paper", yref="paper",
    x=0, y=-0.4,  # posição abaixo do gráfico
    showarrow=False,
    font=dict(size=12),
    align="left"
)

# Ajustar layout para não cortar o texto
fig.update_layout(
    margin=dict(t=80, b=120),
)

fig.show()

Percebe-se que desde 2014, o número de empréstimos vem diminuíndo, com queda acentuada no ano de 2019.

Acredita-se que a queda em 2019 se deu por causa da restrição sanitária decorrida da pandemia do COVID-19

Em contrapartida, houve um pequeno aumento dos empréstimos no ano de 2022, decorrente da volta da "normalidade".

Contudo, apesar do pequeno aumento em 2022, faz-se necessário que a direção da Biblioteca tome medidas investigativas para elucidar o que está ocorrendo desde 2014 com os procedimentos realizados, além de uma investigação mais direcionada para os anos de pandemia (2019 e 2020). Alguns questionamentos importantes devem ser respondidos em outras análises, como:

- O número de alunos da universidade vem diminuindo?
- Como está a pesquisa de satisfação dos usuários da biblioteca?
- Quais são as estratégias de marketing que a biblioteca está realizando?
- De que forma as restrições sanitárias impactaram diretamente o funcionamento da biblioteca e o acesso ao acervo físico?
- Houve implementação de alternativas digitais ou serviços remotos durante o período de pandemia? Se sim, quantos empréstimos foram realizados em comparação aos físicos?

In [None]:
qtd_por_ano_agrupado

In [None]:
df['biblioteca'].unique()

In [None]:
# Renomeando as bibliotecas da base de dados

df['biblioteca'] = df['biblioteca'].replace({
    'Biblioteca Central Zila Mamede': 'BCZM',
    'Biblioteca Setorial Prof. Rodolfo Helinski - Escola Agrícola de Jundiaí - EAJ  - Macaiba': 'BSEAJ',
    'Biblioteca Setorial Bertha Cruz Enders - \xadEscola de Saúde da UFRN - ESUFRN': 'BSES',
    'Biblioteca Setorial do Centro Ciências da Saúde - CCS': 'BSCCS',
    'Biblioteca Setorial Prof. Alberto Moreira Campos - \xadDepartamento de Odontologia': 'BSDO',
    'Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET': 'BSCCET',
    'Biblioteca Setorial do Centro de Ciências Humanas, Letras e Artes - CCHLA': 'BSCCHLA – CCHLA',
    'Biblioteca Setorial Prof. Horácio Nicolas Solimo - \xad Engenharia Química - EQ - CT': 'BSEQ',
    'Biblioteca Setorial Prof. Francisco Gurgel De Azevedo - Instituto Química - IQ': 'BSIQ',
    'Biblioteca Setorial do Centro Ciências Sociais Aplicadas - CCSA': 'BSCCSA – CCSA',
    'Biblioteca Setorial do Departamento de Artes - DEART': 'BSDEART – DEART',
    'Biblioteca Setorial Prof. Dr. Marcelo Bezerra de Melo Tinôco - DARQ - \xadCT': 'BSDARQ',
    'Biblioteca Setorial Árvore do Conhecimento - Instituto do Cérebro - ICe': 'BSICE',
    'Biblioteca Setorial Moacyr de Góes - CE': 'BSCE',
    'Biblioteca Setorial Prof. Leopoldo Nelson - \xadCentro de Biociências - CB': 'BSCB',
    'Biblioteca Setorial Dr. Paulo Bezerra - EMCM/RN - Caicó': 'BSEMCM',
    'Biblioteca Setorial Pe. Jaime Diniz - Escola de Música - EMUFRN': 'BSEMUFRN',
    'Biblioteca Setorial Profª. Maria Lúcia da Costa Bezerra - \xadCERES\xad - Caicó': 'BSCERES',
    'Biblioteca Setorial Profª. Maria José Mamede Galvão - FELCS - Currais Novos': 'BSFELCS',
    'Biblioteca Setorial do Núcleo de Educação da Infância - NEI': 'BSNEI',
    'Biblioteca Setorial da Faculdade de Ciências da Saúde do Trairi - FACISA - Santa Cruz': 'BSFACISA',
    'Biblioteca Setorial do Núcleo de Ensino Superior do Agreste - NESA - Nova Cruz': 'BSNESA – NESA'
})

In [None]:
df['biblioteca'].unique()

In [None]:
sum(qtd_por_ano_agrupado.quantidade)

In [None]:
# gerenciar a programação de férias dos colaboradores de acordo com os meses de menor demanda;
# programar atividades que não sejam de atendimento ao usuário para períodos específicos de
# menor demanda.

# Portanto, gere uma tabela com a quantidade total de exemplares emprestados por mês e descubra
# quais meses são os que possuem a maior quantidade de empréstimos realizados.

qtd_por_mes_agrupado = qtd_por_ano.groupby(
    by=qtd_por_ano.data.dt.month
    ).sum(numeric_only=True).reset_index()

qtd_por_mes_agrupado.rename(
    columns={
        'data': 'mes'
    },
    inplace=True
)

# qtd_por_mes_agrupado

mes_renomear = {
    1: 'jan',
    2: 'fev',
    3: 'mar',
    4: 'abr',
    5: 'mai',
    6: 'jun',
    7: 'jul',
    8: 'ago',
    9: 'set',
    10: 'out',
    11: 'nov',
    12: 'dez',
}

qtd_por_mes_agrupado['mes'] = qtd_por_mes_agrupado['mes'].map(mes_renomear)

# qtd_por_mes_agrupado.sort_values(by='quantidade',ascending=False)

# Plote um gráfico de linhas.
# fig = px.line(
#     qtd_por_mes_agrupado,
#     x='mes',
#     y='quantidade',
#     markers=True,
#     text='quantidade',
#     title='Quantidade total de exemplares emprestados por mês',
# )

fig= px.bar(
    qtd_por_mes_agrupado,
    x='mes',
    y='quantidade',
    text='quantidade',
    title='Quantidade total de exemplares emprestados por mês',
)

fig.show()

In [None]:
qtd_por_mes_agrupado

In [None]:
qtd_por_ano.data.dt.hour.unique()

In [None]:
# Além do gerenciamento anual das atividades, a diretoria também necessita que seja planejada 
# uma programação diária das atividades. Por este motivo, verifique quais foram os horários
# com maior quantidade de empréstimos ao longo de um dia inteiro.


qtd_por_hora_agrupado = qtd_por_ano.groupby(
    by=qtd_por_ano.data.dt.hour
    ).sum(numeric_only=True).reset_index()

qtd_por_hora_agrupado.rename(
    columns={
        'data': 'hora'
    },
    inplace=True
)

# qtd_por_hora_agrupado

# Plote um gráfico de barras e analise quais seriam os melhores horários para alocar as demais
# atividades que não sejam de atendimento ao usuário.
fig = px.bar(
    qtd_por_hora_agrupado,
    x='hora',
    y='quantidade',
    title='Quantidade total de exemplares emprestados por hora',
)

fig.show()

In [None]:
# O objetivo será entender a quantidade de empréstimos a partir das variáveis categóricas do 
# seu conjunto de dados.
# Para explorar os dados, alguns questionamentos serão pertinentes para a diretoria das bibliotecas,
# como:
# Vamos explorar algumas das variáveis categóricas das quais precisaremos extrair mais informações. 
# Elas são:
#   Tipo de vínculo
#   Coleção
#   Biblioteca
#   Classificação geral da CDU

# Ao se analisar uma nova variável, é bem interessante verificar os valores únicos delas.

tipo_vinculo = df['tipo_vinculo_usuario'].unique()

colecao = df['colecao'].unique()

biblioteca = df['biblioteca'].unique()

cdu = df['CDU'].unique()

In [None]:
tipo_vinculo

In [None]:
colecao

In [None]:
biblioteca

In [None]:
cdu

In [None]:
df.columns

In [None]:
# Gere uma tabela de frequência e com o percentual para cada variável.
# Como é um trabalho repetitivo, crie uma função que gere a tabela com os valores.

def gerar_tabela_frequencia(campo):
    df_tabela = pd.DataFrame(df[campo].value_counts().reset_index())

    df_tabela.rename(
        columns={
            'count':'quantidade'
        },
        inplace=True
    )

    df_tabela['porcentagem'] = round((df_tabela['quantidade'] / df_tabela['quantidade'].sum())*100, 10)

    return df_tabela


In [None]:
# “Como se distribuem os empréstimos de exemplares pelos tipos de vínculo dos usuários?”
# Desta forma, a diretoria poderá entender qual é o público que está utilizando a biblioteca 
# e assim tomar decisões em continuar com a estratégia de negócio atual ou modificá-la.

gerar_tabela_frequencia('tipo_vinculo_usuario')

In [None]:
# Quais coleções são mais emprestadas?
# Da mesma forma, as coleções. Ranquear as coleções mais emprestadas pelo público, será bastante
# importante para a estratégia atual.

gerar_tabela_frequencia('colecao')

In [None]:
# Quais são as bibliotecas com mais ou menos quantidade de empréstimos?
# Assim, a diretoria conseguirá entender onde ela deverá melhorar e focar suas iniciativas.

gerar_tabela_frequencia('biblioteca')

In [None]:
df_tabela = pd.DataFrame(df['biblioteca'].value_counts().reset_index())

df_tabela.rename(
    columns={
        'count':'quantidade'
    },
    inplace=True
)

# df_tabela['porcentagem'] = round((df_tabela['quantidade'] / df_tabela['quantidade'].sum())*100, 10)
df_tabela['porcentagem'] = (df_tabela['quantidade'] / df_tabela['quantidade'].sum() * 100).round(2)

# df_tabela

fig = px.bar(
    df_tabela,
    x='biblioteca',
    y='porcentagem',
    text='porcentagem',
    title='Em quais bibliotecas do sistema estão a maior quantidade de empréstimos? (Em percentual)'
)

fig.update_traces(
    texttemplate='%{text:.2f}%',
    textfont=dict(size=11),
    )

fig.update_layout(
    uniformtext=dict(minsize=10, mode='show'),
)

fig.show()

In [None]:
df_tabela

In [None]:
# De quais temas da CDU tem os exemplares mais emprestados?

gerar_tabela_frequencia('CDU')

In [None]:
df_tabela = pd.DataFrame(df['CDU'].value_counts().reset_index())

df_tabela.rename(
    columns={
        'count':'quantidade'
    },
    inplace=True
)

# df_tabela['porcentagem'] = round((df_tabela['quantidade'] / df_tabela['quantidade'].sum())*100, 10)
df_tabela['porcentagem'] = (df_tabela['quantidade'] / df_tabela['quantidade'].sum() * 100).round(2)

# df_tabela

fig = px.bar(
    df_tabela,
    x='CDU',
    y='porcentagem',
    text='porcentagem',
    title='Quais são os temas mais emprestados? E os menos? (Em percentual)'
)

fig.update_traces(
    texttemplate='%{text:.2f}%',
    textfont=dict(size=11),
    )

fig.update_layout(
    uniformtext=dict(minsize=10, mode='show'),
)

fig.show()

In [None]:
df_tabela = pd.DataFrame(df['tipo_vinculo_usuario'].value_counts().reset_index())

df_tabela.rename(
    columns={
        'count':'quantidade'
    },
    inplace=True
)

# df_tabela['porcentagem'] = round((df_tabela['quantidade'] / df_tabela['quantidade'].sum())*100, 10)
df_tabela['porcentagem'] = (df_tabela['quantidade'] / df_tabela['quantidade'].sum() * 100).round(2)

# df_tabela

fig = px.bar(
    df_tabela,
    x='tipo_vinculo_usuario',
    y='porcentagem',
    text='porcentagem',
    title='Como se distribuem os empréstimos de exemplares pelos tipos de vínculo dos usuários? (Em percentual)'
)

fig.update_traces(
    texttemplate='%{text:.2f}%',
    textfont=dict(size=11),
    )

fig.update_layout(
    uniformtext=dict(minsize=10, mode='show'),
)

fig.show()

In [None]:
df_tabela = pd.DataFrame(df['colecao'].value_counts().reset_index())

df_tabela.rename(
    columns={
        'count':'quantidade'
    },
    inplace=True
)

# df_tabela['porcentagem'] = round((df_tabela['quantidade'] / df_tabela['quantidade'].sum())*100, 10)
df_tabela['porcentagem'] = (df_tabela['quantidade'] / df_tabela['quantidade'].sum() * 100).round(2)

# df_tabela

fig = px.bar(
    df_tabela,
    x='colecao',
    y='porcentagem',
    text='porcentagem',
    title='Quais coleções são mais emprestadas? (Em percentual)'
)

fig.update_traces(
    texttemplate='%{text:.2f}%',
    textfont=dict(size=11),
    )

fig.update_layout(
    uniformtext=dict(minsize=10, mode='show'),
)

fig.show()

In [None]:
# avaliar dentre os alunos de graduação e pós graduação a distribuição de empréstimos mensais 
# por ano realizados entre 2010 e 2022 da coleção que tiver a maior frequência de empréstimos.

# Distribuição mensal por alunos de graduação
alunos_graduacao = df[df['tipo_vinculo_usuario'] == 'ALUNO DE GRADUAÇÃO']

colecao = alunos_graduacao['colecao'].value_counts().idxmax()

emprestimos_graduacao = alunos_graduacao[alunos_graduacao['colecao'] == colecao].copy()

emprestimos_graduacao['ano'] = emprestimos_graduacao['data_emprestimo'].dt.year
emprestimos_graduacao['mes'] = emprestimos_graduacao['data_emprestimo'].dt.month

mes_renomear = {
    1: 'jan',
    2: 'fev',
    3: 'mar',
    4: 'abr',
    5: 'mai',
    6: 'jun',
    7: 'jul',
    8: 'ago',
    9: 'set',
    10: 'out',
    11: 'nov',
    12: 'dez',
}

emprestimos_graduacao['mes'] = emprestimos_graduacao['mes'].map(mes_renomear)

emprestimos_graduacao = emprestimos_graduacao.loc[:,['ano', 'mes']]
emprestimos_graduacao = emprestimos_graduacao.value_counts().to_frame('quantidade').reset_index()


In [None]:
emprestimos_graduacao

In [None]:
meses = [
    'jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set', 'out', 'nov', 'dez'
]

fig = px.box(
    emprestimos_graduacao,
    x='mes',
    y='quantidade',
    color='mes',
    category_orders={
        'mes': meses
    },
    title='Graduação<br>Distribuição Mensal de Empréstimos dos anos 2010 a 2022 - Coleção Mais Emprestada'
)

fig.show()

In [None]:
alunos_pos_graduacao = df[df['tipo_vinculo_usuario'] == 'ALUNO DE PÓS-GRADUAÇÃO']

colecao = alunos_pos_graduacao['colecao'].value_counts().idxmax()

emprestimos = alunos_pos_graduacao[alunos_pos_graduacao['colecao'] == colecao].copy()

emprestimos['ano'] = emprestimos['data_emprestimo'].dt.year
emprestimos['mes'] = emprestimos['data_emprestimo'].dt.month


emprestimos = emprestimos.loc[:,['ano', 'mes']]
emprestimos = emprestimos.value_counts().to_frame('quantidade').reset_index()

emprestimos

In [None]:
fig = px.box(
    emprestimos,
    x='ano',
    y='quantidade',
    color='ano',
    category_orders={
        'ano': sorted(emprestimos_graduacao['ano'].unique())
    },
    title='Pós-Graduação - Distribuição Mensal de Empréstimos dos anos 2010 a 2022<br> Coleção Mais Emprestada'
)

fig.show()

In [None]:
df_records = pd.read_csv('../data/processed/students_records/records.csv')

df_records.head()

In [None]:
df_records = pd.read_parquet('../data/processed/students_records/records.parquet')

In [None]:
df_records.head()

In [None]:
graduacao = df.query("tipo_vinculo_usuario == 'ALUNO DE GRADUAÇÃO'")

graduacao

In [None]:
graduacao_pos_2015 = df[df['tipo_vinculo_usuario'] == 'ALUNO DE GRADUAÇÃO']

graduacao_pos_2015 = graduacao_pos_2015.loc[:,['matricula_ou_siape','data_emprestimo']]

# graduacao_pos_2015['data_emprestimo'] = pd.to_datetime(graduacao_pos_2015['data_emprestimo'])

graduacao_pos_2015 = graduacao_pos_2015[graduacao_pos_2015['data_emprestimo'].dt.year > 2015]

graduacao_pos_2015 = graduacao_pos_2015.reset_index(drop=True)

graduacao_pos_2015.head()

In [None]:
graduacao.isna().sum()

In [None]:
graduacao.isnull().sum()

In [None]:
cursos_selecionados = df_records[df_records['curso'].isin(['BIBLIOTECONOMIA','CIÊNCIAS SOCIAIS','COMUNICAÇÃO SOCIAL','DIREITO','FILOSOFIA','PEDAGOGIA'])]
cursos_selecionados

In [None]:
usuarios_graduacao_cursos = graduacao_pos_2015.merge(cursos_selecionados)

usuarios_graduacao_cursos

In [None]:
usuarios_graduacao_cursos.columns

In [None]:
usuarios_graduacao_cursos['ano_emprestimo'] = usuarios_graduacao_cursos['data_emprestimo'].dt.year

In [None]:
emprestimos_graduacao_cursos = usuarios_graduacao_cursos.groupby(['ano_emprestimo', 'curso']).size().reset_index(name='quantidade')
emprestimos_graduacao_cursos

In [None]:
emprestimos_graduacao_cursos_pivot = emprestimos_graduacao_cursos.pivot_table(
    index='curso',
    columns='ano_emprestimo',
    values='quantidade',
    fill_value = '-',
    aggfunc= 'sum',
    margins = True,
    margins_name = 'TOTAL',
)

emprestimos_graduacao_cursos_pivot