# Análise Exploratória dos Dados


### Levando em consideração a abordagem utilizada pelo ano de 2016, irei replicar a mesma abordagem para os anos de 2017, 2018 e 2019. Logo, Tratarei os dados desses anos e concatenarei em um único dataframe para realizar a análise exploratória dos dados.

### Importando as bibliotecas necessárias

In [None]:
import numpy as np
import pandas as pd
import sweetviz as sv
import matplotlib.pyplot as plt
import os
import warnings
warnings.filterwarnings("ignore")

### Garantindo que o diretório de trabalho está correto

In [None]:
base_dir = os.path.dirname(os.path.abspath('__file__'))
dir_files_path = os.path.join(base_dir, '../data/raw/')
reports_file_path = os.path.join(base_dir, '../reports/general_reports')

## Dataframes

#### Após ler o dicionário de dados, percebi que estas 3 bases são as mais relevantes para o estudo.

#### 2016

In [None]:
licitacoes_2016 = pd.read_csv(f'{dir_files_path}2016.csv/licitacao.csv')
lotes_2016 = pd.read_csv(f'{dir_files_path}2016.csv/lote.csv')
itens_2016 = pd.read_csv(f'{dir_files_path}2016.csv/item.csv')

#### 2017

In [None]:
licitacoes_2017 = pd.read_csv(f'{dir_files_path}2017.csv/licitacao.csv')
lotes_2017 = pd.read_csv(f'{dir_files_path}2017.csv/lote.csv')
itens_2017 = pd.read_csv(f'{dir_files_path}2017.csv/item.csv')

#### 2018

In [None]:
licitacoes_2018 = pd.read_csv(f'{dir_files_path}2018.csv/licitacao.csv')
lotes_2018 = pd.read_csv(f'{dir_files_path}2018.csv/lote.csv')
itens_2018 = pd.read_csv(f'{dir_files_path}2018.csv/item.csv')

#### 2019

In [None]:
licitacoes_2019 = pd.read_csv(f'{dir_files_path}2019.csv/licitacao.csv')
lotes_2019 = pd.read_csv(f'{dir_files_path}2019.csv/lote.csv')
itens_2019 = pd.read_csv(f'{dir_files_path}2019.csv/item.csv')

### Concatenando os dataframes

In [None]:
licitacoes = pd.concat([licitacoes_2016, licitacoes_2017, licitacoes_2018, licitacoes_2019])

In [None]:
licitacoes.info()

In [None]:
licitacoes.isna().sum()

### tratando a coluna VL_HOMOLOGADO, pois estava como string ao invés de float

In [None]:
licitacoes['VL_HOMOLOGADO'] = pd.to_numeric(licitacoes['VL_HOMOLOGADO'], errors= 'coerce')

In [None]:
licitacoes['VL_HOMOLOGADO'] = licitacoes['VL_HOMOLOGADO'].fillna(0)

In [None]:
licitacoes['VL_HOMOLOGADO'] = licitacoes['VL_HOMOLOGADO'].astype('float64')

In [None]:
# Substituindo os valores nulos por 0 para os campos numéricos
licitacoes[licitacoes.select_dtypes(include = ['float64', 'int64']).columns] = licitacoes[licitacoes.select_dtypes(include = ['float64', 'int64']).columns].fillna(0)

In [None]:
# Substituindo os valores nulos por 'Não Informado' para os campos categóricos
licitacoes[licitacoes.select_dtypes(include = ['object']).columns] = licitacoes[licitacoes.select_dtypes(include = ['object']).columns].fillna('Não Informado')

In [None]:
# Verificando se ainda existem valores nulos
licitacoes.isna().sum()

In [None]:
report_licitacoes = sv.analyze(licitacoes.drop(columns=['NR_DOCUMENTO_FORNECEDOR', 'NR_DOCUMENTO_VENCEDOR']))

report_licitacoes.show_html(f'{reports_file_path}/report_licitacoes_geral.html', layout='vertical')

### Agora, para a base de itens, irei dividir elas em amostras de 15% do valor total de cada ano, para que a análise exploratória e análise de texto não demorem muito tempo.

In [None]:
from my_library import sample_df

itens_2016_sample = sample_df(itens_2016, 0.15)
itens_2017_sample = sample_df(itens_2017, 0.15)
itens_2018_sample = sample_df(itens_2018, 0.15)
itens_2019_sample = sample_df(itens_2019, 0.15)

itens = pd.concat([itens_2016_sample, itens_2017_sample, itens_2018_sample, itens_2019_sample])

In [None]:
itens.info()

### Tratando a coluna VL_TOTAL_HOMOLOGADO, pois novamente estava como string ao invés de float

In [None]:
itens[['QT_ITENS', 'VL_UNITARIO_HOMOLOGADO', 'VL_TOTAL_HOMOLOGADO']].isna().sum()

In [None]:
# Tratando os possíveis problemas de formatação dos valores
itens['VL_TOTAL_HOMOLOGADO'] = itens['VL_TOTAL_HOMOLOGADO'].str.replace('.', '')
itens['QT_ITENS','VL_TOTAL_HOMOLOGADO'] = itens['VL_TOTAL_HOMOLOGADO'].str.replace('R$', '')

itens['QT_ITENS'] = itens['QT_ITENS'].str.replace('.', '')
itens['QT_ITENS'] = itens['QT_ITENS'].str.replace('R$', '')

In [None]:
# Convertendo para float
itens['VL_TOTAL_HOMOLOGADO'] = pd.to_numeric(itens['VL_TOTAL_HOMOLOGADO'], errors= 'coerce')

itens['QT_ITENS'] = pd.to_numeric(itens['QT_ITENS'], errors= 'coerce')

In [None]:
# Substituindo os valores nulos por 0
itens[['QT_ITENS', 'VL_UNITARIO_HOMOLOGADO', 'VL_TOTAL_HOMOLOGADO']] = itens[['QT_ITENS', 'VL_UNITARIO_HOMOLOGADO', 'VL_TOTAL_HOMOLOGADO']].fillna(0)

In [None]:
# Checando se ainda existem valores nulos
itens[['QT_ITENS', 'VL_UNITARIO_HOMOLOGADO', 'VL_TOTAL_HOMOLOGADO']].isna().sum()

In [None]:
# convertendo para float
itens[['QT_ITENS','VL_TOTAL_HOMOLOGADO']] = itens[['QT_ITENS','VL_TOTAL_HOMOLOGADO']].astype('float64')

### Agora, faremos o mesmo tratamento de dados para o preenchimento dos valores nulos.

In [None]:
# Substituindo os valores nulos por 0 para os campos numéricos
itens[itens.select_dtypes(include = ['float64', 'int64']).columns] = itens[itens.select_dtypes(include = ['float64', 'int64']).columns].fillna(0)

In [None]:
# Substituindo os valores nulos por 'Não Informado' para os campos categóricos
itens[itens.select_dtypes(include = ['object']).columns] = itens[itens.select_dtypes(include = ['object']).columns].fillna('Não Informado')

In [None]:
# Verificando se ainda existem valores nulos
itens.isna().sum()

In [None]:
report_itens = sv.analyze(itens.drop(columns=['NR_DOCUMENTO', 'NR_DOCUMENTO.1']))
report_itens.show_html(f'{reports_file_path}/report_itens_geral.html', layout='vertical')

#### Por meio dos reports, é possível fazer um diagnóstico inicial dos dataframes e identificar possíveis respostas para as perguntas de negócio. Como por exemplo:
<ul>
<li>Distribuição de frequência das variáveis categóricas</li>
<li>Valores mais frequentes</li>
<li>Relação de incerteza entre as features. Ou seja, o quanto uma coluna pode dar de informação sobre a outra</li>
</ul>

## Agora, iremos começar pelas bases recomendadas e depois tentar relacionar com as demais com o objetivo de adquirir mais informações e por fim responder às perguntas de negócio.

In [None]:
filtro = licitacoes['TP_OBJETO'].str.match('com', case = False)

licitacoes_compras = licitacoes[filtro]
licitacoes_compras['DS_OBJETO'].value_counts()

#### É possível observar que a maioria das descrições de liciatação contém a palavra "aquisição" e sinonimos para se referir a compra de bens. Logo, desenvolvi uma função utilizando NLTK para identificar os substantivos e, assim, identificar maiores relações entre os dados.

##### A fim de realizar tal análise, é necessário preparar os dados. Para isso, seguirei as seguintes etapas:

<li>Normalização: consiste em transformar todas as palavras em minúsculas</li>
<li>Remoção de espaços em branco: consiste em remover os espaços em branco desnecessários</li>
<li>Remoção de stopwords: consiste em remover as palavras que não agregam valor ao texto, como artigos, preposições, etc.</li>

In [None]:
# normalizando os dados

from my_library import preprocess_text_pipeline

licitacoes_compras['DS_OBJETO'] = licitacoes_compras['DS_OBJETO'].apply(lambda x: preprocess_text_pipeline(x))

In [None]:
# agora, iremos criar uma lista com todas as palavras e contar a frequência de cada uma

from my_library import get_most_common_nouns

nouns_and_counts = get_most_common_nouns(licitacoes_compras, 'DS_OBJETO', 100)

In [None]:
nouns_and_counts

Por meio dos dados apresentados, decidi seguir a seguinte abordagem:
<ol>
<li>Elencar palavras-chave pelos radicais de forma que agrupem os termos mais relevantes</li>
<li>Plottarei distribuições com o objetivo de verificar a diferença de valores</li>
<li>Usar esses radicais como filtro para analisar distribuições de frequências mais específicas </li>

A seguir, agruparei as palavras-chave por radicais e plotarei as distribuições
<ul>
<li>material</li>
<li>secretaria</li>
<li>alimentos</li>
<li>municipal</li>
<li>saúde</li>

In [None]:
# cria um dicionario que agrupa por radical e soma a conta
root_nouns = ['mater', 'secret', 'aliment', 'municip', 'saúde', 'equip', "veículo" ]

# talvez eu poderia ter feito de maneira mais performática, mas não consegui pensar em outra forma
grouped_nouns_and_counts = {}
for noun, count in nouns_and_counts:
    for root in root_nouns:
        if noun.startswith(root):
            if root in grouped_nouns_and_counts:
                grouped_nouns_and_counts[root] += count
            else:
                grouped_nouns_and_counts[root] = count

# tentei desenvolver uma função para plotar as distribuições a partir dos radicais, mas não consegui fazer funcionar
# from my_library import plot_boxplot_for_stems
# plot_boxplot_for_stems(nouns_and_counts, root_nouns_to_include)

In [None]:
grouped_nouns_and_counts

In [None]:
# Bar plot das distribuições baseadas no tamanho da coluna de descrições

df_column_size = len(licitacoes['DS_OBJETO'])
labels = list(grouped_nouns_and_counts.keys())
values = [(v / df_column_size) * 100 for v in grouped_nouns_and_counts.values()]

fig, ax = plt.subplots()
ax.bar(labels, values)

# Add the title and labels
ax.set_title("Appearance count of root nouns")
ax.set_xlabel("Root noun")
ax.set_ylabel("Count (%)")

# Show the plot
plt.show()

In [None]:
sum(grouped_nouns_and_counts.values())/df_column_size

#### levando em consideração os resultados apresentados, percebe-se que essas palavras-chave ocupam aproximadamente 24% do total de descrições de licitações. Logo, é possível afirmar que seria preciso mais palavras chaves para atingir o resultado obtido com a análise de substantivos para o ano isolado. A seguir, irei analisar as distribuições de frequências dessas palavras-chave.

##### material

In [None]:
from my_library import plot_bar_chart_for_filtered_df

filtro = licitacoes_compras['DS_OBJETO'].str.match('mater', case = False)
plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

##### Pelos nomes estão impossíveis de ler, então vou deixar a legenda logo abaixo. Percebe-se também que a maioria dos valores estão concentrados em torno de 0, o que indica que elas podem estar englobadas na descrição "materiais"

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

##### secretaria

In [None]:
# secretaria
filtro = licitacoes_compras['DS_OBJETO'].str.contains('secret')

plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

##### alimentos

In [None]:
# alimentos
filtro = licitacoes_compras['DS_OBJETO'].str.contains('aliment')

plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

##### municipal

In [None]:
# municipal
filtro = licitacoes_compras['DS_OBJETO'].str.contains('municip')

plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

##### saúde

In [None]:
# saúde
filtro = licitacoes_compras['DS_OBJETO'].str.contains('saúde')

plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

##### equipamentos

In [None]:
# equipamentos
filtro = licitacoes_compras['DS_OBJETO'].str.contains('equip')

plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

##### veículos

In [None]:
# veículos
filtro = licitacoes_compras['DS_OBJETO'].str.contains('veículo')

plot_bar_chart_for_filtered_df(licitacoes_compras, filtro, 'DS_OBJETO')

In [None]:
# legenda
licitacoes_compras[filtro]['DS_OBJETO'].value_counts()

### Agora, irei analisar o comportamento dos órgãos licitantes em relação ao valor total licitado. Para isso, irei agrupar os órgãos por valor total licitado e plotar um gráfico de barras.

In [None]:
licitacoes_compras['NM_ORGAO'].value_counts()

In [None]:
# agrupando os órgãos por valor total licitado
orgaos_e_valores = licitacoes_compras.groupby('NM_ORGAO')['VL_HOMOLOGADO'].sum().sort_values(ascending = False).head(10)

In [None]:
orgaos_e_valores
# top 10 orgãos que mais licitaram durante todo o período apresentado

In [None]:
top_10_orgaos = orgaos_e_valores.reset_index()

top_10_orgaos.plot.bar(x='NM_ORGAO', rot=0)

plt.title('Top 10 órgãos licitantes em 2016')
plt.xlabel('Órgão')
plt.ylabel('Valor total licitado (R$)')

plt.show()

In [None]:
# legenda dos valores
orgaos_e_valores.keys()

### Agora, irei analisar o comportamento das licitações. Quanto tempo elas tendem a demorar para serem homologadas? Quanto tempo elas tendem a demorar para serem adjudicadas? Quanto tempo elas tendem a demorar para serem abertas? Quanto tempo elas tendem a demorar para serem encerradas?

In [None]:
filter = ~licitacoes_compras['DT_HOMOLOGACAO'].str.contains('Não') & ~licitacoes_compras['DT_ADJUDICACAO'].str.contains('Não')

datetimes_licitacoes = licitacoes_compras[filter][['DT_ABERTURA', 'DT_HOMOLOGACAO', 'DT_ADJUDICACAO']]

In [None]:
datetimes_licitacoes

In [None]:
datetimes_licitacoes['DT_ABERTURA'] = pd.to_datetime(datetimes_licitacoes['DT_ABERTURA'])

#### Me parece que um registro está com a data de abertura em formato errado. Vou verificar.

In [None]:
try:
    datetimes_licitacoes['DT_ABERTURA'] = pd.to_datetime(datetimes_licitacoes['DT_ABERTURA'])
except ValueError:
    # If there is an error, find the row that is causing it
    error_index = datetimes_licitacoes[pd.to_datetime(datetimes_licitacoes['DT_ABERTURA'], errors='coerce').isna()].index
    # Drop the row
    datetimes_licitacoes.drop(error_index, inplace=True)

In [None]:
datetimes_licitacoes['DT_ABERTURA'] = pd.to_datetime(datetimes_licitacoes['DT_ABERTURA'], format='%Y-%m-%d')

In [None]:
datetimes_licitacoes['DT_HOMOLOGACAO'] = pd.to_datetime(datetimes_licitacoes['DT_HOMOLOGACAO'], format='%Y-%m-%d')

In [None]:
datetimes_licitacoes['DT_ADJUDICACAO'] = pd.to_datetime(datetimes_licitacoes['DT_ADJUDICACAO'], format='%Y-%m-%d')

#### Tempo de abertura - homologação

In [None]:
from my_library import calculate_working_days
def calculate_working_days_column(col1, col2):
    return calculate_working_days(col1, col2)

datetimes_licitacoes['tempo_abertura_homologacao'] = datetimes_licitacoes.apply(lambda x: calculate_working_days_column(x['DT_ABERTURA'], x['DT_HOMOLOGACAO']), axis=1)

In [None]:
datetimes_licitacoes['tempo_abertura_homologacao'].describe()

##### É possível observar que existe uma diferença média de 10 dias, porém, o desvio padrão é de 17 dias, o que indica que há uma grande variação nos tempos de homologação. A fim de evitar a influencia de outliers, podemos levantar a hipótese de que os tempos de homologação estejam de acordo com a mediana(50%), que é de 5 dias.

#### Tempo de homologação - adjudicação

In [None]:
datetimes_licitacoes['tempo_homologacao_adjudicacao'] = datetimes_licitacoes.apply(lambda x: calculate_working_days_column(x['DT_HOMOLOGACAO'], x['DT_ADJUDICACAO']), axis=1)

In [None]:
datetimes_licitacoes['tempo_homologacao_adjudicacao'].describe()

##### Já o tempo de adjudicação é bem menor, com uma média de 1 dia e um desvio padrão de 3 dias. A mediana é de 1 dia, o que indica que a maioria dos tempos de adjudicação estão de acordo com a mediana.

### Agora, irei analisar as licitações pelas estações do ano. Quais são as estações do ano com mais licitações?

In [None]:
# Aplicando a função de classificação de estação do ano
from my_library import get_season

datetimes_licitacoes['estacao'] = datetimes_licitacoes['DT_ABERTURA'].apply(lambda x: get_season(x))

In [None]:
datetimes_licitacoes['estacao'].value_counts()

In [None]:
# plotando o gráfico de barras

datetimes_licitacoes['estacao'].value_counts().plot.bar(rot=0)

plt.title('Quantidade de licitações por estação do ano')
plt.xlabel('Estação do ano')
plt.ylabel('Quantidade de licitações')

plt.show()

In [None]:
datetimes_licitacoes['NM_ORGAO'] = licitacoes_compras['NM_ORGAO'].reindex(datetimes_licitacoes.index, method='ffill', duplicates='drop')

Não consegui resolver o problema de indexação, então, vou fazer na tabela original

In [None]:
try:
    licitacoes_compras['estacao'] = licitacoes_compras['DT_ABERTURA'].apply(lambda x: get_season(x))
except ValueError:
    # If there is an error, find the row that is causing it
    error_index = licitacoes_compras[pd.to_datetime(licitacoes_compras['DT_ABERTURA'], errors='coerce').isna()].index
    # Drop the row
    licitacoes_compras.drop(error_index, inplace=True)

In [None]:
licitacoes_compras['estacao'] = licitacoes_compras['DT_ABERTURA'].apply(lambda x: get_season(x))

In [None]:
licitacoes_compras.groupby('estacao')['NM_ORGAO'].value_counts()

### Agora, irei analisar os itens licitados. Quais são os itens mais licitados? Quais são os itens mais caros? Quais são os itens mais baratos?

In [None]:
itens['DS_ITEM'].value_counts()

Por meio do resultado anterior é possível determinar algumas estratégias para a exploração de dados sobre os itens licitados.
Como por exemplo:
- Descrições que possuam a string 'mg'/'miligramas' ou 'ml'/'mililitros' podem ser relacionadas com medicamentos
- Mililitros podem ser confundidos como alimentos, itens de higiene e limpeza, etc
- Descrições que possuam unidades de medida como m², m³, etc podem ser relacionadas com materiais de construção
- Descrições que possuam a string 'kg'/'quilogramas' podem ser relacionadas com alimentos

In [None]:
itens[itens['DS_ITEM'].str.contains('mg', case = False)]['DS_ITEM'].value_counts()

In [None]:
itens[itens['DS_ITEM'].str.contains('ml', case = False)]['DS_ITEM'].value_counts()

In [None]:
itens[itens['DS_ITEM'].str.contains('m²', case = False)]['DS_ITEM'].value_counts()

In [None]:
itens[itens['DS_ITEM'].str.contains('m³', case = False)]['DS_ITEM'].value_counts()

In [None]:
itens[itens['DS_ITEM'].str.contains('kg', case = False)]['DS_ITEM'].value_counts()

In [None]:
itens[itens['DS_ITEM'].str.contains('gramas', case = False)]['DS_ITEM'].value_counts()

### Devido a enormosidade dos dados, irei aplicar uma função para calcular o tamanho de uma amostra de acordo com o tamanho da população e o erro máximo aceitável. Assim, será possível analisar os itens mais licitados, os mais caros e os mais baratos e suas respectivas frequências de forma mais eficiente.

#### Eu tentei aplicar a fórmula a seguir, cujo resultado retorna o tamanho da amostra para ser usada. Não deu muito certo com o problema proposto, mas segue a descrição:

$ n = \frac{(Z_{\alpha/2})^2 \cdot p \cdot (1 - p)}{E^2} $

- n é o tamanho da amostra
- Z_{\alpha/2} é o valor crítico de uma distribuição normal padrão para um nível de significância especificado (por exemplo, \alpha = 0,05)
- p é a proporção estimada da população que pertence à categoria de interesse
- E é o erro desejado da margem

A fórmula é usada para garantir que a amostra seja grande o suficiente para representar a população com uma margem de erro aceitável. Ao aumentar o tamanho da amostra, a margem de erro diminui. Ao contrário, ao diminuir o tamanho da amostra, a margem de erro aumenta.

In [None]:
from my_library import sample_df
# Como eu não sei a variabilidade, irei considerar buscar uma amostra entre 10% e 20% da população. Assim, conseguirei uma amostra de tamanho razoável.

itens_sample = sample_df(itens_2016, 0.15)

In [None]:
itens_sample['DS_ITEM'].value_counts()

#### Assim como nas licitações, é possível tratar os texto dos itens para extrair informações relevantes. Por exemplo, podemos extrair informações sobre a categoria do item, como alimentos, medicamentos, materiais de construção, etc. utilizando o pipeline e a função de classificação de texto desenvolvidos anteriormente.

In [None]:
from my_library import preprocess_text_pipeline

itens_sample['DS_ITEM'] = itens_sample['DS_ITEM'].apply(lambda x: preprocess_text_pipeline(x))

In [None]:
from my_library import get_most_common_nouns

itens_and_counts = get_most_common_nouns(itens_sample, 'DS_ITEM', 100)

In [None]:
itens_and_counts

#### Ao examinar o resultado obtido e descartar palavras como unidades de medida, ou símbolos especiais, é possível averiguar que a maioria dos itens está distribuído em material escolar  e materiais de construção. Também estão descritos materiais como um geral.

#### Sendo assim, irei novamente elencar os itens mais presentes e assim fazer uma relação com os órgãos, além de comparar diferenças no valor unitário e o homologado.
Palavras elencadas:
- caixa
- papel
- pvc
- aço
- concreto

##### Mas antes de prosseguir, irei verificar a quantidade de itens licitados por órgão e o valor médio unitário homologado.

In [None]:
itens_sample.reset_index(drop=True, inplace=True)

In [None]:
itens_sample = pd.merge(itens_sample, licitacoes[['CD_ORGAO','NM_ORGAO']], on='CD_ORGAO')

In [None]:
itens_sample.groupby('NM_ORGAO')['QT_ITEM'].sum().sort_values(ascending=False)

In [None]:
itens_sample.groupby('NM_ORGAO')['VL_UNITARIO_HOMOLOGADO'].mean().sort_values(ascending=False)

In [None]:
itens_sample['VL_DIFF'] = itens_sample['VL_UNITARIO_HOMOLOGADO'] - itens_sample['VL_UNITARIO_HOMOLOGADO']

In [None]:
itens_sample.groupby('NM_ORGAO')['VL_DIFF'].sum.sort_values()

#### Agora, irei analisar os itens licitados baseados nas palavras elencadas.

In [None]:
itens_sample['DS_ITEM'].value_counts()

In [None]:
itens_sample[itens_sample['DS_ITEM'].str.contains('caixa', case = False)].groupby('NM_ORGAO')['QT_ITEM'].sum().sort_values(ascending=False)

In [None]:
itens_sample[itens_sample['DS_ITEM'].str.contains('papel', case = False)].groupby('NM_ORGAO')['QT_ITEM'].sum().sort_values(ascending=False)

In [None]:
itens_sample[itens_sample['DS_ITEM'].str.contains('pvc', case = False)].groupby('NM_ORGAO')['QT_ITEM'].sum().sort_values(ascending=False)

In [None]:
itens_sample[itens_sample['DS_ITEM'].str.contains('aço', case = False)].groupby('NM_ORGAO')['QT_ITEM'].sum().sort_values(ascending=False)

In [None]:
itens_sample[itens_sample['DS_ITEM'].str.contains('concreto', case = False)].groupby('NM_ORGAO')['QT_ITEM'].sum().sort_values(ascending=False)

E, por fim, irei analisar os lotes licitados.

In [None]:
from my_library import preprocess_text_pipeline

lotes = pd.concat([lotes_2016, lotes_2017, lotes_2018, lotes_2019])

In [None]:
lotes['DS_LOTE'] = lotes['DS_LOTE'].apply(lambda x: preprocess_text_pipeline(x))

In [None]:
from my_library import get_most_common_nouns

lotes_and_counts = get_most_common_nouns(lotes, 'DS_LOTE', 100)

### A análise por texto não foi muito efetiva, então procurarei saber qual tipo de modalidade predomina entre os órgãos.

In [None]:
lotes = pd.merge(lotes, licitacoes[['CD_ORGAO','NM_ORGAO']], on='CD_ORGAO')

In [None]:
lotes.groupby('NM_ORGAO')['DS_MODALIDADE'].value_counts()

# Conclusões da Análise Exploratória de Dados (EDA)

A EDA foi realizada com o objetivo de compreender a estrutura e as características dos dados. Aqui estão algumas das principais conclusões:

## Distribuição de Variáveis

- A distribuição de tal variável mostra que a maioria dos dados está concentrada em um determinado tipo de órgão - Policias Militares e que no inverno ocorreram muito mais pedidos de licitações


## Correlação entre Variáveis

- Não foi possível estabelecer uma clara correlação entre as variáveis devido ao enorme número de features, o que dificultou bastante a leitura da matriz.

## Valores Ausentes

- Tal variável apresenta uma quantidade significativa de valores ausentes, o que pode afetar a precisão das análises futuras. É importante decidir como lidar com esses valores ausentes a fim de ter um ótimo processamento de texto
## Conclusão

Em geral, a EDA forneceu uma visão geral do conjunto de dados e destacou algumas questões que precisam ser abordadas antes de continuar com as análises. A EDA também ajudou a identificar as variáveis que precisam ser exploradas mais a fundo em análises futuras. Além disso, no decorrer da exploração foi possível identificar padrões como grande quantidade de licitações em determinados órgãos e em determinadas épocas do ano, como também a variedade de itens licitados e a grande quantidade de lotes licitados em uma determinada modalidade.
