## Neste documento, adicionaremos a tag legal/ilegal nos dados
- Importação dos dados
- Divisão por grupo de tipo de licitação
- Criação do algorítmo de classificação
- Implementação nas bases divididas por modalidade de licitação

In [1]:
import pandas as pd
import glob

In [2]:
%time
path = r'C:\liciatacao_07_12_2018'
filenames = glob.glob(path + "/*.csv")

li= []

for filename in filenames:
    df = pd.read_csv(filename, index_col=None, header=0, decimal=',',sep=';',encoding='latin1')
    li.append(df)

df_lic_2018 = pd.concat(li, axis=0, ignore_index=True)

Wall time: 0 ns


In [3]:
pd.options.display.max_colwidth = 1000

In [4]:
df_lic_2018.head(1)

Unnamed: 0,Número Licitação,Código UG,Nome UG,Código Modalidade Compra,Modalidade Compra,Número Processo,Objeto,Situação Licitação,Código Órgão Superior,Nome Órgão Superior,Código Órgão,Nome Órgão,Município,Data Resultado Compra,Data Abertura,Valor Licitação
0,12016,763000,DIRETORIA DO PESSOAL CIVIL DA MARINHA,7,Inexigibilidade de Licitação,63000003136201667,"Objeto: Prestação de serviços e venda de produtos postais, em âmbito nacional e internacional. Referente ao TJIL 1/2016, desta UASG. Assinado em 11/11/2016. Publicado, originalmente, no D.O.U em 07/12/2016.",Publicado,52000,Ministério da Defesa,52131,Comando da Marinha,BRASILIA,30/07/2018,,227500.0


In [5]:
df_lic_2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112936 entries, 0 to 112935
Data columns (total 16 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   Número Licitação          112936 non-null  int64  
 1   Código UG                 112936 non-null  int64  
 2   Nome UG                   112936 non-null  object 
 3   Código Modalidade Compra  112936 non-null  int64  
 4   Modalidade Compra         112936 non-null  object 
 5   Número Processo           112934 non-null  object 
 6   Objeto                    112934 non-null  object 
 7   Situação Licitação        112936 non-null  object 
 8   Código Órgão Superior     112936 non-null  int64  
 9   Nome Órgão Superior       112936 non-null  object 
 10  Código Órgão              112936 non-null  int64  
 11  Nome Órgão                112936 non-null  object 
 12  Município                 112936 non-null  object 
 13  Data Resultado Compra     112936 non-null  o

In [6]:
df_lic_2018.shape

(112936, 16)

In [7]:
df_lic_2018.rename(columns={"Valor Licitação": "Total"},inplace=True)

In [8]:
df_lic_2018['Modalidade Compra'].value_counts()

Dispensa de Licitação               73521
Inexigibilidade de Licitação        14486
Pregão - Registro de Preço          12436
Pregão                              11609
Tomada de Preços                      529
Concorrência                          225
Convite                                96
Concurso                               18
Concorrência Internacional             11
Concorrência - Registro de Preço        5
Name: Modalidade Compra, dtype: int64

# Separar por tipo de Modalidade

## Registro de Preço

In [9]:
df_lic_2018_RP = df_lic_2018[df_lic_2018['Modalidade Compra']  == 'Pregão - Registro de Preço']

In [10]:
df_lic_2018_RP['Modalidade Compra'].value_counts()

Pregão - Registro de Preço    12436
Name: Modalidade Compra, dtype: int64

In [11]:
df_lic_2018_RP.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12436 entries, 1 to 112931
Data columns (total 16 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Número Licitação          12436 non-null  int64  
 1   Código UG                 12436 non-null  int64  
 2   Nome UG                   12436 non-null  object 
 3   Código Modalidade Compra  12436 non-null  int64  
 4   Modalidade Compra         12436 non-null  object 
 5   Número Processo           12434 non-null  object 
 6   Objeto                    12434 non-null  object 
 7   Situação Licitação        12436 non-null  object 
 8   Código Órgão Superior     12436 non-null  int64  
 9   Nome Órgão Superior       12436 non-null  object 
 10  Código Órgão              12436 non-null  int64  
 11  Nome Órgão                12436 non-null  object 
 12  Município                 12436 non-null  object 
 13  Data Resultado Compra     12436 non-null  object 
 14  Data 

## Pregão

In [12]:
df_lic_2018_Pregao = df_lic_2018[df_lic_2018['Modalidade Compra'] == 'Pregão']

In [13]:
df_lic_2018_Pregao['Modalidade Compra'].value_counts()

Pregão    11609
Name: Modalidade Compra, dtype: int64

In [14]:
df_lic_2018_Pregao.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11609 entries, 6 to 112911
Data columns (total 16 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Número Licitação          11609 non-null  int64  
 1   Código UG                 11609 non-null  int64  
 2   Nome UG                   11609 non-null  object 
 3   Código Modalidade Compra  11609 non-null  int64  
 4   Modalidade Compra         11609 non-null  object 
 5   Número Processo           11609 non-null  object 
 6   Objeto                    11609 non-null  object 
 7   Situação Licitação        11609 non-null  object 
 8   Código Órgão Superior     11609 non-null  int64  
 9   Nome Órgão Superior       11609 non-null  object 
 10  Código Órgão              11609 non-null  int64  
 11  Nome Órgão                11609 non-null  object 
 12  Município                 11609 non-null  object 
 13  Data Resultado Compra     11609 non-null  object 
 14  Data 

## Dispensa de Licitação

In [15]:
df_lic_2018_Dispensa = df_lic_2018[df_lic_2018['Modalidade Compra'] == 'Dispensa de Licitação']

In [16]:
df_lic_2018_Dispensa['Modalidade Compra'].value_counts()

Dispensa de Licitação    73521
Name: Modalidade Compra, dtype: int64

# Inexigibilidade de Licitação 

In [17]:
df_lic_2018_INEX = df_lic_2018[df_lic_2018['Modalidade Compra'] == 'Inexigibilidade de Licitação']

In [18]:
df_lic_2018_INEX['Modalidade Compra'].value_counts()

Inexigibilidade de Licitação    14486
Name: Modalidade Compra, dtype: int64

### É obra?

In [19]:
#varre todos o objetos e identifica se possui relação com obras
#caso sim, nomeia
def eh_obra(x):
    y=[]
    if ('OBRAS' in x) or ('OBRA' in x) or ('ENGENHARIA' in x) or ('engenharia' in x) or ('obras' in x) or ('obra' in x) or ('CONTRU-CAO' in x) or ('constru-cao' in x):
        y.append('OBRAS')
    else:
        y.append('COMPRA/SERVIÇOS')
    y=y.pop(0)
    return(y)

In [20]:
#aplica a função de descobrimento de obras de forma mais rápida no dataframe
def separaObra(df2):
    return pd.Series(eh_obra(row.Objeto)
        for row in df2.itertuples()
  )

#### REGISTRO DE PREÇO

In [21]:
abc = pd.DataFrame(separaObra(df_lic_2018_RP))
abc.rename(columns={0:'col1'},inplace=True)
abc['col1'].value_counts()

TypeError: argument of type 'float' is not iterable

In [None]:
abc

In [None]:
abc.reset_index(drop=True, inplace=True)

In [None]:
lic_RP.reset_index(drop=True, inplace=True)

In [None]:
lic_RP['tipo']=abc['col1']

In [None]:
lic_obras_RP = lic_RP[lic_RP['tipo'] == 'OBRAS']
lic_compras_RP = lic_RP[lic_RP['tipo'] != 'OBRAS']

In [None]:
lic_obras_RP['tipo'].value_counts()

## Tag'ando como legal ou ilegal
##### 0: ilegal
##### 1: legal

In [None]:
lic_obras_RP['TAG'] = 0
lic_compras_RP['TAG'] = 0

In [None]:
#regra de limite de valor
#Considerando REGISTRO DE PREÇO como CONCORRENCIA
lic_obras_RP.loc[lic_obras_RP['total'] > 3300000, 'TAG'] = 1
lic_compras_RP.loc[lic_compras_RP['total'] > 1430000, 'TAG'] = 1

In [None]:
lic_obras_RP['TAG'].value_counts()

In [None]:
print('Obras:',19/(159+19),"Compras:",236/(3617+236))

In [None]:
lic_compras_RP['TAG'].value_counts()

#### Verificações dos resultados - Obras

In [None]:
pd.set_option('display.float_format', lambda x: '%.5f' % x)

In [None]:
lic_obras_RP['total'].plot.box()

In [None]:
lic_obras_RP['total'].describe()

### Pregão

In [22]:
abc2 = pd.DataFrame(separaObra(df_lic_2018_Pregao))
abc2.rename(columns={0:'col1'},inplace=True)
abc2['col1'].value_counts()

COMPRA/SERVIÇOS    10575
OBRAS               1034
Name: col1, dtype: int64

In [23]:
df_lic_2018_Pregao.reset_index(drop=True, inplace=True)

In [24]:
df_lic_2018_Pregao['tipo'] = abc2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_lic_2018_Pregao['tipo'] = abc2


## Tag'ando como legal ou ilegal
#### 0: ilegal
#### 1: legal

### Não será feito mudança na tag de legalidade por valor para a modalidade Pregão, pois não existe teto para esta modalidade.

In [25]:
## 
lic_obras_Pregao = df_lic_2018_Pregao[df_lic_2018_Pregao['tipo'] == 'OBRAS']
lic_compras_Pregao = df_lic_2018_Pregao[df_lic_2018_Pregao['tipo'] != 'OBRAS']
####
# Não será feito mudança na tag de legalidade por valor, pois não existe teto para pregões
lic_obras_Pregao['TAG'] = 1
lic_compras_Pregao['TAG'] = 1
####

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  lic_obras_Pregao['TAG'] = 1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  lic_compras_Pregao['TAG'] = 1


In [26]:
lic_compras_Pregao['TAG'].value_counts()

1    10575
Name: TAG, dtype: int64

In [27]:
lic_obras_Pregao['TAG'].value_counts()

1    1034
Name: TAG, dtype: int64

## Dispensa de Licitação

In [None]:
abc3 = pd.DataFrame(separaObra(df_lic_2018_Dispensa))
abc3.rename(columns={0:'col1'},inplace=True)
abc3['col1'].value_counts()

In [None]:
df_lic_2018_Dispensa.reset_index(drop=True, inplace=True)

In [None]:
df_lic_2018_Dispensa['tipo'] = abc3
lic_obras_Dispensa = df_lic_2018_Dispensa[df_lic_2018_Dispensa['tipo'] == 'OBRAS']
lic_compras_Dispensa= df_lic_2018_Dispensa[df_lic_2018_Dispensa['tipo'] != 'OBRAS']

## Tag'ando como legal ou ilegal
#### 0: ilegal
#### 1: legal

In [None]:
lic_obras_Dispensa['TAG'] = 0
lic_compras_Dispensa['TAG'] = 0

In [None]:
lic_obras_Dispensa.loc[lic_obras_Dispensa['Total'] <= 33000, 'TAG'] = 1
lic_compras_Dispensa.loc[lic_compras_Dispensa['Total'] <= 17600, 'TAG'] = 1

#### Verificações dos resultados - Obras

In [None]:
lic_obras_Dispensa['TAG'].value_counts()

### Analise Estatística

### Legal

In [None]:
lic_obras_Dispensa[lic_obras_Dispensa['TAG'] == 1]['Total'].describe()

In [None]:
lic_obras_Dispensa[lic_obras_Dispensa['TAG'] == 1]['Total'].plot.box()

### Ilegal

In [None]:
lic_obras_Dispensa[lic_obras_Dispensa['TAG'] == 0]['Total'].describe()

In [None]:
lic_obras_Dispensa[lic_obras_Dispensa['TAG'] == 0]['Total'].plot.box()

#### Verificações dos resultados - Compras

In [None]:
lic_compras_Dispensa['TAG'].value_counts()

### Analise Estatística

### Legal

In [None]:
lic_compras_Dispensa[lic_compras_Dispensa['TAG'] == 1]['Total'].describe()

In [None]:
lic_compras_Dispensa[lic_compras_Dispensa['TAG'] == 1]['Total'].plot.box()

### Ilegal

In [None]:
lic_compras_Dispensa[lic_compras_Dispensa['TAG'] == 0]['Total'].describe()

In [None]:
lic_compras_Dispensa[lic_compras_Dispensa['TAG'] == 0]['Total'].plot.box()

## INEXIBILIDADE DE LICITAÇÃO

In [None]:
abc4 = pd.DataFrame(separaObra(df_lic_2018_INEX))
abc4.rename(columns={0:'col1'},inplace=True)
abc3['col1'].value_counts()

In [None]:
df_lic_2018_INEX.reset_index(drop=True, inplace=True)

In [None]:
df_lic_2018_INEX['tipo'] = abc4
lic_obras_INEX = df_lic_2018_INEX[df_lic_2018_INEX['tipo'] == 'OBRAS']
lic_compras_INEX = df_lic_2018_INEX[df_lic_2018_INEX['tipo'] != 'OBRAS']

In [None]:
lic_obras_INEX['TAG'] =  1
lic_compras_INEX['TAG'] = 1

In [None]:
pd.options.display.max_colwidth = 1000

In [None]:
lic_obras_INEX['TAG'].value_counts()

In [None]:
lic_obras_INEX[lic_obras_INEX['TAG'] == 1]['Total'].describe()

In [None]:
lic_obras_INEX[lic_obras_INEX['TAG'] == 1]['Total'].describe()

In [None]:
lic_2018 = pd.concat([lic_obras_Pregao, lic_compras_Pregao, lic_obras_Dispensa, lic_compras_Dispensa, lic_obras_INEX, lic_compras_INEX])

In [None]:
lic_2018.to_csv('lic_2018.csv')

In [None]:
lic_2018['TAG'].value_counts()

In [None]:
lic_2018.groupby(['Modalidade Compra','TAG']).describe()