# Obras paralisadas

Importando o módulo urllib para tratamento de requisições http

In [1]:
import urllib.request

Importando o módulo Pandas para tratamento do banco de dados

In [2]:
import pandas as pd

Escolhendo o nome do arquivo do banco de dados

In [3]:
arquivo = 'simec_obras.csv'

Escolhendo a url do arquivo de dados a ser baixado

In [4]:
url = 'http://simec.mec.gov.br/painelObras/download.php'

Fazendo a requisição do arquivo do banco de dados

In [5]:
%%time
urllib.request.urlretrieve(url, arquivo)

Wall time: 16.9 s


('simec_obras.csv', <http.client.HTTPMessage at 0x1b06aeac278>)

Lendo o arquivo do banco de dados definindo o tipo de separador, o padrão de codificação, o separador de decimais e que o processamento pode utilizar alta memória, bem como mostrar o tempo de execução da leitura de tal arquivo.

In [6]:
%%time
obras = pd.read_csv(arquivo, sep=';', encoding='iso8859_1', decimal=",", low_memory=False)

Wall time: 537 ms


Apresentando as informações do banco de dados

In [7]:
obras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28837 entries, 0 to 28836
Data columns (total 57 columns):
ID                                                28837 non-null int64
Nome                                              28834 non-null object
Situação                                          28837 non-null object
Município                                         28834 non-null object
UF                                                28834 non-null object
CEP                                               27030 non-null object
Logradouro                                        25290 non-null object
Bairro                                            24640 non-null object
Termo/Convênio                                    27608 non-null object
Fim da Vigência Termo/Convênio                    20982 non-null object
Situação do Termo/Convênio                        28837 non-null object
Percentual de Execução                            28837 non-null object
Data Prevista de Conclusão d

Separando as obras paralisadas

In [31]:
paralisadas = obras.loc[obras['Situação'] == 'Paralisada']

Verificando a quantidade de obras paralisadas

In [70]:
quantidade_paralisadas = len(paralisadas)
quantidade_paralisadas

1039

Importando o pacote datetime

In [50]:
from datetime import datetime 

Separando a série com as datas de conclusão

In [44]:
datas_conclusao = pd.to_datetime(paralisadas['Data Prevista de Conclusão da Obra'], format='%d/%m/%Y')

Criando uma nova série com as quantidades de dias paralisadas quando menores que a data atual

In [63]:
quant_dias_paralisada = datetime.now().date() - datas_conclusao[datas_conclusao < datetime.now().date()]

Calculando o total de dias das obras paralisadas

In [72]:
total_dias_paralisadas = sum(quant_dias_paralisada.astype('timedelta64[D]'))
total_dias_paralisadas

199470.0

Calculando a média de dias das obras paralisadas

In [80]:
media_dias_paralisadas = quant_dias_paralisada.astype('timedelta64[D]').mean()
media_dias_paralisadas

417.30125523012555

In [75]:
mean(paralisadas['UF'].value_counts())

PA    181
BA    108
MA     91
CE     70
PR     52
MG     51
RN     49
PE     47
PB     44
RS     43
GO     41
PI     38
MT     34
SP     33
TO     28
RJ     21
MS     17
SC     14
SE     13
AL     12
RO     10
AM     10
ES     10
AP      8
RR      7
AC      7
Name: UF, dtype: int64