**IMPORTAÇÃO DAS BIBLIOTECAS**

In [6]:
import pandas as pd
import numpy as np
import csv

**LEITURA DOS DADOS**

In [7]:
# Ler o arquivo CSV e tratar os dados
dados = pd.read_csv('/content/dados_completos_4.csv',
                    engine='python',
                    sep=";"
                    )

**VISUALIZAÇÃO PREVIA DOS DADOS**

In [8]:
dados

Unnamed: 0,codigo,descricao,valor,data
0,4757,!EM PROCESSO DE DESATIVACAO! ASFALTADOR ...,1386,12018
1,12075,!EM PROCESSO DE DESATIVACAO! CAIXA P/ MEDICAO ...,39037,12018
2,2404,!EM PROCESSO DE DESATIVACAO! DIVISORIA COLMEIA...,8500,12018
3,2720,!EM PROCESSO DE DESATIVACAO! ESCAVADEIRA DRAGA...,16464,12018
4,2719,!EM PROCESSO DE DESATIVACAO! ESCAVADEIRA HIDRA...,13950,12018
...,...,...,...,...
347009,34345,VIGIA DIURNO ...,1332,122022
347010,41096,VIGIA DIURNO (MENSALISTA) ...,"2.338,80",122022
347011,41776,"VIGIA NOTURNO, HORA EFETIVAMENTE TRABALHADA DE...",1825,122022
347012,,,,122022


In [9]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 347014 entries, 0 to 347013
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   codigo     346948 non-null  object
 1   descricao  346882 non-null  object
 2   valor      346882 non-null  object
 3   data       347014 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 10.6+ MB


**CONVERSÃO DOS DADOS**

In [10]:
# Converter a coluna de data para o formato mm/yyyy
dados['data'] = pd.to_datetime(dados['data'].astype(str).str.zfill(6), format='%m%Y').dt.strftime('%m/%Y')

# Aplicar a expressão regular na coluna e converter para float
dados['codigo'] = dados['codigo'].str.replace(r'[^0-9,\.]', '', regex=True)

In [11]:
# Conversão para float
dados['codigo'] = pd.to_numeric(dados['codigo'].str.replace(',', '.'), errors='coerce')



In [12]:
dados

Unnamed: 0,codigo,descricao,valor,data
0,4757.0,!EM PROCESSO DE DESATIVACAO! ASFALTADOR ...,1386,01/2018
1,12075.0,!EM PROCESSO DE DESATIVACAO! CAIXA P/ MEDICAO ...,39037,01/2018
2,2404.0,!EM PROCESSO DE DESATIVACAO! DIVISORIA COLMEIA...,8500,01/2018
3,2720.0,!EM PROCESSO DE DESATIVACAO! ESCAVADEIRA DRAGA...,16464,01/2018
4,2719.0,!EM PROCESSO DE DESATIVACAO! ESCAVADEIRA HIDRA...,13950,01/2018
...,...,...,...,...
347009,34345.0,VIGIA DIURNO ...,1332,12/2022
347010,41096.0,VIGIA DIURNO (MENSALISTA) ...,"2.338,80",12/2022
347011,41776.0,"VIGIA NOTURNO, HORA EFETIVAMENTE TRABALHADA DE...",1825,12/2022
347012,,,,12/2022


**DADOS FALTANTES**

In [13]:
# Verificando os dados faltantes

dados_faltantes = dados[dados.isna().any(axis=1)]
print(dados_faltantes['valor'].unique())
print(dados_faltantes['codigo'].unique())

[nan]
[  nan 5344. 5287. 5304. 5299. 5215. 4937. 5342. 5279. 5276. 5272. 5203.
 5341. 5278. 5273. 5234. 5204. 5144. 5370. 5259. 5186. 5197. 5126. 5373.
 5255. 5181. 5201. 5131. 5351. 5334. 5177. 5199. 5348. 5347. 5331. 5280.
 5173. 5200. 5359. 5330. 5202. 5343. 5329. 5205. 5161. 5345. 5368. 5326.
 5062. 5346. 5293. 5328. 5220. 5018. 5340. 5016.]


In [14]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 347014 entries, 0 to 347013
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   codigo     346948 non-null  float64
 1   descricao  346882 non-null  object 
 2   valor      346882 non-null  object 
 3   data       347014 non-null  object 
dtypes: float64(1), object(3)
memory usage: 10.6+ MB


In [15]:
# Deletar as linha que contem dados faltantes

dados.dropna(inplace=True)

**CONVERTENDO A COLUNA VALOR PARA FLOAT**

In [16]:
# Converter a coluna 'valor' para float64
dados['valor'] = pd.to_numeric(dados['valor'].str.replace('.', '').str.replace(',', '.'))

  dados['valor'] = pd.to_numeric(dados['valor'].str.replace('.', '').str.replace(',', '.'))


In [None]:
dados['codigo'].

**VERIFICANDO AS INFORMAÇÕES BASICAS DOS NOSSOS DADOS**

In [17]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 346882 entries, 0 to 347011
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   codigo     346882 non-null  float64
 1   descricao  346882 non-null  object 
 2   valor      346882 non-null  float64
 3   data       346882 non-null  object 
dtypes: float64(2), object(2)
memory usage: 13.2+ MB


In [18]:
dados

Unnamed: 0,codigo,descricao,valor,data
0,4757.0,!EM PROCESSO DE DESATIVACAO! ASFALTADOR ...,13.86,01/2018
1,12075.0,!EM PROCESSO DE DESATIVACAO! CAIXA P/ MEDICAO ...,390.37,01/2018
2,2404.0,!EM PROCESSO DE DESATIVACAO! DIVISORIA COLMEIA...,85.00,01/2018
3,2720.0,!EM PROCESSO DE DESATIVACAO! ESCAVADEIRA DRAGA...,164.64,01/2018
4,2719.0,!EM PROCESSO DE DESATIVACAO! ESCAVADEIRA HIDRA...,139.50,01/2018
...,...,...,...,...
347007,35272.0,"VIGA NAO APARELHADA *6 X 20* CM, EM MACARANDUB...",51.87,12/2022
347008,4481.0,VIGA NAO APARELHADA *8 X 16* CM EM MACARANDUBA...,55.52,12/2022
347009,34345.0,VIGIA DIURNO ...,13.32,12/2022
347010,41096.0,VIGIA DIURNO (MENSALISTA) ...,2338.80,12/2022


In [21]:
dados.to_csv('dados_parte4.csv', index=False, sep=';')