In [1]:
import pandas as pd

In [2]:
df_frota = pd.read_csv('datasets/2020-0311_frota_de_veiculos.csv',
                       usecols=['UF','MUNICIPIO','TIPO DE VEICULO','QUANTIDADE','DATE'],
                       parse_dates=['DATE'],
                       sep=',')

In [3]:
df_frota.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001631 entries, 0 to 1001630
Data columns (total 5 columns):
 #   Column           Non-Null Count    Dtype         
---  ------           --------------    -----         
 0   UF               1001631 non-null  object        
 1   MUNICIPIO        1001631 non-null  object        
 2   TIPO DE VEICULO  1001631 non-null  object        
 3   QUANTIDADE       1001631 non-null  int64         
 4   DATE             1001631 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 38.2+ MB


In [4]:
df_frota.describe()

Unnamed: 0,QUANTIDADE
count,1001631.0
mean,892.3255
std,20894.86
min,0.0
25%,0.0
50%,10.0
75%,132.0
max,5953694.0


### Entendendo os Dados

In [5]:
df_frota.isnull().sum()

UF                 0
MUNICIPIO          0
TIPO DE VEICULO    0
QUANTIDADE         0
DATE               0
dtype: int64

###### Coluna TIPO DE VEICULO

In [6]:
veiculos = df_frota['TIPO DE VEICULO'].unique()
veiculos

array(['AUTOMOVEL', 'BONDE', 'CAMINHAO', 'CAMINHAO TRATOR', 'CAMINHONETE',
       'CAMIONETA', 'CHASSI PLATAF', 'CICLOMOTOR', 'MICRO-ONIBUS',
       'MOTOCICLETA', 'MOTONETA', 'ONIBUS', 'QUADRICICLO', 'REBOQUE',
       'SEMI-REBOQUE', 'SIDE-CAR', 'OUTROS', 'TRATOR ESTEI',
       'TRATOR RODAS', 'TRICICLO', 'UTILITARIO'], dtype=object)

In [7]:
df_frota['TIPO DE VEICULO'].nunique()

21

In [8]:
df_frota['TIPO DE VEICULO'].value_counts()

BONDE              47697
CAMINHAO           47697
CAMINHAO TRATOR    47697
CHASSI PLATAF      47697
MOTOCICLETA        47697
QUADRICICLO        47697
AUTOMOVEL          47697
MICRO-ONIBUS       47697
MOTONETA           47697
REBOQUE            47697
SEMI-REBOQUE       47697
CICLOMOTOR         47697
CAMIONETA          47697
CAMINHONETE        47697
ONIBUS             47697
OUTROS             47696
SIDE-CAR           47696
UTILITARIO         47696
TRICICLO           47696
TRATOR RODAS       47696
TRATOR ESTEI       47696
Name: TIPO DE VEICULO, dtype: int64

###### Coluna UF

In [9]:
uf = df_frota['UF'].unique()
uf

array(['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG',
       'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR',
       'RS', 'SC', 'SE', 'SP', 'TO'], dtype=object)

In [10]:
df_frota['UF'].nunique()

27

In [11]:
df_frota['UF'].value_counts()

MG    161217
SP    108528
RS     83496
BA     78813
PR     67032
SC     49560
GO     46494
PB     42147
MA     41013
PI     40797
PE     34965
CE     34776
RN     28056
PA     27216
MT     26649
TO     23352
AL     19278
RJ     15624
MS     14931
ES     14742
SE     12600
AM     11718
RO      8736
AC      4158
AP      3024
RR      2520
DF       189
Name: UF, dtype: int64

###### Coluna MUNICIPIO

In [12]:
municipios = df_frota['MUNICIPIO'].unique()
municipios

array(['ACRELANDIA', 'ASSIS BRASIL', 'BRASILEIA', ..., 'TUPIRATINS',
       'WANDERLANDIA', 'XAMBIOA'], dtype=object)

In [13]:
df_frota['MUNICIPIO'].nunique()

5288

In [14]:
df_frota['MUNICIPIO'].value_counts()

BOM JESUS               1071
SANTA LUZIA              756
BONITO                   756
SANTA INES               735
SAO DOMINGOS             714
                        ... 
SOMBRIO                  168
SANTA MARIA DO OESTE     168
COLORADO DO OESTE        168
SENTINELA DO SUL         168
CAICO                    168
Name: MUNICIPIO, Length: 5288, dtype: int64

###### Coluna DATE

In [15]:
df_frota['DATE'].unique()

array(['2020-03-01T00:00:00.000000000', '2020-04-01T00:00:00.000000000',
       '2020-05-01T00:00:00.000000000', '2020-06-01T00:00:00.000000000',
       '2020-07-01T00:00:00.000000000', '2020-08-01T00:00:00.000000000',
       '2020-09-01T00:00:00.000000000', '2020-10-01T00:00:00.000000000',
       '2020-11-01T00:00:00.000000000'], dtype='datetime64[ns]')

In [16]:
df_frota['DATE'].value_counts()

2020-03-01    117012
2020-05-01    117012
2020-10-01    117012
2020-08-01    117012
2020-06-01    117012
2020-07-01    117012
2020-09-01    117012
2020-04-01    117012
2020-11-01     65535
Name: DATE, dtype: int64

#### Buscas

In [17]:
# buscando dados do mes 11/2020
df_112020 = df_frota[df_frota['DATE'].dt.month == 11]
df_112020.head()

Unnamed: 0,UF,MUNICIPIO,TIPO DE VEICULO,QUANTIDADE,DATE
936096,AC,ACRELANDIA,AUTOMOVEL,1453,2020-11-01
936097,AC,ACRELANDIA,BONDE,0,2020-11-01
936098,AC,ACRELANDIA,CAMINHAO,502,2020-11-01
936099,AC,ACRELANDIA,CAMINHAO TRATOR,43,2020-11-01
936100,AC,ACRELANDIA,CAMINHONETE,722,2020-11-01


In [18]:
# salvando as uf faltantes do mes 11/2020
missing_uf_112020 = list()
for i in uf:
    if not i in df_112020['UF'].unique():
        missing_uf_112020.append(i)
missing_uf_112020

['PR', 'RJ', 'RN', 'RO', 'RR', 'RS', 'SC', 'SE', 'SP', 'TO']

In [19]:
# busca geral das uf incompletas do mes 11 
df_frota[(df_frota['UF'].isin(missing_uf_112020))]['TIPO DE VEICULO'].value_counts()

BONDE              19024
SEMI-REBOQUE       19024
MOTONETA           19024
ONIBUS             19024
CAMINHAO TRATOR    19024
CHASSI PLATAF      19024
REBOQUE            19024
CAMINHAO           19024
SIDE-CAR           19024
TRATOR RODAS       19024
TRICICLO           19024
MICRO-ONIBUS       19024
MOTOCICLETA        19024
CICLOMOTOR         19024
CAMIONETA          19024
CAMINHONETE        19024
TRATOR ESTEI       19024
QUADRICICLO        19024
OUTROS             19024
AUTOMOVEL          19024
UTILITARIO         19024
Name: TIPO DE VEICULO, dtype: int64

In [20]:
# dados faltantes estão nas uf completas e no mes 11/2020
df_frota[~(df_frota['UF'].isin(missing_uf_112020)) & \
         (df_frota['DATE'].dt.month == 11) ]['TIPO DE VEICULO'].value_counts()

BONDE              3121
REBOQUE            3121
CAMIONETA          3121
SEMI-REBOQUE       3121
CAMINHAO TRATOR    3121
MICRO-ONIBUS       3121
MOTONETA           3121
CHASSI PLATAF      3121
QUADRICICLO        3121
CAMINHONETE        3121
AUTOMOVEL          3121
MOTOCICLETA        3121
CICLOMOTOR         3121
CAMINHAO           3121
ONIBUS             3121
SIDE-CAR           3120
TRICICLO           3120
OUTROS             3120
TRATOR RODAS       3120
TRATOR ESTEI       3120
UTILITARIO         3120
Name: TIPO DE VEICULO, dtype: int64

In [21]:
municipios_completos = df_frota[~(df_frota['UF'].isin(missing_uf_112020)) & \
                                (df_frota['DATE'].dt.month == 11) ]['MUNICIPIO'].unique()
len(municipios_completos)

3036

In [22]:
# 6 x 3036 = 18216 requesições em busca dos itens faltantes

# Municipio: PARNAGUA falta dados sobre TIPO DE VEICULO: TRATOR ESTEI
# Municipio: PARNAGUA falta dados sobre TIPO DE VEICULO: TRICICLO
# Municipio: PARNAGUA falta dados sobre TIPO DE VEICULO: OUTROS
# Municipio: PARNAGUA falta dados sobre TIPO DE VEICULO: SIDE-CAR
# Municipio: PARNAGUA falta dados sobre TIPO DE VEICULO: TRATOR RODAS
# Municipio: PARNAGUA falta dados sobre TIPO DE VEICULO: UTILITARIO

veiculos_faltantes = ['TRATOR ESTEI', 'TRICICLO', 'OUTROS', 'SIDE-CAR', 'TRATOR RODAS', 'UTILITARIO'] 
#for i in veiculos_faltantes:
#    for j in municipios_completos:
#        veiculo_cidade = df_frota[~(df_frota['UF'].isin(missing_uf_112020)) & \
#                                  (df_frota['DATE'].dt.month == 11) & \
#                                  (df_frota['TIPO DE VEICULO'] == i) & \
#                                  (df_frota['MUNICIPIO'] == j)]
#       if len(veiculo_cidade) == 0:
#            print(f"Municipio: {j} falta dados sobre TIPO DE VEICULO: {i}")

In [23]:
cidade_incompleta = df_frota[~(df_frota['UF'].isin(missing_uf_112020)) & \
                                 (df_frota['DATE'].dt.month == 11) & \
                                 (df_frota['MUNICIPIO'] == 'PARNAGUA') & \
                                 (df_frota['TIPO DE VEICULO'].isin(veiculos))]
cidade_incompleta

Unnamed: 0,UF,MUNICIPIO,TIPO DE VEICULO,QUANTIDADE,DATE
1001616,PI,PARNAGUA,AUTOMOVEL,179,2020-11-01
1001617,PI,PARNAGUA,BONDE,0,2020-11-01
1001618,PI,PARNAGUA,CAMINHAO,26,2020-11-01
1001619,PI,PARNAGUA,CAMINHAO TRATOR,1,2020-11-01
1001620,PI,PARNAGUA,CAMINHONETE,84,2020-11-01
1001621,PI,PARNAGUA,CAMIONETA,12,2020-11-01
1001622,PI,PARNAGUA,CHASSI PLATAF,0,2020-11-01
1001623,PI,PARNAGUA,CICLOMOTOR,0,2020-11-01
1001624,PI,PARNAGUA,MICRO-ONIBUS,5,2020-11-01
1001625,PI,PARNAGUA,MOTOCICLETA,834,2020-11-01


---

In [24]:
df_frota[(df_frota['TIPO DE VEICULO'] == 'CAMINHAO')]

Unnamed: 0,UF,MUNICIPIO,TIPO DE VEICULO,QUANTIDADE,DATE
2,AC,ACRELANDIA,CAMINHAO,350,2020-03-01
23,AC,ASSIS BRASIL,CAMINHAO,25,2020-03-01
44,AC,BRASILEIA,CAMINHAO,276,2020-03-01
65,AC,BUJARI,CAMINHAO,121,2020-03-01
86,AC,CAPIXABA,CAMINHAO,88,2020-03-01
...,...,...,...,...,...
1001534,PI,PAJEU DO PIAUI,CAMINHAO,14,2020-11-01
1001555,PI,PALMEIRA DO PIAUI,CAMINHAO,46,2020-11-01
1001576,PI,PALMEIRAIS,CAMINHAO,24,2020-11-01
1001597,PI,PAQUETA,CAMINHAO,25,2020-11-01


In [25]:
df_frota[(df_frota['TIPO DE VEICULO'] == 'CAMINHAO') & (df_frota['MUNICIPIO'] == 'ACRELANDIA')]

Unnamed: 0,UF,MUNICIPIO,TIPO DE VEICULO,QUANTIDADE,DATE
2,AC,ACRELANDIA,CAMINHAO,350,2020-03-01
117014,AC,ACRELANDIA,CAMINHAO,349,2020-04-01
234026,AC,ACRELANDIA,CAMINHAO,362,2020-05-01
351038,AC,ACRELANDIA,CAMINHAO,367,2020-06-01
468050,AC,ACRELANDIA,CAMINHAO,386,2020-07-01
585062,AC,ACRELANDIA,CAMINHAO,421,2020-08-01
702074,AC,ACRELANDIA,CAMINHAO,443,2020-09-01
819086,AC,ACRELANDIA,CAMINHAO,476,2020-10-01
936098,AC,ACRELANDIA,CAMINHAO,502,2020-11-01


### Tratamentos

In [26]:
# Adição dos dados faltantes do mes 11/2020 na cidade PARNAGUA PI
for i in veiculos_faltantes:
    veiculo_cidade_add = {'UF': 'PI', 'MUNICIPIO': 'PARNAGUA', 'TIPO DE VEICULO': i, 
                          'QUANTIDADE': 0, 'DATE': '2020-11-01'}
    df_frota = df_frota.append(veiculo_cidade_add, ignore_index=True)

In [27]:
# CHASSI PLATAF = CHASSI PLATAFORMA
chassi_plataf = df_frota[df_frota['TIPO DE VEICULO'] == 'CHASSI PLATAF']
df_frota.loc[chassi_plataf.index, 'TIPO DE VEICULO'] = 'CHASSI PLATAFORMA'

# TRATOR ESTEI = TRATOR ESTEIRA
trator_estei = df_frota[df_frota['TIPO DE VEICULO'] == 'TRATOR ESTEI']
df_frota.loc[trator_estei.index, 'TIPO DE VEICULO'] = 'TRATOR ESTEIRA'

In [28]:
# Conversão para formato datetime Year/month/day
df_frota['DATE'] = pd.to_datetime(df_frota['DATE'], format='%Y/%m/%d')

#### Salvando CSV TRATADO

In [29]:
df_frota.to_csv('datasets/2020-0311_frota_de_veiculos_tratado.csv', index=None)