# Projeto 01 - Análise exploratória sobre a quantidade de drones registrados no Brasil de Março/2019 a Set/2021

### Contexto

Toda Aeronave Remotamente Tripulada ou RPAS (Remotely Piloted Aircreft System), comumente conhecidos como Drones, devem possuir um registro junto ao SISANT - Sistema de Aeronaves Não Tripulada.

O SISANT é parte integrante da ANAC - A Agência Nacional de Aviação Civil (ANAC), uma das agências reguladoras federais do País criada para regular e fiscalizar as atividades da aviação civil e a infraestrutura aeronáutica e aeroportuária no Brasil. 

Instituída em 2005, começou a atuar em 2006 substituindo o Departamento de Aviação Civil (DAC). É uma autarquia federal de regime especial e está vinculada à Secretaria de Aviação Civil da Presidência da República. As ações da ANAC se enquadram nas atividades de certificação, fiscalização, normatização e representação institucional.

Todas os RPAS seja para usos recreativos ou para usos não recreativos devem ter seu registro junto ao SISANT e qualquer voo deve ser solicitado previamente ao SARPAS, sistema esse desenvolvido pelo DECEA (Departamento de Controle do Espaço Aéreo) para solicitação de acesso ao Espaço Aéreo Brasileiro por Aeronaves Não Tripuladas.


### Nosso Objetivo

Através do presente banco de dados obter informações sobre:

1) Quantas aeronaves foram registrados no período de Março/2019 a Setembro/2021?

2) Quantas aeronaves foram registradas em nome de pessoas jurídicas?

3) Quantas aeronaves foram registradas em nome de pessoas físicas?

4) Qual o fabricante e o modelo com maior número de registros no período?

5) Quais as 5 cidades com maior índice de registros?

6) Quais os principais ramos de atividade onde os drones são utilizados, de acordo com a classificação do próprio SISANT?


### O que temos disponível, inspirações e créditos

As bases de dados foram retiradas do Portal Brasileiro de Dados Abertos: https://dados.gov.br/dataset/aeronaves-drones-cadastrados

Informações adicionais existentes no site:

Fonte dos dados: https://anac.gov.br/acesso-a-informacao/dados-abertos
Autor: Gerência Técnica de Normas Operacionais (GTNO/GNOS/SPO)
Mantenedor: Gerência Técnica de Normas Operacionais (GTNO/GNOS/SPO)
Última Atualização: 9 de Setembro de 2021, 18:35 (UTC-03:00)
Criado em: 22 de Março de 2019, 14:37 (UTC-03:00)


### Importar Bibliotecas e Bases de Dados

In [1]:
import pandas as pd

In [2]:
drones_df = pd.read_csv('SISANT.csv', encoding="latin1", sep=';', engine='python', skiprows=1)
display(drones_df)

Unnamed: 0,Código Aeronave,Data Validade,Operador,CPF/CNPJ,Tipo Uso,Fabricante,Modelo,Número de serie,Peso máximo de decolagem (Kg),Cidade-Estado,Ramo de atividade
0,PP- 11082012,05/01/2024,Matias Cherem Dala Stella,077.XXX.XXX-06,Não Recreativo,DJI,Mavic,08QCE7C0120QNU,0.74,Curitiba-PR,Aerocinematografia
1,PP- 26534803,07/04/2024,WANDERLEI,181.XXX.XXX-38,Não Recreativo,DJI,Mavic 2 Pro,163dG6G00170Y0,9,São Paulo-SP,Aerofotografia
2,PP- 35041299,03/01/2024,FRANCISCO GABRIEL,673.XXX.XXX-87,Não Recreativo,DJI,Mavic,3YTBJAB,0.12,Salvador-BA,Aeroinspeção
3,PP- 40211550,05/05/2023,Companhia de inteligência urbana e servicos S/A,40.211.550/0001-74,Não Recreativo,DJI,Phantom 4 Pro,11UDH38R710533,1.38,Fortaleza-CE,Aerolevantamento - Aerofotogrametria
4,PP-000000001,26/03/2023,JUORDAN GUSS PEDRONI,080.XXX.XXX-60,Não Recreativo,DJI,Mavic,08qde2r01204xu,1,Colatina-ES,Aerocinematografia
...,...,...,...,...,...,...,...,...,...,...,...
93686,PR-999999966,12/08/2023,João Marcos Gigliotti,381.XXX.XXX-29,Recreativo,FIMI,FIMI X8 MINI,123456789,0.25,Araraquara-SP,
93687,PR-999999980,22/06/2022,Thomas Oliver Waluszek,297.XXX.XXX-00,Recreativo,Multilaser,BIRD,ML-ES255SA,0.5,São Paulo-SP,
93688,PR-999999990,18/03/2022,RODRIGO COSTA MONTEIRO,048.XXX.XXX-51,Recreativo,DJI,Phantom 4 Pro,oaxce8doa30687,1.38,São Paulo-SP,
93689,PR-999999994,09/03/2023,Nicholas Maximino Gontijo Corradi,095.XXX.XXX-01,Recreativo,FIMI,X8 SE 2020,FMWRJ03A6,1.25,Sabará-MG,


### Se tivermos muitas colunas, já vamos identificar quais colunas podem ser excluidas

- No presente projeto algumas colunas de nossa base de dados não são necessárias para a análise alvo do presente projeto, sendo assim colunas como: Código da Aeronave, Número de Série, Peso Máximo de Decolgaem (Kg) serão excluidas;

- A coluna 'Operador' também será excluida visando preservar os nomes das pessoas físicas e jurídicas, mesmo esse banco de dados sendo público.

In [3]:
drones_df = drones_df.drop('Código Aeronave', axis=1)
drones_df = drones_df.drop('Operador', axis=1)
drones_df = drones_df.drop('Número de serie', axis=1)
drones_df = drones_df.drop('Peso máximo de decolagem (Kg)', axis=1)
display(drones_df)

Unnamed: 0,Data Validade,CPF/CNPJ,Tipo Uso,Fabricante,Modelo,Cidade-Estado,Ramo de atividade
0,05/01/2024,077.XXX.XXX-06,Não Recreativo,DJI,Mavic,Curitiba-PR,Aerocinematografia
1,07/04/2024,181.XXX.XXX-38,Não Recreativo,DJI,Mavic 2 Pro,São Paulo-SP,Aerofotografia
2,03/01/2024,673.XXX.XXX-87,Não Recreativo,DJI,Mavic,Salvador-BA,Aeroinspeção
3,05/05/2023,40.211.550/0001-74,Não Recreativo,DJI,Phantom 4 Pro,Fortaleza-CE,Aerolevantamento - Aerofotogrametria
4,26/03/2023,080.XXX.XXX-60,Não Recreativo,DJI,Mavic,Colatina-ES,Aerocinematografia
...,...,...,...,...,...,...,...
93686,12/08/2023,381.XXX.XXX-29,Recreativo,FIMI,FIMI X8 MINI,Araraquara-SP,
93687,22/06/2022,297.XXX.XXX-00,Recreativo,Multilaser,BIRD,São Paulo-SP,
93688,18/03/2022,048.XXX.XXX-51,Recreativo,DJI,Phantom 4 Pro,São Paulo-SP,
93689,09/03/2023,095.XXX.XXX-01,Recreativo,FIMI,X8 SE 2020,Sabará-MG,


### Tratar Valores Faltantes ou Nulos

In [4]:
#verificar a quantidade total de linhas e colunas do meu dataframe
drones_df.shape

(93691, 7)

In [5]:
#definição da quantidade de Nan nas rows
faltantes = drones_df.isnull().sum()
print(faltantes)

#definição da quantidade de Nan nas rows só que em porcentagem
faltantes_porcentagem = drones_df.isnull().sum() / len(drones_df['Data Validade'])*100
print()
print(faltantes_porcentagem)

Data Validade            0
CPF/CNPJ                 0
Tipo Uso                 0
Fabricante               4
Modelo                   4
Cidade-Estado           12
Ramo de atividade    59620
dtype: int64

Data Validade         0.000000
CPF/CNPJ              0.000000
Tipo Uso              0.000000
Fabricante            0.004269
Modelo                0.004269
Cidade-Estado         0.012808
Ramo de atividade    63.634714
dtype: float64


In [6]:
#fazer uma modificação dos valore NaN por outros valores dentro da tabela sem precisar excluir
drones_df['Ramo de atividade'].fillna('Não informado', inplace=True)
drones_df['Fabricante'].fillna('Não informado', inplace=True)
drones_df['Modelo'].fillna('Não informado', inplace=True)
drones_df['Cidade-Estado'].fillna('Não informado', inplace=True)
display(drones_df)

Unnamed: 0,Data Validade,CPF/CNPJ,Tipo Uso,Fabricante,Modelo,Cidade-Estado,Ramo de atividade
0,05/01/2024,077.XXX.XXX-06,Não Recreativo,DJI,Mavic,Curitiba-PR,Aerocinematografia
1,07/04/2024,181.XXX.XXX-38,Não Recreativo,DJI,Mavic 2 Pro,São Paulo-SP,Aerofotografia
2,03/01/2024,673.XXX.XXX-87,Não Recreativo,DJI,Mavic,Salvador-BA,Aeroinspeção
3,05/05/2023,40.211.550/0001-74,Não Recreativo,DJI,Phantom 4 Pro,Fortaleza-CE,Aerolevantamento - Aerofotogrametria
4,26/03/2023,080.XXX.XXX-60,Não Recreativo,DJI,Mavic,Colatina-ES,Aerocinematografia
...,...,...,...,...,...,...,...
93686,12/08/2023,381.XXX.XXX-29,Recreativo,FIMI,FIMI X8 MINI,Araraquara-SP,Não informado
93687,22/06/2022,297.XXX.XXX-00,Recreativo,Multilaser,BIRD,São Paulo-SP,Não informado
93688,18/03/2022,048.XXX.XXX-51,Recreativo,DJI,Phantom 4 Pro,São Paulo-SP,Não informado
93689,09/03/2023,095.XXX.XXX-01,Recreativo,FIMI,X8 SE 2020,Sabará-MG,Não informado


In [7]:
#Rodando novamente a linha de cópido para saber se existem novos valores não preenchido na tabela
faltantes = drones_df.isnull().sum()
print(faltantes)

Data Validade        0
CPF/CNPJ             0
Tipo Uso             0
Fabricante           0
Modelo               0
Cidade-Estado        0
Ramo de atividade    0
dtype: int64


### Verificar Tipos de Dados em cada coluna

In [8]:
drones_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93691 entries, 0 to 93690
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Data Validade      93691 non-null  object
 1   CPF/CNPJ           93691 non-null  object
 2   Tipo Uso           93691 non-null  object
 3   Fabricante         93691 non-null  object
 4   Modelo             93691 non-null  object
 5   Cidade-Estado      93691 non-null  object
 6   Ramo de atividade  93691 non-null  object
dtypes: object(7)
memory usage: 5.0+ MB


In [9]:
#alterar a coluna da 'Data Validade" em uma data renocnhecida pelo Python
drones_df['Data Validade'] = pd.to_datetime(drones_df['Data Validade'], format='%d/%m/%Y')
display(drones_df)
drones_df.info()

Unnamed: 0,Data Validade,CPF/CNPJ,Tipo Uso,Fabricante,Modelo,Cidade-Estado,Ramo de atividade
0,2024-01-05,077.XXX.XXX-06,Não Recreativo,DJI,Mavic,Curitiba-PR,Aerocinematografia
1,2024-04-07,181.XXX.XXX-38,Não Recreativo,DJI,Mavic 2 Pro,São Paulo-SP,Aerofotografia
2,2024-01-03,673.XXX.XXX-87,Não Recreativo,DJI,Mavic,Salvador-BA,Aeroinspeção
3,2023-05-05,40.211.550/0001-74,Não Recreativo,DJI,Phantom 4 Pro,Fortaleza-CE,Aerolevantamento - Aerofotogrametria
4,2023-03-26,080.XXX.XXX-60,Não Recreativo,DJI,Mavic,Colatina-ES,Aerocinematografia
...,...,...,...,...,...,...,...
93686,2023-08-12,381.XXX.XXX-29,Recreativo,FIMI,FIMI X8 MINI,Araraquara-SP,Não informado
93687,2022-06-22,297.XXX.XXX-00,Recreativo,Multilaser,BIRD,São Paulo-SP,Não informado
93688,2022-03-18,048.XXX.XXX-51,Recreativo,DJI,Phantom 4 Pro,São Paulo-SP,Não informado
93689,2023-03-09,095.XXX.XXX-01,Recreativo,FIMI,X8 SE 2020,Sabará-MG,Não informado


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93691 entries, 0 to 93690
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Data Validade      93691 non-null  datetime64[ns]
 1   CPF/CNPJ           93691 non-null  object        
 2   Tipo Uso           93691 non-null  object        
 3   Fabricante         93691 non-null  object        
 4   Modelo             93691 non-null  object        
 5   Cidade-Estado      93691 non-null  object        
 6   Ramo de atividade  93691 non-null  object        
dtypes: datetime64[ns](1), object(6)
memory usage: 5.0+ MB


## Análise Exploratória dos dados consolidados

### Questão 01 - Qual a quantidade total de drones registrados no período? 

In [12]:
qtd_drones_registrados = len(drones_df.index)
print(f'A quantidade de drones registrados no período de Março/2019 a Setembro/2021 foi de {qtd_drones_registrados} aeronaves.')

A quantidade de drones registrados no período de Março/2019 a Setembro/2021 foi de 93691 aeronaves.


### Questão 02 - Quantos aeronaves foram registradas por PJ?
### Questão 03 - Quantas aeronaves foram registradas por CPF?

In [13]:
drones2_df = list(drones_df['CPF/CNPJ'])
cpf = []
cnpj = []
for i in range(len(drones2_df)):
    if drones2_df[i] <= drones2_df[i][:15]:
        cpf.append(drones2_df[i])
    else:
        cnpj.append(drones2_df[i])
print(f'A quantidade de drones registrados por CPF foi de: {len(cpf)}')
print(f'A quantidade de drones registrados por CNPJ foi de: {len(cnpj)}')

A quantidade de drones registrados por CPF foi de: 79838
A quantidade de drones registrados por CNPJ foi de: 13853


In [14]:
#transformando a variável 'cpf' em um data frame e dando um display
cpf_df = pd.DataFrame(cpf)
display(cpf_df)

Unnamed: 0,0
0,077.XXX.XXX-06
1,181.XXX.XXX-38
2,673.XXX.XXX-87
3,080.XXX.XXX-60
4,809.XXX.XXX-04
...,...
79833,381.XXX.XXX-29
79834,297.XXX.XXX-00
79835,048.XXX.XXX-51
79836,095.XXX.XXX-01


In [16]:
#transformando a variável 'cnpj' em um data frame e dando um display
cnpj_df = pd.DataFrame(cnpj)
display(cnpj_df)

Unnamed: 0,0
0,40.211.550/0001-74
1,29.406.625/0001-30
2,09.491.939/0001-70
3,20.986.498/0001-10
4,82.558.909/0001-24
...,...
13848,23.931.736/0001-89
13849,10.603.491/0001-19
13850,06.958.530/0001-23
13851,32.535.558/0001-68


### 4) Qual o fabricante e o modelo com maior número de registros no período?

In [21]:
drones_df['Fabricante'].value_counts()

DJI                                       79339
FIMI                                       1509
Hubsan                                      925
PARROT                                      888
Xiaomi                                      643
                                          ...  
JS MODEL                                      1
DRONE E AEROMODELO CONVENCIONAL 2 EM 1        1
PLANADOR ELETRICO XK                          1
Flex Innovations                              1
Merlin Hobbies                                1
Name: Fabricante, Length: 2090, dtype: int64

In [22]:
drones_df['Modelo'].value_counts()

Mavic                   26735
Phantom 3                5758
Phantom 4 Pro            5526
Spark                    5424
MINI 2                   4634
                        ...  
Extra 260 91_N260AW         1
SPARK (model: MM1A)         1
QUAD X - F450               1
501S X4                     1
DJI SPARK Model MM1A        1
Name: Modelo, Length: 7407, dtype: int64

In [25]:
print('O Fabricante e o Modelo com maior número de registro no SISANT são DJI e Mavic, respectivamente.')

O Fabricante e o Modelo com maior número de registro no SISANT são DJI e Mavic, respectivamente.


### Questão 05 - Quais as 5 cidades com maior índice de registros?

In [19]:
#Levantando quais as 5 cidades que mais aparecem e aproveitamos para levantar as 5 cidades que menos aparecem na lista
drones3_df = list(drones_df['Cidade-Estado'])
word_counter = {}
for word in drones3_df:
    if word in word_counter:
        word_counter[word] += 1
    else:
        word_counter[word] = 1

popular_words = sorted(word_counter, key = word_counter.get, reverse = True)
 
top5 = popular_words[:5]
last_top5 = popular_words[-5:]
 
print(top5)
print(last_top5)

#Transformado as variáveis em DataFrame
top5_df = pd.DataFrame(top5)
last_top5_df = pd.DataFrame(last_top5)

#Concatenando os dois DataFrames numa mesma tabela
pd.concat([top5_df, last_top5_df], axis=1)

['São Paulo-SP', 'Rio de Janeiro-RJ', 'Brasília-DF', 'Belo Horizonte-MG', 'Curitiba-PR']
['Morungava-RS', 'Piranhas-GO', 'Boa Esperança-ES', 'Itapebi-BA', 'Caparaó-MG']


Unnamed: 0,0,0.1
0,São Paulo-SP,Morungava-RS
1,Rio de Janeiro-RJ,Piranhas-GO
2,Brasília-DF,Boa Esperança-ES
3,Belo Horizonte-MG,Itapebi-BA
4,Curitiba-PR,Caparaó-MG


In [20]:
#Para analisar se as informações acima estão corretas utilizei a função 'value_counts()' diretamente na tabela 'drones_df' 
#para verificar a quantidade de registros e comparar com as linhas de comando executadas acima
drones_df['Cidade-Estado'].value_counts()

São Paulo-SP                      10668
Rio de Janeiro-RJ                  5347
Brasília-DF                        2912
Belo Horizonte-MG                  2884
Curitiba-PR                        2360
                                  ...  
Barra-BA                              1
Jaupaci-GO                            1
Coluna-MG                             1
São Sebastião da Bela Vista-MG        1
Caparaó-MG                            1
Name: Cidade-Estado, Length: 3591, dtype: int64

Logo foi possível verificar que as linhas de comando estavam corretas para as 5 cidades com mais registros , porém a função 'value.counts()' não informa as cidades com menos registros somente informa a quantidade de registros de acordo com o index ja existente da tabela.

Já a linha de código trás as cinco últimas cidades citadas na lista criada através dos dados puxados do DataFrame 'drones_df'.

### 6) Quais os principais ramos de atividade onde os drones são utilizados, de acordo com a classificação do próprio SISANT?

In [26]:
drones_df['Ramo de atividade'].value_counts()

Não informado                                              59620
Aerofotografia                                             11696
Aerocinematografia                                          9746
Aeroinspeção                                                3498
Aerolevantamento - Aerofotogrametria                        2430
Aeroagrícola                                                2253
Segurança Pública e/ou Defesa Civil                         2218
Órgãos de Fiscalização - Entidades Estatais                  699
Aeropublicidade  Exposição de letreiros luminosos           623
Aerorreportagem                                              527
Aerodemonstração                                             110
Aerolevantamento - Aeroprospecção                            108
Combate a Incêndio                                            96
Operação com carga externa                                    45
Aeropublicidade  Reboque de faixa                            11
Provocação artificial de 

Tendo em vista que o levantamentos dos 'Ramos de atividades' a ser informado quando do cadastro da aeronave junto ao SISANT em sua maioria está como não informado, foram utilizadas as informações disponíveis para determina os 5 maiores ramos de utilização.

Sendo assim de acordo com as analisadas junto ao Bando de Dados do SISANT para o período as aeronaves registradas estão sendo utilizadas em sua maioria para:

1) Aerofotografia;

2) Aerocinematografia;

3) Aero inspeção.

Essas informações corroboram com o Fabricante e o Modelo de drones com maior número de registros, o qual é: empresa DJI e modelo Mavic.

Tal modelo de aeronave é a mais utilizada para serviços de foto filmagem e inspeções de pequenas áereas devida a facilidade de voo e o preço de aquisição em comparação com outros modelos da fabricante DJI o qual já se enquadram para realização de serviços mais complexos como Aerolevantamentos, Aerofotogrametria e Aerogrícolas, os quais exigem maior capacidade técnica do piloto, além dos custos mais elevados para aquisição.

### Observações: 

Como a maioria das informações do DataFrame 'drones_df' não são informações numéricas não consegui pensar em como transformar essas informações para modelos numéricos para que fosse possível gerar gráficos para melhor apresentar as informações geradas a partir das análises exploratórias do banco de dados do SISANT.

## Informações importantes:

O presente projeto previu inicialmente utilizar a base de dados do SISANT, coletada junto ao Portal Brasileiro de Dados Abertos, para identificar peculiaridades dos registros de aeronaves (drones) entre Março/2019 a Setembro/2021.

O objetivo inicial eram responder as seguintes questões:

1) Quantas aeronaves foram registrados no período de Março/2019 a Setembro/2021?

2) Quantas aeronaves foram registradas em nome de pessoas jurídicas?

3) Quantas aeronaves foram registradas em nome de pessoas físicas?

4) Qual o fabricante e o modelo com maior número de registros no período?

5) Quais os 5 estados com com maior índice de registros?

6) Quais os 5 estados com menor índice de resgistros?

7) Quais os principais ramos de atividade onde os drones são utilizados, de acordo com a classificação do próprio SISANT?


Porém as questões 5 e 6 foram alteradas tendo em vista que não foi possível separar as informações de estado da coluna 'Cidade-Estado' visando utiliza-la como base para determinar as quantidades de aeronaves registradas.

Sendo assim foi necessário modificar as questões inicialmente previstas para somente 6 questões e alterando o enunciado das questões 5 e 6 e propondo somente determinar quais as 5 cidades brasileiras com maior número de registros de aeronaves.

# Resumo do Projeto:

1) Quantas aeronaves foram registrados no período de Março/2019 a Setembro/2021? 
   R.: Foram realizados 93.691 aeronaves no período.

2) Quantas aeronaves foram registradas em nome de pessoas jurídicas? 
   R.: 79.838 aeronaves 

3) Quantas aeronaves foram registradas em nome de pessoas físicas? 
   R.: 13.853 aeronaves

4) Qual o fabricante e o modelo com maior número de registros no período? 
   R.: Empresa DJI e Drone Mavic

5) Quais as 5 cidades com maior índice de registros? 
   São Paulo/ SP | Rio de Janeiro/ RJ | Brasília/ DF | Belo Horizonte/MG | Curitiba/PR

6) Quais os principais ramos de atividade onde os drones são utilizados, de acordo com a classificação do próprio SISANT?
   R.: Aerofotografia | Aerocinematografia | Aero inspeção