<a href="https://colab.research.google.com/github/flaviohnm/projeto_bancodedados/blob/main/ocorrencia_tipo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Projeto de Banco de Dados - Mestrado Profissional em Tecnologia da Informação

##Equipe

*   Carlos
*   Flavio
*   Karenina

#Fase 1 | Preparação do Ambiente do Notebook

1.1 - Instação das bibliotecas

In [1]:
! pip install pandera
! pip install pymongo
! pip install dnspython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


##1.2 - Importação das bibliotecas

In [2]:
import pandas as pd
import pandera as pa
import pymongo
from pymongo import MongoClient as mc

#Fase 2 | Extração dos dados do Google Drive

##2.1 - Importando dados do Google Drive

In [3]:
df = pd.read_csv("/content/drive/MyDrive/projeto_bancodedados/ocorrencia_tipo.csv",sep=";")

##2.2 - Checagem inicial dos dados importados

In [4]:
#checando o dataset
df.head(10)

Unnamed: 0,codigo_ocorrencia1,ocorrencia_tipo,ocorrencia_tipo_categoria,taxonomia_tipo_icao
0,45331,COM PESSOAL EM VOO,OUTROS | COM PESSOAL EM VOO,OTHR
1,45332,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
2,45333,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR | FALHA DO...,SCF-PP
3,45334,ESTOURO DE PNEU,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,SCF-NP
4,45390,OPERAÇÃO A BAIXA ALTITUDE,OPERAÇÃO A BAIXA ALTITUDE,LALT
5,45391,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR | FALHA DO...,SCF-PP
6,45392,PERDA DE CONTROLE EM VOO,PERDA DE CONTROLE EM VOO,LOC-I
7,45393,EXCURSÃO DE PISTA,EXCURSÃO DE PISTA,RE
8,45393,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
9,45396,COM TREM DE POUSO,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,SCF-NP


In [5]:
#checando os tipos de dados
df.dtypes

codigo_ocorrencia1            int64
ocorrencia_tipo              object
ocorrencia_tipo_categoria    object
taxonomia_tipo_icao          object
dtype: object

#Fase 3 | Iniciando as transformações de dados

##3.1 - Checando os valores nulos

In [6]:
#checando valores nulos
df.isnull().sum()

codigo_ocorrencia1           0
ocorrencia_tipo              1
ocorrencia_tipo_categoria    1
taxonomia_tipo_icao          1
dtype: int64

In [7]:
#definindo os tipos de dados
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia1":pa.Column(pa.Int64),
        "ocorrencia_tipo":pa.Column((pa.String),nullable=True),
        "ocorrencia_tipo_categoria":pa.Column((pa.String),nullable=True),
        "taxonomia_tipo_icao":pa.Column((pa.String),nullable=True),
    }
)

In [8]:
#validando os tipos de dados
schema.validate(df)

Unnamed: 0,codigo_ocorrencia1,ocorrencia_tipo,ocorrencia_tipo_categoria,taxonomia_tipo_icao
0,45331,COM PESSOAL EM VOO,OUTROS | COM PESSOAL EM VOO,OTHR
1,45332,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
2,45333,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR | FALHA DO...,SCF-PP
3,45334,ESTOURO DE PNEU,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,SCF-NP
4,45390,OPERAÇÃO A BAIXA ALTITUDE,OPERAÇÃO A BAIXA ALTITUDE,LALT
...,...,...,...,...
5342,80461,COM TREM DE POUSO,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,SCF-NP
5343,80463,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,SCF-NP
5344,80465,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR | FALHA DO...,SCF-PP
5345,80467,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR | FALHA DO...,SCF-PP


##3.2 - Checando valores únicos

In [9]:
df.codigo_ocorrencia1.is_unique

False

In [10]:
resultado = df["codigo_ocorrencia1"].duplicated()

In [11]:
#checando os valores duplicados
df[resultado]

Unnamed: 0,codigo_ocorrencia1,ocorrencia_tipo,ocorrencia_tipo_categoria,taxonomia_tipo_icao
8,45393,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
22,45414,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR | FALHA DO...,SCF-PP
34,45524,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
48,45582,EXCURSÃO DE PISTA,EXCURSÃO DE PISTA,RE
55,45589,PERDA DE CONTROLE EM VOO,PERDA DE CONTROLE EM VOO,LOC-I
...,...,...,...,...
5330,80452,PERDA DE CONTROLE EM VOO,PERDA DE CONTROLE EM VOO,LOC-I
5333,80454,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
5335,80455,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,LOC-G
5337,80456,EXCURSÃO DE PISTA,EXCURSÃO DE PISTA,RE


##3.3 - Criação de DataFrames com dados específicos

###3.3.1 - Criação DataFrames

In [12]:
#ocorrencia_tipo e os campos que possuem valores nulos
ocorrencia_tipo = df[{'codigo_ocorrencia1','ocorrencia_tipo','ocorrencia_tipo_categoria','taxonomia_tipo_icao'}]

###3.3.2 - Criação de Indexes

In [13]:
nova_ordem = ['codigo_ocorrencia1','ocorrencia_tipo','ocorrencia_tipo_categoria','taxonomia_tipo_icao']
ocorrencia_tipo = ocorrencia_tipo[nova_ordem]

###3.3.3 - Tratamento de valores nulos

In [14]:
#excluir as linhas com valores NA
ocorrencia_tipo.dropna(inplace=True)

#Fase 4 - Conexão com MongoDB Atlas

##4.1 - Conexão com MongoDB Atlas - Flávio

In [15]:
#url de conexão com o mongoDBAltas - Flavio
#uri = "mongodb+srv://mongo_user:MongoUser1234@cluster0.6qfwp.mongodb.net/starwars?retryWrites=true&w=majority"
#client = mc(uri)

In [16]:
#teste de conexão com o banco
#client.stats

Database(MongoClient(host=['cluster0-shard-00-01.6qfwp.mongodb.net:27017', 'cluster0-shard-00-02.6qfwp.mongodb.net:27017', 'cluster0-shard-00-00.6qfwp.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', authsource='admin', replicaset='atlas-r075ws-shard-0', tls=True), 'stats')

In [17]:
#definicao da base de ados que sera usada no projeto
#db = client['projetobd']

##4.2 - Conexão com MongoDB Atlas - Carlos

In [23]:
#url de conexão com o mongoDBAltas - Carlos
uri = "mongodb+srv://carlosluisfilho:gled1986@cluster0.q3jl7.mongodb.net/test?retryWrites=true&w=majority"
client = mc(uri)

In [24]:
#definicao da base de ados que sera usada no projeto
db = client['cenipa']

#Fase 5 - Carga do DataFrame no MongoDB

##5.1 - Definição da collection que será utilizada

In [25]:
collection = db['ocorrencia_tipo']

##5.2 - Carregando a coleção de aeronave no MongoDB

In [27]:
#lista.clear()
lista = []
for index, i in ocorrencia_tipo.iterrows():
    lista.append({"_id":index,"codigo_ocorrencia":i["codigo_ocorrencia1"],
                  "tipo": i["ocorrencia_tipo"],"categoria": i["ocorrencia_tipo_categoria"],
                  "taxonomia_icao": i["taxonomia_tipo_icao"]})
collection.insert_many(lista,bypass_document_validation=False)

<pymongo.results.InsertManyResult at 0x7f9aba63cf50>

#Fase 6 - Códigos Extras

##6.1 - Excluíndo uma coleção

In [None]:
#estrutura para excluir a coleção
collection = db['ocorrencia_tipo']
#collection.drop()