<a href="https://colab.research.google.com/github/flaviohnm/projeto_bancodedados/blob/main/fator_contribuinte.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Projeto de Banco de Dados - Mestrado Profissional em Tecnologia da Informação

##Equipe

*   Carlos
*   Flavio
*   Karenina


#Fase 1 | Preparação do Ambiente do Notebook

##1.1 - Instação das bibliotecas

In [1]:
! pip install pandera
! pip install pymongo
! pip install dnspython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pandera
  Downloading pandera-0.9.0-py3-none-any.whl (197 kB)
[K     |████████████████████████████████| 197 kB 7.6 MB/s 
Collecting typing-inspect>=0.6.0
  Downloading typing_inspect-0.7.1-py3-none-any.whl (8.4 kB)
Collecting mypy-extensions>=0.3.0
  Downloading mypy_extensions-0.4.3-py2.py3-none-any.whl (4.5 kB)
Installing collected packages: mypy-extensions, typing-inspect, pandera
Successfully installed mypy-extensions-0.4.3 pandera-0.9.0 typing-inspect-0.7.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting dnspython
  Downloading dnspython-2.2.1-py3-none-any.whl (269 kB)
[K     |████████████████████████████████| 269 kB 9.3 MB/s 
[?25hInstalling collected packages: dnspython
Successfully installed dnspython-2.2.1


##1.2 - Importação das bibliotecas

In [2]:
import pandas as pd
import pandera as pa
import pymongo
from pymongo import MongoClient as mc

#Fase 2 | Extração dos dados do Google Drive

##2.1 - Importando dados do Google Drive

In [3]:
df = pd.read_csv("/content/drive/MyDrive/projeto_bancodedados/fator_contribuinte.csv",sep=";")

##2.2 - Checagem inicial dos dados importados

In [4]:
#checando o dataset
df.head()

Unnamed: 0,codigo_ocorrencia3,fator_nome,fator_aspecto,fator_condicionante,fator_area
0,45331,APLICAÇÃO DE COMANDOS,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL
1,45331,ATENÇÃO,ASPECTO PSICOLÓGICO,INDIVIDUAL,FATOR HUMANO
2,45331,CAPACITAÇÃO E TREINAMENTO,ASPECTO PSICOLÓGICO,ORGANIZACIONAL,FATOR HUMANO
3,45331,CLIMA ORGANIZACIONAL,ASPECTO PSICOLÓGICO,ORGANIZACIONAL,FATOR HUMANO
4,45331,COMUNICAÇÃO,ASPECTO PSICOLÓGICO,PSICOSSOCIAL,FATOR HUMANO


In [5]:
#checando os tipos de dados
df.dtypes

codigo_ocorrencia3      int64
fator_nome             object
fator_aspecto          object
fator_condicionante    object
fator_area             object
dtype: object

#Fase 3 | Iniciando as transformações de dados

##3.1 - Checando os valores nulos

In [6]:
#O comando isnull quais colunas possuem valores nulos e o sum soma por coluna quantos valores nulos há
df.isnull().sum()

codigo_ocorrencia3     0
fator_nome             0
fator_aspecto          0
fator_condicionante    0
fator_area             0
dtype: int64

In [7]:
#definindo os tipos de dados
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia3":pa.Column(pa.Int),
        "fator_nome":pa.Column((pa.String), nullable=True),
        "fator_aspecto":pa.Column((pa.String), nullable=True),
        "fator_condicionante":pa.Column((pa.String), nullable=True),
        "fator_area":pa.Column((pa.String), nullable=True),
        }
)

In [8]:
#validando os tipos de dados
schema.validate(df)

Unnamed: 0,codigo_ocorrencia3,fator_nome,fator_aspecto,fator_condicionante,fator_area
0,45331,APLICAÇÃO DE COMANDOS,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL
1,45331,ATENÇÃO,ASPECTO PSICOLÓGICO,INDIVIDUAL,FATOR HUMANO
2,45331,CAPACITAÇÃO E TREINAMENTO,ASPECTO PSICOLÓGICO,ORGANIZACIONAL,FATOR HUMANO
3,45331,CLIMA ORGANIZACIONAL,ASPECTO PSICOLÓGICO,ORGANIZACIONAL,FATOR HUMANO
4,45331,COMUNICAÇÃO,ASPECTO PSICOLÓGICO,PSICOSSOCIAL,FATOR HUMANO
...,...,...,...,...,...
3459,79713,SUPERVISÃO GERENCIAL,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL
3460,79729,OUTRO FATOR,OUTRO,***,OUTRO
3461,80073,MANUTENÇÃO DA AERONAVE,DESEMPENHO DO SER HUMANO,MANUTENÇÃO DA AERONAVE,FATOR OPERACIONAL
3462,80258,INFRAESTRUTURA AEROPORTUÁRIA,INFRAESTRUTURA AEROPORTUÁRIA,***,FATOR OPERACIONAL


##3.2 - Checando valores únicos

In [9]:
df.codigo_ocorrencia3.is_unique

False

##3.3 - Criação de DataFrames com dados específicos

###3.3.1 - Criação DataFrames

In [10]:
#fator_contribuinto
fator_contribuinte = df[{'codigo_ocorrencia3','fator_nome','fator_aspecto','fator_condicionante','fator_area'}]

###3.3.2 - Criação de Indexes

In [11]:
nova_ordem = (['codigo_ocorrencia3','fator_nome','fator_aspecto','fator_condicionante','fator_area'])
fator_contribuinte = fator_contribuinte[nova_ordem]

#Fase 4 - Conexão com MongoDB Atlas

##4.1 - Conexão com MongoDB Atlas - Flávio

In [24]:
#url de conexão com o mongoDBAltas - Flavio
uri = "mongodb+srv://mongo_user:MongoUser1234@cluster0.6qfwp.mongodb.net/starwars?retryWrites=true&w=majority"
client = mc(uri)

In [25]:
db = client['projetobd']

##4.2 - Conexão com MongoDB Atlas - Carlos

In [20]:
#url de conexão com o mongoDBAltas - Carlos
#uri = "mongodb+srv://carlosluisfilho:gled1986@cluster0.q3jl7.mongodb.net/test?retryWrites=true&w=majority"
#client = mc(uri)

In [21]:
#db = client['cenipa']

#Fase 5 - Carga do DataFrame no MongoDB

##5.1 - Definição da collection que será utilizada

In [26]:
collection = db['fator_contribuinte']

##5.2 - Carregando a coleção de ocorrencias no MongoDB

In [27]:
#lista.clear()
lista = []
for index, i in fator_contribuinte.iterrows():
    lista.append({"codigo_ocorrencia":i["codigo_ocorrencia3"], "nome": i["fator_nome"],
                  "aspecto": i["fator_aspecto"],"condicionante": i["fator_condicionante"],"area": i["fator_area"],
                  })
collection.insert_many(lista,bypass_document_validation=False)

<pymongo.results.InsertManyResult at 0x7f47b287c2d0>

#Fase 6 - Códigos Extras

In [19]:
#estrutura para excluir a coleção
collection = db['fator_contribuinte']
#collection.drop()