# **1. Importações e instalações**

In [None]:
pip install pyspark

Collecting pyspark
  Downloading pyspark-3.2.1.tar.gz (281.4 MB)
[K     |████████████████████████████████| 281.4 MB 34 kB/s 
[?25hCollecting py4j==0.10.9.3
  Downloading py4j-0.10.9.3-py2.py3-none-any.whl (198 kB)
[K     |████████████████████████████████| 198 kB 43.3 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.2.1-py2.py3-none-any.whl size=281853642 sha256=aec46860ba20ff7671dc276101e1228988dfa7f91a0b7af16dbe5dc658a8be70
  Stored in directory: /root/.cache/pip/wheels/9f/f5/07/7cd8017084dce4e93e84e92efd1e1d5334db05f2e83bcef74f
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.3 pyspark-3.2.1


In [None]:
pip install gcsfs

Collecting gcsfs
  Downloading gcsfs-2022.3.0-py2.py3-none-any.whl (25 kB)
Collecting aiohttp<4
  Downloading aiohttp-3.8.1-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 7.4 MB/s 
Collecting fsspec==2022.3.0
  Downloading fsspec-2022.3.0-py3-none-any.whl (136 kB)
[K     |████████████████████████████████| 136 kB 65.2 MB/s 
Collecting yarl<2.0,>=1.0
  Downloading yarl-1.7.2-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (271 kB)
[K     |████████████████████████████████| 271 kB 49.1 MB/s 
Collecting async-timeout<5.0,>=4.0.0a3
  Downloading async_timeout-4.0.2-py3-none-any.whl (5.8 kB)
Collecting frozenlist>=1.1.1
  Downloading frozenlist-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (144 kB)
[K     |████████████████████████████████| 144 kB 59.1 MB/s 
[?25hCollecting asyn

In [None]:
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark import SparkConf
import pyspark.sql.functions as F
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql import Window
from google.cloud import storage
import os

# **2. Criando a SparkSession**

In [None]:
#Configurando a SparkSession com hadoop
spark = (SparkSession.builder
        .master("local")
        .appName("acidentes_terrestres") 
        .config('spark.jars','/content/gcs-connector-hadoop3-latest.jar' )
        .config('spark.hadoop.fs.gs.impl','com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')
        .config('spark.hadoop.fs.gs.auth.service.account.enable', 'true')
        .config("spark.hadoop.google.cloud.auth.service.account.json.keyfile",'/content/sca-at-a604a883845e.json')
        .config('spark.hadoop.fs.gs.project.id','sca-at')
        .getOrCreate())
spark

# **3. Criando o DataFrame**

## **3.1 Criando o Struct Type**

In [None]:
#definindo o esquema
schemaspark = StructType(
   [StructField('id', StringType(), True),
    StructField('id_pessoa', StringType(), True),
    StructField('data', StringType(), True),
    StructField('dia_semana', StringType(), True),
    StructField('uf', StringType(), True),
    StructField('rodovia', StringType(), True),
    StructField('km', FloatType(), True),
    StructField('municipio', StringType(), True),
    StructField('fase_dia', StringType(), True),
    StructField('id_veiculo', StringType(), True),
    StructField('tipo_veiculo', StringType(), True),
    StructField('marca_modelo', StringType(), True),
    StructField('ano_fabricacao_veiculo', StringType(), True),
    StructField('tipo_envolvido', StringType(), True),
    StructField('estado_fisico', StringType(), True),
    StructField('idade', StringType(), True),
    StructField('sexo', StringType(), True),
    StructField('latitude', FloatType(), True),
    StructField('longitude', FloatType(), True)
   ]
  )

## **3.2 Config**

In [None]:
#INTEGRANDO COM A GCP

from google.colab import auth
from google.cloud import storage
auth.authenticate_user()
project_id = 'sca-at'
!gcloud config set project sca-at

Updated property [core/project].


To take a quick anonymous survey, run:
  $ gcloud survey



In [None]:
#IMPORTANDO ARQUIVO DA GCP PARA O COLAB

!gsutil cp gs://acidentes_terrestres/dados_tratados/acidentes_pessoas.csv /tmp/acidentes_pessoas.csv

Copying gs://acidentes_terrestres/dados_tratados/acidentes_pessoas.csv...
\ [1 files][124.1 MiB/124.1 MiB]                                                
Operation completed over 1 objects/124.1 MiB.                                    


## **3.3 Importando o DataFrame**

In [None]:
#Lendo o DataFrame
dfs = spark.read.options(header=True).option("delimiter", ",").csv("/tmp/acidentes_pessoas.csv", schema=schemaspark)

In [None]:
#Verificando o esquema
dfs.printSchema()

root
 |-- id: string (nullable = true)
 |-- id_pessoa: string (nullable = true)
 |-- data: string (nullable = true)
 |-- dia_semana: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- rodovia: string (nullable = true)
 |-- km: float (nullable = true)
 |-- municipio: string (nullable = true)
 |-- fase_dia: string (nullable = true)
 |-- id_veiculo: string (nullable = true)
 |-- tipo_veiculo: string (nullable = true)
 |-- marca_modelo: string (nullable = true)
 |-- ano_fabricacao_veiculo: string (nullable = true)
 |-- tipo_envolvido: string (nullable = true)
 |-- estado_fisico: string (nullable = true)
 |-- idade: string (nullable = true)
 |-- sexo: string (nullable = true)
 |-- latitude: float (nullable = true)
 |-- longitude: float (nullable = true)



In [None]:
# Visualizando o DataFrame
dfs.show(1)

+---+---------+----------+----------+---+-------+-----+---------+-----------+----------+------------+--------------------+----------------------+--------------+-------------+-----+---------+----------+----------+
| id|id_pessoa|      data|dia_semana| uf|rodovia|   km|municipio|   fase_dia|id_veiculo|tipo_veiculo|        marca_modelo|ano_fabricacao_veiculo|tipo_envolvido|estado_fisico|idade|     sexo|  latitude| longitude|
+---+---------+----------+----------+---+-------+-----+---------+-----------+----------+------------+--------------------+----------------------+--------------+-------------+-----+---------+----------+----------+
|  8|        1|2017-01-01|   domingo| PR|  376.0|112.0|PARANAVAI|Plena Noite|         5| Motocicleta|HONDA/CG 150 TITA...|                  2005|      Condutor|Lesões Graves| 19.0|Masculino|-23.098806|-52.387894|
+---+---------+----------+----------+---+-------+-----+---------+-----------+----------+------------+--------------------+----------------------+---

# **4. Analise de dados**

## **4.1 Verificação de nulos**

In [None]:
# Verificando Nulos
dfs.toPandas().isna().sum()

id                             0
id_pessoa                      0
data                           0
dia_semana                     0
uf                             0
rodovia                        0
km                             0
municipio                      0
fase_dia                       0
id_veiculo                     0
tipo_veiculo                   0
marca_modelo                   0
ano_fabricacao_veiculo         0
tipo_envolvido                 0
estado_fisico                  0
idade                          0
sexo                           0
latitude                  135131
longitude                 135131
dtype: int64

## **4.2 verificação de inconsistencias**

In [None]:
#Contagem das idades maior que 100
dfs.filter(dfs['idade']>100).count()

1815

In [None]:
dfs.select([count(when(col(c).isNull(), c)).alias(c) for c in dfs.columns]).show(vertical=True)

-RECORD 0------------------------
 id                     | 0      
 id_pessoa              | 0      
 data                   | 0      
 dia_semana             | 0      
 uf                     | 0      
 rodovia                | 0      
 km                     | 0      
 municipio              | 0      
 fase_dia               | 0      
 id_veiculo             | 0      
 tipo_veiculo           | 0      
 marca_modelo           | 0      
 ano_fabricacao_veiculo | 0      
 tipo_envolvido         | 0      
 estado_fisico          | 0      
 idade                  | 0      
 sexo                   | 0      
 latitude               | 135131 
 longitude              | 135131 



In [None]:
dfs.select([count(when(isnan(c), c)).alias(c) for c in dfs.columns]).show(vertical=True)

-RECORD 0---------------------
 id                     | 0   
 id_pessoa              | 0   
 data                   | 0   
 dia_semana             | 0   
 uf                     | 0   
 rodovia                | 0   
 km                     | 0   
 municipio              | 0   
 fase_dia               | 0   
 id_veiculo             | 0   
 tipo_veiculo           | 0   
 marca_modelo           | 0   
 ano_fabricacao_veiculo | 0   
 tipo_envolvido         | 0   
 estado_fisico          | 0   
 idade                  | 0   
 sexo                   | 0   
 latitude               | 0   
 longitude              | 0   



## **4.3 Novas coluna**

In [None]:
#Criando uma nova coluna de faixa etária 
dfs=dfs.withColumn('faixa_idade', F.when((col('idade')>100), lit('Não Informado'))
                                .when((col('idade')>85), lit('85+'))
                                .when((col('idade')>=80), lit('80-84'))
                                .when((col('idade')>=75), lit('75-79'))
                                .when((col('idade')>=70), lit('70-74'))
                                .when((col('idade')>=65), lit('65-69'))
                                .when((col('idade')>=60), lit('60-64'))
                                .when((col('idade')>=55), lit('55-59'))
                                .when((col('idade')>=50), lit('50-54'))
                                .when((col('idade')>=45), lit('45-49'))
                                .when((col('idade')>=40), lit('40-44'))
                                .when((col('idade')>=35), lit('35-39'))
                                .when((col('idade')>=30), lit('30-34'))
                                .when((col('idade')>=25), lit('25-29'))
                                .when((col('idade')>=20), lit('20-24'))
                                .when((col('idade')>=16), lit('16-19'))
                                .when((col('idade')>=11), lit('11-15'))
                                .when((col('idade')<=10), lit('00-10')))
dfs.select('faixa_idade', 'idade').show(100)

+-------------+------+
|  faixa_idade| idade|
+-------------+------+
|        16-19|  19.0|
|        35-39|  35.0|
|        25-29|  27.0|
|        25-29|  27.0|
|        20-24|  24.0|
|        55-59|  57.0|
|        35-39|  35.0|
|        35-39|  35.0|
|        45-49|  49.0|
|        11-15|  13.0|
|        16-19|  17.0|
|        45-49|  45.0|
|        45-49|  46.0|
|        35-39|  37.0|
|        30-34|  31.0|
|        30-34|  31.0|
|        00-10|   6.0|
|        30-34|  30.0|
|        16-19|  19.0|
|        30-34|  32.0|
|        40-44|  44.0|
|        40-44|  43.0|
|        55-59|  57.0|
|        25-29|  28.0|
|        25-29|  27.0|
|        30-34|  33.0|
|        40-44|  41.0|
|        40-44|  43.0|
|        35-39|  38.0|
|        50-54|  52.0|
|        50-54|  52.0|
|        40-44|  41.0|
|        30-34|  34.0|
|        20-24|  22.0|
|        50-54|  53.0|
|        20-24|  20.0|
|        16-19|  19.0|
|        20-24|  24.0|
|        20-24|  22.0|
|        50-54|  52.0|
|        25

In [None]:
dfs.drop(dfs.idade).printSchema()

root
 |-- id: string (nullable = true)
 |-- id_pessoa: string (nullable = true)
 |-- data: string (nullable = true)
 |-- dia_semana: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- rodovia: string (nullable = true)
 |-- km: float (nullable = true)
 |-- municipio: string (nullable = true)
 |-- fase_dia: string (nullable = true)
 |-- id_veiculo: string (nullable = true)
 |-- tipo_veiculo: string (nullable = true)
 |-- marca_modelo: string (nullable = true)
 |-- ano_fabricacao_veiculo: string (nullable = true)
 |-- tipo_envolvido: string (nullable = true)
 |-- estado_fisico: string (nullable = true)
 |-- sexo: string (nullable = true)
 |-- latitude: float (nullable = true)
 |-- longitude: float (nullable = true)
 |-- faixa_idade: string (nullable = true)



# **5. Consultas**

In [None]:
#Quantas pessoas se envolveram em acidentes durante o periodo de 2017 a 2021
dfs.select(F.countDistinct(F.col('id_pessoa')).alias('Pessoas envolvidas')).show(truncate=False)

+------------------+
|Pessoas envolvidas|
+------------------+
|749876            |
+------------------+



In [None]:
#De que forma se envolveram
dfs.groupBy(dfs.tipo_envolvido.alias('Forma de Envolvimento')).count().orderBy('count', ascending=False).show()


+---------------------+------+
|Forma de Envolvimento| count|
+---------------------+------+
|             Condutor|535778|
|           Passageiro|199100|
|             Pedestre| 14820|
|            Cavaleiro|   178|
+---------------------+------+



In [None]:
# Filtro que demonstra os acidentes ocorridos no fim de semana
dfs.filter("dia_semana = 'domingo' or dia_semana = 'sábado' and fase_dia = 'Plena Noite' ").orderBy("uf").show(5)
filtro_weekend = dfs.filter("dia_semana = 'domingo' or dia_semana = 'sábado' and fase_dia = 'Plena Noite' ")

+----+---------+----------+----------+---+-------+-----+--------------+-----------+----------+------------+--------------------+----------------------+--------------+-------------+-----+---------+----------+----------+-----------+
|  id|id_pessoa|      data|dia_semana| uf|rodovia|   km|     municipio|   fase_dia|id_veiculo|tipo_veiculo|        marca_modelo|ano_fabricacao_veiculo|tipo_envolvido|estado_fisico|idade|     sexo|  latitude| longitude|faixa_idade|
+----+---------+----------+----------+---+-------+-----+--------------+-----------+----------+------------+--------------------+----------------------+--------------+-------------+-----+---------+----------+----------+-----------+
| 332|      449|2017-01-01|   domingo| AC|  364.0|124.6|    RIO BRANCO|Plena Noite|       377|   Automóvel|I/RENAULT FLUENCE...|                  2016|    Passageiro|        Ileso| 35.0|Masculino|-10.011411|-67.795944|      35-39|
|2285|     4848|2017-01-08|   domingo| AC|  317.0|260.0|EPITACIOLANDIA|  Ple

In [None]:
#Acidentes ocorridos no fim de sema na por estado
filtro_weekend.groupBy(filtro_weekend.uf.alias('Estados')).count().orderBy('count', ascending=False).show()

+-------+-----+
|Estados|count|
+-------+-----+
|     MG|24070|
|     SC|20703|
|     PR|19759|
|     RJ|11969|
|     RS|11880|
|     SP|11101|
|     BA| 9738|
|     GO| 9134|
|     PE| 6388|
|     ES| 6302|
|     MT| 5814|
|     MS| 4433|
|     CE| 3955|
|     PB| 3493|
|     PI| 3411|
|     RO| 3255|
|     MA| 3190|
|     RN| 2917|
|     PA| 2729|
|     DF| 2667|
+-------+-----+
only showing top 20 rows



# **6. SparkSQL**

In [None]:
#Criando a tabela temporaria que será utilizada pelo SQL
dfs.createOrReplaceTempView('pessoas')

In [None]:
#QUANTIDADE DE ACIDENTES AGRUPADO POR ESTADO FISICO, SEXO
spark.sql("SELECT estado_fisico AS Nivel_Lesao, sexo, count(DISTINCT id) AS Numero_Acidentes FROM pessoas  GROUP BY estado_fisico, sexo ORDER BY estado_fisico ASC").show()

+-------------+-------------+----------------+
|  Nivel_Lesao|         sexo|Numero_Acidentes|
+-------------+-------------+----------------+
|        Ileso|Não Informado|              78|
|        Ileso|    Masculino|          206352|
|        Ileso|     Feminino|           44678|
|Lesões Graves|    Masculino|           57246|
|Lesões Graves|Não Informado|              12|
|Lesões Graves|     Feminino|           17851|
| Lesões Leves|    Masculino|          163608|
| Lesões Leves|Não Informado|              81|
| Lesões Leves|     Feminino|           70220|
|        Óbito|    Masculino|           19319|
|        Óbito|     Feminino|            4126|
|        Óbito|Não Informado|               7|
+-------------+-------------+----------------+



In [None]:
#QUANTIDADE DE ACIDENTES AGRUPADO POR SEXO
spark.sql("SELECT estado_fisico AS Nivel_Lesao, sexo, count(DISTINCT id) AS Numero_Acidentes FROM pessoas GROUP BY estado_fisico, sexo ORDER BY estado_fisico ASC").show()

+-------------+-------------+----------------+
|  Nivel_Lesao|         sexo|Numero_Acidentes|
+-------------+-------------+----------------+
|        Ileso|Não Informado|              78|
|        Ileso|    Masculino|          206352|
|        Ileso|     Feminino|           44678|
|Lesões Graves|    Masculino|           57246|
|Lesões Graves|Não Informado|              12|
|Lesões Graves|     Feminino|           17851|
| Lesões Leves|    Masculino|          163608|
| Lesões Leves|Não Informado|              81|
| Lesões Leves|     Feminino|           70220|
|        Óbito|    Masculino|           19319|
|        Óbito|     Feminino|            4126|
|        Óbito|Não Informado|               7|
+-------------+-------------+----------------+



In [None]:
#QUANTIDADE DE ACIDENTES AGRUPADO POR TIPO DE AUTOMOVEL E ESTADO FISICO
spark.sql("SELECT estado_fisico AS Nivel_Lesao, sexo, count(DISTINCT id) AS Numero_Acidentes FROM pessoas  GROUP BY estado_fisico, sexo ORDER BY estado_fisico ASC").show()

+-------------+-------------+----------------+
|  Nivel_Lesao|         sexo|Numero_Acidentes|
+-------------+-------------+----------------+
|        Ileso|Não Informado|              78|
|        Ileso|    Masculino|          206352|
|        Ileso|     Feminino|           44678|
|Lesões Graves|    Masculino|           57246|
|Lesões Graves|Não Informado|              12|
|Lesões Graves|     Feminino|           17851|
| Lesões Leves|    Masculino|          163608|
| Lesões Leves|Não Informado|              81|
| Lesões Leves|     Feminino|           70220|
|        Óbito|    Masculino|           19319|
|        Óbito|     Feminino|            4126|
|        Óbito|Não Informado|               7|
+-------------+-------------+----------------+



In [None]:
#NUMERO DE ACIDENTES POR ESTADO AGRUPADO PELA FASE DO DIA
spark.sql("SELECT fase_dia, uf AS Estado, count(DISTINCT id) AS Numero_Acidentes FROM pessoas GROUP BY fase_dia, uf ORDER BY count(DISTINCT id) DESC").show()

+-----------+------+----------------+
|   fase_dia|Estado|Numero_Acidentes|
+-----------+------+----------------+
|  Pleno dia|    MG|           26340|
|  Pleno dia|    SC|           23954|
|  Pleno dia|    PR|           21325|
|Plena Noite|    MG|           14798|
|Plena Noite|    SC|           14034|
|Plena Noite|    PR|           13987|
|  Pleno dia|    RS|           13259|
|  Pleno dia|    RJ|           12417|
|  Pleno dia|    SP|           11936|
|  Pleno dia|    BA|            9593|
|  Pleno dia|    GO|            9437|
|Plena Noite|    RJ|            8157|
|Plena Noite|    SP|            8135|
|Plena Noite|    RS|            7919|
|  Pleno dia|    PE|            7439|
|  Pleno dia|    ES|            7270|
|  Pleno dia|    MT|            6895|
|Plena Noite|    BA|            6293|
|Plena Noite|    GO|            5645|
|Plena Noite|    PE|            4752|
+-----------+------+----------------+
only showing top 20 rows



In [None]:
#NUMERO DE ACIDENTES POR TIPO DO ENVOLVIDO E NIVEL DE LESÃO
spark.sql("SELECT tipo_envolvido as Envolvido, estado_fisico as Nivel_Lesao, sexo, count(DISTINCT id) AS Numero_Acidentes FROM pessoas  GROUP BY tipo_envolvido, estado_fisico, sexo ORDER BY count(DISTINCT id ) DESC").show()

+----------+-------------+---------+----------------+
| Envolvido|  Nivel_Lesao|     sexo|Numero_Acidentes|
+----------+-------------+---------+----------------+
|  Condutor|        Ileso|Masculino|          200446|
|  Condutor| Lesões Leves|Masculino|          144220|
|Passageiro| Lesões Leves| Feminino|           48230|
|  Condutor|Lesões Graves|Masculino|           47979|
|Passageiro| Lesões Leves|Masculino|           32064|
|  Condutor|        Ileso| Feminino|           27246|
|  Condutor| Lesões Leves| Feminino|           24624|
|Passageiro|        Ileso|Masculino|           22734|
|Passageiro|        Ileso| Feminino|           19981|
|  Condutor|        Óbito|Masculino|           14921|
|Passageiro|Lesões Graves| Feminino|           11952|
|Passageiro|Lesões Graves|Masculino|            9248|
|  Condutor|Lesões Graves| Feminino|            5192|
|  Pedestre|Lesões Graves|Masculino|            3938|
|  Pedestre| Lesões Leves|Masculino|            3641|
|  Pedestre|        Óbito|Ma

In [None]:
#NUMERO DE MORTES POR GENERO E POR DIA DA SEMANA
spark.sql("SELECT estado_fisico AS Nivel_Lesao, sexo, dia_semana, count(DISTINCT id) AS Numero_Acidentes FROM pessoas WHERE estado_fisico = 'Óbito' GROUP BY estado_fisico, sexo, dia_semana ORDER BY Numero_Acidentes desc").show()

+-----------+-------------+-------------+----------------+
|Nivel_Lesao|         sexo|   dia_semana|Numero_Acidentes|
+-----------+-------------+-------------+----------------+
|      Óbito|    Masculino|      domingo|            4012|
|      Óbito|    Masculino|       sábado|            3683|
|      Óbito|    Masculino|  sexta-feira|            2761|
|      Óbito|    Masculino|segunda-feira|            2397|
|      Óbito|    Masculino| quinta-feira|            2319|
|      Óbito|    Masculino| quarta-feira|            2094|
|      Óbito|    Masculino|  terça-feira|            2053|
|      Óbito|     Feminino|      domingo|             924|
|      Óbito|     Feminino|       sábado|             721|
|      Óbito|     Feminino|  sexta-feira|             612|
|      Óbito|     Feminino|segunda-feira|             530|
|      Óbito|     Feminino| quinta-feira|             459|
|      Óbito|     Feminino| quarta-feira|             443|
|      Óbito|     Feminino|  terça-feira|             43

# **7. Exportação**

## **7.1 GCP**

In [None]:
dfs.toPandas().to_csv('acidentes_pessoas.csv',index=False)

## **7.2 MongoDB**

### **7.2.1 Instalação do Mongo DB**

In [None]:
pip install pymongo[srv]

Collecting dnspython<3.0.0,>=1.16.0
  Downloading dnspython-2.2.1-py3-none-any.whl (269 kB)
[K     |████████████████████████████████| 269 kB 5.2 MB/s 
[?25hInstalling collected packages: dnspython
Successfully installed dnspython-2.2.1


In [None]:
import pymongo
from pymongo import MongoClient

In [None]:
client = pymongo.MongoClient("mongodb+srv://Kings:reis4109@cluster0.9jrfe.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")

### **7.2.2 Enviando o DataFrame**

In [None]:
db = client['Acidentes_Terrestres']
collection=db['AP_Tratado']

In [None]:
#convertendo DataFrame em dicionário

dfs.toPandas().reset_index(inplace=True)

data_dict = dfs.toPandas().to_dict("records")

In [None]:
#Inserindo informações finalmente
collection.insert_many(data_dict)