# <font color='blue'>Data Science Academy - Formação Cientista de Dados</font>
# <font color='blue'>Autor: Evandro Eulálio Cleto</font>

## <font color='blue'>Data Início: 23/05/2023</font>
## <font color='blue'>Data Finalização: /2023</font>


![title](imagens/Apresent_Proj.png)

## <font color='blue'>Objetivo deste projeto:</font>
### <font color='blue'>Responder 10 perguntas de negócios através de análise de dados usando os pacotes parkSQL, PandaSQL, SQLAlchemy, MySql e Docker</font>

# Arquitetura do projeto

![title](imagens/Infro_Projeto.png)

Este foi um projeto desafiador pois foi desenvolvido no Linux Ubuntu 22.04, através de virtualização pelo Oracle VM VirtualBox executado de uma máquina com Windows 11.

Esse projeto teve início baixando um dataset do Microsoft Excel do link https://data.world/makeovermonday/2018w51, no Linux.

O dataset foi carregado através do pacote Pandas, que também foi usado para análise exploratória, em formato de dataframe.

O dataframe do Pandas foi gravado em uma tabela no SGBD MySQL e para a conexão do SGBD ao Python, foi usada a biblioteca SQLAlchemy.

Para extração dos dados do MySQL foi usada a biblioteca PandaSQL, usando o SQLAlchemy como conector com Python.

Já o MySQL foi instalado à partir de um container Docker, que devido à falta de suporte à KVM pelo VirtualBox foram instalados via command line. 

O guia para a instalação do Docker está aqui: https://github.com/EvandroCleto/Projeto03_V3_Analise_Risco_Transporte/blob/main/Guia_Instalacao_Docker_Linux.txt

E o guia para instalação do container com o MySQL está aqui: https://github.com/EvandroCleto/Projeto03_V3_Analise_Risco_Transporte/blob/main/Guia_Instalacao_MySQL_Docker.txt

As 10 pergutas de negócio foram respondidas usando querys pelo SparkSQL, que alimentaram gráficos plotados através do pacote Matplotlib. 







In [2]:
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
#!pip install -q -U watermark

In [1]:
# Importa o findspark e inicializa
# findspark -> Fornece findpark.init() para tornar o pyspark importável como uma biblioteca regular.
#!pip install findspark
import findspark
findspark.init()

In [None]:
#https://pypi.org/project/mysql-connector-python/
# Instala conector com o MySQL
#!pip install mysql-connector-python

In [None]:
# https://www.sqlalchemy.org/
#sqlalchemy -> facilita a conexão com SGBD
#!pip install -q sqlalchemy

In [None]:
# https://pypi.org/project/pandasql/
#pandasql -> Extrai dados do PostgreSQL
#!pip install -q pandasql

In [2]:
# Imports
import pandasql
import sqlalchemy
import pandas as pd
from pandasql import sqldf
from sqlalchemy import create_engine
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf

In [3]:
#Teste de Conexão com o MySQL
import mysql.connector
from mysql.connector import errorcode
try:
	db_connection = mysql.connector.connect(host='localhost', user='root', password='402676Ev', database='evandro')
	print("Database connection made!")
except mysql.connector.Error as error:
	if error.errno == errorcode.ER_BAD_DB_ERROR:
		print("Database doesn't exist")
	elif error.errno == errorcode.ER_ACCESS_DENIED_ERROR:
		print("User name or password is wrong")
	else:
		print(error)
else:
	db_connection.close()

Database connection made!


In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

findspark : 2.0.1
pandasql  : 0.7.3
pandas    : 1.4.4
sqlalchemy: 1.4.39



In [5]:
# Carregando o dataset London Bus Safety Performance 
df1 = pd.read_excel("dados/TFL_Bus_Safety.xlsx", sheet_name = 'Sheet1',index_col = False)

In [8]:
# Dimensões dos dados
df1.shape

(23158, 12)

In [9]:
# Tipo das variávies
df1.dtypes

Year                                  int64
Date Of Incident             datetime64[ns]
Route                                object
Operator                             object
Group Name                           object
Bus Garage                           object
Borough                              object
Injury Result Description            object
Incident Event Type                  object
Victim Category                      object
Victims Sex                          object
Victims Age                          object
dtype: object

In [6]:
# Exibe os 10 1º resgistros
df1.head(10)

Unnamed: 0,Year,Date Of Incident,Route,Operator,Group Name,Bus Garage,Borough,Injury Result Description,Incident Event Type,Victim Category,Victims Sex,Victims Age
0,2015,2015-01-01,1,London General,Go-Ahead,Garage Not Available,Southwark,Injuries treated on scene,Onboard Injuries,Passenger,Male,Child
1,2015,2015-01-01,4,Metroline,Metroline,Garage Not Available,Islington,Injuries treated on scene,Onboard Injuries,Passenger,Male,Unknown
2,2015,2015-01-01,5,East London,Stagecoach,Garage Not Available,Havering,Taken to Hospital – Reported Serious Injury or...,Onboard Injuries,Passenger,Male,Elderly
3,2015,2015-01-01,5,East London,Stagecoach,Garage Not Available,None London Borough,Taken to Hospital – Reported Serious Injury or...,Onboard Injuries,Passenger,Male,Elderly
4,2015,2015-01-01,6,Metroline,Metroline,Garage Not Available,Westminster,Reported Minor Injury - Treated at Hospital,Onboard Injuries,Pedestrian,Female,Elderly
5,2015,2015-01-01,6,Metroline,Metroline,Garage Not Available,Westminster,Taken to Hospital – Reported Serious Injury or...,Onboard Injuries,Passenger,Female,Elderly
6,2015,2015-01-01,8,Selkent,Stagecoach,Garage Not Available,City of London,Injuries treated on scene,Onboard Injuries,Passenger,Male,Adult
7,2015,2015-01-01,9,London United,London United,Garage Not Available,Hammersmith & Fulham,Injuries treated on scene,Onboard Injuries,Conductor,Unknown,Unknown
8,2015,2015-01-01,10,London United,London United,Garage Not Available,Westminster,Injuries treated on scene,Onboard Injuries,Passenger,Female,Elderly
9,2015,2015-01-01,11,London General,Go-Ahead,Garage Not Available,City of London,Taken to Hospital – Reported Serious Injury or...,Onboard Injuries,Passenger,Female,Adult


## Conectando ao SGBD MySQL no Docker

In [None]:
db_connection = mysql.connector.connect(user='root', password='402676Ev',
                              host='localhost',
                              database='evandro')

In [12]:
# Abre um cursor -> forma de percorrer objeto em um BD(Navegar por tabelas, pelos metadados, etc)
dbcursor = db_connection.cursor()

In [13]:
# Objeto cursor
dbcursor

<mysql.connector.cursor_cext.CMySQLCursor at 0x7f8e8dcb0760>

In [20]:
# Habilita commit automatico
db_connection.autocommit = True

In [26]:
# Drop no banco(Caso exista)
dbcursor.execute('DROP DATABASE IF EXISTS tb_transporte')

In [27]:
# Cria o banco de dados no SGBD
dbcursor.execute('CREATE DATABASE tb_transporte')

In [29]:
# Fecha conexão
dbcursor.close()

True

## Conectando ao novo Banco de Dados criado no SGBD MySQL no Docker

In [30]:
db_connection = mysql.connector.connect(user='root', password='402676Ev',
                              host='localhost',
                              database='tb_transporte')

## Criando Engine SQLAlchemy de Conexão ao PostgreSQL no Docker

In [34]:
# Cria o engine SQLAlchemy
engine = create_engine('mysql+mysqlconnector://root:402676Ev@localhost/tb_transporte')

In [35]:
# O método to_sql() salva o dataframe do Pandas na tabela do MySQL
# Se a tabela já existir será sobrescrita
df1.to_sql('tb_transporte', engine, if_exists= 'replace', index= False)

23158

## Carregando Dados do MySQL em Dataframes do Pandas com PandaSQL

In [41]:
# Query de consulta aos metadados para obter detalhes de uma tabela
pd.read_sql_query('''select ordinal_position, column_name, data_type 
                    from information_schema.columns 
                    where table_name = 'tb_transporte'
                    ''',
                 engine).head(12)

Unnamed: 0,ORDINAL_POSITION,COLUMN_NAME,DATA_TYPE
0,1,Year,bigint
1,2,Date Of Incident,datetime
2,3,Route,text
3,4,Operator,text
4,5,Group Name,text
5,6,Bus Garage,text
6,7,Borough,text
7,8,Injury Result Description,text
8,9,Incident Event Type,text
9,10,Victim Category,text


In [37]:
#Verificando o numero de linhas de uma das tabelas
pd.read_sql_query('select count(*) from tb_transporte', engine)

Unnamed: 0,count(*)
0,23158


## Respondendo às perguntas de negócio

### Pergunta 1: Qual a quantidade de incidentes por gênero?

### Pergunta 2:  Qual faixa etária esteve mais envolvida nos incidentes?

### Pergunta 3: Qual o percentual de incidentes por tipo de evento (Incident Event Type)?

### Pergunta 4: Como foi a evolução de incidentes por mês ao longo do tempo?


### Pergunta 5: Quando o incidente foi “Collision Incident” em qual mês houve o maior número de incidentes envolvendo pessoas do sexo feminino?


### Pergunta 6: Qual foi a média de incidentes por mês envolvendo crianças (Child)?


### Pergunta 7: Considerando a descrição de incidente como “Injuries treated on scene” (coluna Injury Result Description), qual o total de incidentes de pessoas do sexo masculino e sexo feminino?


### Pergunta 8: No ano de 2017 em qual mês houve mais incidentes com idosos (Elderly)?


### Pergunta 9: Considerando o Operador qual a distribuição de incidentes ao longo do tempo?


### Pergunta 10: Qual o tipo de incidente mais comum com ciclistas?