# Gerando o Dataset De Treinamento De Acidentes

### Importando bibliotecas

In [None]:
import pandas as pd
from resolve_path import ajuste_path

### Lendo a planilha de Acidentes Pre processada
(Já com os Locais de instalação associados a cada Acidente)

In [None]:
path = "data/"
path = ajuste_path(path)
pathUtil = path + "util/"

TabelaAcidentesPadronizada = pd.read_csv(
    pathUtil + "acidentes/" + "BD_Acidentes_Preparado.csv", sep='|'
)
TabelaAcidentesPadronizada.shape

### Contando a Quantidade de Acidentes
#### Em cada Local de instalação por Ano e Mês

In [None]:
def contagemAcidentes(TabelaAcidentes):
    # Supondo que cada linha na tabela é um acidente, podemos usar size() para contar
    TabelaAcidentes = (
        TabelaAcidentes.groupby(["Ano", "Mês", "Local de instalação"])
        .size()
        .reset_index(name="Quantidade de Acidentes")
    )
    return TabelaAcidentes

In [None]:
DatasetTreinamentoAcidentes = TabelaAcidentesPadronizada.copy()
DatasetTreinamentoAcidentes = contagemAcidentes(DatasetTreinamentoAcidentes)
DatasetTreinamentoAcidentes

### Adicionando Binario de Acidentes

In [None]:
# Adiciona nova coluna binaria de acidentes para possui o valor 1 para linhas que possuam QUALQUER tipo de acidente

DatasetTreinamentoAcidentes["binario acidentes"] = DatasetTreinamentoAcidentes.apply(
    lambda x: 1 if x["Quantidade de Acidentes"] > 0 else 0, axis=1)

### Contando a Quantidade de Acidentes de ALTO POTENCIAL
#### Em cada Local de instalação por Ano e Mês

In [None]:
# Acidentes de Alto Potencial são Acidentes com Potencial de 1 a 8
acidentesAltoPotencial = TabelaAcidentesPadronizada[TabelaAcidentesPadronizada["Potencial"] < 9]

acidentesAltoPotencialPorMesAnoLocal = (
    acidentesAltoPotencial.groupby(["Ano", "Mês", "Local de instalação"])
    .size()
    .reset_index(name="Quantidade de Acidentes de Alto Potencial")
)
acidentesAltoPotencialPorMesAnoLocal

### Contando a Quantidade de Contratos
#### Em cada Local de instalação por Ano e Mês

In [None]:
quantidadeContratos = (
    TabelaAcidentesPadronizada.groupby(["Ano", "Mês", "Local de instalação"])[
        "Nº do Contrato"]
    .count()
    .reset_index(name="Quantidade de Contratos")
)
quantidadeContratos

### Contabilizando os Principais Forncecedores
#### Em cada Local de instalação por Ano e Mês

In [None]:
principaisFornecedores = (
    TabelaAcidentesPadronizada.groupby(
        ["Ano", "Mês", "Local de instalação"])["Fornecedor"]
    .unique()
    .reset_index(name="Fornecedores")
)
principaisFornecedores

### Adicionando Colunas no Dataset de Treinamento de Acidentes:

#### Quantidade de Acidentes de Alto Potencial

In [None]:
def quantidadeDeAcidentesDeAltoPotencial(linha):
    dataset_filtrado = acidentesAltoPotencialPorMesAnoLocal[
        (acidentesAltoPotencialPorMesAnoLocal["Ano"] == linha["Ano"]) &
        (acidentesAltoPotencialPorMesAnoLocal["Mês"] == linha["Mês"]) &
        (acidentesAltoPotencialPorMesAnoLocal["Local de instalação"]
         == linha["Local de instalação"])
    ]
    if len(dataset_filtrado) > 0:
        return dataset_filtrado["Quantidade de Acidentes de Alto Potencial"].values[0]
    else:
        return 0


DatasetTreinamentoAcidentes["Quantidade de Acidentes de Alto Potencial"] = DatasetTreinamentoAcidentes.apply(
    quantidadeDeAcidentesDeAltoPotencial, axis=1)

#### Binario Acidentes de Alto Potencial
(1 se houver acidente de alto potencial, 0 caso contrário)

In [None]:
def BinarioAcidentesAltoPotencial(linha):
    count = acidentesAltoPotencialPorMesAnoLocal[
        (acidentesAltoPotencialPorMesAnoLocal["Ano"] == linha["Ano"]) &
        (acidentesAltoPotencialPorMesAnoLocal["Mês"] == linha["Mês"]) &
        (acidentesAltoPotencialPorMesAnoLocal["Local de instalação"]
         == linha["Local de instalação"])
    ].shape[0]

    return count


DatasetTreinamentoAcidentes["Binario Acidentes de Alto Potencial"] = DatasetTreinamentoAcidentes.apply(
    BinarioAcidentesAltoPotencial, axis=1)

#### Quantidade de Contratos

In [None]:
# fazer merge entre as tabelas: DatasetTreinamentoAcidentes e quantidadeContratos
DatasetTreinamentoAcidentes = pd.merge(
    DatasetTreinamentoAcidentes, quantidadeContratos, on=["Ano", "Mês", "Local de instalação"], how="left"
)

#### Principais Fornecedores

In [None]:
def PrincipaisFornecedores(linha):
    fornecedores = principaisFornecedores[
        (principaisFornecedores["Ano"] == linha["Ano"]) &
        (principaisFornecedores["Mês"] == linha["Mês"]) &
        (principaisFornecedores["Local de instalação"]
         == linha["Local de instalação"])
    ]["Fornecedores"].values

    return fornecedores


DatasetTreinamentoAcidentes["Principais Fornecedores"] = DatasetTreinamentoAcidentes.apply(
    PrincipaisFornecedores, axis=1)

### Versao Inicial do Dataset de Treinamento de Acidentes:

In [None]:
DatasetTreinamentoAcidentes

## Validação do Dataset de Treinamento de Acidentes

In [None]:
# Comparar Quantidade de Acidentes por ano e mes na tabela original com o novo dataset Treinamento acidentes

acidentesPorAnoMesOriginal = (
    TabelaAcidentesPadronizada.groupby(["Ano", "Mês"])
    .size()
    .reset_index(name="Quantidade de Acidentes Original")
)

acidentesPorAnoMes = (
    DatasetTreinamentoAcidentes.groupby(
        ["Ano", "Mês"])["Quantidade de Acidentes"]
    .sum()
    .reset_index()
)

# Left outer join para comprarar os datasets
resultado_join = pd.merge(
    acidentesPorAnoMesOriginal,
    acidentesPorAnoMes[["Ano", "Mês", "Quantidade de Acidentes"]],
    on=["Ano", "Mês"],
    how="left",
)

# Preencher NaN com 0 na coluna 'Quantidade de Acidentes'
resultado_join["Quantidade de Acidentes"] = resultado_join[
    "Quantidade de Acidentes"
].fillna(0)

# Para garantir que a coluna 'Quantidade de Acidentes' seja do tipo inteiro
resultado_join["Quantidade de Acidentes"] = resultado_join[
    "Quantidade de Acidentes"
].astype(int)

print(resultado_join)

## Conclusão da Validação:

In [None]:
# soma dos counts totais de acidentes de cada uma das tabelas
print(acidentesPorAnoMesOriginal["Quantidade de Acidentes Original"].sum())
print(acidentesPorAnoMes["Quantidade de Acidentes"].sum())

### Diferenças entre os Datasets são causadas pela ausência do Local de Instação em 10 Linhas de Acidentes
Esses Acidentes estão há uma distancia maior do que 50 km (valor arbitrario) de qualquer Local de Instalação.

In [None]:
# usando tabela TabelaAcidentesPadronizada para contar Quantidade de Acidentes sem local de instalação
qtdAcidentesSemLocalInstalacao = TabelaAcidentesPadronizada["Local de instalação"].isna(
).sum()
print(qtdAcidentesSemLocalInstalacao)

### Juntando Ano e Mês em uma unica coluna:
#### Ano Mes

In [None]:
# juntando ano e mes numa unica coluna
DatasetTreinamentoAcidentes["Ano Mes"] = DatasetTreinamentoAcidentes["Ano"].astype(
    str) + "-" + DatasetTreinamentoAcidentes["Mês"].astype(int).astype(str).str.zfill(2)

# dropando colunas ano e mes antigas
DatasetTreinamentoAcidentes.drop(columns=["Ano", "Mês"], inplace=True)
DatasetTreinamentoAcidentes = DatasetTreinamentoAcidentes[[
    "Ano Mes", "Local de instalação", "Quantidade de Acidentes", "binario acidentes", "Quantidade de Acidentes de Alto Potencial", "Binario Acidentes de Alto Potencial", "Quantidade de Contratos", "Principais Fornecedores"]]

## Versao Final do Dataset de Treinamento de Acidentes:

In [None]:
DatasetTreinamentoAcidentes

### Transformando o Dataset de Treinamento de Acidentes em CSV

In [None]:
DatasetTreinamentoAcidentes.to_csv(
    pathUtil + "acidentes/" + "acidentes_treinamento.csv", index=False
)