<a href="https://colab.research.google.com/github/francianerod/Alerta-Raios/blob/main/2_Alerta_Raios_Limiares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Código feito por:** Franciane Rodrigues

**Empresa:** EPL Informática Ltda

**Área/Setor:** Operacional/Pesquisa e Desenvolvimento

**Motivo do código:** Caracterização do Campo Elétrico no Vale do Paraíba - SP

**Técnica:** Análise Descritiva Univariada - Limiares

## **1) Pacotes e tratamento dos dados**

In [1]:
# Comando de abertura para Google Drive

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
#Importação de Pacotes
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import PercentFormatter
from datetime import datetime

import warnings
warnings.filterwarnings("ignore")

In [3]:
#Função leitura de data e hora
dateparse = lambda x: datetime.strptime(x, '%Y %m %d %H %M %S')

In [None]:
# Abertura da base de dados

dataset = pd.read_csv('/content/drive/MyDrive/Alerta_Raios_Análise/chuva_dados/2_limiares_completo.txt', 
                    sep='\s+', 
                    header=None,
                    parse_dates={ 'horario': [0, 1, 2, 3, 4, 5]},
                    date_parser=dateparse,
                    names=['ano', 'mes', 'dia', 'hora', 'm', 's', 'E'])
#dataset.info()

In [None]:
#Apagando coluna 
del dataset['horario']

In [None]:
dataset

## **2) Medidas-Resumo com os dados brutos**

In [None]:
dataset.describe()

In [None]:
# A curtose mede o grau de achatamento de uma distribuição de frequência em relação a uma distribuição teórica (normal).
# Em outras palavras, altura do pico da curva

# Se k = 0.263 curva é mesocúrtica:  semelhante a curva normal
# Se k > 0.263 curva é platicúrtica: mais achatata que a curva normal
# Se k < 0.263 curva é leptocúrtica: mais alongada que uma curva normal

curtose1 = dataset['E'].kurtosis()
print('Curtose: ', curtose1)

In [None]:
# Entradas conforme medida resumo com dados brutos

Q1 = -37.2
Q3 = 1.22

# Amplitude interquartil: AIQ = Q3 - Q1
AIQ = Q3 - Q1

# Menor valor que não é um outlier
min_sem_outlier = Q1 - (1.5*AIQ)

# Maior valor que não é um outlier
max_sem_outlier = Q3 + (1.5*AIQ)

# Variabilidade sem outlier
var1 = max_sem_outlier - min_sem_outlier

print('Amplitude interquartil:   ', AIQ)
print('Valor mínimo sem outlier: ', round(min_sem_outlier,2))
print('Valor máximo sem outlier: ', round(max_sem_outlier,2))
print('Variabilidade sem outlier:  ', var1)

In [None]:
# Boxplot com dados brutos
# Ao colocar showfliers=False você retira todos os outliers que tem na amostra

dataset.boxplot(figsize = (15, 4), 
                vert=False, 
                showmeans=False, 
                showfliers=False, 
                patch_artist=True,
                medianprops = dict(color = 'yellow')
                )

plt.xlabel('Campo Elétrico V/m')
plt.title('Periodo de Análise: 22/11/2011 a 27/03/2012')
plt.grid(color='black', linestyle='--', linewidth=0.5)
plt.tight_layout()
plt.show()

print('Amplitude interquartil:   ', AIQ)
print('Valor mínimo sem outlier: ', round(min_sem_outlier,2))
print('Valor máximo sem outlier: ', round(max_sem_outlier,2))
print('Variabilidade sem outlier:  ', var1)

In [None]:
# Fazendo a contagem em ordem crescente, essa forma é interessante para saber o ruído do sensor e moda

contagem1 = dataset["E"].value_counts(ascending=False)
contagem1 = pd.DataFrame(contagem1)
contagem1.head(5) #Dentro do parenteses pode colocar o número que preferir para aparecer no output

In [None]:
#Utilizando o Normalize = True, retorna a frequência relativa dividindo todos os valores pela soma dos valores.

contagem2 = dataset["E"].value_counts(ascending=False, normalize=True)
contagem2 = pd.DataFrame(contagem2)
contagem2.head(5)

In [None]:
# Preparando para agrupamento de dados - Dados se encontram na medida-resumo
# Inicialmente, calcula-se a amplitude pela fórmulá: A = Valor máximo – Valor mínimo da amostra

A = 7656.2 - (-6835.7)

# Determinação do número de Classes a partir do tamanho da amostra
k = math.sqrt(6031115.0)

#Calcule o intervalo de classes
h = A/k

print(round(h))

In [None]:
# Agrupando em classes os dados de Campo Elétrico, conforme o tamanho da amostra

contagem3 = dataset["E"].value_counts(bins=6)
contagem3 = pd.DataFrame(contagem3)
contagem3

## **3) Medidas-resumo com dados absolutos**

In [None]:
# Transformação da base de dados em valores absolutos

dataset_abs = dataset['E'].abs()
dataset_abs = pd.DataFrame(dataset_abs)
dataset_abs

In [None]:
dataset_abs.describe()

In [None]:
# Entradas conforme medida resumo com dados absolutos valor mínimo é zero.

Q1 = 9.14
Q3 = 50.51

# Amplitude interquartil: AIQ = Q3 -Q1
AIQ = Q3 - Q1

# Maior valor que não é um outlier
max_sem_outlier = Q3 + (1.5*AIQ)

print('Amplitude interquartil:   ', AIQ)
print('Valor máximo sem outlier: ', round(max_sem_outlier,2))

In [None]:
# A curtose mede o grau de achatamento de uma distribuição
# Se k = 0.263 curva é mesocúrtica
# Se k > 0.263 curva é platicúrtica
# Se k < 0.263 curva é leptocúrtica

curtose2 = dataset_abs['E'].kurtosis()
print('Curtose: ', curtose2)

In [None]:
# Fazendo a contagem em ordem crescente, essa forma é interessante para saber o ruído do sensor e moda

contagem_abs1 = dataset_abs["E"].value_counts(ascending=False)
contagem_abs1 = pd.DataFrame(contagem_abs1)
contagem_abs1.head() #Dentro do parenteses pode colocar o número que preferir para aparecer no output

In [None]:
# Boxplot com dados absolutos
# Ao colocar showfliers=False você retira todos os outliers que tem na amostra

dataset_abs.boxplot(figsize = (15, 4), 
                vert=False, 
                showmeans=True, 
                showfliers=False, 
                patch_artist=True,
                medianprops = dict(color = 'yellow'),
                )                

plt.xlabel('Campo Elétrico V/m')
plt.title('Periodo de Análise: 22/11/2011 a 27/03/2012')
plt.grid(color='black', linestyle='--', linewidth=0.5)
plt.tight_layout()
plt.show()

print('Amplitude interquartil:   ', AIQ)
print('Valor máximo sem outlier: ', round(max_sem_outlier,2))

In [None]:
# Agrupando em classes os dados de Campo Elétrico

contagem_abs2 = dataset_abs["E"].value_counts(bins=15)
contagem_abs2 = pd.DataFrame(contagem_abs2)
contagem_abs2

In [None]:
# Quantidade de dados que estão em até 510 V/m

percentual = (5700000.0/6031115.0)*100
round(percentual, 1)

### **5) Filtragem com campos elétricos entre 100 a 500 V/m**

In [None]:
dataset_abs

In [None]:
# Filtagem 1: Campos elétricos que variam entre 100 a 500 V/m

dataset_abs_filtrado = (dataset_abs['E'] >= 100.0) & (dataset_abs['E'] <= 500.0)
dataset_abs_filtrado = dataset_abs[dataset_abs_filtrado]
dataset_abs_filtrado

In [None]:
dataset_abs_filtrado.describe()

In [None]:
# Boxplot com dados filtrados
# Ao colocar showfliers=False você retira todos os outliers que tem na amostra

dataset_abs_filtrado.boxplot(figsize = (15, 4), 
                vert=False, 
                showmeans=True, 
                showfliers=False, 
                patch_artist=True,
                medianprops = dict(color = 'yellow'),
                )                

plt.xlabel('Campo Elétrico V/m')
plt.title('Fitragem de Campo Elétrico - Periodo de Análise: 22/12/2011 a 27/03/2012')
plt.grid(color='black', linestyle='--', linewidth=0.5)
plt.tight_layout()
plt.show()

In [None]:
# Agrupando em classes os dados de Campo Elétrico

contagem_abs_filtro = dataset_abs_filtrado["E"].value_counts(bins=8)
contagem_abs_filtro = pd.DataFrame(contagem_abs_filtro)
contagem_abs_filtro

In [None]:
contagem_abs_filtro['Freq_rel'] = round(((contagem_abs_filtro['E']/441999.0)*100),1)
contagem_abs_filtro

In [None]:
freq_rel_acum = contagem_abs_filtro.sort_values(by='E',ascending=False)
freq_rel_acum["Freq_rel_acum"] = freq_rel_acum["E"].cumsum()/freq_rel_acum["E"].sum()*100
freq_rel_acum