In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set_theme(style = 'whitegrid')
file = '../data/raw/dataset_aircraft_failures.csv'
df = pd.read_csv(file)

print(df.info())
print(f'Valores nulos (NaNs): {df.isnull().sum().sum()}')

In [None]:
df.head()

In [None]:
print("\nBalanço de Classes (Nível 1):")
print(df['nivel1'].value_counts())

In [None]:
plt.figure(figsize=(10, 5))
sns.countplot(y=df['nivel1'])
plt.title('Contagem de Amostras por Categoria Nível 1')
plt.show()

In [None]:
df_falhas = df[df['nivel1'] != 'NORMAL']

plt.figure(figsize=(12, 8))
sns.countplot(y=df_falhas['nivel3'])
plt.title('Contagem de Amostras por Falha Específica (Nível 3)')
plt.show()

In [None]:
df_eletrico = df[(df['nivel2'] == 'ELÉTRICO') | (df['nivel1'] == 'NORMAL')]
df_hidraulico = df[(df['nivel2'] == 'HIDRÁULICO') | (df['nivel1'] == 'NORMAL')]

plt.figure(figsize=(10, 6))

sns.boxplot(x='nivel3', y='sensor_volt_gerador_1', data=df_eletrico)
plt.title('Sintoma vs. Diagnóstico: Falha do Gerador 1')
plt.show()

plt.figure(figsize=(12, 6))
sns.violinplot(x='nivel3', y='sensor_pressao_hidr_A', data=df_hidraulico)
plt.title('Diagnóstico vs. Pressão do Sistema A')
plt.show()

plt.figure(figsize=(12, 6))
sns.violinplot(x='nivel3', y='sensor_pressao_hidr_B', data=df_hidraulico)
plt.title('Diagnóstico vs. Pressão do Sistema B')
plt.show()

**NOTA:** Não há necessidade de escalonamento tendo em vista que estou usando modelos baseados em árvore, significa que ele é imune a escala das variáveis. O escalonamento seria um passo computacional desnecessário que não traria nenhum benefício para a performance. 

> Bibliografia para afirmação.
- [Artigo 01](https://www.nb-data.com/p/is-it-necessary-for-feature-scaling)
- [Artigo 02](https://www.kaggle.com/discussions/general/529362)
- [Artigo 03](https://medium.com/atoti/when-to-perform-a-feature-scaling-11a7fb4f9f13)