# Exploratory Data Analysis – Sensor Dataset

Este notebook realiza uma análise exploratória (EDA) básica do dataset de sensores.

Etapas abordadas:
1. Carregamento e união dos arquivos CSV.
2. Visualização inicial (shape, head).
3. Tipos de dados e estatísticas descritivas.
4. Valores ausentes.
5. Distribuição da variável *label*.
6. Correlações entre sensores.


In [None]:
# Pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configurações de visualização
plt.style.use('seaborn-v0_8')
%matplotlib inline

In [None]:
# Diretório dos datasets
data_dir = Path('dataset')

# Lista de arquivos CSV
csv_files = sorted(data_dir.glob('dataset_parte_*.csv'))
print(f'Encontrados {len(csv_files)} arquivos.')

# Carrega e concatena
df_list = [pd.read_csv(f) for f in csv_files]
df = pd.concat(df_list, ignore_index=True)
print('Shape total:', df.shape)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe().T.head(20)  # mostra primeiras 20 features para não poluir

In [None]:
# Verifica valores ausentes
missing = df.isna().sum().sort_values(ascending=False)
missing[missing > 0]

In [None]:
# Distribuição da variável label
plt.figure(figsize=(6,4))
sns.countplot(y=df['label'], order=df['label'].value_counts().index)
plt.title('Distribuição da variável label')
plt.xlabel('Contagem')
plt.ylabel('Label')
plt.show()

In [None]:
# Correlação
numeric_cols = [c for c in df.columns if c.startswith('sensor_')]
corr = df[numeric_cols].corr()

plt.figure(figsize=(12,10))
sns.heatmap(corr, cmap='coolwarm', center=0, vmax=1, vmin=-1, square=True, cbar_kws={'shrink': .6})
plt.title('Matriz de Correlação dos Sensores')
plt.show()

## Conclusões
Preencha aqui possíveis insights obtidos a partir da análise.