In [None]:
import opendatasets as od

data_url = "https://www.kaggle.com/datasets/nphantawee/"
dataset_name = "pump-sensor-data"
data_file = "sensor.csv"
data_dir = "../data"
od.download(data_url+dataset_name, data_dir=data_dir) # baixa o arquivo da url fornecida no diretório selecionado 

In [None]:
import pandas as pd
import sweetviz as sv

import warnings
warnings.filterwarnings('ignore')

In [None]:
df = pd.read_csv(f'{data_dir}/{dataset_name}/{data_file}')
df.head()

In [None]:
print(f'{"Nome":^30s}|{"Primeiras Linhas":^30s}|{"DataType":^15s}|{"Null":^8s}|{"% Null":^8s}')
for col in list(df.columns):
    print(f'{"-"*30}|{"-"*30}|{"-"*15}|{"-"*8}|{"-"*8}')
    print(f'{col:<30s}|{str(df[col][0]):<30s}|{str(df[col].dtype):<15s}|{df[col].isna().sum():8d}|{df[col].isna().sum()/len(df[col]):0.4%}\n{" "*30:<30s}|{str(df[col][1]):<30s}|{" "*15}|{" "*8}|{" "*8}')

# Primeiras impressões:
Avaliando de forma grosseira e superficial o dataframe, percebemos que a maior parte das colunas são números não-inteiros/**float64**.
Isso faz bastante sentido, já que teoricamente são valores de sensores físicos, e portanto, variáveis numéricas. 

1. Podemos perceber que a coluna *"machine_status"*, que seria nosso target, está como texto/**object**. Precisamos checar se é possível transformá-la em categórica, e quantas categorias existem.
2. A coluna *"Unnamed: 0"* parece ser apenas o index trazido pelo arquivo CSV. Podemos eliminá-la.
3. A coluna *"timestamp"* está em formato de texto. Vamos convertê-la em formato datetime para facilitar as análises. ("2018-04-01 00:00:00")
4. A coluna *"sensor_15"* está apenas com valores nulos. Precisamos entender como tratá-la, e se é possível eliminar. 
5. A maior parte das colunas possui valores nulos. Precisamos investigar se estão todos localizados no mesmo timestamp (o que sugeriria um possível problema na comunicação), ou se estão em pontos espalhados no tempo, sugerindo falhas específicas nos sensores.

Vamos avaliar os dados com a biblioteca sweetviz para confirmar as hipoteses

In [None]:
%%time
my_report = sv.analyze(df) # Realiza uma rápida análise exploratória dos dados, identificando variáveis categóricas, missing values e potenciais correlações entre colunas. 
my_report.show_notebook() 