Data analysis for normal data¶
Database load and additional data calculation
Legend according to MAFAULDA docs:
end: https://www02.smt.ufrj.br/~offshore/mfs/page_01.html

- Column 1: tachometer signal that allows to estimate rotation frequency in RPM;
- Columns 2 to 4: underhang bearing accelerometer (axial, radiale tangential direction) in gravity;
- Columns 5 to 7: overhang bearing accelerometer (axial, radiale tangential direction) in gravity;
- Column 8: microphone in dB.
- Custom columns:

- Column 9: rotation frequency converted to Hertz;
- Column 10: rotation period in seconds;
- Column 11: timedelta between readings in seconds;
- Column 12: instant angular velocity in rad/s;
- Column 13: numerical fault classification.
- Custom classification column legend:

* 0: normal;
* 1: horizontal misalignment;
* 2: vertical misalignment;
* 3: imbalance;

In [1]:
# ipkernel também deve estar instalado, pelo prompt do terminal e na venv criada.
# pip install ipykernel
# python -m ipykernel install --user --name=venv --display-name "venv"

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import glob
import os 

In [2]:
cur_path_10 = 'C:/Files/mafaulda_imbal/10g/*.csv' # caminho para os arquivos .csv
cur_path_25 = 'C:/Files/mafaulda_imbal/25g/*.csv' # caminho para os arquivos .csv
# cur_path = 'c:\Files\mafaulda_imbal'     error de sintaxe no windows

In [3]:
files_10 = glob.glob(cur_path_10) # lista de arquivos .csv
dfs_10=[]
for f in files_10:
    df_10 = pd.read_csv(f, sep=';', decimal=',')
    #agora, converter colunas com strings separadas por vírgula em múltiplas colunas
    for col_10 in df_10.columns:
        if df_10[col_10].dtype == 'object':             #separar strings em colunas diferentes
            try:
                df_10[col_10] = df_10[col_10].str.split(',', expand=True).astype('float32')
            except:
                continue
    dfs_10.append(df_10) #adiciona o dataframe à lista de dataframes
    
df_10 = pd.concat(dfs_10, ignore_index=True) #concatena os dataframes em um só], 


#### Explicação: O código lê múltiplos arquivos CSV, separa colunas com strings (como '1.2,3.4') em várias colunas numéricas (float32), e concatena tudo em um único DataFrame.

**files_10 = glob.glob(cur_path_10)**
- Usa a biblioteca glob para listar todos os arquivos .csv no caminho especificado **cur_path_10**.

- **cur_path_10** é uma string (ex.: 'C:/Files/mafaulda_imbal/10g/*.csv') onde *.csv indica todos os arquivos CSV na pasta.

- **files_10** será uma lista com os caminhos dos arquivos CSV.

- **dfs_10 = []** Cria uma lista vazia dfs_10 para armazenar os DataFrames processados de cada arquivo CSV.

- **for f in files_10** inicia um loop que itera sobre cada arquivo CSV listado em **files_10**, onde f representa o caminho de um arquivo CSV por iteração.

- **df_10 = pd.read_csv(f, sep=';', decimal=',')**
    - Lê o arquivo CSV atual (f) usando **pandas.read_csv**.
    - **sep=';'** define o separador como ponto e vírgula.
    - **decimal=','** indica que a vírgula é o separador decimal (ex.: 1,5 vira 1.5).
    - O resultado é um DataFrame chamado **df_10**.

- **for col_10 in df_10.columns:**
Itera sobre todas as colunas do DataFrame **df_10**. O **col_10** é o nome de uma coluna por iteração.

- **if df_10[col_10].dtype == 'object':**
Verifica se o tipo de dados da coluna **col_10** é **'object'** (geralmente strings). Isso identifica colunas que podem conter strings separadas por vírgulas (ex.: '1.2,3.4,5.6').

- **try:**
Inicia um bloco try-except para lidar com possíveis erros durante a conversão.

- **df_10[col_10] = df_10[col_10].str.split(',', expand=True).astype('float32')**
    - **df_10[col_10].str.split(',', expand=True)**: Divide a string da coluna em várias colunas com base na vírgula (ex.: '1.2,3.4,5.6' vira colunas [1.2, 3.4, 5.6]).
    -**expand=True** cria novas colunas para cada valor separado.
    - **.astype('float32')**: Converte os valores resultantes para o tipo float32.

- **except:** Havendo erro na conversão para float32 o bloco except ignora o erro e continua o loop.

- **dfs_10.append(df_10)**: Adiciona o DataFrame processado df_10 à lista dfs_10.

- **df_10 = pd.concat(dfs_10, ignore_index=True)**
    - Concatena todos os DataFrames da lista **dfs_10** em um único DataFrame chamado **df_10**.
    - **ignore_index=True** reseta os índices para que sejam contínuos no DataFrame final.




In [4]:
files_25 = glob.glob(cur_path_25) # lista de arquivos .csv
dfs_25=[]
for f in files_25:
    df_25 = pd.read_csv(f, sep=';', decimal=',')
    #agora, converter colunas com strings separadas por vírgula em múltiplas colunas
    for col_25 in df_25.columns:
        if df_25[col_25].dtype == 'object':             #separar strings em colunas diferentes
            try:
                df_25[col_25] = df_25[col_25].str.split(',', expand=True).astype('float32')
            except:
                continue
    dfs_25.append(df_25) #adiciona o dataframe à lista de dataframes
df_25 = pd.concat(dfs_25, ignore_index=True) #concatena os dataframes em um só],

In [7]:
counts_df_10 = len(list(glob.glob(cur_path_10)))
print('Total de arquivos CSV:', counts_df_10)

Total de arquivos CSV: 48


In [8]:
counts_df_25 = len(list(glob.glob(cur_path_25)))
print('Total de arquivos CSV:', counts_df_25)

Total de arquivos CSV: 47
