# Exploração dos dados

### Bases utilizadas:
Falhas: https://docs.google.com/spreadsheets/d/1ZuUA4QvWRBrtmXjXNlOVR5nxebpxXa67/edit?gid=97258327#gid=97258327
Resultados: https://drive.google.com/file/d/1yqyhJG2N6APHOby6xHPbnVduhpFyrzP7/view?usp=sharing

## Instalando e importando bibliotecas

In [None]:
pip install ydata-profiling matplotlib ipywidgets pandas

In [1]:
import pandas as pd

In [2]:
from ydata_profiling import ProfileReport

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

## Importando datasets

In [4]:
df_resultados = pd.read_csv('RESULTADOS_04_06_2024_full_teste.csv', compression='gzip')

In [5]:
df_falhas = pd.read_csv('FALHAS_04_05_06_2024_Relatorio_1.csv')

## Explorando tabela de resultados

In [None]:
df_resultados.head(20)

### Ajustando dataframe de resultados

In [6]:
df_resultados = df_resultados.drop(columns=['Unnamed: 0'])

### Avaliando features

In [None]:
df.describe()

In [None]:
profile_resultados = ProfileReport(df_resultados, title='Relatório de Análise Descritiva - Resultados', explorative=True)

profile_resultados.to_file("relatorio_analise_descritiva_resultados.html")

In [None]:
df_resultados['KNR'].value_counts()

In [None]:
df_resultados[df_resultados['ID'] == 718].head()

In [None]:
df_resaultados['NAME'].value_counts()

In [None]:
df_resultados[df_resultados['NAME'] =='730100']['ID'].value_counts()

In [None]:
df_falha = df[df['STATUS'] == 13]

## Explorando tabela de falhas

In [None]:
df_falhas.head()

### Ajustando dataframe de resultados

In [7]:
df_falhas = df_falhas.dropna(axis=1, how='all')

In [8]:
df_falhas.columns = df_falhas.iloc[0]
df_falhas.drop(columns=["MODELO"], inplace=True)
df_falhas.drop(df_falhas.index[0], inplace=True)

In [9]:
df_falhas.head()

Unnamed: 0,KNR,COR,MOTOR,ESTACAO,USUARIO,HALLE,FALHA,DATA
1,2023-2056234,2R2R,DHS,HCEQS506,4013334,ZP7,PARALAMA DIANTEIRO 01. AMASSADO,20/5/2024 21:31:52
2,2023-2056234,2R2R,DHS,HCEQS506,4013334,ZP7,PORTA TRASEIRA 04. CAROÇO / PICO,20/5/2024 21:30:23
3,2023-2056234,2R2R,DHS,PCEQS620,2058570,ZP6,MÓDULO DO ACC (13) PEÇA INCORRETA ¨,20/5/2024 20:04:56
4,2023-2056234,2R2R,DHS,PCEQS999,2087715,ESPC,TAMPA TRASEIRA 05. SUJEIRA NA PINTURA,11/4/2024 12:15:40
5,2023-3896001,0Q0Q,,HCEQS203,2043971,ZP5A,TAMPA DIANTEIRA 05. SUJEIRA NA PINTURA,5/6/2024 17:38:52


### Avaliando features

In [None]:
df_falhas.describe()

In [None]:
profile_falhas = ProfileReport(df_falhas, title='Relatório de Análise Descritiva - Falhas', explorative=True)


profile_falhas.to_file("relatorio_analise_descritiva_falhas.html")

## Juntando dataframes

### Testando com 1 KNR

KNR escolhido: 2023-2056234

In [None]:
df_r1 = df_resultados[df_resultados['KNR'] == '2023-2056234']

In [None]:
df_f1 = df_falhas[df_falhas['KNR'] == '2023-2056234']

In [None]:
df_2 = pd.merge(df_r1, df_f1, on="KNR")

In [None]:
df_2.head()

### Merge nos dataframes

In [10]:
df_falhas.to_csv("falhas.csv", index_label=False)

In [11]:
df_resultados.to_csv("resultados.csv", index_label=False)

In [12]:
df_3 = pd.DataFrame(columns=(df_falhas.columns.append(df_resultados.columns)).unique())
df_3.to_csv("df3.csv",index_label=False)


In [13]:
del(df_resultados)

In [None]:
df = pd.merge(df_resultados, df_falhas, on="KNR")

In [14]:
def preprocess(x):
    df3=pd.merge(df_falhas,x, on="KNR")
    df3.to_csv("df3.csv",mode="a",header=False,index=False)

In [None]:
reader = pd.read_csv("resultados.csv", chunksize=1000)

[preprocess(r) for r in reader]

In [None]:
d3 = pd.read_csv('df3.csv')

In [None]:
d3.head()

# Nova abordagem 

bases usadas: 

falhas: https://drive.google.com/file/d/1d2mEz7-FUeNwvAUNyJbkfQXW_NoPwUxB/view?usp=sharing
resultados: https://drive.google.com/file/d/1hLCTb4Ov7fYCS0L_rAteeD4q3Xz1QKNr/view?usp=sharing

In [None]:
pip install pyarrow

In [1]:
import pandas as pd

In [2]:
import pyarrow

In [3]:
df_falhas = pd.read_parquet("../datasets/FALHAS_04_05_06_2024.parquet", engine='pyarrow')

In [4]:
df_falhas.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,KNR,MODELO,COR,MOTOR,ESTACAO,USUARIO,HALLE,FALHA,DATA
1,,2023-2056234,T-CROSS,2R2R,DHS,HCEQS506,4013334,ZP7,PARALAMA DIANTEIRO 01. AMASSADO,20/5/2024 21:31:52
2,,2023-2056234,T-CROSS,2R2R,DHS,HCEQS506,4013334,ZP7,PORTA TRASEIRA 04. CAROÇO / PICO,20/5/2024 21:30:23
3,,2023-2056234,T-CROSS,2R2R,DHS,PCEQS620,2058570,ZP6,MÓDULO DO ACC (13) PEÇA INCORRETA ¨,20/5/2024 20:04:56
4,,2023-2056234,T-CROSS,2R2R,DHS,PCEQS999,2087715,ESPC,TAMPA TRASEIRA 05. SUJEIRA NA PINTURA,11/4/2024 12:15:40


In [5]:
df_falhas = df_falhas.dropna(axis=1, how='all')

In [6]:
df_falhas.columns = df_falhas.iloc[0]
df_falhas.drop(columns=["MODELO"], inplace=True)
df_falhas.drop(df_falhas.index[0], inplace=True)

In [7]:
df_falhas["FALHA"] = df_falhas["FALHA"].str.upper()

In [8]:
df_falhas.head()

Unnamed: 0,KNR,COR,MOTOR,ESTACAO,USUARIO,HALLE,FALHA,DATA
1,2023-2056234,2R2R,DHS,HCEQS506,4013334,ZP7,PARALAMA DIANTEIRO 01. AMASSADO,20/5/2024 21:31:52
2,2023-2056234,2R2R,DHS,HCEQS506,4013334,ZP7,PORTA TRASEIRA 04. CAROÇO / PICO,20/5/2024 21:30:23
3,2023-2056234,2R2R,DHS,PCEQS620,2058570,ZP6,MÓDULO DO ACC (13) PEÇA INCORRETA ¨,20/5/2024 20:04:56
4,2023-2056234,2R2R,DHS,PCEQS999,2087715,ESPC,TAMPA TRASEIRA 05. SUJEIRA NA PINTURA,11/4/2024 12:15:40
5,2023-3896001,0Q0Q,,HCEQS203,2043971,ZP5A,TAMPA DIANTEIRA 05. SUJEIRA NA PINTURA,5/6/2024 17:38:52


In [9]:
df_falhas["HALLE"].unique()

array(['ZP7 ', 'ZP6 ', 'ESPC', 'ZP5A', 'ZP8R', 'ZP6', 'ZP7', 'ZP8',
       'ZP8 ', 'RUID', 'ROD', 'ROD ', 'CAB', 'CAB ', 'DKA', 'DKA ',
       'AGUA', 'BUY', 'BUY ', 'ZP61', 'ZP62', 'PROC', 'ZP5', 'ZP5 ',
       'PVC', 'PVC ', None, '    '], dtype=object)

In [10]:
df_falhas["HALLE"] = df_falhas["HALLE"].str.split(pat=" ").str[0]

In [11]:
df_falhas.head()

Unnamed: 0,KNR,COR,MOTOR,ESTACAO,USUARIO,HALLE,FALHA,DATA
1,2023-2056234,2R2R,DHS,HCEQS506,4013334,ZP7,PARALAMA DIANTEIRO 01. AMASSADO,20/5/2024 21:31:52
2,2023-2056234,2R2R,DHS,HCEQS506,4013334,ZP7,PORTA TRASEIRA 04. CAROÇO / PICO,20/5/2024 21:30:23
3,2023-2056234,2R2R,DHS,PCEQS620,2058570,ZP6,MÓDULO DO ACC (13) PEÇA INCORRETA ¨,20/5/2024 20:04:56
4,2023-2056234,2R2R,DHS,PCEQS999,2087715,ESPC,TAMPA TRASEIRA 05. SUJEIRA NA PINTURA,11/4/2024 12:15:40
5,2023-3896001,0Q0Q,,HCEQS203,2043971,ZP5A,TAMPA DIANTEIRA 05. SUJEIRA NA PINTURA,5/6/2024 17:38:52


In [12]:
df_falhas[df_falhas["HALLE"].isnull() == True] = "OUTROS"

In [13]:
df_falhas[df_falhas["HALLE"] == ""] = "OUTROS"

In [14]:
df_falhas["HALLE"].unique()

array(['ZP7', 'ZP6', 'ESPC', 'ZP5A', 'ZP8R', 'ZP8', 'RUID', 'ROD', 'CAB',
       'DKA', 'AGUA', 'BUY', 'ZP61', 'ZP62', 'PROC', 'ZP5', 'PVC',
       'OUTROS'], dtype=object)

In [15]:
len(df_falhas[df_falhas["HALLE"] == "ZP7"])

166601

In [17]:
df_falhas["KNR"].nunique()

23969

In [18]:
df_falhas["HALLE"].nunique()

18

In [None]:
for halle in df_falhas["HALLE"].unique():
    for knr in df_falhas["KNR"].unique():
        df_falhas["FALHA_" + halle] = len(df_falhas[(df_falhas["HALLE"] == halle) & (df_falhas["KNR"] == knr)])

In [None]:
for knr in df_falhas["KNR"].unique():
    for halle in df_falhas["HALLE"].unique():
        df_falhas["FALHA_" + halle] = len(df_falhas[(df_falhas["HALLE"] == halle) & (df_falhas["KNR"] == knr)])

In [None]:
df_falhas.head()

In [114]:
df_falhas.shape

(328901, 26)