# Identificação de pragas em colheitas

1 - Importação das bibliotecas:

In [135]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

2 - Definição dos parâmetros dos Datasets e leitura dos arquivos:

In [136]:
# Nome dos arquivos que serão lidos
amargoso = 'data/_amargoso.csv'
braquiaria = 'data/_braquiaria.csv'
caruru = 'data/_caruru.csv'
juazeiro = 'data/_juazeiro.csv'
leiteiro = 'data/_leiteiro.csv'

# Criação dos Dataframes
df_amargoso = pd.read_csv(amargoso, sep=',')
df_braquiaria = pd.read_csv(braquiaria, sep=',')
df_caruru = pd.read_csv(caruru, sep=',')
df_juazeiro = pd.read_csv(juazeiro, sep=',')
df_leiteiro = pd.read_csv(leiteiro, sep=',')

# Renomear as colunas dos Dataframes:
vec_dfs = [df_amargoso, df_braquiaria, df_caruru, df_juazeiro, df_leiteiro]

for df in vec_dfs:
    df.rename(columns={'Sample num' : 'id', 'F1 (410nm)' : 'f1', 'F2 (440nm)' : 'f2', 
                       'F3 (470nm)' : 'f3', 'F4 (510nm)' : 'f4', 'F5 (550nm)' : 'f5', 
                       'F6 (583nm)' : 'f6', 'F7 (620nm)' : 'f7', 'F8 (670nm)' : 'f8', 
                       'CLEAR' : 'clear', 'SAIDA' : 'y'}, inplace = True)
    df.drop('Function', axis=1, inplace=True)

# Tipos de pragas
# - A = Amargoso
# - C = Caruru
# - J = Juazeiro
# - L = Leiteiro
# - N = Sem praga

df_amargoso['tipo'] = 'A'
df_braquiaria['tipo'] = 'N'
df_caruru['tipo'] = 'C'
df_juazeiro['tipo'] = 'J'
df_leiteiro['tipo'] = 'L'

3 - Pré-processamento dos dados

In [141]:
# Converter dados de Inteiro e Object para Float
def converter_colunas_float(df):
    df['f1'] = df.f1.astype(np.float64)
    df['f2'] = df.f2.astype(np.float64)
    df['f3'] = df.f3.astype(np.float64)
    df['f4'] = df.f4.astype(np.float64)
    df['f5'] = df.f5.astype(np.float64)
    df['f6'] = df.f6.astype(np.float64)
    df['f7'] = df.f7.astype(np.float64)
    df['f8'] = df.f8.astype(np.float64)
    df['clear'] = pd.to_numeric(df['clear'],errors='coerce')
    df['y'] = pd.to_numeric(df['y'],errors='coerce')
    
    return df

# Dados Faltantes
# - Verificação da existência de dados faltantes
# - - Substituição de dados faltantes pelo o valor obtido com interpolação linear

def inserir_dados_faltantes(df):
    if df['f1'].isna().any():
        df['f1'] = df.f1.interpolate(method='linear')
    if df['f2'].isna().any():
        df['f2'] = df.f2.interpolate(method='linear')
    if df['f3'].isna().any():
        df['f3'] = df.f3.interpolate(method='linear')
    if df['f4'].isna().any():
        df['f4'] = df.f4.interpolate(method='linear')
    if df['f5'].isna().any():
        df['f5'] = df.f5.interpolate(method='linear')
    if df['f6'].isna().any():
        df['f6'] = df.f6.interpolate(method='linear')
    if df['f7'].isna().any():
        df['f7'] = df.f7.interpolate(method='linear')
    if df['f8'].isna().any():
        df['f8'] = df.f8.interpolate(method='linear')
    if df['clear'].isna().any():
        df['clear'] = df.clear.interpolate(method='linear')
    
    return df

#-------------------------------------------------------------------------

vec_dfs = [df_amargoso, df_braquiaria, df_caruru, df_juazeiro, df_leiteiro]

vec_df_preprocessados = []

for df in vec_dfs:
    
    # Converter os dados para float
    df = converter_colunas_float(df)

    # Inserir os dados faltantes via interpolação linear
    df = inserir_dados_faltantes(df)
    
    # Inserir os Dataframes Pré-processados em um vetor
    vec_df_preprocessados.append(df)

# Concatenar todos os Dataframes
df_preprocessado = pd.concat(vec_df_preprocessados)

# Conversão de dados não numéricos para numéricos
conversor = LabelEncoder()
df_preprocessado['tipo'] = conversor.fit_transform(df_preprocessado['tipo'])

# Seleção dos parâmetros mais interessantes
df_preprocessado = df_preprocessado[['f1','f2','f3','f4','f5','f6','f7','f8','clear','y','tipo']]

print(df_preprocessado.dtypes)
print(df_preprocessado.describe())

f1       float64
f2       float64
f3       float64
f4       float64
f5       float64
f6       float64
f7       float64
f8       float64
clear    float64
y          int64
tipo       int64
dtype: object
               f1          f2          f3           f4           f5  \
count  637.000000  637.000000  637.000000   637.000000   637.000000   
mean   308.949765  402.277865  507.406593   654.952904   787.064364   
std     64.419937   90.669174  116.620654   146.701257   169.712291   
min    210.000000  262.000000  340.000000   433.000000   521.000000   
25%    262.000000  333.000000  420.000000   543.000000   661.000000   
50%    290.000000  374.000000  471.000000   611.000000   743.000000   
75%    346.000000  471.000000  577.000000   748.000000   892.000000   
max    510.000000  683.000000  953.000000  1083.000000  1384.000000   

                f6           f7           f8        clear           y  \
count   637.000000   637.000000   637.000000   637.000000  637.000000   
mean    862.3

4 - Análise de dados

In [120]:
# Correlação entre os dados
# - Fazer a correlação de Pearson para verificar a se há correlação entre os dados.
# - - - - - - - - - - Níveis de Correlação - - - - - - - - -
# - - 0.9 para mais ou para menos indica uma correlação muito forte.
# - - 0.7 a 0.9 positivo ou negativo indica uma correlação forte.
# - - 0.5 a 0.7 positivo ou negativo indica uma correlação moderada.
# - - 0.3 a 0.5 positivo ou negativo indica uma correlação fraca.
# - - 0 a 0.3 positivo ou negativo indica uma correlação desprezível.

print(df_amargoso.dtypes)

id        int64
f1        int64
f2        int64
f3        int64
f4        int64
f5        int64
f6        int64
f7        int64
f8        int64
clear    object
y         int64
tipo     object
dtype: object


HeatMap

PCA (Primary Component Analysis)

In [None]:
# Converter dados não numéricos para numéricos
def converter_dados_nao_numericos(df):
    conversor = LabelEncoder()
    df['tipo'] = conversor.fit_transform(df['tipo'])
    return df