# Introdução à Inteligência Artificial

**Unidade 3 - Projeto Final**

Discente: Samnatha Dantas Medeiros

> Dataset utilizado: https://www.kaggle.com/datasets/kevinzmith/honey-with-neonic-pesticide

O estudo com este dataset visa analisar o impacto de pesticidas sobre colônias de abelha e assim prever o número de colônias nos próximos anos e como isso poderá impactar a vida.

Todas as células de código encontram-se documentadas por células markdown e/ou possuem comentários sobre os métodos utilizados e sobre demais escolhas tomadas.

## Ambiente, funções e _misc_
A seção a seguir contém a inicialização deste notebook (bibliotecas a serem utilizadas, funções de propósitos específicos e algumas variáveis para ficarem 'separadas' dos blocos adjacentes).

In [2]:
# Dependências
import random
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler, LabelEncoder
from sklearn.metrics import (accuracy_score, precision_score, recall_score, confusion_matrix, accuracy_score)

In [None]:
# Funções
# Funções de pré-processamento

def all_unique_in(df):
  '''
  Busca por todos os valores únicos de um dataframe.

  Args: o dataframe que se deseja extrair os valores únicos
  Returns: a lista de valores únicos de cada coluna do dataframe
  '''
  pass

def drop_cols(df, cols):
  '''
  Exclui a colunas indesejadas de um dataframe.
  
  Args: o dataframe e a lista de colunas do dataframe para remoção
  Returns: o dataframe após a exclusão das coluna indesejadas
  '''
  pass

def replace_with_median(df, n_cols, g_col):
  '''
  Substitui os valores ausentes de determinadas colunas agrupadas com a mediana (valores numéricos). Por exemplo, substitui valores ausentes de colônias pela mediana de acordo com o estado daquela colônia.
  
  Args: o dataframe, a lista de colunas do dataframe para tratamento e a coluna que irá agrupar os valores
  Returns: o dataframe após o tratamento de valores ausentes das colunas
  '''
  pass

def replace_with_mode(df, n_cols, g_col):
  '''
  Substitui os valores ausentes de determinadas colunas agrupadas com a moda (valores categóricos). Por exemplo, substitui valores ausentes de colônias pela mediana de acordo com o estado daquela colônia.
  
  Args: o dataframe, a lista de colunas do dataframe para tratamento e a coluna que irá agrupar os valores
  Returns: o dataframe após o tratamento de valores ausentes das colunas
  '''
  pass

# Funções para auxiliar nos algoritmos de aprendizado supervisionado

In [3]:
# Inicializando os dataframes (um será o original, sem alterações e o outro será pré-processado e utilizado ao longo do desenvolvimento do projeto)
og = pd.read_csv('./HoneyNeonic.csv', encoding='utf-8') # original
df = pd.read_csv('./HoneyNeonic.csv', encoding='utf-8') # dataframe final

## Pré-processamento
O pré-processamento dos dados é uma etapa essencial para a construção de um modelo, pois utiliza diversas técnicas para melhorar a qualidade dos dados. 

**Sobre as colunas do _dataframe_**
- *state* contém a sigla de um estado dos EUA
- *numcol* representa o número de colônias produtoras de mel. 
  > Colônias produtoras de mel são o número máximo de colônias das quais o mel foi retirado durante o ano. É possível retirar mel de colônias que não sobreviveram durante todo o ano.
- *yieldpercol* rendimento de mel por colônia (em libras)
- *totalprod* produção total (`numcol x yieldpercol`) (em libras)
- *stocks* estoques mantidos pelos produtores (em libras)
- *priceperlb* preço médio por libra com base nas vendas ampliadas em dólares (US$)
- *prodvalue* valor da produção (totalprod x priceperlb) em dólares (US$)
- *year* ano de coleta dos dados
- *StateName* contém o nome por extenso de um estado dos EUA
- *Region* localização do estado no país (exemplo, o estado do Alabama é localizado no sudeste dos EUA)
- *FIPS*
  > FIPS é a sigla para "Federal Information Processing Standards" (Padrões Federais de Processamento de Informações, em tradução livre). O FIPS é um conjunto de padrões desenvolvido pelo Governo dos Estados Unidos para especificar requisitos para o processamento, armazenamento e transmissão de informações sensíveis e controladas pelo governo. No contexto específico de identificação geográfica, o FIPS é usado para se referir aos códigos FIPS (FIPS codes) que são atribuídos a várias entidades geográficas nos Estados Unidos. Esses códigos são usados para identificar estados, condados, cidades, distritos escolares e outras divisões administrativas dentro dos Estados Unidos. Eles fornecem um identificador único para cada entidade geográfica, facilitando o compartilhamento e a análise de dados relacionados a localizações específicas.
- **Neonicidas**, as colunas a seguir representam a quantidade de neonicidas em kg para cada um deles
  - *nCLOTHIANIDIN*
  - *nIMIDACLOPRID*
  - *nTHIAMETHOXAM*
  - *nACETAMIPRID*
  - *nTHIACLOPRID*
  - *nAllNeonic* contém a quantidade total de neonicidas independente do tipo que seja


### Colunas essenciais

### Tratamento de valores ausentes

### Outros processamentos de dados



In [6]:
og.head()
og.columns

Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year', 'StateName', 'Region', 'FIPS', 'nCLOTHIANIDIN',
       'nIMIDACLOPRID', 'nTHIAMETHOXAM', 'nACETAMIPRID', 'nTHIACLOPRID',
       'nAllNeonic'],
      dtype='object')