<h1>Análise de solo com Python</h1>
<h2>Conjunto de dados de recomendação de colheita</h2>
<h3>Contexto geral</h3>
A agricultura de precisão está em alta atualmente. Ajuda os agricultores a tomar decisões informadas sobre a estratégia de cultivo. Aqui, apresento a vocês um conjunto de dados que permitiria aos usuários construir um modelo preditivo para recomendar as safras mais adequadas para crescer em uma determinada fazenda com base em vários parâmetros.

<h3>Contexto do conjunto de dados</h3>
Este conjunto de dados foi construído aumentando os conjuntos de dados de chuva, clima e fertilizantes disponíveis para a Índia.

Campos de dados
N - razão do conteúdo de nitrogênio no solo
P - razão do conteúdo de fósforo no solo
K - razão do teor de potássio no solo
temperatura - temperatura em graus Celsius
umidade - umidade relativa em%
valor ph - ph do solo
precipitação - precipitação em mm



In [1]:
# Importanto as bibliotecas
import pandas as pd

# carregando o conjunto de dados
arquivo = pd.read_csv('soil_data.csv')
arquivo

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
0,90,42,43,20.879744,82.002744,6.502985,202.935536,rice
1,85,58,41,21.770462,80.319644,7.038096,226.655537,rice
2,60,55,44,23.004459,82.320763,7.840207,263.964248,rice
3,74,35,40,26.491096,80.158363,6.980401,242.864034,rice
4,78,42,42,20.130175,81.604873,7.628473,262.717340,rice
...,...,...,...,...,...,...,...,...
2195,107,34,32,26.774637,66.413269,6.780064,177.774507,coffee
2196,99,15,27,27.417112,56.636362,6.086922,127.924610,coffee
2197,118,33,30,24.131797,67.225123,6.362608,173.322839,coffee
2198,117,32,34,26.272418,52.127394,6.758793,127.175293,coffee


In [2]:
# selecionando os labels existentes na coluna
colunaLabel = arquivo['label'].unique()

# identificando cada label
for rotulo in enumerate(colunaLabel):
    print(rotulo[0],rotulo[1])

0 rice
1 maize
2 chickpea
3 kidneybeans
4 pigeonpeas
5 mothbeans
6 mungbean
7 blackgram
8 lentil
9 pomegranate
10 banana
11 mango
12 grapes
13 watermelon
14 muskmelon
15 apple
16 orange
17 papaya
18 coconut
19 cotton
20 jute
21 coffee


In [3]:
# enumerando e substituindo o nome do label por um número para ser tratado em python
for label in enumerate(colunaLabel):
    arquivo['label'] = arquivo['label'].replace(label[1],label[0])
    
arquivo

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
0,90,42,43,20.879744,82.002744,6.502985,202.935536,0
1,85,58,41,21.770462,80.319644,7.038096,226.655537,0
2,60,55,44,23.004459,82.320763,7.840207,263.964248,0
3,74,35,40,26.491096,80.158363,6.980401,242.864034,0
4,78,42,42,20.130175,81.604873,7.628473,262.717340,0
...,...,...,...,...,...,...,...,...
2195,107,34,32,26.774637,66.413269,6.780064,177.774507,21
2196,99,15,27,27.417112,56.636362,6.086922,127.924610,21
2197,118,33,30,24.131797,67.225123,6.362608,173.322839,21
2198,117,32,34,26.272418,52.127394,6.758793,127.175293,21


In [4]:
# separando as variáveis entre preditora e variáveis alvo
y = arquivo['label']
x = arquivo.drop('label', axis=1) ## axis = 0 -> linha || ou axis = 1 -> coluna


In [5]:
from sklearn.model_selection import train_test_split

# criando os conjuntos de dados de treino e teste, pois o modelo vai receber alguns dados para treinar  (aprender) 
# e depois a gente vai testar pra ver se está fazendo certo

# passando os dados para a função train_test_split e especificando a porcentagem 30% para teste e 70% (o restante) para treino
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.3)

In [6]:
y_teste.shape

(660,)

In [7]:
# importando algoritmo que cria árvores de decisão
from sklearn.ensemble import ExtraTreesClassifier

# criação do modelo
modelo = ExtraTreesClassifier(n_estimators=100)
modelo.fit(x_treino, y_treino)

ExtraTreesClassifier()

In [8]:
# imprimindo resultados

resultado = modelo.score(x_teste, y_teste)
print("Acurácia:", resultado)

Acurácia: 0.9939393939393939


In [9]:
# selecionando algumas amostras aleatoriamente
y_teste[200:210]

1747    17
327      3
1738    17
2014    20
2167    21
1785    17
377      3
1751    17
1765    17
51       0
Name: label, dtype: int64

In [10]:
x_teste[200:210]

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall
1747,34,65,48,41.419684,90.038631,6.665025,199.309643
327,24,80,22,16.711706,19.176514,5.635994,96.772858
1738,44,57,53,42.304958,90.514318,6.931721,74.876786
2014,67,43,38,25.216227,70.882596,7.299305,195.864555
2167,89,28,33,26.444141,53.838762,6.993236,175.372331
1785,48,57,54,29.02328,90.203968,6.617703,126.806987
377,31,75,18,15.467893,21.437807,5.824208,88.887961
1751,33,47,46,29.203009,93.96834,6.839444,209.408331
1765,40,64,47,32.500375,93.478888,6.893509,71.737595
51,76,60,39,20.045414,80.347756,6.76624,208.581016


In [11]:
previsoes = modelo.predict(x_teste[200:210])

In [12]:
previsoes

array([17,  3, 17, 20, 21, 17,  3, 17, 17,  0], dtype=int64)

<h1>Conclusões</h1>

O algoritmo conseguiu prever com exatidão, baseados nas informações fornecidas nas outras colunas, que as 10 amostras no vetor array([17,  3, 17, 20, 21, 17,  3, 17, 17,  0]) correspondem com a tabela original 