# Sistema de recomendação usando Python e com IA

### Instalar as bibliotecas recomendadas no arquivo requirements.txt

In [1]:
# Importar as bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from IPython import get_ipython
import warnings
warnings.filterwarnings('ignore')

### Carregar e analisar os dados

In [2]:
# Carregar

df = pd.read_csv('Crop_recommendation.csv')

In [3]:
# Visualizar as 5 primeiras linhas, pode colocar entre parenteses uma 
# quantidade maior

df.head()


Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
0,90,42,43,20.879744,82.002744,6.502985,202.935536,rice
1,85,58,41,21.770462,80.319644,7.038096,226.655537,rice
2,60,55,44,23.004459,82.320763,7.840207,263.964248,rice
3,74,35,40,26.491096,80.158363,6.980401,242.864034,rice
4,78,42,42,20.130175,81.604873,7.628473,262.71734,rice


In [4]:
# Visualizar as 5 últimas linhas, pode colocar entre parenteses uma 
# quantidade maior

df.tail()

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
2195,107,34,32,26.774637,66.413269,6.780064,177.774507,coffee
2196,99,15,27,27.417112,56.636362,6.086922,127.92461,coffee
2197,118,33,30,24.131797,67.225123,6.362608,173.322839,coffee
2198,117,32,34,26.272418,52.127394,6.758793,127.175293,coffee
2199,104,18,30,23.603016,60.396475,6.779833,140.937041,coffee


In [6]:
# Visualizar o tamanho do DataFrame

df.shape

(2200, 8)

In [7]:
# Visualizar todas as colunas

df.columns

Index(['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall', 'label'], dtype='object')

In [8]:
"""Método Pandas DataFrame duplicado() O método duplicado() retorna uma série 
com valores True e False que descrevem quais linhas no DataFrame são duplicadas 
e não."""

df.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
2195    False
2196    False
2197    False
2198    False
2199    False
Length: 2200, dtype: bool

In [9]:
# Utilizando o método com somar para retornar a quantidade de duplicados

df.duplicated().sum()

0

In [10]:
# Verificar de tem valores nulos ou ausentes "NAN"

df.isnull()

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
2195,False,False,False,False,False,False,False,False
2196,False,False,False,False,False,False,False,False
2197,False,False,False,False,False,False,False,False
2198,False,False,False,False,False,False,False,False


In [11]:
# Utilizando o método com somar para retornar a quantidade de NAN por coluna

df.isnull().sum()

N              0
P              0
K              0
temperature    0
humidity       0
ph             0
rainfall       0
label          0
dtype: int64

In [12]:
# Existe o NotNull que retornar os não nulos

df.notnull().sum()

N              2200
P              2200
K              2200
temperature    2200
humidity       2200
ph             2200
rainfall       2200
label          2200
dtype: int64

In [13]:
# Mais informação do DataFrame, pode observar o tipo de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2200 entries, 0 to 2199
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   N            2200 non-null   int64  
 1   P            2200 non-null   int64  
 2   K            2200 non-null   int64  
 3   temperature  2200 non-null   float64
 4   humidity     2200 non-null   float64
 5   ph           2200 non-null   float64
 6   rainfall     2200 non-null   float64
 7   label        2200 non-null   object 
dtypes: float64(4), int64(3), object(1)
memory usage: 137.6+ KB


In [14]:
"""Pandas describe()é usado para visualizar alguns detalhes estatísticos básicos
como percentil, média, std etc. de um quadro de dados ou uma série de valores 
numéricos. Quando este método é aplicado a uma série de strings, ele retorna uma
saída diferente que é mostrada nos exemplos abaixo"""

df.describe()

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall
count,2200.0,2200.0,2200.0,2200.0,2200.0,2200.0,2200.0
mean,50.551818,53.362727,48.149091,25.616244,71.481779,6.46948,103.463655
std,36.917334,32.985883,50.647931,5.063749,22.263812,0.773938,54.958389
min,0.0,5.0,5.0,8.825675,14.25804,3.504752,20.211267
25%,21.0,28.0,20.0,22.769375,60.261953,5.971693,64.551686
50%,37.0,51.0,32.0,25.598693,80.473146,6.425045,94.867624
75%,84.25,68.0,49.0,28.561654,89.948771,6.923643,124.267508
max,140.0,145.0,205.0,43.675493,99.981876,9.935091,298.560117


In [15]:
# Visualizar o DataFrame

df.head(10)

Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
0,90,42,43,20.879744,82.002744,6.502985,202.935536,rice
1,85,58,41,21.770462,80.319644,7.038096,226.655537,rice
2,60,55,44,23.004459,82.320763,7.840207,263.964248,rice
3,74,35,40,26.491096,80.158363,6.980401,242.864034,rice
4,78,42,42,20.130175,81.604873,7.628473,262.71734,rice
5,69,37,42,23.058049,83.370118,7.073454,251.055,rice
6,69,55,38,22.708838,82.639414,5.700806,271.32486,rice
7,94,53,40,20.277744,82.894086,5.718627,241.974195,rice
8,89,54,38,24.515881,83.535216,6.685346,230.446236,rice
9,68,58,38,23.223974,83.033227,6.336254,221.209196,rice


In [16]:
"""A função Pandas DataFrame.nunique() retorna Série com número de observações 
distintas sobre o eixo solicitado. Se definirmos o valor de axis como 0, ele 
encontrará o número total de observações únicas sobre o eixo do índice. 
Se definirmos o valor do eixo como 1, ele encontrará o número total de 
observações únicas sobre o eixo da coluna. Ele também fornece o recurso para 
excluir os NaN valores da contagem de números exclusivos.

Sintaxe: DataFrame.nunique(axis=0, dropna=True)

Parâmetros :
axis : {0 or 'index', 1 or 'columns'}, default 0
dropna : Não inclua NaN nas contagens.

Retorna : nunique : Série

"""

df.nunique()

N               137
P               117
K                73
temperature    2200
humidity       2200
ph             2200
rainfall       2200
label            22
dtype: int64

In [17]:
# Vamos verificar os valores únicos de uma coluna String

df['label'].unique()

array(['rice', 'maize', 'chickpea', 'kidneybeans', 'pigeonpeas',
       'mothbeans', 'mungbean', 'blackgram', 'lentil', 'pomegranate',
       'banana', 'mango', 'grapes', 'watermelon', 'muskmelon', 'apple',
       'orange', 'papaya', 'coconut', 'cotton', 'jute', 'coffee'],
      dtype=object)

In [18]:
# Vamos contar quantas vezes que aparece cada nome na coluna

df['label'].value_counts()

rice           100
maize          100
jute           100
cotton         100
coconut        100
papaya         100
orange         100
apple          100
muskmelon      100
watermelon     100
grapes         100
mango          100
banana         100
pomegranate    100
lentil         100
blackgram      100
mungbean       100
mothbeans      100
pigeonpeas     100
kidneybeans    100
chickpea       100
coffee         100
Name: label, dtype: int64

In [19]:
"""O que é pivot_table no Pandas? A tabela dinâmica em pandas é uma excelente 
ferramenta para resumir uma ou mais variáveis numéricas com base em duas outras 
variáveis categóricas. Tabelas dinâmicas em pandas são popularmente vistas em 
arquivos do MS Excel. Em python, tabelas dinâmicas de DataFrames de pandas podem
ser criadas usando o comando: pd.pivot_table"""

# Vamos criar uma tabela dinâmica e definir a coluna Label como index
# Usar a função AGGFUNC e pedir a media, pode ser usada varias função Numpy
# https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html

tabela_dinamica = pd.pivot_table(df, index=['label'],
                                aggfunc='mean')  

In [20]:
# Visualizar 

tabela_dinamica

Unnamed: 0_level_0,K,N,P,humidity,ph,rainfall,temperature
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
apple,199.89,20.8,134.22,92.333383,5.929663,112.654779,22.630942
banana,50.05,100.23,82.01,80.358123,5.983893,104.62698,27.376798
blackgram,19.24,40.02,67.47,65.118426,7.133952,67.884151,29.97334
chickpea,79.92,40.09,67.79,16.860439,7.336957,80.058977,18.872847
coconut,30.59,21.98,16.93,94.844272,5.976562,175.686646,27.409892
coffee,29.94,101.2,28.74,58.869846,6.790308,158.066295,25.540477
cotton,19.56,117.77,46.24,79.843474,6.912675,80.398043,23.988958
grapes,200.11,23.18,132.53,81.875228,6.025937,69.611829,23.849575
jute,39.99,78.4,46.86,79.639864,6.732778,174.792798,24.958376
kidneybeans,20.05,20.75,67.54,21.605357,5.749411,105.919778,20.115085
