# Visualizacion y analisis de datos de cultivos

En este Notebook vamos a visualizar y analizar un conjunto de datos sobre agricultura de precision, donde se presenta las caracteristicas del suelo y del clima recomendadas para distintos tipos de cultivo.

<img src='util/crops.jpg'>

Primero importamos las librerias que vamos a necesitar

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

Despues importamos los datos de un archivo Excel a un DataFrame de Pandas.

In [None]:
crops = pd.read_excel('datos/Crop_recommendation.xlsx')

Ahora vamos a visualizar las 5 primeras lineas de datos para tener una idea de que datos estan disponibles.

In [None]:
crops.head(5)

Por lo que vemos la columna 'label' corresponde al nombre del cultivo, vamos a intentar visualizar solo dicha columna para poder  ver que cultivos estan disponibles.

In [None]:
crops['label']

Como solo nos muestra las primeras y utlimas lineas de datos vamos a decirle a Pandas que solo nos de los valores unicos de esa columna.

In [None]:
crops['label'].unique()

Y ahora contamos cuantas filas de datos (combinaciones de valores recomendados de N, K, P, Temperature,...)  tenemos para cada cultivo.

In [None]:
crops['label'].value_counts()

Sabemos que nuestro suelo tiene un PH por debajo de 6, asi que vamos a intentar encontrar que cultivos tienen recomendaciones con valores mas bajos de PH. Para ello vamos a visualizar con un diagrama de caja y bigotes de la libreria Seaborn.

In [None]:
sns.boxplot(x='label',y='ph',data=crops)

Tenemos un problema, no podemos ver bien el eje x donde esta el nombre de los cultivos. Asi que decidimos hacer la grafica mas grande. Para ello utilizamos la fucnion ***figure*** de Matplotlib.

In [None]:
plt.figure(figsize=(25,10))
sns.boxplot(x='label',y='ph',data=crops)

Parece que dados sus bajos valores de PH y su baja variabilidad, kidneybeans es nuestra mejor opcion.

Podemos crear una grafica similar pero ahora con un diagrama de violin.

In [None]:
plt.figure(figsize=(25,10))
sns.violinplot(x='label',y='ph',data=crops)

O con una nube de puntos.

In [None]:
fig, ax = plt.subplots(figsize=(25,10))
sns.swarmplot(x='label',y='ph',data=crops)

### Buscar la correlacion entre datos
Con Pandas podemos generar facilmente una tabla con la correlacion entre los distintos datos.

In [None]:
crops.corr()

Podemos cambiar el metodo usado para calcular la correlacion.

In [None]:
crops.corr(method = 'spearman')

O calcular la correlacion solo para los datos que cumplan una cierta condicion, por ejemplo que el ph<6.

In [None]:
crops[crops['ph']<6].corr()

Podemos tambien intentar encontrar visualment si hay alguna correlacion entre por ejemplo las caracteristicas del suelo y del clima para los distintos cultivos (en distintos colores).

In [None]:
sns.pairplot(data=crops, hue = 'label')

Igualmente podemos visualizar solo los datos que cumplan una condicion. De nuevo aplicamos la condicion de que ph<6

In [None]:
sns.pairplot(data=crops[crops['ph']<6], hue = 'label', )

Podemos fijarnos en la correlacion entre solo K y rainfall por ejemplo.

In [None]:
sns.jointplot(x="K",y="rainfall",data=crops,height=10,hue="label")

Si queremos podemos extraer solo los datos correspondientes a uno de los cultivos, por ejemplo kidneybeans

In [None]:
crops[crops['label']=='kidneybeans']

Generar automaticamente los valores medios, extremos, quartiles...

In [None]:
crops[crops['label']=='kidneybeans'].describe()

Los datos extraidos de dicho cultivo lo podemos asignar a un nuevo dataframe, que por ejemplo se llame como el cultivo.

In [None]:
kidneybeans = crops[crops['label']=='kidneybeans']

Y de nuevo calcular la correlacion entre datos pero ahora solo para kidneybeans

In [None]:
kidneybeans.corr()

O generar un grafico, de dichas correlaciones con distintas tonalidades de color segun el grado de correlacion.

In [None]:
sns.heatmap(kidneybeans.corr())