<div id='id0' />

# Análisis multivariante
Este notebook está orientado al estudio conjunto de las variables de superficie, temperatura y precipitaciones, con el fin de ver las relaciones que hay entre ellas.

1. [Análisis de la variable de Temperatura](#id1)
    - [Lectura y transformación de los dataframes](#id2)
    - [Análisis Temperatura y precipitación](#id5)
        - [Estudio de las correlaciones](#id3)
    - [Agregación de la variable superficie](#id4)
    - [Análisis de Correlación de las variables Temperatura, Precipitación y Superficie](#id6)
    - [Análisis por agrupación de variables de Precipitación, Temperatura y Superficie por año](#id8)
    - [Análisis las variables para cada cultivo](#id9)
	    - [Estudio de la distribución](#id10)
        - [Correlación lineal (Rolling windows)](#id11)
2. [Conclusiones](#id7)

In [None]:
#--BASE--#
%matplotlib inline
import pandas as pd
import seaborn as sns
import warnings
import numpy as np
import datetime
import os
import warnings
from datetime import timedelta
import functions
from phik import phik_matrix
import pingouin as pg

#--VISUALIZACIÓN--#
import matplotlib as mpl
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
from statsmodels.graphics.factorplots import interaction_plot

#--CONFIGURACIÓN--#
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.options.display.float_format = '{:.2f}'.format
warnings.filterwarnings('ignore')

In [8]:
pip install shap

Collecting shap
  Downloading shap-0.41.0-cp39-cp39-win_amd64.whl (435 kB)
     -------------------------------------- 435.6/435.6 kB 5.5 MB/s eta 0:00:00
Collecting slicer==0.0.7
  Using cached slicer-0.0.7-py3-none-any.whl (14 kB)
Installing collected packages: slicer, shap
Successfully installed shap-0.41.0 slicer-0.0.7
Note: you may need to restart the kernel to use updated packages.


[up](#id0)

<div id='id2' />

## Lectura y transformación de los dataframes

In [None]:
Sup = pd.read_excel('../DATOS/API_superficie_cultivada/TOTAL/TOTAL.xlsx')
pp = pd.read_csv('../DATOS/Clima/TOTAL_STATES_PP.csv')
Temp = pd.read_csv('../DATOS/Clima/TOTAL_STATES_T.csv')

In [None]:
Sup.head(2)

In [None]:
pp.head(2)

In [None]:
Temp.head(2)

In [None]:
Temp.info()

In [None]:
Temp['date'] = Temp['date'].astype(str)
pp['date'] = pp['date'].astype(str)

Se concatenan ambos archivos

In [None]:
#Concatenado

Temp['concat'] = Temp['State'] + Temp['date'] + Temp ['Months']
pp['concat'] = pp['State'] + pp['date'] + pp ['Months']

In [None]:
clima = Temp.merge(pp, right_on='concat', left_on='concat', how = 'outer')
clima

In [None]:
clima.isnull().sum()

In [None]:
#Modificación de las columnas

clima.drop(columns=['concat', 'State_y','date_y', 'Months_y'], inplace = True)
clima.rename(columns=({'State_x':'State', 'date_x': 'date', 'Months_x': 'months'}), inplace= True)

[up](#id0)

<div id='id5' />

## Análisis de Temperatura y Precipitación
Debido a que los datos de temperatura y precipitación contienen una mayor cantidad de información respecto a la variable de superficie (las dos primeras variables se subdividen en meses mientras que en la variable superficie esta subdivisión no existe) se decide hacer un análisis conjunto de las variables de temperatura y precipitación y posteriormente incluir la variable superficie.

In [None]:
pp_group = pd.DataFrame(pp.groupby('date')['Precipitation'].mean())
Temp_group =pd.DataFrame(Temp.groupby('date')['Temperature'].mean())

Representación gráfica de las variables:

In [None]:
# Create figure with secondary y-axis
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Add traces
fig.add_trace(
    go.Line(y=pp_group['Precipitation'], x=pp_group.index, name="Precipitación"),
    secondary_y=False,)

fig.add_trace(
    go.Line(y=Temp_group['Temperature'], x=Temp_group.index, name="Temperatura"),
    secondary_y=True,)

# Add figure title
fig.update_layout(
    title_text="Temperatura y Precipitación")

# Set y-axes titles
fig.update_yaxes(title_text="Temperatura (ºC)", secondary_y=False)
fig.update_yaxes(title_text="Precipitación (mm)", secondary_y=True)

fig.show()

In [None]:
clima.head()

[up](#id0)

<div id='id3' />

### Estudio de las correlaciones

In [None]:
px.scatter(
        clima,
        y = 'Precipitation',  
        x = 'Temperature', 
        trendline="ols",
        color = 'months',
        opacity = 0.5,
        height=600, width=800,
        title='Correlación entre Tª y pp para cada mes')

In [None]:
#Correlación lineal

print(clima.corr(method='pearson'))
print(clima.corr(method='spearman'))

Se analiza la correlación lineal entre la precipitación y la temperatura por intervalos de tiempo (5 años) para cada año.

In [None]:
px.line(pp_group['Precipitation'].rolling(5).corr(Temp_group['Temperature']), title = 'Rolling window precipitación vs temperatura').update_layout(yaxis={"title": "correlation"})

In [None]:
clima

In [None]:
functions.matrix_mic(clima[['Temperature',	'Precipitation']])

[up](#id0)

<div id='id4' />

## Agregación de la variable superfice

In [None]:
clima.head()

In [None]:
Sup.head()

In [None]:
Sup[['commodity_desc', 'state_name', 'year', 'hectare']].count()

In [None]:
Sup[['commodity_desc', 'state_name', 'year']].drop_duplicates().shape

In [None]:
clima.info()

In [None]:
Sup.info()

In [None]:
Sup['state_name'] = Sup['state_name'].str.capitalize()
Sup['year'] = Sup['year'].astype(str)
Sup['state_name'] = Sup['state_name'].str.replace(" ", "_")
Sup['concat'] = Sup['state_name'] + Sup['year']
Sup.head(2)

In [None]:
clima = clima.groupby(['State', 'date'])['Temperature', 'Precipitation'].mean()
clima.reset_index(inplace=True)
clima['State'] = clima['State'].str.capitalize()
clima['concat'] = clima['State'] + clima['date']
clima.head(2)

In [None]:
concat = Sup.merge(clima, left_on='concat', right_on='concat', how='outer')

In [None]:
concat.isnull().sum()

Los valores nulos hacen referencia principalmente al estado de Alaska el cual no aparece en los datos de Superficie y a un valor en los datos de superficie "other_states"y de "Hawaii" que tampoco aparece en los datos de clima.

In [None]:
concat.dropna(inplace = True)
concat.drop(columns=['state_name', 'year', 'concat'], inplace = True) #eliminamos las columnas repetidas y concatenadas

In [None]:
#Cambio de posición en el dataframe la columna "hectare y commodity_desc"

col = concat.pop('hectare')
concat.insert(loc= 2 , column= 'hectare', value= col)

In [None]:
col = concat.pop('commodity_desc')
concat.insert(loc= 2 , column= 'commodity_desc', value= col)

[up](#id0)

<div id='id6' />

## Análisis de Correlación de las variables Temperatura, Precipitación y Superficie

In [None]:
concat

In [None]:
px.scatter(
        concat,
        y = 'hectare',  
        x = 'Temperature', 
        trendline="ols",
        color = 'commodity_desc',
        opacity = 0.5,
        height=600, width=800,
        title='Correlación entre Superficie y Temperatura')

In [None]:
px.scatter(
        concat,
        y = 'hectare',  
        x = 'Precipitation', 
        trendline="ols",
        color = 'commodity_desc',
        opacity = 0.5,
        height=600, width=800,
        title='Correlación entre Superficie y Precipitación')

In [None]:
# Correlación lineal de variables

sns.set(rc={'figure.figsize':(5,3)})
correlation_matrix = concat.corr().round(2)
sns.heatmap(data=correlation_matrix, annot=True);

In [None]:
#Correlación lineal lagueando las variables 

for i in concat[['Temperature', 'Precipitation']][concat.date != 0].columns:
    series1 = i
    series2 = 'hectare'

    rs, offset, peak = functions.corr_lag(series1, series2, concat)

    ticks = range(0,2*200+1,50)
    tick_labels = range(-200,201,50)

    rs.plot()
    plt.xticks(ticks = ticks,labels = tick_labels)
    plt.axvline(peak,color = "red",linestyle="--",label = "Peak")
    plt.title('{} leads <> {} leads'.format(series1,series2))
    plt.show()

In [None]:
# Correlación No lineal

sns.set(rc={'figure.figsize':(5,3)})
correlation_matrix = functions.matrix_mic(concat[['date', 'hectare', 'Temperature', 'Precipitation']]).round(2)
sns.heatmap(data=correlation_matrix, annot=True, cmap="YlGnBu");

In [None]:
g = sns.PairGrid(concat)
g.map_diag(sns.histplot)
g.map_offdiag(sns.scatterplot);

[up](#id0)

<div id='id8' />

## Análisis por agrupación de variables de Precipitación, Temperatura y Hectárea por año
En este apartado se pretende hacer un estudio similar al anterior pero en este caso a nivel de EEUU, con el fin de ver si con la media de las variables para cada año, se obtienen mejores resultados que en el apartado anterior.

In [None]:
agrupation = pd.pivot_table(
    data=concat, 
    index='date',
    aggfunc={'hectare': np.sum, 'Temperature': np.mean, 'Precipitation': np.mean}
    )

In [None]:
agrupation.head()

In [None]:
px.scatter(
        agrupation,
        y = 'Precipitation',  
        x = 'Temperature', 
        trendline="ols",
        #color = agrupation.index,
        opacity = 0.5,
        height=600, width=800,
        title='Correlación entre Tª y pp')

In [None]:
px.scatter(
        agrupation,
        y = 'Precipitation',  
        x = 'hectare', 
        trendline="ols",
        #color = agrupation.index,
        opacity = 0.5,
        height=600, width=800,
        title='Correlación entre Tª y pp')

In [None]:
px.scatter(
        agrupation,
        y = 'Temperature',  
        x = 'hectare', 
        trendline="ols",
        #color = agrupation.index,
        opacity = 0.5,
        height=600, width=800,
        title='Correlación entre Tª y pp')

In [None]:
#Correlación lineal

sns.set(rc={'figure.figsize':(5,3)})
correlation_matrix = agrupation.corr().round(2)
sns.heatmap(data=correlation_matrix, annot=True);

In [None]:
# Correlación No lineal

sns.set(rc={'figure.figsize':(5,3)})
correlation_matrix = functions.matrix_mic(agrupation[['Temperature', 'Precipitation', 'hectare']]).round(2)
sns.heatmap(data=correlation_matrix, annot=True, cmap="YlGnBu");

In [None]:
#Correlación lineal lagueando las variables 

for i in agrupation[['Temperature', 'Precipitation']][agrupation.index != 0].columns:
    series1 = i
    series2 = 'hectare'

    rs, offset, peak = functions.corr_lag(series1, series2, concat)

    ticks = range(0,2*200+1,50)
    tick_labels = range(-200,201,50)

    rs.plot()
    plt.xticks(ticks = ticks,labels = tick_labels)
    plt.axvline(peak,color = "red",linestyle="--",label = "Peak")
    plt.title('{} leads <> {} leads'.format(series1,series2))
    plt.show()

In [None]:
agrupation.head()

In [None]:
px.line(agrupation['hectare'].rolling(5).corr(agrupation['Temperature']), title = 'Rolling window superficie(ha) vs temperatura(ºC)').update_layout(yaxis={"title": "correlation"})

In [None]:
px.line(agrupation['hectare'].rolling(5).corr(agrupation['Precipitation']), title = 'Rolling window superficie(ha) vs precipitación (mm)').update_layout(yaxis={"title": "correlation"})

In [None]:
agrupation.to_csv('../DATOS/archivos creados analisis/variables_agrupadas.csv')

[up](#id0)

<div id='id9' />

## Análisis las variables para cada cultivo
Otro análisis que se realiza (similar a los anterior) es el estudio de cada uno de los cultivos.

Para este caso, como se ve a continuación, se seleccionan los cultivos que han tenido una mayor representación a lo largo de los años en EEUU.

In [None]:
crop = pd.DataFrame(concat.groupby('commodity_desc')['hectare'].sum().sort_values(ascending = False))
crop['percentage'] = crop/crop['hectare'].sum()
crop[:10]

In [None]:
crop[:7].sum()

In [None]:
concat_selection = concat[concat['commodity_desc'].isin(['WHEAT', 'CORN', 'SOYBEANS', 'COTTON', 'SORGHUM', 'BARLEY', 'OATS'])]

In [None]:
concat_selection.head()

In [None]:
concat_selection.to_csv('../DATOS/archivos creados analisis/seleción_cultivos.csv', index=False)

In [None]:
variables = pd.pivot_table(
    data=concat_selection, 
    columns='commodity_desc', 
    values=['hectare', 'Temperature', 'Precipitation'], 
    index='date', 
    aggfunc={'hectare':np.sum, 'Temperature':np.mean, 'Precipitation':np.mean}
    )
variables.head()

In [None]:
# Correlación lineal

sns.set(rc={'figure.figsize':(15,15)})
correlation_matrix = variables.corr().round(2)
sns.heatmap(data=correlation_matrix, annot=True);

In [None]:
# Correlación No lineal

sns.set(rc={'figure.figsize':(15,15)})
correlation_matrix = functions.matrix_mic(variables).round(2)
sns.heatmap(data=correlation_matrix, annot=True, cmap="YlGnBu");

[up](#id0)

<div id='id10' />

### Estudio de la distribución

In [None]:

fig, ax =plt.subplots(1,2,figsize=(15,5))
sns.distplot(variables['Precipitation'], ax=ax[0]).set(title = 'Distribución de la Precipitación')
sns.boxplot(data = variables['Precipitation'], ax=ax[1]).set(title = 'Distribución de la Precipitación para cada cultivo')
fig.show()

In [None]:
fig, ax =plt.subplots(1,2,figsize=(15,5))
sns.distplot(variables['Temperature'], ax=ax[0]).set(title = 'Distribución de la Temperatura')
sns.boxplot(data = variables['Temperature'], ax=ax[1]).set(title = 'Distribución de la Temperatura para cada cultivo')
fig.show()

In [None]:
fig, ax =plt.subplots(1,2,figsize=(15,5))
sns.distplot(variables['hectare'], ax=ax[0]).set(title = 'Distribución de la Superficie')
sns.boxplot(data = variables['hectare'], ax=ax[1]).set(title = 'Distribución de la Superficie para cada cultivo')
fig.show()

In [None]:
variables.hist();

[up](#id0)

<div id='id11' />

### Correlación lineal (Rolling windows)

In [None]:
px.line(variables['hectare'].rolling(5).corr(variables['Temperature']), title = 'Rolling window superficie(ha) vs temperatura').update_layout(yaxis={"title": "correlation"})

In [None]:
px.line(variables['hectare'].rolling(5).corr(variables['Precipitation']), title = 'Rolling window superficie(ha) vs precipitación').update_layout(yaxis={"title": "correlation"})

In [None]:
variables.head()

In [None]:
variables_1 = variables.copy()

In [None]:
variables_1.columns = variables_1.columns.droplevel(1)

In [None]:
variables_1['BARLEY_Prec'] = variables_1.iloc[:, 0]
variables_1['CORN_Prec'] = variables_1.iloc[:, 1]
variables_1['COTTON_Prec'] = variables_1.iloc[:, 2]
variables_1['OATS_Prec'] = variables_1.iloc[:, 3]
variables_1['SORGHUM_Prec'] = variables_1.iloc[:, 4]
variables_1['SOYBEANS_Prec'] = variables_1.iloc[:, 5]
variables_1['WHEAT_Prec'] = variables_1.iloc[:, 6]

variables_1['BARLEY_Temp'] = variables_1.iloc[:, 7]
variables_1['CORN_Temp'] = variables_1.iloc[:, 8]
variables_1['COTTON_Temp'] = variables_1.iloc[:, 9]
variables_1['OATS_Temp'] = variables_1.iloc[:, 10]
variables_1['SORGHUM_Temp'] = variables_1.iloc[:, 11]
variables_1['SOYBEANS_Temp'] = variables_1.iloc[:, 12]
variables_1['WHEAT_Temp'] = variables_1.iloc[:, 13]

variables_1['BARLEY_Ha'] = variables_1.iloc[:, 14]
variables_1['CORN_Ha'] = variables_1.iloc[:, 15]
variables_1['COTTON_Ha'] = variables_1.iloc[:, 16]
variables_1['OATS_Ha'] = variables_1.iloc[:, 17]
variables_1['SORGHUM_Ha'] = variables_1.iloc[:, 18]
variables_1['SOYBEANS_Ha'] = variables_1.iloc[:, 19]
variables_1['WHEAT_Ha'] = variables_1.iloc[:, 20]

variables_1.drop(columns=['Precipitation', 'Temperature', 'hectare'], inplace=True)

In [None]:
variables_1.head()

A continuación se estudia el tipo de distribución que tienen las variables de estudio de este apartado.

In [None]:
#Gráficos qqplot (HECTAREAS)

fig, axs = plt.subplots(3, 3, figsize=(10, 9))
pg.qqplot(variables_1.loc[variables_1.index, 'BARLEY_Ha'], dist='norm', ax=axs[0,0])
axs[0,0].set_title('BARLEY_Ha')
pg.qqplot(variables_1.loc[variables_1.index, 'CORN_Ha'], dist='norm', ax=axs[0,1])
axs[0,1].set_title('CORN_Ha')
pg.qqplot(variables_1.loc[variables_1.index, 'COTTON_Ha'], dist='norm', ax=axs[0,2])
axs[0,2].set_title('COTTON_Ha')
pg.qqplot(variables_1.loc[variables_1.index, 'OATS_Ha'], dist='norm', ax=axs[1,0])
axs[1,0].set_title('OATS_Ha')
pg.qqplot(variables_1.loc[variables_1.index, 'SORGHUM_Ha'], dist='norm', ax=axs[1,1])
axs[1,1].set_title('SORGHUM_Ha')
pg.qqplot(variables_1.loc[variables_1.index, 'SOYBEANS_Ha'], dist='norm', ax=axs[1,2])
axs[1,2].set_title('SOYBEANS_Ha')
pg.qqplot(variables_1.loc[variables_1.index, 'WHEAT_Ha'], dist='norm', ax=axs[2,0])
axs[2,0].set_title('WHEAT_Ha')
plt.tight_layout()

In [None]:
#Gráficos qqplot (HECTAREAS)

fig, axs = plt.subplots(3, 3, figsize=(10, 9))
pg.qqplot(variables_1.loc[variables_1.index, 'BARLEY_Temp'], dist='norm', ax=axs[0,0])
axs[0,0].set_title('BARLEY_Temp')
pg.qqplot(variables_1.loc[variables_1.index, 'CORN_Temp'], dist='norm', ax=axs[0,1])
axs[0,1].set_title('CORN_Temp')
pg.qqplot(variables_1.loc[variables_1.index, 'COTTON_Temp'], dist='norm', ax=axs[0,2])
axs[0,2].set_title('COTTON_Temp')
pg.qqplot(variables_1.loc[variables_1.index, 'OATS_Temp'], dist='norm', ax=axs[1,0])
axs[1,0].set_title('OATS_Temp')
pg.qqplot(variables_1.loc[variables_1.index, 'SORGHUM_Temp'], dist='norm', ax=axs[1,1])
axs[1,1].set_title('SORGHUM_Temp')
pg.qqplot(variables_1.loc[variables_1.index, 'SOYBEANS_Temp'], dist='norm', ax=axs[1,2])
axs[1,2].set_title('SOYBEANS_Temp')
pg.qqplot(variables_1.loc[variables_1.index, 'WHEAT_Temp'], dist='norm', ax=axs[2,0])
axs[2,0].set_title('WHEAT_Temp')
plt.tight_layout()

In [None]:
#Gráficos qqplot (HECTAREAS)

fig, axs = plt.subplots(3, 3, figsize=(10, 9))
pg.qqplot(variables_1.loc[variables_1.index, 'BARLEY_Prec'], dist='norm', ax=axs[0,0])
axs[0,0].set_title('BARLEY_Prec')
pg.qqplot(variables_1.loc[variables_1.index, 'CORN_Prec'], dist='norm', ax=axs[0,1])
axs[0,1].set_title('CORN_Prec')
pg.qqplot(variables_1.loc[variables_1.index, 'COTTON_Prec'], dist='norm', ax=axs[0,2])
axs[0,2].set_title('COTTON_Prec')
pg.qqplot(variables_1.loc[variables_1.index, 'OATS_Prec'], dist='norm', ax=axs[1,0])
axs[1,0].set_title('OATS_Prec')
pg.qqplot(variables_1.loc[variables_1.index, 'SORGHUM_Prec'], dist='norm', ax=axs[1,1])
axs[1,1].set_title('SORGHUM_Prec')
pg.qqplot(variables_1.loc[variables_1.index, 'SOYBEANS_Prec'], dist='norm', ax=axs[1,2])
axs[1,2].set_title('SOYBEANS_Prec')
pg.qqplot(variables_1.loc[variables_1.index, 'WHEAT_Prec'], dist='norm', ax=axs[2,0])
axs[2,0].set_title('WHEAT_Prec')
plt.tight_layout()

In [None]:
variables_1.to_csv('../DATOS/archivos creados analisis/variables_por_cultivos.csv')
concat_selection.to_csv('../DATOS/archivos creados analisis/variables_origen_filtradas.csv', index=False)
agrupation.to_csv('../DATOS/archivos creados analisis/agrupation.csv')

[up](#id0)

<div id='id7' />

## Conclusiones

- Analizando la correlación por intervalos de tiempo entre las variables de precipitación y temperatura a lo largo de toda la serie si que se encuentran picos donde la correlación es muy alta pero la media de los cultivos, en general, no da correlaciones que puedan relacionar la influencia de una variable sobre otra.
- Los análisis de correlaciones lagueadas se realizaron con el fin de ver si el efecto de una variable independiente podría tener efecto un tiempo después sobre la variable dependiente, pero en estos casos de estudio se ha visto que no es así.
- Analizando las correlaciones de los cultivos más importantes de EEUU se ha visto que la temperatura si que tienen correlaciones, ya sean negativas o positivas, significativas mientras que en la temperatura ocurre todo lo contrario, esto puede ser debido a que la precipitación puede ser sustituida de manera artificial mediante técnicas de riego. 