In [None]:
import numpy as np
import pandas as pd

In [None]:
data = pd.read_csv('../Data/populations.txt',sep='\t')

In [None]:
# Veamos las poblaciones por año de cada especie
data

In [None]:
# Pasamos todas las columnas a Numpy Arrays
year = data["# year"].values
type(year)

In [None]:
hares = data["hare"].values

In [None]:
lynxes = data["lynx"].values 

In [None]:
carrots = data["carrot"].values 

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

In [None]:
plt.plot(year, hares, year, lynxes, year, carrots) 
plt.legend(('Conejos (hares)', 'Linces (lynxes)', 'Zanahorias (carrots)'), loc=(1.05, 0.5)) 
plt.show()

## Estadística descriptiva

Para cada variable de la serie histórica, calculamos la media y el desvío. Redondeamos los valores para que tengan sólo 2 decimales.

In [None]:
# Con el método iloc, podemos hacer slicing de un dataframe de pandas 
# con las mismas reglas de slicing que usamos en los arrays de Numpy.

# Vamos a descartar la columna de años y a obtener
# un array usando la propiedad "values"
poblaciones = data.iloc[:, 1:].values

# Veamos una muestra del resultado.
poblaciones[0:5,:]

In [None]:
# Las funciones mean y std reciben como parámetro axis = 0.
# En cada caso colapsan el eje de filas, quedándose con una única fila
# con la media y el desvío estándar de cada columna, respectivamente.

print ("        Conejos, Linces, Zanahorias")
print ("Mean:", np.around(poblaciones.mean(axis=0), decimals=2))
print ("Std:", np.around(poblaciones.std(axis=0), decimals=2))

A continuación, calculamos para cada especie el año en el que tuvieron más población. Vamos a identificar los máximos que se ven en el gráfico:

In [None]:
# El método "argmax" devuelve los índice de filas 
# donde se encuentran los valores máximos de cada columna
# (recordemos que axis=0 reduce la dimensión de las filas)
j_max_years = np.argmax(poblaciones, axis=0)

# Fancy Indexing
print ("                          Conejos, Linces, Zanahorias")
print ("Años de máxima población:", year[j_max_years])

De forma similar podemos ver la especie con mayor población en cada año:

In [None]:
# Al recibir axis = 1 reduce el eje de las columnas. 
# Esto significa que calcula el máximo para cada fila.
max_species = np.argmax(poblaciones, axis=1)
species = np.array(['Conejos', 'Linces', 'Zanahorias'])

# Combino los dos vectores en un array de una dimensión más.
resultado = np.array([year, species[max_species]])
print ("Especies con máxima población:")
print (resultado)

A continuación queremos ver en qué años alguna de las poblaciones se encuentra por encima de 50000

In [None]:
# La función de reducción de dimensiones np.any reduce el eje de las columnas indicando para cada fila si alguno de los 
# elementos de las columnas cumple con la condición de ser mayor a 50000
mayores_50000 = np.any(poblaciones > 50000, axis=1)
print ("Alguna población es mayor que 50000:", year[mayores_50000])

También podemos consultar en qué dos años, cada especie tuvo sus niveles más bajos de población.

In [None]:
# primero selecciono los dos primeros índices ordenando por columna
j_top_2 = np.argsort(poblaciones, axis=0)[:2]
print ("Dos años de menor población por especie:")
print(['Conejos', 'Linces', 'Zanahorias'])
print (year[j_top_2])

También podemos analizar la matriz de covarianzas entre las distintas especies:

In [None]:
np.cov([hares, lynxes, carrots])

* ¿Puedo comparar las distintas varianzas? ¿Por qué?
* ¿Qué variable tiene la mayor varianza? ¿Cómo se ve esto en el gráfico?
* ¿Qué significa una covarianza positiva? ¿Y una negativa?

In [None]:
np.corrcoef([hares, lynxes, carrots])

* ¿Cómo es el signo de la correlación con resepecto al de la covarianza?
* ¿En qué unidades físicas está la correlación? ¿Y la covarianza?
* ¿Cuáles son las especies que están más correlacionadas? ¿Cómo se ve esto en el gráfico?