In [None]:
%run "../../../common/0_notebooks_base_setup.py"    

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Checkpoint Estadística Descriptiva

Para esta práctica usaremos un subconjunto de los registros de un dataset de Kaggle que tiene datos oceanográficos https://www.kaggle.com/sohier/calcofi

El conjunto de datos de CalCOFI representa la serie cronológica más larga (desde 1949 hasta el presente) y más completa (más de 50.000 estaciones de muestreo) de datos oceanográficos y de larvas de peces del mundo. 

Incluye datos sobre la abundancia de las larvas de más de 250 especies de peces; datos de frecuencia de tallas de larvas y datos de abundancia de huevos en especies comerciales clave; y datos oceanográficos y de plancton. 

Los datos físicos, químicos y biológicos recopilados a intervalos regulares de tiempo y espacio son valiosos para documentar los ciclos climáticos en la corriente de California y una variedad de respuestas biológicas a esos ciclos. 

La idea de esta práctica es analizar las variables numéricas de este dataset reducido (sólo cinco estaciones de muestreo) calculando medidas de tendencia central, de dispersión, y de asociación entre esas variables.


## Ejercicio 1
Leer los datos del archivo /M1/CLASE_04_EstadisticaDescriptiva/Data/bottle_reducido.csv

Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Cada uno del los registros del dataset representa una medición en una estación. Las variables medidas son profundidad, temperatura, saturación de oxígeno, nivel de salinidad.

Las columnas son:

* **Sta_ID**: cadena de caracteres, representa el id de la estación

* **Depth_ID**: cadena de caracteres, representa el id de la medición

* **Depthm**: numérico, representa la profundidad en metros 

* **T_degC**: numérico, representa la temperatura en grados centigrados

* **O2Sat**: numérico, representa la saturación de oxígeno

* **Salnty**: numérico, representa el nivel de salinidad

¿Recuerdan que todos los elementos de una instancia de ndarray deben ser del mismo tipo? Entonces vamos a leer el archivo y crear una instancia de ndarray de tipo cadena de caracteres.

¿Qué pasaría si intentáramos crear una instancia de tipo int? ¿Y de tipo float?


In [None]:
import numpy as np

# local:
data_location = '../Data/bottle_reducido.csv'


In [None]:
data_type_default = np.genfromtxt(data_location, skip_header=1, delimiter='\t')
data_type_default

In [None]:
data_type_str = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= str)
data_type_str

In [None]:
data_type_int = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= int)
data_type_int

In [None]:
data_type_float = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= float)
data_type_float

## Ejercicio 2

Sobre los datos de nivel de salinidad (columna Salnty) calcular:

* media

* mediana 

* desvio

* rango


In [None]:
salinity_column_index = 5
salinity_vector = data_type_str[:, salinity_column_index]
salinity_vector_numeric = salinity_vector.astype(float)

In [None]:
np.mean(salinity_vector_numeric)

In [None]:
np.median(salinity_vector_numeric)

In [None]:
np.std(salinity_vector_numeric)

In [None]:
np.max(salinity_vector_numeric) - np.min(salinity_vector_numeric)

## Ejercicio 3

Usando la función `distribution_plotter` graficar las distribuciones de las variables Depthm, T_degC, O2Sat, Salnty

<code>

import seaborn as sns

def distribution_plotter(data, label, bin_width=100):    
    sns.set(rc={"figure.figsize": (7, 5)})
    sns.set_style("white")    
    dist = sns.histplot(data, stat = 'count', kde = False, 
                        line_kws = {'linewidth':5}, 
                        binwidth = bin_width)    
    dist.set_title('Distribucion ' + label + '\n', fontsize = 16)
</code>


Qué pueden decir de estas distribuciones?

Pongan atención en la elección del parámetro `bin_width` para que el gráfico sea informativo.


In [None]:
import seaborn as sns

def distribution_plotter(data, label, bin_width=100):    
    sns.set(rc={"figure.figsize": (7, 5)})
    sns.set_style("white")    
    dist = sns.histplot(data, stat = 'count', kde = False, 
                        line_kws = {'linewidth':5}, 
                        binwidth = bin_width)    
    dist.set_title('Distribucion ' + label + '\n', fontsize = 16)

In [None]:
depthm_column_index = 2
tdegC_column_index = 3
o2sat_column_index = 4

depthm_vector_numeric = data_type_str[:, depthm_column_index].astype(float)
tdegC_vector_numeric = data_type_str[:, tdegC_column_index].astype(float)
o2sat_vector_numeric = data_type_str[:, o2sat_column_index].astype(float)


In [None]:
distribution_plotter(depthm_vector_numeric, "Depthm", bin_width=100)

In [None]:
distribution_plotter(tdegC_vector_numeric, "T_degC", bin_width=1)

In [None]:
distribution_plotter(o2sat_vector_numeric, "O2Sat", bin_width=10)

In [None]:
distribution_plotter(salinity_vector_numeric, "Salnty", bin_width=0.1)


## Ejercicio 4

Calcular las matrices de correlación y covarianza de las variables Depthm, T_degC, O2Sat, Salnty

A partir de estos resultados, elegir sólo una de estas variables para intentar predecir el valor de salinidad:

* ¿Usarían para esto la matriz de correlación o la de covarianzas? ¿Por qué?

* ¿Qué variable elegirían? Justificar la decisión.



In [None]:
variables_colums_index = range(2,6)

X = data_type_str[:, variables_colums_index].astype(float)

X

In [None]:
correlacion = np.corrcoef(X.T)
correlacion.shape
correlacion

In [None]:
covarianza = np.cov(X.T)
covarianza.shape
covarianza

In [None]:
xdepthm_column_index = 0
xtdegc_column_index = 1
xo2sat_column_index = 2
xsalinity_column_index = 3


In [None]:
covarianzas_salinity = [ abs(covarianza[xsalinity_column_index, xdepthm_column_index]), 
                         abs(covarianza[xsalinity_column_index, xtdegc_column_index]), 
                        abs(covarianza[xsalinity_column_index, xo2sat_column_index]), 
                       ]

correlacion_salinity = [ abs(correlacion[xsalinity_column_index, xdepthm_column_index]), 
                         abs(correlacion[xsalinity_column_index, xtdegc_column_index]), 
                         abs(correlacion[xsalinity_column_index, xo2sat_column_index]), 
                       ]

np.argmax(covarianzas_salinity)

In [None]:
np.argmax(correlacion_salinity)

In [None]:
covarianzas_salinity

In [None]:
correlacion_salinity

Elegiría la variable O2Sat para predecir el valor de Salnty porque es la que tiene el valor máximo en la matriz de correlación.