# Descripción conceptual de las variables del data-set

El data set con el que vamos a trabajar consta de 4380 observaciones (filas) , cada una representa un dia. Estan los dias de 12 años.

Hay 15 predictores que estan medidos en 5 momentos del dia distintos, **usando distintas unidades de medidas** en algunas de esas mediciones, y estas variables se miden en cada uno de los 4380 dias. Por tanto realmente hay 15 predictores básicos que dan lugar a 5*15 = 75 predictores.

El data set se puede ver como la concatenacion (por columnas) de 6 data sets, 5 de ellos con los 15 predictores ,y  en cada uno de esos 5 data sets se miden los predictores en un momento del dia diferente (un momento asociado a cada uno de los 5 data set) , y por ultimo un data set solo con la respuesta.

El data-set con el que vamos a trabajar puede representarse matricialmente como sigue:

$$\text{Data-set}=(X_{1,1}, X_{1,2},...X_{1,5}, X_{2,1},...,X_{2,5},...,X_{15,1},...,X_{15,5}, Y)$$

Tiene la particularidad de que para algunos predictores $j$ y algunos momentos del dia $t1 \neq t2$ se puede cumplir que $X_{j,t1}$ se mida en unidades distintas que $X_{j,t2}$ , pese a que han sido generados por el mismo predictor básico $X_j$. Esto conduce a que pueda ser que la variable $X_{j,t1}$ sea de un tipo distinto que $X_{j,t2}$

**Descripción conceptual de los predictores básicos:**




|      Variable           |          Descripción   |   Unidades de medida (originales)  |
|:------------------------:|:---------------------:|:---------------------:|
| apcp_sfc   | 3-Hour accumulated precipitation at the surface | kg / m-2 |
| dlwrf_sfc | Downward long-wave radiative flux average at the surface | W m-2 |
| dswrf_sfc    |Downward short-wave radiative flux average at the surface  | W m-2 |
|  pres_msl |Air pressure at mean sea level | Pa |
|  pwat_eatm   | Precipitable Water over the entire depth of the atmosphere | kg / m-2 |
| spfh_2m  |  Specific Humidity at 2 m above ground    | kg kg-1 |
|  tcdc_eatm   |   Total cloud cover over the entire depth of the atmosphere    | % |
|  tcolc_eatm |  Total column-integrated condensate over the entire atmos        |kg m-2 |
| tmax_2m    |   Maximum Temperature over the past 3 hours at 2 m above the ground     | K |
|  tmin_2m |    Mininmum Temperature over the past 3 hours at 2 m above the ground     |K |
| tmp_2m    |    Current temperature at 2 m above the ground        | K |
|  tmp_sfc |   Temperature of the surface    | K |
|  ulwrf_sfc   |     Upward long-wave radiation at the surface     | W m-2 |
| ulwrf_tatm  |   Upward long-wave radiation at the top of the atmosphere    | W m-2 |
| uswrf_sfc  |   Upward short-wave radiation at the surface    | W m-2 |

# EDA en `Python`

In [None]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd

pd.set_option('display.max_columns', 75)


In [None]:

Data_Py = pd.read_csv('disp_2.csv')

Data_Py.head()

Vamos a comprobar con `Python` cuantas observaciones y variables hay en el data-set:

In [6]:
Data_Py.shape

(4380, 76)

Como ya se ha comentado antes, tenemos un data-set con 76 variables y 4380 observaciones. 

75 de las 76 variables serán considerados predictores. Y la variable restante, la respuesta.

Ahora vamos a comprobar de qué tipo son los atributos segun `Python`

In [14]:
Data_Py.dtypes

apcp_sf1_1     object
apcp_sf2_1     object
apcp_sf3_1     object
apcp_sf4_1    float64
apcp_sf5_1    float64
dlwrf_s1_1     object
dlwrf_s2_1    float64
dlwrf_s3_1     object
dlwrf_s4_1     object
dlwrf_s5_1    float64
dswrf_s1_1    float64
dswrf_s2_1    float64
dswrf_s3_1    float64
dswrf_s4_1    float64
dswrf_s5_1     object
pres_ms1_1     object
pres_ms2_1     object
pres_ms3_1     object
pres_ms4_1     object
pres_ms5_1    float64
pwat_ea1_1    float64
pwat_ea2_1    float64
pwat_ea3_1     object
pwat_ea4_1    float64
pwat_ea5_1    float64
spfh_2m1_1    float64
spfh_2m2_1    float64
spfh_2m3_1    float64
spfh_2m4_1    float64
spfh_2m5_1     object
tcdc_ea1_1    float64
tcdc_ea2_1     object
tcdc_ea3_1     object
tcdc_ea4_1    float64
tcdc_ea5_1    float64
tcolc_e1_1     object
tcolc_e2_1    float64
tcolc_e3_1     object
tcolc_e4_1     object
tcolc_e5_1     object
tmax_2m1_1     object
tmax_2m2_1    float64
tmax_2m3_1     object
tmax_2m4_1    float64
tmax_2m5_1     object
tmin_2m1_1

La respuesta es una variable cuantitativa entera (`int`).

Los predictores son o bien de tipo cuantitativo continuo (`float`) o bien de tipo categorico (`object`).

Valores faltantes ?

Variables constantes ?

Plot de la respuesta vs tiempo (días)

Métricas para evaluar modelos (explicar las mas usaadas tanto en problemas de clasificacion (TAC, TEC etc) como en regresion (ECM, RECM, EAR etc))