# Inspección del Dataset VCDE

## Conjunto de datos a utilizar
El objetivo notebook es realizar una inspección preliminar del dataset que fue creado en la práctica 1 por los mismos alumnos del máster. El dataset se denomina Valores Climatológicos Diarios de España, VCDE. Para esta práctica nos hemos quedado con los valores climatológicos diarios de España procedentes del sistema AEMET OpenData. [AEMET OpenData](https://opendata.aemet.es)

## Cargado de datos
Cargaremos los datos procedentes de `data/VCDE_.csv` para que podamos leerlo.

In [35]:
import numpy as np
import pandas as pd

df = pd.read_csv('data/VCDE.csv')

## Manipulación como dataframe de panda
### Comprobación de si el dataframe está vacío

In [36]:
df.empty

False

### Dimensión del dataframe

In [37]:
df.shape

(3090418, 20)

### Número de columnas
Sabemos que el VCDE.csv tiene 20 columnas, pero no sabemos sus nombres. Se puede obtener mediante el atributo `columns`:

In [38]:
df.columns

Index(['fecha', 'indicativo', 'nombre', 'provincia', 'altitud', 'tmed', 'prec',
       'tmin', 'horatmin', 'tmax', 'horatmax', 'dir', 'velmedia', 'racha',
       'horaracha', 'sol', 'presmax', 'horapresmax', 'presmin', 'horapresmin'],
      dtype='object')

### Muestra de los datos
Veamos las filas desde el comienzo con `head()`:

In [39]:
df.head()

Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,horatmax,dir,velmedia,racha,horaracha,sol,presmax,horapresmax,presmin,horapresmin
0,2021-01-01,0252D,ARENYS DE MAR,BARCELONA,74,76,0,46,Varias,106,13:00,NE,8,69,08:10,,,,,
1,2021-01-02,0252D,ARENYS DE MAR,BARCELONA,74,73,0,35,05:40,111,11:40,NE,11,47,22:30,,,,,
2,2021-01-03,0252D,ARENYS DE MAR,BARCELONA,74,63,0,20,08:20,106,12:40,NNE,19,50,20:10,,,,,
3,2021-01-04,0252D,ARENYS DE MAR,BARCELONA,74,64,0,15,04:00,112,11:20,NNE,11,72,06:10,,,,,
4,2021-01-05,0252D,ARENYS DE MAR,BARCELONA,74,66,3,17,23:20,114,12:20,NNE,14,50,11:10,,,,,


Veremos el contenido del final con `tail()`. En particular, dos filas

In [40]:
df.tail(2)

Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,horatmax,dir,velmedia,racha,horaracha,sol,presmax,horapresmax,presmin,horapresmin
3090416,1978-12-30,C447A,TENERIFE NORTE AEROPUERTO,STA. CRUZ DE TENERIFE,632,161,0,128,06:30,194,12:30,NNE,17,61,12:45,96,,,,
3090417,1978-12-31,C447A,TENERIFE NORTE AEROPUERTO,STA. CRUZ DE TENERIFE,632,163,0,130,09:00,196,13:30,NNE,44,89,11:40,99,,,,


In [41]:
df.dtypes

fecha           object
indicativo      object
nombre          object
provincia       object
altitud          int64
tmed            object
prec            object
tmin            object
horatmin        object
tmax            object
horatmax        object
dir             object
velmedia        object
racha           object
horaracha       object
sol             object
presmax        float64
horapresmax    float64
presmin        float64
horapresmin    float64
dtype: object

### Más información del VCDE

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3090418 entries, 0 to 3090417
Data columns (total 20 columns):
 #   Column       Dtype  
---  ------       -----  
 0   fecha        object 
 1   indicativo   object 
 2   nombre       object 
 3   provincia    object 
 4   altitud      int64  
 5   tmed         object 
 6   prec         object 
 7   tmin         object 
 8   horatmin     object 
 9   tmax         object 
 10  horatmax     object 
 11  dir          object 
 12  velmedia     object 
 13  racha        object 
 14  horaracha    object 
 15  sol          object 
 16  presmax      float64
 17  horapresmax  float64
 18  presmin      float64
 19  horapresmin  float64
dtypes: float64(4), int64(1), object(15)
memory usage: 471.6+ MB


## Descripción
### Estadísticas de sumario

In [43]:
df.describe()

Unnamed: 0,altitud,presmax,horapresmax,presmin,horapresmin
count,3090418.0,0.0,0.0,0.0,0.0
mean,432.3069,,,,
std,437.0447,,,,
min,1.0,,,,
25%,48.0,,,,
50%,336.0,,,,
75%,690.0,,,,
max,2371.0,,,,


Cálculo de percentiles 5 y 95:

In [32]:
df.describe(percentiles=[0.05, 0.95])

Unnamed: 0,altitud,presmax,horapresmax,presmin,horapresmin
count,3090418.0,0.0,0.0,0.0,0.0
mean,432.3069,,,,
std,437.0447,,,,
min,1.0,,,,
5%,5.0,,,,
50%,336.0,,,,
95%,1130.0,,,,
max,2371.0,,,,
