# Adición y eliminación de datos en el Dataset VCDE

## Conjunto de datos a utilizar
El objetivo notebook es realizar una inspección preliminar del dataset que fue creado en la práctica 1 por los mismos alumnos del máster. El dataset se denomina Valores Climatológicos Diarios de España, VCDE. Para esta práctica nos hemos quedado con los valores climatológicos diarios de España procedentes del sistema AEMET OpenData. [AEMET OpenData](https://opendata.aemet.es)

## Cargado de datos
Cargaremos los datos procedentes de `data/VCDE_002.csv`, obtenido en el anterior notebook, para que podamos leerlo.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv(
    'data/VCDE_002.csv', sep='|',
    usecols=['fecha','indicativo','nombre','provincia','altitud','tmed','prec','tmin','tmax','dir','velmedia','racha']
)


## Conversiones de datos
Lo primero que tenemos que hacer es consultar los tipos de datos de las diferentes columnas. :

In [2]:
df.dtypes

fecha         object
indicativo    object
nombre        object
provincia     object
altitud        int64
tmed          object
prec          object
tmin          object
tmax          object
dir           object
velmedia      object
racha         object
dtype: object

Además, los valores de variables numéricas tienen como carácter separador de decimales el carácter , en lugar de . Esto puede darnos problemas por lo que vamos a utilizar replace

Convertiremos todos los valores que han sido capturados como object a valores float con `.astype(float, errors = 'raise')`

El campo precipitación tiene tipo object pero no lo transformaremos a float porque tiene valores Ip (inapreciable) cuando la cantidad de precipitación es inferior a 1 mm.



In [5]:

df['tmed'] = df['tmed'].str.replace(',','.')
df['prec'] = df['prec'].str.replace(',','.')
df['tmin'] = df['tmin'].str.replace(',','.')
df['tmax'] = df['tmax'].str.replace(',','.')
df['velmedia'] = df['velmedia'].str.replace(',','.')
df['racha'] = df['racha'].str.replace(',','.')

df['fecha'] = df['fecha'].astype('datetime64[ns]', errors = 'raise')
df['tmed'] = df['tmed'].astype(float, errors = 'raise')
#df['prec'] = df['prec'].astype(float, errors = 'raise')
df['tmin'] = df['tmin'].astype(float, errors = 'raise')
df['tmax'] = df['tmax'].astype(float, errors = 'raise')
df['velmedia'] = df['velmedia'].astype(float, errors = 'raise')
df['racha'] = df['racha'].astype(float, errors = 'raise')


df.dtypes




fecha         datetime64[ns]
indicativo            object
nombre                object
provincia             object
altitud                int64
tmed                 float64
prec                  object
tmin                 float64
tmax                 float64
dir                   object
velmedia             float64
racha                float64
dtype: object

### Más información del VCDE
Después de haber realizado los cambios de tipos de datos anteriores, el conjunto de datos queda de esta forma, para ello, utilizamos `df.info()`:


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3090418 entries, 0 to 3090417
Data columns (total 12 columns):
 #   Column      Dtype         
---  ------      -----         
 0   fecha       datetime64[ns]
 1   indicativo  object        
 2   nombre      object        
 3   provincia   object        
 4   altitud     int64         
 5   tmed        float64       
 6   prec        object        
 7   tmin        float64       
 8   tmax        float64       
 9   dir         object        
 10  velmedia    float64       
 11  racha       float64       
dtypes: datetime64[ns](1), float64(5), int64(1), object(5)
memory usage: 282.9+ MB


## Descripción
### Estadísticas de sumario

In [7]:
df.describe()

Unnamed: 0,altitud,tmed,tmin,tmax,velmedia,racha
count,3090418.0,3090418.0,2952854.0,2952449.0,2788069.0,2608458.0
mean,432.3069,14.98196,9.985878,20.32916,3.115722,10.05783
std,437.0447,7.006868,6.809937,7.828495,2.256712,4.344823
min,1.0,-16.8,-25.2,-11.6,0.0,0.0
25%,48.0,9.8,5.0,14.6,1.7,7.2
50%,336.0,15.0,10.1,20.1,2.5,9.2
75%,690.0,20.4,15.2,26.0,3.9,12.2
max,2371.0,37.4,33.2,47.0,43.3,68.9


Calculamos percentiles


In [8]:
df.describe(percentiles=[0.05, 0.95])

Unnamed: 0,altitud,tmed,tmin,tmax,velmedia,racha
count,3090418.0,3090418.0,2952854.0,2952449.0,2788069.0,2608458.0
mean,432.3069,14.98196,9.985878,20.32916,3.115722,10.05783
std,437.0447,7.006868,6.809937,7.828495,2.256712,4.344823
min,1.0,-16.8,-25.2,-11.6,0.0,0.0
5%,5.0,3.6,-1.4,8.0,0.6,4.4
50%,336.0,15.0,10.1,20.1,2.5,9.2
95%,1130.0,26.2,20.8,33.5,7.5,18.3
max,2371.0,37.4,33.2,47.0,43.3,68.9


Guardamos el conjunto de datos VCDE

In [13]:
df.to_csv('data/VCDE_003.csv', sep='|')