In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
estacion = pd.read_csv('estacion.csv', encoding='latin-1')
estacion.head()

FileNotFoundError: ignored

### Cargar el archivo con el encoding adecuado, separador, header requerido etc.

In [None]:
estacion = pd.read_csv('estacion.csv', encoding = 'latin_1', sep = ';', skiprows = 2, header = None)
estacion.head(10)

### Eliminamos los valores NaN

In [None]:
estacion = estacion.dropna()
estacion.head(10)

### Eliminamos valores duplicados

In [None]:
estacion = estacion.drop_duplicates(2)
estacion.head()

### Filtramos las columnas que nos interesen de todo el dataframe

In [None]:
estacion = estacion[[2,6,8,11,13]]
estacion.head(10)

### Eliminamos la primera fila que contiene las cabeceras originales y las sustituímos.

In [None]:
estacion.columns = ['Fecha','Temp max','Temp min','Hum max','Hum min']
estacion = estacion.drop(estacion.index[[0]])
estacion.head()

### Los vales de fecha son en realidad objetos. Los transformamos en series temporales

In [None]:
estacion['Fecha'] = pd.to_datetime(estacion['Fecha'], dayfirst = True)
estacion.head()

### Queremos que la fecha sea nuestro index

In [None]:
estacion.set_index(estacion['Fecha'], inplace = True, drop = True)
estacion.head()

### Eliminamos la columna de Fecha sobrante

In [None]:
estacion = estacion.drop('Fecha', 1)
estacion.head()

In [None]:
estacion.head()

### Los datos numéricos puede que sean numéricos o no. Lo comprobamos con la función .dtype

In [None]:
estacion.index.dtype

In [None]:
estacion['Temp max'].dtype

### Vemos que, salvo el index, el resto de columnas no son números de punto flotante. Lo cambiamos a float con .astype

In [None]:
estacion[['Temp max', 'Temp min', 'Hum max', 'Hum min']] = estacion[['Temp max', 'Temp min', 'Hum max', 'Hum min']].astype(float)
estacion['Temp max'].dtype

### Localizamos un dato concreto con la función .loc. Introducimos el valor del índice y la cabecera.

In [None]:
estacion.loc['2013-01-04','Temp max']

### Podemos operar con columnas directamente elemento a elemento. Sacamos la temperatura media a partir de la mínima y máxima.

In [None]:
estacion['Temp media'] = (estacion['Temp max'] + estacion['Temp min'])/2
estacion['Hum media'] = (estacion['Hum max'] + estacion['Hum min'])/2
estacion.head()

### Podemos dibujar todo el dataframe completo con la función .plot

In [None]:
estacion.plot(figsize = (15,8))

### Podemos filtrar y dibujar lo que nos interese

In [None]:
estacion['Temp media'].plot(figsize = (15,8), legend = True)
estacion['Hum media'].plot(figsize = (15,8))

In [None]:
estacion['Temp media'].plot(figsize = (15,8))

### Podemos agrupar las temperaturas por meses y hacer la media.

In [None]:
media_mensual = estacion.groupby(lambda x: (x.month)).mean()
media_mensual

In [None]:
media_mensual.plot(figsize = (15,12), subplots = True)

## Concatenar columnas de fecha

### Vamos a concatenar columnas para construir una fecha a partir de una tabla desglosada en año, mes y día.

In [None]:
tabla = pd.read_csv('fecha_dataset.csv')
tabla.head()

In [None]:
tabla = pd.read_csv('fecha_dataset.csv', sep = ';')
tabla.head()

### En este caso si contatenamos los valores, los suma como enteros, necesitamos que sean cadenas de caracteres.

In [None]:
tabla['Fecha'] = tabla['Dia'] + tabla['Mes'] + tabla['Año']
tabla.head()

### Ahora si concatenamos vemos que no suma números si no que concatena cada columna.

In [None]:
tabla1 = tabla.astype(str)
tabla1['Fecha'] = tabla1['Dia'] +"-"+ tabla1['Mes'] +"-"+ tabla1['Año']
tabla1['Fecha'] = pd.to_datetime(tabla1['Fecha'])
tabla1.head()

### Necesitamos que esa columna la interprete como fecha con la función .to_datetime

In [None]:
tabla1['Fecha'] = pd.to_datetime(tabla1['Fecha'], format = "%Y%m%d")
tabla1.head()

## Union de dos datasets con el campo Fecha en común

### Dataset de temperatura

In [None]:
temperatura1 = pd.read_csv('temperatura1.csv', sep = ';')
humedad1 = pd.read_csv('humedad1.csv', sep = ';')
temperatura1.head()

### Dataset de humedad

In [None]:
humedad1.head()

### Con la función join, podemos unir la columna de humedad a la de temperatura, ya que comparten el mismo índice.

In [None]:
joined = temperatura1.join(humedad1['Humedad Media'])
joined.head()

### Una vez unidos, seleccionamos la Fecha como nuestro nuevo índice

In [None]:
joined = joined.set_index('Fecha').head()
joined.head()

### Como vemos, el index no tiene formato fecha.

In [None]:
joined.index.dtype

### Se pueden hacer gráficos tridimensionales

In [None]:
puntos = pd.read_csv('plot_3D.csv', sep = ';')
puntos


In [None]:
from mpl_toolkits.mplot3d import Axes3D
fig=plt.figure()
ax = Axes3D(fig)
ax.scatter(puntos['X'],puntos['Y'],puntos['Z'], c = 'green')
ax.scatter(puntos['X'],puntos['Y'],puntos['W'], c = 'red')
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
fig.add_axes(ax)
plt.show()