# Curso de introducción al análisis y modelado de datos con Python 

<img src="../images/cacheme.png" alt="logo" style="width: 150px;"/>
<img src="../images/aeropython_logo.png" alt="logo" style="width: 115px;"/>

# Ejercicios de análisis de datos con pandas

*Fuente: https://github.com/PyDataMadrid2016/Conference-Info/tree/master/workshops_materials/20160408_1100_Pandas_for_beginners/tutorial por Kiko Correoso, licencia MIT*

En la carpeta de datos tenemos un fichero que se llama *model.txt* que contiene datos de medidas de viento: velocidad, orientación, temperatura...

In [1]:
!head ../data/model.txt

head: cannot open '../data/model.txt' for reading: No such file or directory


In [2]:
import pandas as pd
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib as mpl

from IPython.display import display

In [3]:
model = pd.read_csv(
    "../data/model.txt",
    delim_whitespace=True,
    skiprows = 3,
    parse_dates = {'Timestamp': [0, 1]},
    index_col = 'Timestamp'
)

FileNotFoundError: File b'../data/model.txt' does not exist

In [None]:
model.head()

## Ejercicios

Sobre el conjunto de datos `model`:

> 1. Representar la matriz `scatter` de la velocidad y orientación del viento de los primeros mil registros.
2. Misma matriz scatter para los 1000 registros con mayor velocidad, ordenados.
3. Histograma de la velocidad del viento con 36 particiones.
4. Histórico de la velocidad media, con los datos agrupados por años y meses.
5. Tabla de velocidades medias en función del año (filas) y del mes (columnas).
6. Gráfica con los históricos de cada año, agrupados por meses, superpuestos.

Representamos la matriz _scatter_ de la velocidad y orientación del viento de los primeros mil registros:

In [None]:
pd.plotting.scatter_matrix(model.loc[model.index[:1000], 'M(m/s)':'D(deg)'])

Misma matriz _scatter_ para los 1000 registros con mayor velocidad:

In [None]:
sorted_data = model.sort_values('M(m/s)', ascending=False)
sorted_data = sorted_data.iloc[:1000, :]
sorted_data.head()

In [None]:
ax = pd.plotting.scatter_matrix(sorted_data.loc[:, 'M(m/s)':'D(deg)'])

In [None]:
model.loc[:, 'M(m/s)'].plot.hist(bins=np.arange(0, 35))

In [None]:
model['month'] = model.index.month
model['year'] = model.index.year

Histórico de la velocidad media:

In [None]:
model.groupby(by = ['year', 'month']).mean().head(24)

In [None]:
model.groupby(by=['year', 'month']).mean().plot(y='M(m/s)', figsize=(15, 5))

Media móvil de los datos agrupados por mes y año:

In [None]:
monthly = model.groupby(by=['year', 'month']).mean()
monthly['ma'] = monthly.loc[:, 'M(m/s)'].rolling(5, center=True).mean()
monthly.head()

In [None]:
monthly.loc[:, ['M(m/s)', 'ma']].plot(figsize=(15, 6))

In [None]:
monthly.loc[:, 'M(m/s)'].reset_index().pivot(index='year', columns='month')

In [None]:
monthly.loc[:, 'M(m/s)'].reset_index().pivot(
    index='year', columns='month'
).T.loc['M(m/s)'].plot(
    figsize=(15, 5), legend=False
)
    