___
## Módulo 4: Visualización y tratamiento de datos.
___

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#%matplotlib inline

### 4.1. Visualización de datos.

**4.1.1.** Usando:

In [None]:
x = np.arange(0,100)
y = x*2
z = x**2

Crea el gráfico de x contra y.

In [None]:
plt.plot(x, y)

**4.1.2.** Crea un gráfico de dos columnas y una fila con (x, y) y (x, z), añade una leyenda a cada gráfico y utiliza un estilo distinto de línea y marker para cada uno.

In [None]:
fig, (ax_a, ax_b) = plt.subplots(1, 2)
ax_a.plot(x, y, "k", label='one')
ax_b.plot(x, z, "r", label='two')

ax_a.legend()
ax_b.legend()

**4.1.3.** Aumenta el gráfico anterior de tamaño.

In [None]:
fig, (ax_a, ax_b) = plt.subplots(1, 2, figsize=(10,7))
ax_a.plot(x, y)
ax_b.plot(x, z)

**4.1.4.** Guardalo en un fichero.

In [None]:
fig.savefig('fig.png')

**4.1.5.** Genera 4 gráficos en la misma figura:

- Genera un histograma con datos1 = np.random.randn(100)
- Genera un scatter con datos2: x = np.arange(30), y= np.arange(30) + 3 * np.random.randn(30)
- Genera un gráfico de líneas con datos3: x = np.arange(30), y= np.arange(30) + 3 * np.random.randn(30)
- Genera un gráfico de líneas discontínuas con datos4 = np.random.randn(50).cumsum()

In [None]:
datos1 = np.random.randn(100)
datos2_x = np.arange(30)
datos2_y = np.arange(30) + 3 * np.random.randn(30)
datos3_x = np.arange(30)
datos3_y = np.arange(30) + 3 * np.random.randn(30)
datos4 = np.random.randn(50).cumsum()

fig = plt.figure() # Creas una figura

ax1 = fig.add_subplot(2, 2, 1) # Creas un "eje", donde graficar la figura. 2 filas, 2 columnas, 1ª figura.
ax1.hist(datos1, bins=20, color='k', alpha=0.3) # Gráfico que queremos pintar

ax2 = fig.add_subplot(2, 2, 2)
ax2.scatter(datos2_x, datos2_y)

ax3 = fig.add_subplot(2, 2, 3)
ax3.plot(datos3_x, datos3_y)

ax4 = fig.add_subplot(2, 2, 4)
ax4.plot(datos4, 'k--')

**4.1.6.** Genera un gráfico de línea discontínua, con los siguientes datos = randn(30).cumsum(), que la línea sea de color oro y que marque los datos con rombos.

In [None]:
from numpy.random import randn

In [None]:
plt.plot(randn(30).cumsum(), 
         color='gold', # Línea de color oro
         linestyle='dashed', # Línea discontinua
         marker='D') # Con rombos

**4.1.7.** Importa el fichero aapl_montly_candle y grafica los datos de 2009 y 2010 en un gráfico de velas con la librería mplfinance

In [None]:
import mplfinance as mpf

In [None]:
aapl_montly_candle = pd.read_csv('aapl_montly_candle.csv',
                                 parse_dates=True,
                                 index_col=0)

mpf.plot(aapl_montly_candle.loc['2009':'2010'], type='candle')

___
### 4.2. Adquisición y guardado de datos.

**4.2.1.** Lee los datos del fichero train.txt.

In [None]:
data = pd.read_csv('train.csv')

**4.2.2.** Iguala las filas 3 a 20 y columnas 6 a 10 a cero. Escribe el fichero en train_mod.csv.

In [None]:
data.iloc[2:20, 5:10] = 0

In [None]:
data.to_csv('train_mod.csv')

**4.2.3.** Realiza las siguientes tareas:

- Carga los csvs de datos ibex_div, ibex, NTGY, REE, SAN 
- Une todos los datos en un único Dataframe
- Quita las filas con NAs para que todos los activos tengan la misma longitud
- Grafica el DF: las diferencias de escala no nos permiten ver bien el gráfico
- Haz que todas las series empiecen en el mismo punto, dividiendo cada valor de las columnas, por el valor que tienen en la 1ª fila

In [None]:
df = pd.DataFrame(
    {'san': pd.read_csv('SAN.csv', parse_dates=True, index_col=0).close,
     'ree': pd.read_csv('REE.csv', parse_dates=True, index_col=0).close,
     'ntgy': pd.read_csv('NTGY.csv', parse_dates=True, index_col=0).close,
     'ibex': pd.read_csv('ibex.csv', parse_dates=True, index_col=0).close,
     'ibex_div': pd.read_csv('ibex_div.csv', parse_dates=True, index_col=0).close,
    }
)

df

In [None]:
df = df.dropna()
df

Grafica el DF: las diferencias de escala no nos permiten ver bien el gráfico

In [None]:
df.plot()

Haz que todas las series empiecen en el mismo punto, dividiendo cada valor de las columnas, por el valor que tienen en la 1ª fila

In [None]:
ajustado = df / df.iloc[0]
ajustado.plot()

___
### 4.3. Limpieza y preparación de datos.

**4.3.1.** Carga el fichero  train.csv.

In [None]:
data = pd.read_csv('train.csv')

In [None]:
data

**4.3.2.** Calcula los estadísticos básicos de las columnas numéricas

In [None]:
data.describe()

**4.3.3.** Elimina todas las filas con NaN.

In [None]:
data.shape

In [None]:
data = data.dropna(axis=0)

In [None]:
data.shape

**4.3.4.** Elimina todos los registros donde la edad sea superior al tercer cuartil de esta.

Tenemos varias maneras de calcular el tercer cuartil de la edad

In [None]:
print(data.loc[:,'Age'].quantile(q=0.75))
print(data['Age'].quantile(q=0.75))
print(data.Age.quantile(q=0.75))

In [None]:
data_tr_q = data[data.Age < data.Age.quantile(q=0.75)]

In [None]:
data_tr_q.shape

___
### 4.4. Operaciones de combinar, juntar y agrupar.

**4.4.1.** Carga el fichero  train.csv.

In [None]:
data = pd.read_csv('train.csv')

**4.4.2.** Calula el número de pasajeros por clase.

In [None]:
data.loc[:,['Pclass','PassengerId']].groupby('Pclass').count()

**4.4.3.** Calula la edad media de los supervivientes y los no supervivientes.

In [None]:
data.loc[:,['Survived', 'Age']].groupby('Survived').mean()

**4.4.4.** Calula el porcentage de supervientes por edad.

In [None]:
data.groupby("Age").Survived.mean()

**4.4.5.** Calula el porcentage de supervientes por edad en intervalos de 10 y 5 años.

In [None]:
data['Age_bin'] = pd.cut(data.Age, bins=range(0,100, 5))

In [None]:
prob_sup_edad = data.groupby("Age_bin").Survived.mean()
prob_sup_edad

**4.4.6.** Crea un gráfico de barras de los datos anteriores.

In [None]:
fig, ax = plt.subplots(figsize=(20,2))
pd.Series(prob_sup_edad).plot.bar()

**4.4.7.** Crea una tabla pivote con supervivientes como índice, la clase como columnas y la media de edad.

In [None]:
pd.pivot_table(data, 
               values='Age', 
               index=['Survived'], 
               columns=['Pclass'], 
               aggfunc=np.mean)