___
## Módulo 4: Visualización y tratamiento de datos.
___

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#%matplotlib inline

### 4.1. Visualización de datos.

**4.1.1.** Usando:

In [None]:
x = np.arange(0,100)
y = x*2
z = x**2

Crea el gráfico de x contra y.

In [None]:
plt.plot(x, y)

**4.1.2.** Crea un gráfico de dos columnas y una fila con (x, y) y (x, z), añade una leyende a cada gráfico y utiliza un estilo distinto de línea y marker para cada uno.

In [None]:
fig, (ax_a, ax_b) = plt.subplots(1, 2)
ax_a.plot(x, y)
ax_b.plot(x, z)

**4.1.3.** Aumenta el gráfico anterior de tamaño.

In [None]:
fig, (ax_a, ax_b) = plt.subplots(1, 2, figsize=(10,7))
ax_a.plot(x, y)
ax_b.plot(x, z)

**4.1.4.** Guardalo en un fichero.

In [None]:
fig.savefig('fig.png')

___
### 4.2. Adquisición y guardado de datos.

**4.2.1.** Lee los datos del fichero train.txt.

In [None]:
data = pd.read_csv('train.csv')

**4.2.1.** Cambia algunos de los datos y escribe el fichero train_mod.csv.

In [None]:
data.iloc[2:20, 5:10] = 0

In [None]:
data.to_csv('train_mod.csv')

___
### 4.3. Limpieza y preparación de datos.

**4.3.1.** Carga el fichero  train.csv.

In [None]:
data = pd.read_csv('train.csv')

**4.3.2.** Elimina todas las filas con NaN.

In [None]:
data = data.dropna(axis=0)

**4.3.3.** Elimina todos los registros donde la edad sea superior al tercer cuartil de esta.

In [None]:
data_tr_q = data[data.Age < data.Age.quantile(q=0.75)]

In [None]:
data.shape

In [None]:
data_tr_q.shape

___
### 4.4. Operaciones de combinar, juntar y agrupar.

**4.4.1.** Carga el fichero  train.csv.

In [None]:
data = pd.read_csv('train.csv')

**4.4.2.** Calula el número de pasajeros por clase.

In [None]:
data[['Pclass','PassengerId']].groupby('Pclass').count()

**4.4.3.** Calula la edad media de los supervivientes y los no supervivientes.

In [None]:
data[['Survived', 'Age']].groupby('Survived').mean()

**4.4.4.** Calula el porcentage de supervientes por edad.

In [None]:
dic_sur_edad = {}
for edad, df_pas_edad in data.groupby('Age'):
    print(f"Edad: {edad} {df_pas_edad.shape}")
    pct_survived = (df_pas_edad.Survived == 1).sum() / df_pas_edad.shape[0]
    dic_sur_edad[edad] = pct_survived

**4.4.5.** Calula el porcentage de supervientes por edad en intervalos de 10 y 5 años.

In [None]:
data['Age_bin'] = pd.cut(data.Age, bins=list(range(0,105, 5)))

In [None]:
def pct_survived(x):
    pct_survived = (x.Survived == 1).sum() / x.shape[0]
    return pct_survived

result = data.groupby('Age_bin').apply(pct_survived)

In [None]:
# Numero de pasajeros por bin de edad
passenger_bin = data.loc[:, ['PassengerId', 'Age_bin']].groupby('Age_bin').count()

**4.4.6.** Crea un gráfico de barras de los datos anteriores.

In [None]:
fig, ax = plt.subplots(figsize=(20,2))
pd.Series(dic_sur_edad).plot.bar()

In [None]:
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(20,10))
result.plot.bar(ax=ax1)
passenger_bin.plot.bar(ax=ax2)

**4.4.7.** Crea una tabla pivote con supervivientes como índice, la clase como columnas y la media de edad.

In [None]:
pd.pivot_table(data, 
               values='Age', 
               index=['Survived'], 
               columns=['Pclass'], 
               aggfunc=np.mean)