## 4. Visualización de Datos

[Playlist de Ciencia de Datos en castellano](https://www.youtube.com/playlist?list=PLjyvn6Y1kpbEmRY4-ELeRA80ZywV7Xd67)
[![Ciencia de Datos en Python](https://img1.wsimg.com/isteam/ip/aab852a2-7b1f-49c0-92af-9206f2ec6a75/5-0001.png/:/rs=w:1160,h:653)](https://www.youtube.com/watch?v=w97CsaLuEvI&list=PLLBUgWXdTBDg1Qgmwt4jKtVn9BWh5-zgy "Python Data Science")

Además de los estadísticos de resumen, la visualización de datos ayuda a comprender las características de los datos y cómo se relacionan las diferentes variables.

![analyze](https://apmonitor.com/che263/uploads/Begin_Python/analyze.png)

Hay muchos ejemplos de visualización de datos con [Matplotlib](https://matplotlib.org/gallery/index.html), [Seaborn](https://seaborn.pydata.org/examples/index.html), y [Plotly](https://plot.ly/python/). En este tutorial, revisamos algunos ejemplos para visualizar:

- series de tiempo: línea
- variables correlacionadas: dispersión, diagrama de pares
- distribuciones de datos: barra, caja, violín, distribución, diagrama conjunto

Cada gráfico se muestra con una de las librerías de gráficos. Matplotlib es una librería de nivel base de Python, Seaborn utiliza matplotlib y automatiza gráficos más complejos, y Plotly crea gráficos interactivos.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import plotly.express as px

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Generar Datos

Ejecuta la siguiente celda para:

- Generar `n` valores espaciados linealmente entre `0` y `n-1` con `np.linspace(start,end,count)`
- Selecciona muestras aleatorias de una distribución uniforme entre 0 y 1 con `np.random.rand(count)`
- Selecciona muestras aleatorias de una distribución normal (gaussiana) con `np.random.normal(mean,std,count)`
- Crea una serie de tiempo que cambie según `y[i]*0.1` manteniendose en el rango de `-3` a `3`
- Combina `tt`, `x`, `y`, y `z` con una columna vertical `np.vstack` y transponer `.T` para datos orientados a columnas.
- Crear una DataFrame pandas con columnas `tt`, `x`, `y`, y `z`

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0) # cambiar "seed" para una respuesta diferente
n = 1000
tt = np.linspace(0,n-1,n)
x = np.random.rand(n)+tt/500
y = np.random.normal(0,x,n)
z = [0]
for i in range(1,n):
    z.append(min(max(-3,z[i-1]+y[i]*0.1),3))
data = pd.DataFrame(np.vstack((tt,x,y,z)).T,\
                    columns=['time','x','y','z'])
data['w'] = '0-499'
for i in range(int(n/2),n):
    data.at[i,'w'] = '500-999'
data.head()

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Gráfico

El gráfico "plot" es el más básico. Hay un tutorial introductorio a gráficos en el [curso introductorio a Python en inglés, Lección 12](https://github.com/APMonitor/begin_python/blob/master/12.%20Plotting.ipynb). Visita este curso si necesitas más información sobre gráficos básicos como `plt.plot()`

In [None]:
plt.plot(tt,z)
plt.show()

La línea del gráfico puede ser cambiada y mejorada utilizando estilos seleccionados. A continuación se muestra un ejemplo con opciones comunes.

**c=Colors** (Color)

    =============    ===============================
    Carácter         Color
    =============    ===============================
    ``'b'``          azul
    ``'g'``          verde
    ``'r'``          rojo
    ``'y'``          amarillo
    ``'k'``          negro
    =============    ===============================

**m=Markers** (Marca)

    =============    ===============================
    Carácter         Descripción
    =============    ===============================
    ``'.'``          punto
    ``'o'``          círculo
    ``'s'``          cuadrado
    ``'^'``          triángulo
    ``'*'``          estrella
    =============    ===============================

**ln=Line Styles** (Estilo de línea)

    =============    ===============================
    Carácter         Descripción
    =============    ===============================
    ``'-'``          línea contínua
    ``'--'``         línea discontínua
    ``'-.'``         línea de puntos y guiones
    ``':'``          línea de puntos
    =============    ===============================

In [None]:
plt.figure(1,figsize=(10,6))                         # ajustar el tamaño de la figura
ax=plt.subplot(2,1,1)                                # sub-gráfico 1
plt.plot(tt,z,'r-',linewidth=3,label='z')            # gráfico con línea roja
ax.grid()                                            # agregar cuadrícula
plt.ylabel('z'); plt.legend()                        # agregar ylabel (nombre en eje y), leyenda
plt.subplot(2,1,2)                                   # sub-gráfico 2
plt.plot(tt,x,'b.',label='x')                        # gráfico de puntos azules
plt.plot(tt,y,color='orange',label='y',alpha=0.7)    # gráfico anaranjado
plt.xlabel('time'); plt.legend()                      # leyenda
plt.savefig('04-myFig.png',transparent=True,dpi=600) # guardar el gráfico
plt.show()                                           # indicar el gráfico

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad de Gráficos

Crea una gráfica con los datos:

```python
xt = [0,0.1,0.2,0.3,0.5,0.8,1.0]
yt = [1.0,2.1,3.5,6.5,7.2,5.9,6.3]
```

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Gráfico de Dispersión

Los gráficos de dispersión son similares a los gráficos regulares, pero muestran puntos individuales en lugar de valores conectados en serie. Matplotlib y Plotly se utilizan en este ejemplo. Matplotlib es rápido y sencillo mientras Plotly tiene características para gráficos interactivos!

In [None]:
# matplotlib
plt.scatter(x,y)
plt.show()

In [None]:
# plotly
fig = px.scatter(data,x='x',y='y',color='w',size='x',hover_data=['w'])
fig.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con Gráfico de Dispersión

Crear un gráfico de dispersión con `matplotlib` o `plotly` que ilustre `xt` combinado con `yt` y `zt`:

```python
xt = np.array([0,0.1,0.2,0.3,0.5,0.8,1.0])
yt = np.array([1.0,2.1,3.5,6.5,7.2,5.9,6.3])
zt = xt*yt
```

Cambia la forma de los puntos a un cuadrado para `yt` y un triángulo para `zt`. Agregua una etiqueta para indicar qué puntos son `yt` y `zt`.

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Gráfico de Barras

Los gráficos de barras ilustran un histograma en un rango de intervalo. La opción `alpha` es la transparencia entre `0` y `1`. Un valor de `0.7` es un buen valor para mostrar los datos subyacentes y superpuestos.

In [None]:
bins = np.linspace(-3,3,31)
plt.hist(y,bins,label='y')
plt.hist(z,bins,alpha=0.7,label='z')
plt.legend()
plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con Gráfico de Barras

Genera un diagrama de barras que muestre la distribución de `xt`, `yt`, y `zt`:

```python
nt = 1000
xt = np.random.rand(nt)
yt = np.random.normal(0,1,nt)
zt = xt*yt
```

Utiliza `bins = np.linspace(-3,3,31)` para crear el histograma.

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Gráfico de Pares

Un gráfico de pares o pair plot muestra la correlación entre variables. Tiene distribuciones en la diagonal y diagramas de dispersión en el resto de lugares. Un gráfico de pares también muestra un color diferente (`hue`) por categoría `w`. Los gráficos de pares muestran correlaciones entre pares de variables que pueden estar relacionadas y dan una buena indicación de las características (entradas explicativas) que se utilizan para clasificación o regresión.

In [None]:
sns.pairplot(data[['x','y','z','w']],hue=('w'))
plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con Gráfico de Pares

Crea un gráfico de pares que muestra la correlación entre `xt`, `yt`, y `zt` Entre los primeros 500 y segundos 500 valores aleatorios que están categorizados como `Dist`. Crea un DataFrame de `pandas` con:

```python
nt = 100
xt = np.random.rand(nt)
yt = np.random.normal(0,1,nt)
zt = xt*yt
dt = pd.DataFrame(np.column_stack([xt,yt,zt]),columns=['xt','yt','zt'])
dt['Dist'] = 'First'
for i in range(int(nt/2),nt):
    dt.at[i,'Dist'] = 'Second'
```

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Diagrama de Caja

Un diagrama de caja muestra los cuartiles de datos. En este caso, compararemos los primeros 500 puntos con los últimos 500 puntos.

In [None]:
sns.boxplot(x='w',y='x',data=data)
plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con Diagrama de Caja

Crea un diagrama de caja que muestre los cuartiles de `yt` por la primera y segunda serie como se indica en `Dist`.

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Diagrama de Violín

Un diagrama de violín combina los cuartiles del diagrama de caja con la distribución.

In [None]:
sns.violinplot(x='w',y='x',data=data,size=6)
plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con Diagrama de Violín

Crea un diagrama de violín que muestre los cuartiles y la distribución de `zt` por primera y segunda serie como se indica en `Dist` en la DataFrame `dt`.

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Gráfico Conjunto

Un gráfico conjunto muestra dos variables, con las distribuciones univariadas y conjuntas. Intenta `kind='reg'`, `'kde'`, y `'hex'` para ver diferentes estilos de gráficos conjuntos.

In [None]:
sns.jointplot('x','z',data=data,kind="reg") #hex, kde, reg
plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con Gráfico Conjunto

Crea una gráfica conjunta que muestre la distribución conjunta de `yt` y `zt` en el DataFrame `dt`.

### Actividad con el TCLab

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Generar o Recuperar Datos 

![connections](https://apmonitor.com/che263/uploads/Begin_Python/connections.png)

Carga un archivo de datos de muestra si no cuentas con un TCLab. De lo contrario, genera un archivo a partir de los datos del TCLab con segundos (`t`), niveles de calentador (`Q1` y `Q2`), y temperaturas (`lab.T1` y `lab.T2`). Registra los datos cada segundo durante 120 segundos y cambia los niveles del calentador cada 30 segundos a un número aleatorio entre 0 y 80 con `np.random.randint()`. No es necesario cambiar este programa, solo ejecútalo para recolectar los datos durante 2 minutos.

In [None]:
import tclab, time, csv
import numpy as np
try:
    n = 120 
    with open('04-tclab.csv',mode='w',newline='') as f:
        cw = csv.writer(f)
        cw.writerow(['Time','Q1','Q2','T1','T2'])
        with tclab.TCLab() as lab:
            print('t Q1 Q2 T1    T2')
            for t in range(n):
                if t%30==0:
                    Q1 = np.random.randint(0,81)
                    Q2 = np.random.randint(0,81)
                    lab.Q1(Q1); lab.Q2(Q2)
                cw.writerow([t,Q1,Q2,lab.T1,lab.T2])
                if t%5==0:
                    print(t,Q1,Q2,lab.T1,lab.T2)
                time.sleep(1)
    data4=pd.read_csv('04-tclab.csv')
except:
    print('Conectar al TCLab para generar datos')
    url = 'http://apmonitor.com/do/uploads/Main/tclab_dyn_data2.txt'
    data4=pd.read_csv(url)
    data4.columns = ['Time','Q1','Q2','T1','T2']
    
data4.head()    

### Análisis Gráfico

Analizar `Q1`, `Q2`, `T1`, y `T2` gráficamente con un gráfico de series de tiempo y un gráfico de pares. La serie de tiempo debe mostrar `Q1` y `Q2` en la subgráfica superior, y `T1` y `T2` en la subgráfica inferior. El diagrama de pares debe ser un gráfico de cuadrícula `2x2` que muestra los pares calentador / temperatura como `Q1`/`T1`, `Q2`/`T2`.