<img src="https://github.com/Multiomics-Analytics-Group/networks_to_study_microbes/blob/main/figures/cfb.png?raw=1" width="300">


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Multiomics-Analytics-Group/networks_to_study_microbes/blob/main/notebooks/05_viz.ipynb)

# Networks to Study Microbes

# Plotly

## Python Open Source Graphing Library

Plotly es una libreria de Python para crear graficos interactivos de alta calidad. Aqui mostraremos ejemplos de como crear diferentes graficas que permiten explorar datos a partir de dataframes en Pandas.

![gallery](https://miro.medium.com/max/1458/1*qKpV3vkPZYoffsvFSEuw8A.png)


Una de las ventajas de Plotly frente a otras librerias para graficar en Python es la sencillez con la que se pueden crear y manipular graficas y presenta interactividad out-of-the-box!. Plotly tiene un interfaz llamado [Plotly express](https://plotly.com/python/plotly-express/) que simplifica aun mas la creacion de plots.

# Getting Started

## Importa las librerias

**Pandas** y **Plotly express**

In [None]:
import pandas as pd
import plotly.express as px

# Introduccion

Comencemos cargando los datos de Wu et al 2020 - *Transcriptional and proteomic insights into the host response in fatal COVID-19 cases* https://www.pnas.org/doi/10.1073/pnas.2018030117#supplementary-materials

In [None]:
import pandas as pd

df = pd.read_excel('https://raw.githubusercontent.com/Multiomics-Analytics-Group/networks_to_study_microbes/main/example_data/DEG/Wu2020.PNAS.xlsx')
df.head()

In [None]:
df.tail()

Podemos pasar los valores que queremos graficar en dos listas.

In [None]:
px.line(x = df['Symbol'], y = df['log2FoldChange'])

Podemos usar directamente el DataFrame de Pandas.

In [None]:
px.line(data_frame = df, x = "Symbol" , y = "log2FoldChange")

## Guardalo en un variable

Si quieres reutilizar el plot para mostrarlo varias veces o para modificarlo posteriormente, puedes guardarlo en una variable igual que cualquier otro valor o estructura. Para mostrar el plot, simplemente usa`.show()`

In [None]:
fig = px.line(data_frame = df, x = "Symbol" , y = "log2FoldChange")

In [None]:
fig.show()

## Color

Puedes usar otras columnas en el dataframe para dar color a tu plot.

In [None]:
fig = px.line(data_frame = df, x = "Symbol" , y = "log2FoldChange", color="Category")

In [None]:
fig.show()

## Structura de una figura Plotly

En Plotly, las figuras son en verdad un diccionario que puedes visualizar cuando usas `.data` en la variable donde has guardado el plot y `.layout` para ver el layout de la figura.

In [None]:
#fig.data

In [None]:
fig.layout

Como puedes observar hay varios parametros en los diccionarios de datos y layout que se puden modificar. Generalmente, para modificar la estetica de una figura, debemos modificar el diccionario de layout. Lo podemos hacer usando ``.update_layout``. Por ejemplo, para añadir un titulo o cambiar el nombre de un eje.

In [None]:
fig.update_layout(template="plotly_dark", title = "Genes Log Fold Change", yaxis_title='logFC')

## Text argument

We can add the value of a variable at the coordinates given by the x and y argument by using the `text` argument,

In [None]:
fig = px.line(df,
              x="Symbol",
              y="log2FoldChange",
              text="Symbol", #The text argument allows us to plot the actual number on the datapoint
              title="Log Fold Change")
fig.show()

In [None]:
fig = px.line(df,
              x="Symbol",
              y="log2FoldChange",
              color='Chromosome',
              title="Log Fold Change")
fig.show()

# Ejercicios

1) Crea un line chart donde se muestra el valor p ajustado por gen, coloreando por cromosoma

2) Haz el mismo plot pero solo para aquellos genes que pertenecen a la categoria 'Antigen_Processing_and_Presentation' y que tienen un valor p ajustado menor de 0.05 y sin usar color

3) Cambia el layout para que tenga el template de Plotly dark (arriba para tener una pista)

# Scatter plots

Los scatter plot son plots que usan las coordenadas x e y para mostrar la relacion de dos variables.

En Plotly se usa la funcion `px.scatter()` para graficar scatter plots y tiene parametros parecidos a los del line plot.

In [None]:
fig = px.scatter(df,
                 x="Padj",
                 y="Pvalue",
                 color="log2FoldChange")
fig.show()

## El parametro symbol

Si quisieramos usar diferentes simbolos en el scatter para distinguir por ejemplo entre dos categorias, podemos pasar el argumento `symbol` a la funcion y dandole el valor de la columna Category.

Para simplificar, primero filtraremos para tener dos categorias unicamente.

In [None]:
df2cat = df[df['Category'].isin(['TCRsignalingPathway', 'Antigen_Processing_and_Presentation'])]
fig = px.scatter(df2cat,
                 x="Padj",
                 y="Pvalue", 
                symbol="Category")
fig.show()

## Tamaño de los dots

El tamaño de los puntos en el scatter plot se puede modificar usando el argumento `size`.

In [None]:
fig = px.scatter(df,
                 x="Symbol",
                 y="log2FoldChange",
                 size="Pvalue",
                color="Category")
fig.show()

## Trend line

Podemos añadir una linea de tendencia usando el argumento `trendline` al que le pasamos el valor del modelo a usar, por defecto Ordinary Least Squares trendline (linear regression) con el valor `ols`. 

In [None]:
fig = px.scatter(df,
                 x="Padj",
                 y="Pvalue",
                 trendline='ols',
                 color="log2FoldChange")
fig.show()

## Ejercicio

1) Busca la opcion para eliminar la leyenda de esta figura

In [None]:
fig = px.scatter(df,
                 x="Symbol",
                 y="log2FoldChange",
                 size="Pvalue",
                color="Category")
fig.show()

2) Modifica el plot anterior para incluir simbolos que distingan entre cromosomas. Si la visualizacion es complicada intenta filtrar los datos para mostrar los de solo 2-3 cromosomas.

# Bar Charts

La funcion `px.bar()` nos permite graficar bar charts que se pueden utilizar para mostrar datos cuantitativos en datos cualitativos.

En este caso cargaremos datos que proporciona Plotly para practicar. Los datos provienen del dataset Gapminder que contine informacion sobre habitantes, expectativa de vida y producto interior brutoen diferentes paises desde 1952 a 2007.

Para cargar estos datos se puede utilizar la siguiente funcion:

In [None]:
px.data.gapminder()

En este caso utilizaremos los datos de las Americas.

In [None]:
df = px.data.gapminder().query("continent == 'Americas'")
fig = px.bar(df, x='year', y='pop', color='country')
fig.show()

In [None]:
df = px.data.gapminder().query("continent == 'Americas'")
fig = px.bar(df, x='year', y='pop', color='country', barmode='group')
fig.show()

## Orientacion

El bar plot es por defecto vertical pero se puede visualizar horizontal cambiando el argumento `orientation` a `"h"`. 

In [None]:
fig = px.bar(df, x='pop', y='year', color='country', orientation="h")
fig.show()

## Añadir texto a los bars

Podemos añadir texto a las bars usando el argumento `text` y pasandole cualquier variable en el dataframe.

In [None]:
df = px.data.gapminder().query("continent == 'Americas' and year == 2007 and pop > 2.e6")
fig = px.bar(df, y='pop', x='country', text='pop', text_auto='.2s',
            title="Default: various text sizes, positions and angles")
fig.show()

# Histogramas

Podemos usar histogramas para representar la distribucion de variables en nuestro dataframe. En Plotly el histograma es muy parecido a un barplot en el que los datos estan agregados mediante varias posibles funciones de agregacion (e.g. suma, promedio, conteo...).

En comparacion con `px.bar()`, `px.histogram()` puede funcionar con solo el argumento `x` que puede ser una variable continua o categorica.

In [None]:
df = px.data.gapminder().query("continent == 'Americas' and pop > 14.e6")
fig = px.histogram(df, x="gdpPercap", y='country', title = "Total GDP")
fig.show()

In [None]:
fig = px.histogram(df, x="total_bill", nbins=20)
fig.show()

# Box plots y violin plots

Box plots and violin plots es una buena forma de mostrar distribuciones. `px.box()` y `px.violin()` nos permiten graficar estas distribuciones y funcionan de identica forma (mismos argumentos)

In [None]:
df = px.data.gapminder().query("continent == 'Americas' and pop > 14.e6")
fig = px.box(df, y="gdpPercap", x="country")
fig.show()

In [None]:
fig = px.violin(df, y="gdpPercap", x="country")
fig.show()

In [None]:
fig = px.violin(df, y="gdpPercap", x="country", color='country', points='all')
fig.show()

## Boxplot dentro del violin

In [None]:
fig = px.violin(df, y="gdpPercap", x="country", color="country", box=True)
fig.show()

## Notched bloxplot

In [None]:
fig = px.box(df, y="gdpPercap", x="country", color='country', notched=True, points='all')
fig.show()

## Mostrando la media

In [None]:
fig = px.box(df, y="gdpPercap", x="country", color='country', notched=True, points='all')
fig.update_traces(boxmean=True)
fig.show()

## Error

En **scatter**, **line** y **bar** plots es importante mostrar la informacion de error como por ejemplo intervalos de confianza o metricas de error. Para ello en Plotly se puede usar el argumento `error` (`error_x` o `error_y` dependiendo de donde la queremos añadir) y eso añade la error bar en la figura.

**Nota**: Para incluir el error se debe de tener otra variable que contenga la informacion de error. En el ejemplo, creamos una variable nueva que llamamos `error`.

In [None]:
df = px.data.gapminder().query("continent=='Oceania'")
df['error'] = df["lifeExp"]/100
fig = px.bar(df,
              x="year",
              y="lifeExp",
              color='country',
              color_discrete_map  = {"Australia":"Black", "New Zealand": "Red"},
              error_y='error',
              title="Life expectancy per year")

fig.show()

## Animando tus figuras

Plotly Express tiene varias funciones para crear animaciones usando los argumentos `animation_frame` y `animation_group`. Echale un vistazo a ejemplos aqui: https://plotly.com/python/animations/.

In [None]:
fig = px.bar(df, 
             y="country", 
             x="gdpPercap", 
             color="country",
             orientation="h", 
             animation_frame="year",
             animation_group="country",
            title="Evolution of GDP",
            text="gdpPercap", text_auto='.2s', range_x=[5000, 40000])

fig.show()

## Ejercicio

1) Crea una animacion de un scatter plot para el continente africano mostrando la correlacion entre GDP y life expectancy en el tiempo.

# Other resources

1. [Matplotlib](https://matplotlib.org/)
2. [Bokeh](https://bokeh.org/)
3. [Altair](https://altair-viz.github.io/)
4. [Seaborn](https://seaborn.pydata.org/)
5. [Python Graph Gallery](https://www.python-graph-gallery.com/)