# Simplificando a Bioinformática com a Nuvem: Um Guia para Iniciantes sobre Colab e Galaxy

**Versão interativa:** https://colab.research.google.com/github/nunososorio/PhD4Moz/blob/main/cloud.ipynb <br>
**Facilitador:** Nuno S. Osório <br>
**Curso:** PhD4MOZ <br>
**Data:** 25/20/2024 <br>

## Visão geral da aula
Esta aula apresentará ferramentas na nuvem, como o Use.Galaxy e o Google Colab, como meios vantajosos para aprender fundamentos de R e Python, além de permitirem aplicar estas linguagens para a resolução de problemas da área da bioinformática sem necessidade de instalações ou computadores locais de elevada capacidade.

### Objetivos de aprendizagem:
1. Compreender a interface e funcionalidades básicas do Google Colab e Jupyter Notebooks.
3. Conhecer o Use.Galaxy e sua aplicação em fluxos de trabalho de bioinformática.
2. Explorar e comparar operações básicas em Python e R.

## Parte 1: Introdução ao Google Colaboratory (Colab) e Jupyter Notebooks

### 🤔 O que é a **nuvem**?
Nuvem (Cloud Computing):** Refere-se à entrega de serviços de computação - incluindo servidores, armazenamento, bancos de dados, redes, software, análise e inteligência - pela Internet ("a nuvem"). ☁️

### 🪄 O que é o Google Colab?

O Colab é como um caderno mágico online 🧙‍♂️ onde podes escrever e executar código Python ou R ✨! É gratuito e baseado na nuvem ☁️🌐.  O Colab usa um ambiente Jupyter Notebook, que te permite combinar código, texto, imagens e gráficos num único documento interativo 😮. É uma ferramenta incrível para aprender programação 🐍, analisar dados 📊, criar modelos de inteligência artificial 🤖 e muito mais!

### 📓 O que é o Jupyter Notebook?

Imagina um caderno digital 💻 onde podes escrever texto, como num editor de texto normal, mas também podes executar código e ver os resultados imediatamente 🤩. Isso é um Jupyter Notebook! Podes usar várias linguagens de programação, como Python 🐍 e R 📈, e o melhor é que podes combinar código com explicações, gráficos e imagens, tudo num só lugar 🖼️.

Os Jupyter Notebooks são super importantes na bioinformática porque permitem que outras pessoas vejam exatamente o que fizeste e como fizeste 🤔. Isso torna a tua investigação mais transparente e fácil de reproduzir 🔄, o que é essencial para a ciência 🧪.

🔁 **Reprodutibilidade:** Na ciência, a reprodutibilidade é a capacidade de obter resultados consistentes usando os mesmos dados e métodos de análise. É um princípio fundamental da boa prática científica e na bioinformática. 🔁

Os Jupyter Notebook também permitem a **Partilha fácil** dos métodos(códigos) e resultados de investigação. Podes partilhar os teus notebooks com outras pessoas, como se fosse um documento Google Docs 🤝.

Com a nuvem e ferramentas como Colab e Galaxy, a bioinformática torna-se mais **acessível**, **colaborativa** e **reprodutível**! 🤝


### No Colab podemos facilmente criar novas células de código ou de texto:

In [None]:
# Vamos começar com um exemplo com código python
print("")

F =
SF =
print(f"A soma das pessoas que comeram ({F}) e das que não comeram ({SF}) é: {F + SF}")

## Section 2: Fundamentals of R and Python
R and Python are two of the most popular programming languages for data science and scientific research. Although they differ in syntax and some capabilities, they share common principles when it comes to handling data and performing calculations.

### Example: DataFrames in Python and R
DataFrames are used to store tabular data. Here is how you can create a DataFrame in Python using the `pandas` library.

In [None]:
# Python example: Creating a DataFrame
import pandas as pd

data = {'Name': ['John', 'Jane', 'Alice', 'Bob'],
        'Age': [23, 25, 30, 35]}
df_python = pd.DataFrame(data)
print("Python DataFrame:")
print(df_python)

In R, the equivalent would be:
```r
data <- data.frame(Name = c('John', 'Jane', 'Alice', 'Bob'), Age = c(23, 25, 30, 35))
print(data)
```
You can try this code in RStudio.

### Exercise 2: Comparing DataFrames in Python and R
Create a DataFrame that stores information about students (Name, Age, and Grade) in both Python (Colab) and R (RStudio). Compare the syntax and functionality.

## Section 3: Basic Operations and Functions
Both R and Python share similarities when it comes to basic arithmetic operations, loops, and conditionals.

In [None]:
# Python example: Basic conditional statement
x = 15
if x > 10:
    print(f"{x} is greater than 10")
else:
    print(f"{x} is not greater than 10")

In R, the equivalent would be:
```r
x <- 15
if (x > 10) {
    print(paste(x, "is greater than 10"))
} else {
    print(paste(x, "is not greater than 10"))
}
```
Try this code in RStudio.

### Exercise 3: Checking Even or Odd
Write a program in both Python (Colab) and R (RStudio) that takes a number as input from the user, checks if it's even or odd, and prints the result.

## Section 4: Visualization in Python and R
Both Python and R offer powerful libraries for data visualization. In Python, `matplotlib` is commonly used, while in R, `ggplot2` is very popular.

In [None]:
# Python example: Plotting with matplotlib
import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 35]
plt.plot(x, y)
plt.title("Simple Line Plot")
plt.xlabel("X axis")
plt.ylabel("Y axis")
plt.show()

In R, you can use `ggplot2` for visualizations:
```r
library(ggplot2)
ggplot(data, aes(x=Name, y=Age)) + geom_bar(stat="identity") + ggtitle("Bar Plot of Age by Name")
```
Try this in RStudio.

### Exercise 4: Visualization
Create a plot that shows the growth of a dataset over time (e.g., monthly sales) in both Python and R. Compare the plotting libraries and their ease of use.

## Section 5: Introduction to Galaxy
Galaxy is an open-source platform for bioinformatics research, providing accessible, reproducible, and transparent computational analyses. You can perform complex workflows like genome analysis, RNA-seq, and much more without needing deep programming knowledge.

### Getting Started with Galaxy
- Visit [usegalaxy.org](https://usegalaxy.org/)
- Create an account and explore its tools and workflows.
- You can upload your own data or use public datasets to run analysis pipelines such as mapping, assembly, and variant calling.

### Exercise 5: Bioinformatics with Galaxy
Explore Galaxy and try running a basic workflow such as read alignment or variant calling. Compare the ease of use of Galaxy's graphical interface with scripting in Python or R for similar bioinformatics tasks.

## Homework Assignment
Pick a dataset of your choice (from Kaggle, Galaxy, or another source) and analyze it using Python in Google Colab. Then, repeat the analysis using R in RStudio or a similar platform. Prepare a short report comparing the two workflows, highlighting what you found easier or more challenging in each environment.