# Simplificando a Bioinform√°tica com a Nuvem: Um Guia para Iniciantes sobre Colab e Galaxy

**Vers√£o interativa:** https://colab.research.google.com/github/nunososorio/PhD4Moz/blob/main/cloud.ipynb <br>
**Facilitador:** Nuno S. Os√≥rio <br>
**Curso:** PhD4MOZ <br>
**Data:** 25/20/2024 <br>

## Vis√£o geral da aula
Esta aula apresentar√° ferramentas na nuvem, como o Use.Galaxy e o Google Colab, como meios vantajosos para aprender fundamentos de R e Python, al√©m de permitirem aplicar estas linguagens para a resolu√ß√£o de problemas da √°rea da bioinform√°tica sem necessidade de instala√ß√µes ou computadores locais de elevada capacidade.

### Objetivos de aprendizagem:
1. Compreender a interface e funcionalidades b√°sicas do Google Colab e Jupyter Notebooks.
3. Conhecer o Use.Galaxy e sua aplica√ß√£o em fluxos de trabalho de bioinform√°tica.
2. Explorar e comparar opera√ß√µes b√°sicas em Python e R.

## Parte 1: Introdu√ß√£o ao Google Colaboratory (Colab) e Jupyter Notebooks

### ü§î O que √© a **nuvem**?
Nuvem (Cloud Computing):** Refere-se √† entrega de servi√ßos de computa√ß√£o - incluindo servidores, armazenamento, bancos de dados, redes, software, an√°lise e intelig√™ncia - pela Internet ("a nuvem"). ‚òÅÔ∏è

### ü™Ñ O que √© o Google Colab?

O Colab √© como um caderno m√°gico online üßô‚Äç‚ôÇÔ∏è onde podes escrever e executar c√≥digo Python ou R ‚ú®! √â gratuito e baseado na nuvem ‚òÅÔ∏èüåê.  O Colab usa um ambiente Jupyter Notebook, que te permite combinar c√≥digo, texto, imagens e gr√°ficos num √∫nico documento interativo üòÆ. √â uma ferramenta incr√≠vel para aprender programa√ß√£o üêç, analisar dados üìä, criar modelos de intelig√™ncia artificial ü§ñ e muito mais!

### üìì O que √© o Jupyter Notebook?

Imagina um caderno digital üíª onde podes escrever texto, como num editor de texto normal, mas tamb√©m podes executar c√≥digo e ver os resultados imediatamente ü§©. Isso √© um Jupyter Notebook! Podes usar v√°rias linguagens de programa√ß√£o, como Python üêç e R üìà, e o melhor √© que podes combinar c√≥digo com explica√ß√µes, gr√°ficos e imagens, tudo num s√≥ lugar üñºÔ∏è.

Os Jupyter Notebooks s√£o super importantes na bioinform√°tica porque permitem que outras pessoas vejam exatamente o que fizeste e como fizeste ü§î. Isso torna a tua investiga√ß√£o mais transparente e f√°cil de reproduzir üîÑ, o que √© essencial para a ci√™ncia üß™.

üîÅ **Reprodutibilidade:** Na ci√™ncia, a reprodutibilidade √© a capacidade de obter resultados consistentes usando os mesmos dados e m√©todos de an√°lise. √â um princ√≠pio fundamental da boa pr√°tica cient√≠fica e na bioinform√°tica. üîÅ

Os Jupyter Notebook tamb√©m permitem a **Partilha f√°cil** dos m√©todos(c√≥digos) e resultados de investiga√ß√£o. Podes partilhar os teus notebooks com outras pessoas, como se fosse um documento Google Docs ü§ù.

Com a nuvem e ferramentas como Colab e Galaxy, a bioinform√°tica torna-se mais **acess√≠vel**, **colaborativa** e **reprodut√≠vel**! ü§ù


### No Colab podemos facilmente criar novas c√©lulas de c√≥digo ou de texto:

In [None]:
# Vamos come√ßar com um exemplo com c√≥digo python
print("")

F =
SF =
print(f"A soma das pessoas que comeram ({F}) e das que n√£o comeram ({SF}) √©: {F + SF}")

## Section 2: Fundamentals of R and Python
R and Python are two of the most popular programming languages for data science and scientific research. Although they differ in syntax and some capabilities, they share common principles when it comes to handling data and performing calculations.

### Example: DataFrames in Python and R
DataFrames are used to store tabular data. Here is how you can create a DataFrame in Python using the `pandas` library.

In [None]:
# Python example: Creating a DataFrame
import pandas as pd

data = {'Name': ['John', 'Jane', 'Alice', 'Bob'],
        'Age': [23, 25, 30, 35]}
df_python = pd.DataFrame(data)
print("Python DataFrame:")
print(df_python)

In R, the equivalent would be:
```r
data <- data.frame(Name = c('John', 'Jane', 'Alice', 'Bob'), Age = c(23, 25, 30, 35))
print(data)
```
You can try this code in RStudio.

### Exercise 2: Comparing DataFrames in Python and R
Create a DataFrame that stores information about students (Name, Age, and Grade) in both Python (Colab) and R (RStudio). Compare the syntax and functionality.

## Section 3: Basic Operations and Functions
Both R and Python share similarities when it comes to basic arithmetic operations, loops, and conditionals.

In [None]:
# Python example: Basic conditional statement
x = 15
if x > 10:
    print(f"{x} is greater than 10")
else:
    print(f"{x} is not greater than 10")

In R, the equivalent would be:
```r
x <- 15
if (x > 10) {
    print(paste(x, "is greater than 10"))
} else {
    print(paste(x, "is not greater than 10"))
}
```
Try this code in RStudio.

### Exercise 3: Checking Even or Odd
Write a program in both Python (Colab) and R (RStudio) that takes a number as input from the user, checks if it's even or odd, and prints the result.

## Section 4: Visualization in Python and R
Both Python and R offer powerful libraries for data visualization. In Python, `matplotlib` is commonly used, while in R, `ggplot2` is very popular.

In [None]:
# Python example: Plotting with matplotlib
import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 35]
plt.plot(x, y)
plt.title("Simple Line Plot")
plt.xlabel("X axis")
plt.ylabel("Y axis")
plt.show()

In R, you can use `ggplot2` for visualizations:
```r
library(ggplot2)
ggplot(data, aes(x=Name, y=Age)) + geom_bar(stat="identity") + ggtitle("Bar Plot of Age by Name")
```
Try this in RStudio.

### Exercise 4: Visualization
Create a plot that shows the growth of a dataset over time (e.g., monthly sales) in both Python and R. Compare the plotting libraries and their ease of use.

## Section 5: Introduction to Galaxy
Galaxy is an open-source platform for bioinformatics research, providing accessible, reproducible, and transparent computational analyses. You can perform complex workflows like genome analysis, RNA-seq, and much more without needing deep programming knowledge.

### Getting Started with Galaxy
- Visit [usegalaxy.org](https://usegalaxy.org/)
- Create an account and explore its tools and workflows.
- You can upload your own data or use public datasets to run analysis pipelines such as mapping, assembly, and variant calling.

### Exercise 5: Bioinformatics with Galaxy
Explore Galaxy and try running a basic workflow such as read alignment or variant calling. Compare the ease of use of Galaxy's graphical interface with scripting in Python or R for similar bioinformatics tasks.

## Homework Assignment
Pick a dataset of your choice (from Kaggle, Galaxy, or another source) and analyze it using Python in Google Colab. Then, repeat the analysis using R in RStudio or a similar platform. Prepare a short report comparing the two workflows, highlighting what you found easier or more challenging in each environment.