# **Tutorial de calentamiento de Google Colab**

# **¿Qué es y cómo se utiliza Google Colab?**

Colab es un servicio alojado de Juypiter Notebook que ofrece la ventaja de proporcionar acceso gratuito a recursos informáticos. Colab permite el aprendizaje ciencia de datos, análisis de datos bioinformáticos y diferentes temas de educación STEAM.

A continuación, revisaremos los componentes y funcionalidades que presenta GoogleColab, pero recomendamos observar el video de [introducción a colab](https://www.youtube.com/watch?v=inN8seMm7UI) para aprender y conocer más acerca de este recurso.

La función más relevante de Colab es que permite escribir código y texto a través de una lista de celdas que se pueden observar a lo largo de su interfaz. Por lo tanto, el usuario puede añadir una nueva celda usando los botones **+ CODE** y **+ TEXT** ubicados en la parte superior. También, cada celda nueva se puede saltar hacia arriba o hacia abajo dependiendo de la ubicación que desee dentro del tablero.

Dirige tu mirada a la izquierda superior, ahí encuentras cuatro iconos. El primero que puedes observar es el siguiente:
><img src="https://upload.wikimedia.org/wikipedia/commons/b/bb/Summary_icon.svg" width="100">

Figura 1. Icono de contenido  [1].

La figura 1 corresponde a la tabla de contenido del cuaderno jupyter. El último icono corresponde al explorador de archivos de la máquina virtual asignada a tu sesión, que se puede conectar directamente a una ruta asignada de Google Drive.






**Celdas de texto**



En Google Colab encontramos dos tipos de celdas diferentes: texto y código. Las celdas de tipo texto utilizan el formato markdown, basado en el proyecto [original markdown](https://daringfireball.net/projects/markdown/syntax). Los usuarios pueden dar doble click para empezar a editar las celdas que utilizan la sintaxis markdown, que pueden revisar a continuación en la siguiente sección.

**Markdown**

Las celdas de tipo texto de Google Colab al tener el formato markdown hacen una división de dos columnas. La columna de la izquierda corresponde al código fuente en donde el usuario puede realizar los ajustes necesarios o agregar información relevante a su cuaderno. Por otro lado, la columna de la derecha corresponde a la versión renderizada del código. Además, las celdas de texto presentan en la parte superior una barra de herramientas que facilita la edición.


A continuación, se muestran ejemplos específicos y útiles a la hora de utilizar el formato markdown.

**Formato de texto:**

\**italics*\* or \__italics__

**\*\*Negrilla\*\***

\~\~~~strikethrough~~\~\~

\``monospace`\`

**Lista**
*   Item 1
*   Item 2
*   Item 3

**Lista ordenada:**
1. 1\. Uno
1. 1\. Dos
1. 1\. Tres

**Lista desordenada:**
* \* Uno
* \* Dos
* \* Tres



**Celdas de código**

La ejecución de las celdas de código está condicionadas a la conexión del usuario a un tiempo de ejecución alojado en la máquina virtual. Asimismo, el usuario tiene la opción de conectarse localmente a sus recursos. Para poder conectarse debemos dirigirnos al menú superior y dar click a "Connect".

 <img src='https://media.giphy.com/media/lRLBURv0hpcHqiraBI/giphy.gif'/>

 Figura 2. Conexión a Google colab.  

 Una vez conectados se puede ejecutar la celda de código dando clic en el botón de play de la misma celda o Ctrl/+ Enter.

In [None]:
# Un ejemplo de ejecución

A = 'Bacillus paranthracis'
B = 'Bacillus xiamenensis'
A,B

('Bacillus paranthracis', 'Bacillus xiamenensis')

# **Introducción a los comandos de python**


Al llegar a este punto es importante abordar el lenguaje de programación python que implementa Google Colab. Te estarás preguntando: ¿Qué es y cómo funciona python?

Python es un lenguaje de programación ampliamente utilizado debido a sus características:

*   **Lenguaje interpretado:** Está característica permite que la ejecución del código se haga línea por línea. Lo anterior resulta de gran ayuda al momento de encontrar errores en la estructura del código [2].
*   **Lenguaje no tipado:** En python no es necesario declarar las variables antes de utilizarlas, debido a que se determinan durante el tiempo de ejecución.
*   **Lenguaje de alto nivel:** La estructura y la capacidad de memoria no son un problema para preocuparse en este lenguaje de programación [2].

A continuación, abordamos la sintaxis básica para el uso de python.



**Sintaxis de python**

Python en los cuadernos de Colab se puede escribir directamente de las celdas de código:

In [1]:
print("Bienvenidos a python")

Bienvenidos a python


Python usa la sangría como un indicador de bloque para su código:

In [None]:
if 10 < 21:
  print("Diez es menor a veintiuno")

Diez es menor a veintiuno


Python nos permite comentar los códigos mediante el signo #, así no se tendran encuenta los caracteres que esten despues de este signo.

In [2]:
# Esta línea nos implementa una condición

x = 1
if x > 16:
    print("x es mayor que 2") # Mayores a 16
else:
    print("x no es mayor que 2") # Menores a 16

x no es mayor que 2


Ahora te preguntaras como crear una variable, pues ya lo hemos implementado anteriormente. Aquí te mostramos como crear una variable. Recuerda que en python no es necesario declarar la variable, pero si puedes cambiar una variable de un tipo a otro.

In [3]:
x = 3             # x es una variable de tipo int
y  = "Sally"      # y es una variable de tipo str
print(x)
print(y)

3
Sally


Para cambiar el tipo de variable podemos ejecutar los siguientes comandos.

In [4]:
x = str(5)      # x corresponde a '5'
y = int(5)      # y corresponde a 5
z = float(5)    # z corresponde a 5.0

print(x)
print(y)
print(z)

5
5
5.0


**Tipos de datos**

En el lenguaje de programación de Python existe un concepto fundamental denominado tipo de dato. Las variables que hemos creado hasta el momento pueden almacenar diferentes tipos de datos que pueden tener diferentes funcionalidades.

A continuación, mostramos los tipos de datos incorporados y más usados.

| Ejemplo                             | Tipo de dato |
|-------------------------------------|--------------|
| x = "Bienvenido a python"                   | str          |
| x = 18                              | int          |
| x = 18.5                            | float        |
| x = 5j                              | complex      |
| x = ["lulo", "manzana", "papaya"]   | list         |
| x = ("lulo", "manzana", "papaya")   | tuple        |
| x = range(6)                        | range        |
| x = {"nombre" : "Camilo", "edad" : 36}   | dict         |
| x = {"lulo", "manzana", "papaya"}   | set          |
| x = True                            | bool         |


**1. String**

En Python un string se define como una cadena texto que se especifica entrecomillas simples o comillas dobles.

In [None]:
print("Tutorial de inicio")
print("Python lenguaje de programación")

Tutorial de inicio
Python lenguaje de programación


En los strings podemos obtener un rango de caracteres que queremos usar.

In [None]:
a = "Tutorial de inicio"
print(a[2:6])

tori


Otra posibilidad es concatenar diferentes strings denominados en diferentes variables.

In [5]:
a = "Tutorial "
b = "de "
c = "inicio"

d = a + b + c

print(d)

Tutorial de inicio


También este tipo de datos (String) tiene asociados diferentes métodos. A continuación, se muestran algunos de los métodos asociados.

In [None]:
a = "tutorial de inicio"
c = "TUTORIAL DE INICIO"

# Convertir el primer caracter a mayúscula

b = a.capitalize()
print(b)

# Convertir todo el string a minúscula

d = c.casefold()
print(d)

# Podemos implementar un separador en nuestro String
g = a.split(" ")
print(g)

Tutorial de inicio
tutorial de inicio
['tutorial', 'de', 'inicio']


**2. Valores númericos**

En python estan presentes tres tipos datos númericos:

*   Números enteros = int
*   Números de punto flotante = float
*   Números complejos = complex







In [None]:
a = 7 # int
b = 2.8 # float
c = 3j  # complex

print(a)
print(b)
print(c)

7
2.8
3j


**3. Booleanos**

Los booleanos se utilizan en python para evaluar una expresión en donde se puede obtener dos posibles respuestas: Verdadero o Falso.

A continuación, se muestran ejemplos.

In [6]:
# Se evaluan las siguientes expresiones
print(49 < 2)
print(91 > 28)
print(34 == 12)

False
True
False


In [None]:
# Otra posibilidad es evaluar una condición.

a = 200
b = 33

if b > a:
  print("Verdadero")
else:
  print("Falso")

Falso


**4. Listas**

Es uno de los cuatro tipos de datos que utiliza Python para almacenar múltiples elementos. Las listas se caracterizan por ser una colección ordenada y modificable. A continuación, se muestra cómo se crea una lista.


In [7]:
# Creación de lista
lista = ["rojo", "azul", "verde", "naranja"]

print(lista)

['rojo', 'azul', 'verde', 'naranja']


In [None]:
# Una lista puede almacenar diferentes tipos de datos

listA = ["Hola", True, False, 15, 3, 2, "valor1"]
print(listA)

['Hola', True, False, 15, 3, 2, 'valor1']


Las listas tienen métodos que nos permiten ordenar, añadir, cambiar y eliminar elementos. Asimismo, se pueden separar una lista en dos o unir dos listas distintas.

In [8]:
listaA = ["rojo", "azul", "verde", "naranja"]
listaB = ["gato", "perro", "ave", "oso"]
listaC = ["matemáticas", "biología", "química", "física"]
listaD = [1, 2, 5, 9, 14, 14, 13]

# Cambiar un elemento de la list

listaA[2] = "green"
print(lista)

# Añadir un elemento a la lista

listaB.append("oruga")
print(listaB)

# Eliminar un elemento de la lista

listaC.remove("biología")
print(listaC)

# Ordenar lista

listaB.sort()
print(listaB)

# Unir listas

listaE = listaA + listaB
print(listaE)

['rojo', 'azul', 'verde', 'naranja']
['gato', 'perro', 'ave', 'oso', 'oruga']
['matemáticas', 'química', 'física']
['ave', 'gato', 'oruga', 'oso', 'perro']
['rojo', 'azul', 'green', 'naranja', 'ave', 'gato', 'oruga', 'oso', 'perro']


**5.Tuplas**

Las tuplas son un tipo de dato que permite almacena diferentes elementos. Estas se diferencian de las listas, debido a que son una colección ordenada e inmutable. También, al momento de definir una tupla es importante recordar que estás se escriben dentro de corchetes.


In [None]:
# Crear una tupla

tupla = ('ave', 'gato', 'oruga', 'oso', 'perro')
print(tupla)


('ave', 'gato', 'oruga', 'oso', 'perro')


In [None]:
# Algunos métodos que podemos utilizar con este tipo de datos:
# Unir tuplas

tupla1 = ('ave', 'gato', 'oruga', 'oso', 'perro')
tupla2 = (1, 3, 7, 12, 16, 31)
tupla3 = ('matemáticas', 'química', 'física')

tupla4 = tupla1 + tupla2
print(tupla3)

# Acceder a un elemento de la tupla

print(tupla3[1])


('matemáticas', 'química', 'física')
química


**6. Set**

El tercer de los elementos que utiliza Python para almacenar datos. Un set es una colección no ordenada, no modificable y no indexada.

In [None]:
# Crear un set

set1 = {'ave', 'gato', 'oruga', 'oso', 'perro', 'ave'}
print(set1)

{'perro', 'oso', 'gato', 'ave', 'oruga'}


In [None]:
# Algunos métodos que podemos utilizar con este tipo de datos:
# Unir sets

set1 = {'ave', 'gato', 'oruga', 'oso', 'perro'}
set2 = {1, 3, 7, 12, 16, 31}
set3 = {'matemáticas', 'química', 'física'}

set4 = set1.union(set2)
print(set4)

# Acceder a un elemento al set

print("gato" in set1)

# Añadir un elemento

set2.add(24)
print(set2)

# Eliminar un elemento

set3.remove("química")
print(set3)


{1, 'perro', 3, 'ave', 7, 12, 16, 'oso', 'gato', 'oruga', 31}
True
{16, 1, 3, 7, 24, 12, 31}
{'matemáticas', 'física'}


**7. Diccionario**

Los diccionarios en Python con el cuarto tipo de datos de almacenamiento y se utilizan para almacenar valores en pares (clave:valor). Este tipo de datos es una colección no ordenada, no modificable y no indexada.

In [10]:
dic = {
    "nombre": "Juan Andrés",
    "Altura": 1.79,
    "Edad": 28,
    "Ciudad": "Bogotá"
}

print(dic)

{'nombre': 'Juan Andrés', 'Altura': 1.79, 'Edad': 28, 'Ciudad': 'Bogotá'}


In [None]:
# Algunos métodos que podemos implementar con los diccionarios se mostrarán a continuación.
# ¿Cómo podemos obtener un valor del diccionario?
# Esto se puede hacer a través de "get" y colocando la clave de la cual queremos tener información.

dic = {
    "nombre": "Carlos",
    "Altura": 1.82,
    "Edad": 31,
    "Ciudad": "Ibagué"
}

A = dic.get("Altura")
print(A)

# También podemos añadir un nuevo item al diccionario

B = dic.keys()
print(B)

dic["Cargo"] = "Investigador"
print(B)

print(dic)

# Cambiar un item del diccionario

dic["Cargo"] = "Ingeniero"
print(dic)

# Eliminar item

dic.pop("Cargo")
print(dic)


1.82
dict_keys(['nombre', 'Altura', 'Edad', 'Ciudad'])
dict_keys(['nombre', 'Altura', 'Edad', 'Ciudad', 'Cargo'])
{'nombre': 'Carlos', 'Altura': 1.82, 'Edad': 31, 'Ciudad': 'Ibagué', 'Cargo': 'Investigador'}
{'nombre': 'Carlos', 'Altura': 1.82, 'Edad': 31, 'Ciudad': 'Ibagué', 'Cargo': 'Ingeniero'}
{'nombre': 'Carlos', 'Altura': 1.82, 'Edad': 31, 'Ciudad': 'Ibagué'}


# **Modulos de python**



Python permite trabajar con código pertenecientes a módulos creados por uno mismo o módulos predeterminados. Un módulo lo podemos considerar como una biblioteca de código que contiene un conjunto de funciones que deseamos incluir en nuestras líneas de código.

Los dos módulos que abordaremos en esta serie de tutoriales son Numpy y Pandas.  

A continuación, se explicarán los comandos básicos y  funcionalidades para cada uno de estos.


**1. Numpy**

Numpy es una librería de Python que se utiliza comúnmente para trabajar con arreglos. Lo anterior se debe a lo rápido y versátiles que son sus conceptos aplicados a vectorización y indexación [3].

A continuación, se explica las funcionalidades de la librería.

In [None]:
# Importar la librería

import numpy

# Crear un arreglo

arreglo = numpy.array([3,6 ,9 ,12 ,14, 42])

print(arreglo)

[ 3  6  9 12 14 42]


Numpy por lo general puede ser utilizado con el alias **np** y se recomienda también revisar la versión implementada de numpy.

In [None]:
# Importar numpy con el alias np

import numpy as np

# Crear un arreglo

arreglo = np.array([3,6 ,9 ,12 ,14, 42])

print(arreglo)

# Revisar versión de numpy

print(np.__version__)

[ 3  6  9 12 14 42]
1.25.2


¿Podemos crear arreglos de más de una dimensión? Si, si podemos crear arreglos de diferentes dimensiones e implementar diferentes métodos para cada uno.

In [None]:
# Arreglo de cero dimensiones

Arreglo_1 = np.array(21)

# Arreglo de una dimensión

Arreglo_2 = np.array([3,5,9,10,12])

# Arreglo de dos dimensiones

Arreglo_3 = np.array([[3,5,9], [13 ,17,19]])

# Arreglo de tres dimensiones

Arreglo_4 = np.array([[[3,5,9], [13 ,17,19]], [[1,7,9],[25, 29, 30]]])

# Imprimir arreglos

print(Arreglo_1)
print(Arreglo_2)
print(Arreglo_3)
print(Arreglo_4)


# Imprimir dimensiones de los arreglos

print(Arreglo_1.ndim)
print(Arreglo_2.ndim)
print(Arreglo_3.ndim)
print(Arreglo_4.ndim)


21
[ 3  5  9 10 12]
[[ 3  5  9]
 [13 17 19]]
[[[ 3  5  9]
  [13 17 19]]

 [[ 1  7  9]
  [25 29 30]]]
0
1
2
3


El primer método para implementar es la indexación. Esá nos permite acceder a cualquier elemento del arreglo.

In [None]:
# Creación de arreglos

Arreglo_1 = np.array(21)
Arreglo_2 = np.array([3,5,9,10,12])
Arreglo_3 = np.array([[3,5,9], [13 ,17,19]])
Arreglo_4 = np.array([[[3,5,9], [13 ,17,19]], [[1,7,9],[25, 29, 30]]])

# Acceder el tercer elemento del arreglo de una dimensión

print(Arreglo_2[3])

# Acceder al segundo elemento de la segunda fila, tercera columna

print("Segundo elemento de la segunda fila y tercera coluna: ", Arreglo_3[1, 2])

# Acceder a la primera fila y segunda columna del segundo arreglo

print(Arreglo_4[1, 0, 1])



10
Segundo elemento de la segunda fila y tercera coluna:  19
7


Otros métodos que se pueden implementar con Numpy es la posibilidad de unir, separar, buscar y ordenar elementos del arreglo.

In [None]:
# Unir arreglos

Arreglo_1 = np.array([3,5,9,10,12])

Arreglo_2 = np.array([21, 14, 32, 5, 9])

Arreglo_3 = np.concatenate((Arreglo_1, Arreglo_2))

print(Arreglo_3)

# Separar arreglos en dos

Arreglo_5 = np.array_split(Arreglo_3, 2)

print(Arreglo_5)

# Encontrar el indice donde el valor es 10 del arreglo 1

A = np.where(Arreglo_1 == 10)

print(A)

# Ordenar el arreglo 2

print(np.sort(Arreglo_2))

[ 3  5  9 10 12 21 14 32  5  9]
[array([ 3,  5,  9, 10, 12]), array([21, 14, 32,  5,  9])]
(array([3]),)
[ 5  9 14 21 32]


**2. Pandas**

Pandas es una biblioteca de Python que se utiliza en la ciencia de datos para analizar, limpiar, explorar y manipular datos [4]. A continuación, te enseñaremos como importar el módulo de pandas y sus distintas funcionalidades.

In [11]:
import pandas

conjunto_datos = {
    'Estudiantes': ["Juan", "Jorge", "Alejandro", "Luis"],
    'Edad': [20, 18, 19, 25]
}

tabla = pandas.DataFrame(conjunto_datos)

print(tabla)

  Estudiantes  Edad
0        Juan    20
1       Jorge    18
2   Alejandro    19
3        Luis    25


Pandas por lo general puede ser utilizado con el alias **pd** y se recomienda también revisar la versión implementada de pandas.

In [None]:
# Implementar el alias pd
import pandas as pd

conjunto_datos = {
    'Estudiantes': ["Juan", "Jorge", "Alejandro", "Luis"],
    'Edad': [20, 18, 19, 25]
}

tabla = pd.DataFrame(conjunto_datos)

print(tabla)

# Revisar versión de pandas

print(pd.__version__)

  Estudiantes  Edad
0        Juan    20
1       Jorge    18
2   Alejandro    19
3        Luis    25
2.0.3


Antes crear nuestra primera tabla a través de pandas es importante entender los conceptos de **series** y **etiquetas**. Una serie corresponde a un arreglo unidimensional que contiene cualquier tipo de dato y en pandas corresponde a una columna de una tabla [4]. Por otro lado, una etiqueta corresponde al índice que se le proporciona a un grupo de elementos. Por ejemplo, si no se especifica el índice en una tabla, el primer valor tendrá por índice 0. Las etiquetas son de relevancias para acceder a un elemento o valor determinado dentro de una tabla.

In [None]:
# Crear una serie

A = [1, 3, 5]

serie1 = pd.Series(A)
print(serie1)

# Acceder a la tercera etiqueta o índice

print(serie1[2])

# También podemos crear nuestros propios índices

serie2 = pd.Series(A, index = ["A", "B", "C"])
print(serie2)

0    1
1    3
2    5
dtype: int64
5
A    1
B    3
C    5
dtype: int64


Una de las funciones más utilizadas de pandas es la creación de tablas de datos y la posibilidad de manejar estos datos y limpiarlos.


In [None]:
# Creación de una tabla de datos

datos1 = {
    "nombre": [ "Juan", "David", "Alejandro", "Doris", "Nixon"],
    "Edad": [21, 19, 23, 20, 25],
    "Género": ["M", "M", "M", "F", "M"]
}

df = pd.DataFrame(datos1)

print(df)

      nombre  Edad Género
0       Juan    21      M
1      David    19      M
2  Alejandro    23      M
3      Doris    20      F
4      Nixon    25      M


In [None]:
# Cambiar los índices de una tabla

datos1 = {
    "nombre": [ "Juan", "David", "Alejandro", "Doris", "Nixon"],
    "Edad": [21, 19, 23, 20, 25],
    "Género": ["M", "M", "M", "F", "M"]
}

# Agregar un ID por estudiante como su índice
df = pd.DataFrame(datos1, index = [20162341, 20161012, 20152354, 20184524, 20199981])

print(df)


             nombre  Edad Género
20162341       Juan    21      M
20161012      David    19      M
20152354  Alejandro    23      M
20184524      Doris    20      F
20199981      Nixon    25      M


Pandas permite importar archivos con valores separados por comas (csv).

In [None]:
# Pueden probar este comando subiendo un archivo .csv a su espacio de trabajo y cambiando iris.csv por su archivo
df2 = pd.read_csv('iris.csv')

print(df2)

     sepal.length  sepal.width  petal.length  petal.width    variety
0             5.1          3.5           1.4          0.2     Setosa
1             4.9          3.0           1.4          0.2     Setosa
2             4.7          3.2           1.3          0.2     Setosa
3             4.6          3.1           1.5          0.2     Setosa
4             5.0          3.6           1.4          0.2     Setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  Virginica
146           6.3          2.5           5.0          1.9  Virginica
147           6.5          3.0           5.2          2.0  Virginica
148           6.2          3.4           5.4          2.3  Virginica
149           5.9          3.0           5.1          1.8  Virginica

[150 rows x 5 columns]


También podemos obtener información de la tabla iris.

In [None]:
# Definir tabla

df = pd.read_csv('iris.csv')

# Impimir las primeras 10 filas de la tabla

print(df.head(10))

# Imprimir  las últimas 10 filas de la tabla

print(df.tail(10))

   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa
5           5.4          3.9           1.7          0.4  Setosa
6           4.6          3.4           1.4          0.3  Setosa
7           5.0          3.4           1.5          0.2  Setosa
8           4.4          2.9           1.4          0.2  Setosa
9           4.9          3.1           1.5          0.1  Setosa
     sepal.length  sepal.width  petal.length  petal.width    variety
140           6.7          3.1           5.6          2.4  Virginica
141           6.9          3.1           5.1          2.3  Virginica
142           5.8          2.7           5.1          1.9  Virginica
143           6.8   

Pandas nos permite limpiar nuestra tabla de datos eliminando celdas vacias o datos repetidos.

In [None]:
# Creación de tabla de datos con valores repetidos y celdas vacías
datos = {
    "nombre": ["Juan", "David", "Alejandro", "Doris", "Nixon", "Juan", "David", None],
    "edad": [21, 19, 23, None, 25, 21, 19, 30],
    "género": ["M", "M", "M", "F", "M", "M", "M", None]
}

df = pd.DataFrame(datos)

# Imprimir la tabla de datos
print(df)

# Eliminar celdas vacias de la tabla

Nuevo_df = df.dropna()

print(Nuevo_df.to_string())

# Eliminar duplicados

Nuevo_df.drop_duplicates(inplace = True)
print(Nuevo_df)

      nombre  edad género
0       Juan  21.0      M
1      David  19.0      M
2  Alejandro  23.0      M
3      Doris   NaN      F
4      Nixon  25.0      M
5       Juan  21.0      M
6      David  19.0      M
7       None  30.0   None
      nombre  edad género
0       Juan  21.0      M
1      David  19.0      M
2  Alejandro  23.0      M
4      Nixon  25.0      M
5       Juan  21.0      M
6      David  19.0      M
      nombre  edad género
0       Juan  21.0      M
1      David  19.0      M
2  Alejandro  23.0      M
4      Nixon  25.0      M


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  Nuevo_df.drop_duplicates(inplace = True)


# **Biopython**

Biopython es un conjunto de herramientas de libre acceso para la computación biológicas escritas en python. En esta se encuentran diferentes librerías que nos permiten desde hacer alineamiento de secuencias, análisis de archivos GFF, análisis filogenéticos y análisis de estructuras cristalinas de proteínas [5].

In [16]:
# Instalación de Biopython

!pip install biopython



Si quieres profundizar sobre los diferentes módulos de esta herramientas puedes revisar la [documentación](https://biopython.org/). En nuestro caso nos enfocaremos en módulo **Bio.PDB** que se centra en trabajar con estructuras cristalinas de macromóleculas como las proteínas.

In [17]:
# Importación de Bio.PDB
from Bio.PDB import*

Es importante al momento de utilizar este módulo tener su archivo PDB en su ruta de trabajo. El  archivo PDB lo puedene obtener de la base de datos [Protein Data Bank](https://www.rcsb.org/) y para nuestro caso vamos a trabajar con la estructura cuyo ID 4EY6. Esta estructura cristalina corresponde acetilcolinesterasa humana recombinante en complejo con la galantamina.

Para obtener el archivo PDB tienes que escribir en el área de busqueda el ID 4EY6 y oprimir 'Enter' para obtener la entrada correspondiente al código de acceso junto a la información asociada a la estructura proteica.

Otra forma de recuperar la estructura proteíca es hacerlo directamente en Google Colab utilizando la url a través del comando **wget**.

In [20]:
# Recuperación de la proteína con ID 4EY6
!wget http://www.rcsb.org/pdb/files/4EY6.pdb.gz
!gunzip 4EY6.pdb.gz

URL transformed to HTTPS due to an HSTS policy
--2024-06-25 22:23:55--  https://www.rcsb.org/pdb/files/4EY6.pdb.gz
Resolving www.rcsb.org (www.rcsb.org)... 128.6.159.248
Connecting to www.rcsb.org (www.rcsb.org)|128.6.159.248|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://files.rcsb.org/download/4EY6.pdb.gz [following]
--2024-06-25 22:23:56--  https://files.rcsb.org/download/4EY6.pdb.gz
Resolving files.rcsb.org (files.rcsb.org)... 128.6.159.245
Connecting to files.rcsb.org (files.rcsb.org)|128.6.159.245|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 189281 (185K) [application/octet-stream]
Saving to: ‘4EY6.pdb.gz.1’


2024-06-25 22:23:56 (2.17 MB/s) - ‘4EY6.pdb.gz.1’ saved [189281/189281]

gzip: 4EY6.pdb already exists; do you wish to overwrite (y or n)? ^C


Una vez tenemos nuestra estructura cristalina podemos crear el objeto Biopython.


In [21]:
# Crear objeto PDB
parser = PDBParser()

# A continuación definimos la estructura como un objeto

structure = parser.get_structure("GAL", "4EY6.pdb")



Una vez creemos nuestro objeto PDB podemos navefar a través de el para obtener información relevante.

In [22]:
# Iteración sobre todos los atómos de la estructura
p = PDBParser()
structure = p.get_structure("X", "4EY6.pdb")
for model in structure:
    for chain in model:
        for residue in chain:
            for atom in residue:
                print(atom)




[1;30;43mStreaming output truncated to the last 5000 lines.[0m
<Atom CD>
<Atom OE1>
<Atom NE2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom OE1>
<Atom NE2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom OD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom NE>
<Atom CZ>
<Atom NH1>
<Atom NH2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom OE

In [23]:
# Iterar sobre todos los atómos de la estructura

for atom in structure.get_atoms():
    print(atom)

# Iterar sobre todos los residuos de la estructura

for residue in model.get_residues():
    print(residue)


[1;30;43mStreaming output truncated to the last 5000 lines.[0m
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom OD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom OD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom NE>
<Atom CZ

Existe una gran cantidad de recursos y métodos que nos ofrece este módulo de Biopython. Por lo tanto, si quieres obtener más información de su funcionalidad puedes ingresar a su [documentación](https://biopython.org/wiki/The_Biopython_Structural_Bioinformatics_FAQ).

# **Referencias**

[1] Engelberger, F., Galaz-Davison, P., Bravo, G., Rivera, M., & Ramírez-Sarmiento, C. A. (2021). Developing and implementing cloud-based tutorials that combine bioinformatics software, interactive coding, and visualization exercises for distance learning on structural bioinformatics.

[2] Horstmann, C. S., & Necaise, R. D. (2019). Python for everyone. John Wiley & Sons.

[3] Oliphant, T. E. (2006). Guide to numpy (Vol. 1, p. 85). USA: Trelgol Publishing.

[4] Chen, D. Y. (2017). Pandas for everyone: Python data analysis. Addison-Wesley Professional.

[5] Cock, P.J.A. et al. Biopython: freely available Python tools for computational molecular biology and bioinformatics. Bioinformatics 2009 Jun 1; 25(11) 1422-3 https://doi.org/10.1093/bioinformatics/btp163 pmid:19304878