<a href="https://colab.research.google.com/github/Raz1el7/Tools/blob/main/Introducci%C3%B3n_a_python_Qu%C3%ADmioinformatica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
---
#  *Notebooks* (Jupyter y Google Colab)
---
---

Un *notebook* nos permite estructurar el código e interactuar con él de manera más sencilla. De forma similar a como Microsoft Word nos ayuda a redactar textos, Jupyter nos ayuda a escribir código en Python.  

*Python* es uno de los lenguajes de programación de alto nivel. El término *alto nivel* se refiere a la cercanía del lenguaje con el lenguaje natural que los humanos entienden, en contraposición al lenguaje que entienden las computadoras. Python es relativamente fácil de comprender y escribir. Por otro lado, los lenguajes de bajo nivel son más complejos tanto para la escritura como para la interpretación.  

La principal desventaja de Python, debido a su *alto nivel*, es que su ejecución es considerablemente más lenta en comparación con otros lenguajes. Sin embargo, para muchas personas fuera del campo de la informática, la velocidad no es un factor crítico en sus proyectos. Gracias a su accesibilidad y facilidad de uso, Python se ha consolidado como uno de los lenguajes principales para el aprendizaje automático (*machine learning*) y la inteligencia artificial (IA).  



### Uso de Jupyter Notebooks  
---

En un *notebook* de *Python*, existen **dos tipos de celdas**:  
1. Celdas de texto, como esta, donde se puede escribir contenido explicativo.


2. Celdas de código, donde se escribe y ejecuta el código en Python.  

Para ejecutar una celda, haz clic en ella y presiona `Shift + Enter`. Al ejecutar una celda, el código que contiene se envía como un comando a Python, que lo interpreta y ejecuta secuencialmente.  

Además, puedes navegar rápidamente entre celdas utilizando las teclas de flecha.  

**Primero, haz clic en la siguiente celda y ejecútala.**  
Si todo funciona correctamente, debería aparecer el siguiente mensaje:  

<div align="center"><code>'¡Mi primera celda!'</code></div>

El funcionamiento exacto de este proceso se explicará con mayor detalle en el próximo notebook.  

In [None]:
"¡Mi primer código!"

<center><img src="https://raw.githubusercontent.com/trottling/Bender/main/media/bender.png"></center>

---
---
# **Introducción a *Python***
---
---



En este cuaderno exploraremos los principios fundamentales de [*Python*](https://docs.python.org/3/). , enfocándonos en las funciones y estructuras de datos más relevantes.  

*Python* es un **lenguaje de programación interpretado y orientado a objetos**, ampliamente reconocido por su versatilidad y facilidad de uso. Su extenso ecosistema de bibliotecas permite el desarrollo de software escalable y aplicaciones prácticas en diversos campos.  

En el ámbito científico, *Python* se ha convertido en una herramienta esencial, especialmente en disciplinas como la bioinformática y la quimioinformática. Su capacidad para manejar y analizar grandes volúmenes de datos complejos —como secuencias genómicas, imágenes médicas, registros clínicos y bases de datos con miles o incluso millones de compuestos químicos— ha impulsado su adopción.  

Gracias a su sintaxis intuitiva, rápida curva de aprendizaje e integración fluida con otras aplicaciones, *Python* no solo facilita el análisis avanzado de datos, sino que también potencia la innovación en la investigación científica y el desarrollo tecnológico.


<center><img src="https://1000marcas.net/wp-content/uploads/2020/11/Python-logo.png"></center>


## **Objetivos**  

---

* Familiarizarse con las definiciones y funciones básicas de *Python*.  
* Introducir el concepto de bibliotecas y paquetes.  
* Aprender a importar *datasets* existentes.  
* Desarrollar gráficos básicos para la visualización de datos.


## **Tabla de Contenidos**

---

* [Valores](#0)  
  * [Función <code>print()</code>](#00)  
* [Tipos de valores](#1)  
  * [Strings](#2)  
  * [Números](#3)  
  * [Booleanos](#4)
  * [Listas](#5)
*   


* [Funciones](#Funciones)  
* [Bibliotecas y Paquetes](#Librerias/Paqueterias)  
* [Manipulación de Tablas](#Manipulacion_de_tablas)  
* [Gráficos Simples](#Simple_plots)  
* [Gráficos Múltiples](#Multiple_plots)  
* [Regresión Lineal](#Regresion_lineal)  
* [Limpieza de Datos](#Limpieza_de_datos)  



<a name='0'></a>

# **Valores**

---

Un valor es una de las cosas más básicas con las que un programa funciona, puede ser una **letra** o un **número**.



In [None]:
1

In [None]:
2

In [None]:
"Hola mundo"

<a name='00'></a>

## 1. **Print("Nuestra primera función")**

Una de las funciones más fundamentales en *Python* es <code>print()</code>. Esta función permite mostrar información o texto en la salida estándar, facilitando la visualización de resultados. Python imprimirá siempre el contenido especificado dentro de los paréntesis <code>()</code>.



## ¿Qué es una función?

Una **función** es un bloque de código reutilizable que se ejecuta solo cuando es llamado. Python incluye varias funciones integradas, como **print()**, **sum()** y **pow()**.

Para obtener más información sobre las funciones integradas de Python, consulta la [documentación oficial](https://docs.python.org/3/library/functions.html "Python's Built-in Functions").

In [None]:
print("Hola mundo")

Para mayor simplicidad, el cuaderno de Python muestra automáticamente la salida de la última línea de cada celda, incluso sin utilizar la función <code>print()</code>.

El símbolo de numeral (o *hashtag*) `#` permite agregar comentarios al código. Estos comentarios son ignorados por Python y sirven para incluir información útil para el usuario.

In [None]:
"Hola"  # La primera fila no se imprimirá a no ser que la función print() sea usada
"mundo"

Si deseas mostrar texto con la función `print()`, es importante que esté escrito entre comillas <code>" "</code>. Estas indican a Python que trate los caracteres dentro de las comillas como texto simple. Una palabra o frase escrita entre <code>" "</code> se denomina una `cadena` (*string*).

Sin las <code>" "</code>, ocurre lo siguiente:

In [None]:
Hola

<center><img src="https://tenor.com/view/monkey-pissed-mad-angry-furious-gif-4720563.gif"></center>

<a name='1'></a>

## **Tipos de valores**  
---

En Python, existen diferentes tipos de valores que podemos utilizar. A continuación se describen los principales junto con algunos ejemplos:

* **Booleanos (`bool`)**: Representan valores lógicos, `True` (_verdadero_) o `False` (_falso_).  
* **Enteros (`int`)**: Números enteros positivos o negativos, como `8` o `-678`.  
* **Números de punto flotante (`float`)**: Representan números reales, como `3.14159` o `-6.5`.  
* **Cadenas de caracteres (`str`)**: Son secuencias de texto, como `"hola"` o `"manzana"`.  
* **Listas (`list`)**: Conjuntos ordenados de valores, ya sean enteros, flotantes o cadenas. Por ejemplo, `[1, 2, 3, 4]` o `[1.23, 2, 3.54, 4]`.

Para identificar el tipo de valor con el que estamos trabajando, podemos utilizar la función `type()` seguida del nombre de la variable entre paréntesis.

Para más detalles, consulta la [documentación oficial de Python](https://docs.python.org/3/library/stdtypes.html).

<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/Basic-Data-Types-in-Python_Watermarked.e3dd34457952.jpg"></center>

<a name='2'></a>

### **Strings**


In [None]:
Hola

Tu primer mensaje de error!!!
(: yei :)
Pero podemos solucionarlo rápidamente.
El error ocurre porque `"Hola"` no está definido. Esto sucede porque *Python* no reconoce el `string` como tal. Las palabras o caracteres que no están escritos entre comillas `" "`, se interpretan como **variables**. Estas deben ser definidas previamente. Las variables pueden contener números, `strings` o incluso listas. Definimos una variable utilizando el operador `=`.

<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/UPDATE-Variables-in-Python_Watermarked.7d8b51f3adad.jpg"></center>

Por ejemplo:  

In [None]:
x = "Hola" #Asignación
print(x)

**`x` ahora *contiene* el string `"Hola"`.**  
El contenido de `x` seguirá almacenado para las siguientes celdas. Esto significa que incluso en una nueva celda puedes llamar a `print(x)` y se imprimirá `Hello`.

Si vuelves a definir `x`, es decir, le das un nuevo valor, el valor anterior será sobrescrito.

**Importante:**  
La información almacenada o creada en una celda también estará disponible en las siguientes celdas que ejecutes. El orden físico de las celdas no es importante aquí, solo el orden en que se ejecutan.


In [None]:
print("Este es el valor viejo de x:")
print(x)


x = 1
print()
print("Este es el valor nuevo de x: ")
print(x)

<a name='3'></a>

### **Números**

**Como puedes ver, las variables también pueden contener números.**  
Los números enteros (sin punto decimal) se almacenan como `integer` (entero). Los números con punto decimal se almacenan como `float` (flotante). Las operaciones matemáticas como suma, resta, multiplicación y división (`+`, `-`, `*`, `/`) también pueden usarse y se comportan exactamente igual que si estuvieras usándolas en una calculadora.

In [None]:
1+2*(3/4.4)-5

In [None]:
print("10 + 2 igual a")
print(10 + 2)


print("10 - 2 igual a")
print(10 - 2)


print("10 * 2 igual a")
print(10 * 2)


print("10 / 2 igual a")
print(10 / 2)



**Las mismas operaciones también funcionan con variables, siempre y cuando contengan `floats` o `integers`.**

In [None]:
x = 4
y = 2

print(x + y)
print(x - y)
print(x * y)
print(round(x / y, 2))
print(x ** y) #Exponencial
print(x**(1/2)) #Raiz cuadrada

<a name='4'></a>

### **Booleanos**


  
**Los booleanos** son otro tipo de variable. Los booleanos son **`True`** o **`False`**. Podemos usar booleanos para comparar valores:

Como puedes ver, **`==`** se utiliza para comparar valores. El simple **`=`** ya se usa para asignar valores a las variables. <br>
**`==`** verifica si dos valores o variables son idénticos. <br> El símbolo **`!=`** verifica si dos valores no son iguales. **`>`** y **`<`** funcionan como en matemáticas y verifican si un valor es mayor o menor que otro.

In [None]:
5==5

In [None]:
True + True

In [None]:
1==True #Por convención se asigna el valor 1 a True y 0 a False

In [None]:
"Hello" == "Hello" #Comparación de strings

In [None]:
x = 5
y = 8
x == y #Comparación de variables

<a name='5'></a>
### **-- Conversión entre valores**

La conversión de tipos se refiere al proceso de cambiar el tipo de datos de una variable a otro tipo, de manera que la conversión sea válida. Esta conversión puede ocurrir de dos maneras: **implícita o explícita.**

**Conversión de tipos implícita**: en esta, el compilador de *Python* convierte automáticamente una variable a otro tipo sin intervención explícita del usuario. Esta conversión ocurre internamente y es gestionada por *Python* de manera automática.


In [None]:
int_num = 100
float_num = 2.02
ans = int_num + float_num
print(f"Valor: {int_num}  Tipo de valor: {type(int_num)}")
print(f"Valor: {float_num}  Tipo de valor: {type(float_num)}")
print(f"Valor: {ans}  Tipo de valor: {type(ans)}")

**Conversión de tipo explícito**: En la conversión de tipo explícito, el usuario indica explícitamente al compilador que debe convertir una variable de un tipo a otro. Este proceso requiere que el usuario utilice funciones específicas para realizar la conversión. Algunas de las formas más comunes de conversión explícita incluyen las siguientes:

In [None]:
value = 123
print(f'Valor: {value}  Tipo de valor: {type(value)}')
value_str = str(value)
print(f'Valor: {value_str}  Tipo de valor: {type(value_str)}')
value_f = float(value)
print(f'Valor: {value_f}  Tipo de valor: {type(value_f)}')
value_i = int(value_f)
print(f'Valor: {value_i}  Tipo de valor: {type(value_i)}')

<a name='6'></a>
### **Listas**

Además de `cadenas de texto`, `enteros` y `flotantes`, otro tipo de variable importante son las **listas**.

Las listas son tipos de datos importantes que permiten almacenar múltiples elementos en una sola variable y se crean con `[]` o `list()`.


Adicionalmente, son:
* Ordenados (cuentan con indices)
* Mutables (se pueden modificar después de su creación)

<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/Pythons-list-Built-in-Data-Type-A-Deep-Dive-With-Examples_Watermarked.1f6291ed72f5.jpg"></center>



In [None]:
lista = [2, 4, 6, 8]
lista

Ahora `x` sería una lista con los valores 2, 4, 6, 8. Las listas pueden contener una combinación de `cadenas de texto`, `enteros` y `flotantes`. Las listas también pueden ser almacenadas dentro de otras listas.

In [None]:
lista2 = ["Hola", 2, 0.6]
lista2

In [None]:
lista3 = [5, "Mundo", lista2]
lista3

In [None]:
len(lista3) #Está función nos indica cuánts elementos estan contenidos en una lista.

In [None]:
#Indices




> **Nota**: los elementos individuales de la lista2 no se cuentan de manera individual



#### 3. Indexación

En Python, un índice describe la posición de un valor dentro de una variable, por ejemplo, una lista.

Si deseas saber cuál es el valor del segundo elemento en una lista, puedes usar el índice para obtener exactamente ese valor.  
Para utilizar un índice, necesitarás `[]` nuevamente. Pero esta vez no en la definición de una variable, sino en combinación con la variable.  
Entonces, `x[0]` devolvería el primer elemento de la variable `x`.

**Importante:**

Python utiliza **indexación basada en 0**, lo que significa que el índice en Python comienza en `0`. El primer valor en la lista se asigna al índice `0`.

---



> Casi todos los lenguajes de programación son **basados en 0**. Se ha convertido en una convención y está relacionado con la forma en que los **arreglos** se almacenan en la memoria.



---


In [None]:
razas_de_perro = ["Chihuahua", "Dingo", "Dálmata", "Pastor Alemán", "Poodle", "Rottweiler"]
razas_de_perro

Puedes seleccionar múltiples valores de una lista mediante un proceso llamado **slicing**. Para ello, se utiliza el símbolo de dos puntos `:`.


* `x[:5]` selecciona los primeros cinco valores de la lista `x`. Ten en cuenta que el índice `5` hace referencia al sexto elemento de la lista, el cual **no se incluye** en el resultado. En Python, el índice que define el límite superior nunca se incluye.

* `x[2:5]` selecciona los elementos en la tercera, cuarta y quinta posición.

* `x[5:]` selecciona todos los elementos desde la sexta posición hasta el final de la lista.

* `x[-1]` selecciona el último elemento de la lista.

* `x[-2]` selecciona el penúltimo elemento de la lista.

In [None]:
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
x[0:5]

In [None]:
x[2:5]

In [None]:
x[5:]

In [None]:
x[-1]

Puedes adicionar elementos a una lista existente con

`x.append(10)`

De esta manera el número `10`es adicionado al final de la lista `x`.

In [None]:
x.append(10)
x

<a name='7'></a>
### **Tuplas**


Los datos también se pueden guardar en tuplas y conjuntos. Una **tupla** se usa principalmente para colecciones pequeñas de datos que no cambian (si queremos agregar algo a una colección de datos, utilizaremos una lista en su lugar), pero las tuplas pueden ser más eficientes. Además, si devolvemos más de un elemento desde una función, esos elementos estarán en una tupla. Se puede crear una tupla utilizando `tuple()` o simplemente con `()`. Ten en cuenta que si deseas tener solo un elemento en una tupla, debes agregar una coma después del elemento, por ejemplo, `(1,)`.

Un **conjunto** (*set*) de elementos solo contiene elementos únicos, por lo que un conjunto se puede utilizar para filtrar solo los elementos únicos de una colección. También es posible realizar operaciones matemáticas de conjuntos, como la unión o intersección. Los conjuntos se crean con `set()` o `{}` (no debe confundirse con un diccionario). A diferencia de las listas o tuplas, los elementos de un conjunto no se pueden acceder mediante un índice.

<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/Pythons-tuple-Built-in-Data-Type-A-Deep-Dive-with-Examples_Watermarked.e85efb14c955.jpg"></center>








In [None]:
# create a tuple from a list
tup1 = tuple(lista + [2, 3, 4])
print(tup1, type(tup1))
# remove duplicates
set1 = set(tup1) # or set1 = {1, 2, 3, 2}
print(set1, type(set1))
# the set can be transformed back to a list
lista4 = list(set1)
print(lista4, type(lista4))

<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/Lists-and-Tuples-in-Python_Watermarked.a52798070b3e.jpg"></center>




<center><img src="https://files.realpython.com/media/Sets-in-Python_Watermarked.cd8d2e9563c3.jpg"></center>




<a name='7'></a>
### **Diccionarios**

Los **diccionarios** en Python son estructuras de datos que almacenan pares de **clave** y **valor**. Son útiles para organizar y acceder a datos de forma eficiente, ya que permiten buscar valores a través de sus claves, en lugar de por su posición como en las listas o tuplas. Se definen utilizando llaves `{}` y cada par clave-valor se separa con dos puntos `:`.



<center><img src="https://files.realpython.com/media/Dictionaries-in-Python_Watermarked.3656a2293c00.jpg"></center>





In [None]:
# Diccionario que almacena la edad de algunas personas
edades = {
    'Ana': 25, #Clave: valor
    'Juan': 30,
    'Luis': 28,
    'Maria': 22
}

# Acceder al valor asociado a la clave 'Juan'
print(edades['Juan'])

# Agregar un nuevo par clave-valor
edades['Carlos'] = 35

# Recorrer el diccionario
for nombre, edad in edades.items():
    print(f"{nombre} tiene {edad} años.")

<a name='8'></a>

## **Bucle For**


---


La mayoría de las tareas que has realizado hasta ahora podrían hacerse fácilmente con una calculadora. Sin embargo, el **bucle for** es una de las primeras características de *Python* que ofrece posibilidades más eficientes y avanzadas.

Un **bucle for** permite ejecutar un conjunto de instrucciones de manera repetida, evitando la necesidad de escribir el mismo comando una y otra vez.


<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/UPDATE-Python-for-Loops-Definite-Iteration_Watermarked.32bfd8825dfe.jpg"></center>



In [None]:
for i in range(5):
    print("...Contando...") #En vez de escribir la función print() cinco veces, el bucle lo ejecuta de forma automática

In [None]:
for a in range(5):
    print(a)

In [None]:
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
for element in x:
    print(element ** 2)

In [None]:
print("\n Alternativa: \n")
print(x)
for b in range(len(x)):
    print(x[b]**2)

El término `for` introduce el bucle. `element` es el nombre de una nueva variable que existe solo dentro de este `for-loop` (puedes usar cualquier otro nombre si prefieres). La palabra clave `in` indica que la variable siguiente es la que se recorrerá: en este caso, `x`. Python entiende que debe ejecutar el comando dentro del bucle para cada elemento en `x`. Siempre debe haber un `:` al final de la primera línea del bucle for.

También es importante notar que el comando dentro del bucle for está indentado, lo cual indica a Python qué instrucciones pertenecen al bucle. Cualquier acción que deba ejecutarse después del bucle, y no dentro de él, se escribe sin sangría. Una *indentación* corresponde a cuatro espacios o presionar la tecla de tabulación una vez.

Con frecuencia, los bucles for simples se pueden escribir en una sola línea utilizando la llamada *comprensión de listas* (*list comprehension*).

In [None]:
#Ciclo for simple
[element**2 for element in x] #Comprensión de listas

<a name='8'></a>

## **Funciones**
En Python, las **funciones** son el núcleo de la programación. Al igual que en matemáticas, las funciones tienen una entrada y producen una salida, un valor transformado. Por ejemplo, $f(x)= x^2$ $\to$ $f(3) =9$.

Por ejemplo, la función `len()` toma como entrada una lista y devuelve como salida el número de elementos en esa lista.

Permiten crear bloques de código reutilizables. Una función se define con la palabra clave `def`, seguida del nombre de la función, paréntesis que pueden contener parámetros, y dos puntos `:`. El código dentro de la función debe estar indentado.


In [None]:
def function_add (arg1,arg2):
    # The scope of the variable result is within the function_add and is called local.
    result = arg1 + arg2
    result2= arg1*arg2
    return result, result2

function_add(4,2)

<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/How-to-Create-Python-Functions-with-Optional-Arguments_Watermarked.f2c8b582aff0.jpg"></center>

In [None]:
# Definición de una función para saludar
def saludar(nombre):
    """Esta función recibe un nombre y devuelve un saludo."""
    return f"Hola, {nombre}!"

# Llamada a la función
mensaje = saludar(input('¿Cuál es tu nombre?: '))
print(mensaje)  # Salida: Hola, Ana!

En este caso:  
1. `def` indica el inicio de la función.  
2. `nombre` es un parámetro que la función recibe.  
3. `return` devuelve el resultado.  

Las funciones ayudan a organizar el código, evitar repeticiones y facilitar el mantenimiento.




In [None]:
def cuadrado(x):
    return x**2

cuadrado(4)

After the `def` you can give the function a name, then two brackets `()` follow, in which you can define the names of the input variables. This is followed by a colon. After the `:` the actual function is defined (what the function should do). It is important that everything that should happen in the function is indented with 4 spaces (1 tab). Jupyter does this automatically for you.

The last thing is the `return`- statement, what follows will be output by the function.

Functions can have multiple inputs and outputs:

In [None]:
def potencia(x,b):
    x_power_b =x**b
    b_power_x =b**x
    return x_power_b, b_power_x

potencia(x=4,b=5)

Puedes asignar la salida de una función directamnte a una variable.

In [None]:
#Python reconoce que valor corresponde a x y cual a b basado en la posición
output1, output2 = power(4,5)
print(output1, output2)

In [None]:
print(x_power_b)

En la última celda intentaste imprimir `x_power_b` en la consola (`print(x_power_b)`). Pero eso no funciona, porque las variables definidas dentro de una función "viven" solo dentro de la función y no existen en el *alcance global*. Cualquier variable que quieras usar después de la función debe ser almacenada en una nueva variable con la declaración `return`.

También puedes usar funciones dentro de otras funciones, lo que te permite escribir funciones más complejas a partir de funciones más simples:

In [None]:
def funcion_1(x):
    return x*3

def funcion_2(x):
    y = funcion_1(x)
    z = y +5
    return z

funcion_2(0.5)

El último punto a mencionar es que hay variables de entrada opcionales. Esto hace posible estructurar de mejor manera una función.

In [None]:
def raiz(x, b=2): #2 se convierte en un valor por default
    return x**(1/b)

raiz(x=4)

In [None]:
raiz(x=4,b=4)

### Local vs Global

Es importante saber que, como ya se mencionó, existen variables globales y locales. Las variables locales existen solo dentro de la función, mientras que las variables globales existen en la memoria general del script.

Ejemplo:

La función `local_global` toma como entrada `x` e imprime `a`. Previamente hemos definido `a` de manera global como `1`. Por lo tanto, el resultado de la función también es `1`. Esto sucede porque no definimos `a` localmente. Como Python no puede encontrar una variable local `a`, recurre a la variable global `a`.

In [None]:
a = 1 #Variable global

def local_global(x):
    print(a)
local_global(x=7)

Ahora re-escribimos la función de forma que la variable `a` reciba el valor de `x`.

In [None]:
def local_global(x):
    a = x #Se destruye después de usarse
    print(a)

local_global(x=7)

In [None]:
a #La variable global no se ve afectada

Como puedes ver, el cambio local dentro de la función no tuvo efecto sobre la variable global. Es decir, la variable local es *eliminada* después de salir de la función, mientras que la variable global sigue existiendo. Esto ocurre a pesar de que ambas variables tengan el mismo nombre.



> *En general, se recomienda evitar que las funciones accedan a variables globales. Esto puede causar confusión y errores difíciles de depurar.*



# Librerías/Paqueterías
---



Para trabajar con datos en Python, primero necesitamos importar **módulos**, que son programas desarrollados por otras personas o comunidades. Estos módulos facilitan la gestión, análisis y visualización de la información.  

En esta sección utilizaremos las siguientes librerías:  

- **Pandas:** Permite crear y manipular tablas de datos llamadas *dataframes*, facilitando tareas como limpieza, análisis y transformación de datos.  
👉 [Documentación de Pandas](https://pandas.pydata.org/docs/)  

- **Seaborn:** Facilita la creación de gráficos estadísticos atractivos y sencillos. Para su funcionamiento, también es necesario importar la librería `matplotlib`.  
👉 [Documentación de Seaborn](https://seaborn.pydata.org/)  

---

Con el comando `import` podemos cargar los módulos necesarios. En un entorno como este *notebook* en línea, las librerías ya están instaladas en la computadora remota.  

Tanto **Pandas** como **Seaborn** trabajan con estructuras de datos denominadas *dataframes*. Estas son tablas organizadas en filas y columnas etiquetadas, similares a una hoja de cálculo.   

Con estas herramientas, podremos procesar y visualizar nuestros datos de manera eficiente.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
#El comando "as" indica el nombre que le queremos dar al módulo para después llamarlo de esa manerz.

In [None]:
import rdkit

In [None]:
!pip install rdkit

## Pandas


Pandas es una de las bibliotecas más populares de Python para la manipulación y el análisis de datos. Proporciona estructuras de datos flexibles y eficientes, como `DataFrame` y `Series`, para manejar y analizar datos estructurados.





<center><img src="https://realpython.com/cdn-cgi/image/width=960,format=auto/https://files.realpython.com/media/A-Guide-to-Pandas-Dataframes_Watermarked.7330c8fd51bb.jpg"></center>

Para usar `pandas`, primero necesitas instalarlo e importarlo.

### 1. Series

Una `Series` es una estructura de datos unidimensional etiquetada, capaz de contener cualquier tipo de dato (entero, cadena, flotante, objetos de Python, etc.).


In [None]:
# Crear una Series simple
datos = [10, 20, 30, 40, 50]
s = pd.Series(datos)
print(s)

También puedes crear una `Series` con un índice personalizado.


In [None]:
s = pd.Series(datos, index=['a', 'b', 'c', 'd', 'e'])
print(s)

### 2. DataFrames

Un `DataFrame` es una estructura de datos bidimensional etiquetada, con columnas que pueden contener diferentes tipos de datos (similar a una tabla o una hoja de cálculo).


In [None]:
# Crear un DataFrame simple
datos = {'Nombre': ['Alice', 'Bob', 'Charlie'], 'Edad': [25, 30, 35]}
df = pd.DataFrame(datos)
print(df)

También puedes especificar los índices de las filas.


In [None]:
df = pd.DataFrame(datos, index=['fila1', 'fila2', 'fila3'])
print(df)

### 3. Lectura de archivos

Puedes leer datos desde diferentes formatos, como CSV, Excel y bases de datos SQL.


In [None]:

# Leer un archivo CSV desde GitHub
df = pd.read_csv('https://raw.githubusercontent.com/DIFACQUIM/Cursos/main/Datasets/08_Similitud_compounds_g9a.csv')

# Mostrar el dataframe
df

Si estás trabajando en Google Colab, puedes cargar un archivo utilizando la herramienta de carga de archivos.


In [None]:
from google.colab import files
uploaded = files.upload()

Después de cargar el archivo, puedes cargarlo en un `DataFrame` usando `pd.read_csv()`.


### 4. Operaciones Básicas en DataFrame


In [None]:
# Acceder a una columna específica
print(df['Edad'])

Puedes acceder a las filas utilizando `.loc[]` o `.iloc[]`:


In [None]:
# Acceder por etiqueta (índice)
print(df.loc['fila1'])

# Acceder por posición
print(df.iloc[0])

Puedes obtener un resumen rápido de los datos usando `describe()`.


In [None]:
print(df.describe())

In [None]:
# Filtrar filas basadas en una condición
df_filtrado = df[df['Edad'] > 30]
print(df_filtrado)


### 5. Modificar Datos

Puedes modificar, agregar o eliminar columnas y filas.


In [None]:
# Agregar una nueva columna
df['Género'] = ['F', 'M', 'M']
print(df)

In [None]:
# Modificar una columna
df['Edad'] = df['Edad'] + 1
print(df)


In [None]:
# Eliminar una columna
del df['Género']
print(df)

### 6. Guardar Datos
Después de modificar un `DataFrame`, puedes guardarlo nuevamente en un archivo CSV.


In [None]:
df.to_csv('datos_modificados.csv', index=False)

En nuestra tabla tenemos 4 columnas. La primera columna se llama "_index_" y sólo ennumera los datos. El resto de las columnas son específicas para el conjunto de datos que elegimos.

En programación, cualquier valor, función o *dataframe* se llama **objeto**, y cada objeto tiene una **clase**. Los DataFrames son un tipo de "clase", esencialmente porque se puede hacer el mismo tipo de cosas con todos los *dataframes*.

Podemos decir que cada vez que llamamos la función `type()` a cualquier objeto de Python estamos preguntando por su clase:


In [None]:
type(df)

Las clases incorporan información sobre el comportamiento. La información sobre comportamiento está contenida en **métodos**. En este sentido, las columnas son un método de la clase *dataframe*.


Mostrar columnas

---
Algunas funciones integradas de Pandas nos permiten visualizar ciertas características de nuestro *dataframe*, por ejemplo, la función `columns` imprime las etiquetas (labels) de todas las columnas existentes en la tabla.





In [None]:
#Algunas funciones integradas de pandas permiten visualizar ciertas características de nuestro DataFrame, por ejemplo, la función columns nos imprime el nombre de todas las columnas de la tabla.
df.columns

También podemos trasponer filas y columnas usando:

In [None]:
df.T

Si quisiéramos que ordenar los valores numéricos según un criterio determinado, podemos utilizar la función `sort_values()`. Debemos tener en cuenta que tenemos que especificar qué valores en qué columnas queremos ordenar. Con el parámetro "`ascending`" o "`descending`" podemos especificar si queremos ordenarlos en orden ascendente o descendente.

 Esta función, como cualquier otra, tiene parámetros adicionales que podemos cambiar según nuestro gusto o necesidades, por ejemplo, el parámetro `ascending` es "_True_" por defecto. Si no lo especificamos, permanecerá como "_True_", pero si lo necesitamos, podríamos cambiarlo a "_False_".

 En este caso, ordenaremos los valores de la columna "x" en orden ascendente:


In [None]:
df.sort_values(by='x',ascending = True)

Seleccionando una sola columna

---
También podríamos seleccionar una sola columna y generar una tabla que sólo contenga el _índice (index)_ y la columna seleccionada. Este tipo de tabla se llama "*Serie*".


In [None]:
# Podemos también seleccionar una columna única y generar un tipo de tabla que solo contiene la columna _indice_ o _index_ y la seleccionada, este tipo de tabla se llama _Series_
df_X = df['x']

In [None]:
type(df_X)

In [None]:
df_X

También podríamos seleccionar un rango de filas según su índice.

In [None]:
# Podemos seleccionar rangos de filas según su indice
df[0:3]

Y podríamos combinar las dos acciones previas y seleccionar un rango de filas y también columnas específicas.

In [None]:
df.loc[5:9, ['x', 'y']]

In [None]:
df.iloc[5:9, [1,2]]

También podemos usar operadores de comparación o booleanos en los valores de las columnas. Este código, por ejemplo, crea una _Serie_ que muestra qué filas de la columna "x" tienen un valor superior a 8.


In [None]:
df['x'] > 8

La  _Serie_  creada anteriormente puede ser usada como un filtro del conjunto de datos original. Este código crea un _dataframe_ que sólo contiene aquellas filas del *datafram*  original que tengan un valor superior a 8 en la columna "x".


In [None]:
df[df['x'] > 8]

Ejemplo de función


También podemos filtrar valores no numéricos, por ejemplo, el siguiente código crea un _dataframe_ que sólo contiene las filas de la región definida como "I".


In [None]:
#Resulta conveniente filtrar los datos por su tipo, es decir las diferentes regiones mencionadas antes de tipo I , II y II y III.
#Este filtrado se puede realizar con el móduldo de pandas, que permite filtrar los datos colocando "condiciones" como índices, en este
#caso la condición de que la columna "dataset" tenga el valor I , II o III.
df_I = df[df['dataset']=='I']
df_II = df[df['dataset']=='II']
df_III = df[df['dataset']=='III']
df_IV = df[df['dataset']=='IV']

df_I

## Numpy

Python, por sí solo, cuenta con un número limitado de funciones disponibles. Muchas funciones útiles deben cargarse por separado desde fuentes externas, lo cual se logra importando las llamadas *librerías*.  
Una de las librerías más importantes y utilizadas es `numpy`. Como su nombre indica, `numpy` se enfoca en cálculos numéricos, especialmente en funciones clave para el álgebra lineal y la estadística.  

Lo más relevante de `numpy` es la clase de `arrays`, un nuevo *tipo* de variable que esta librería introduce.  

Un `array` permite almacenar múltiples valores en una sola variable. A diferencia de una lista, los valores pueden organizarse en dos (o más) dimensiones, como en una tabla o una matriz:

<center><img src="https://upload.wikimedia.org/wikipedia/commons/b/bf/Matris.png" style="width: 400px;"></center>
<h8><center>Fuente: Svjo, Wikimedia</center></h8>

De hecho, con `numpy` también puedes trabajar con `arrays` en 3D o 4D, aunque para la mayoría de los casos, dos dimensiones son suficientes.  

Teóricamente, podríamos trabajar con listas de Python, pero el código subyacente de `numpy` está optimizado específicamente para estas estructuras de `array`. Por ello, `numpy` ofrece ventajas significativas en cuanto a velocidad y eficiencia en comparación con las listas de Python.  

**Importante:** A diferencia de las listas, los `arrays` solo pueden contener valores de un mismo tipo. Es decir, solo `strings` o solo `floats`, pero no ambos en un mismo `array`.

Puedes importar `numpy` usando `import numpy`. La expresión `as np` permite escribir `np` en lugar de `numpy` en el código, facilitando la escritura:

In [None]:
import numpy as np

In [None]:
my_array = np.array([[1, 2, 3],
                     [4, 5, 6],
                     [7, 8, 9]])
# Si miras con detalle, my_array es una lista que contiene 3 lista = Matriz
print(my_array)

In [None]:
my_array.shape #Para saber que tan grande es la matriz

Así, el `array` consta de tres filas y tres columnas.  
También es posible indexar o dividir los `arrays` utilizando la notación `array[fila, columna]`. Las reglas para seleccionar elementos son similares a las de las listas:

- `array[1,3]` devuelve el elemento que se encuentra en la segunda fila y la cuarta columna.  
- `array[:,0]` devuelve la primera columna completa.  
- `array[5,:]` devuelve la sexta fila.  
- `array[2:5,0:3]` selecciona todos los elementos comprendidos entre la tercera y la quinta fila, así como entre la primera y la tercera columna.

In [None]:
my_array[0:2,0:2]

Puedes usar `numpy` para leer un datasets.

In [None]:
dataset = np.genfromtxt('URL', delimiter=',')
dataset

Aquí tienes una versión mejorada del texto:

---

# Para saber más  

### 📚 **Referencias recomendadas**  
- **Joshi, J. (2021).** Capítulo 9: *Python, un lenguaje de programación confiable para quimioinformática y bioinformática*. En N. Sharma, H. Ojha, P. K. Raghav, & R. K. Goyal (Eds.), *Chemoinformatics and Bioinformatics in the Pharmaceutical Sciences* (pp. 279–304). Academic Press. [DOI: 10.1016/B978-0-12-821748-1.00013-0](https://doi.org/10.1016/B978-0-12-821748-1.00013-0)

- **Python Cheat Sheet.** InterviewBit. Recuperado el 5 de agosto de 2022, de [Python Cheat Sheet](https://www.interviewbit.com/python-cheat-sheet/)

### 🌐 **Recursos y Repositorios**  
- 🔬 [**GitHub DIFACQUIM**](https://github.com/DIFACQUIM/Cursos): Repositorio con códigos de uso libre enfocados en el diseño de fármacos asistido por computadora.  
- 📘 [**GitBook DIFACQUIM**](https://difacquim.gitbook.io/quimioinformatica): Curso detallado de quimioinformática y diseño de fármacos asistido por computadora.  
- 🧬 [**GitHub del grupo del Dr. Oliver Koch**](https://github.com/kochgroup): Repositorio con herramientas y proyectos de quimioinformática y biología computacional.  
- 📝 [**Blog sobre Quimioinformática del Dr. Pat Walters**](https://practicalcheminformatics.blogspot.com/): Artículos prácticos y actualizados sobre técnicas y herramientas de quimioinformática.  

### 🌐 **Páginas web**  
- 📝 [**Real Python**](https://realpython.com/). Tutoriales de Python.
- 📝 [**PY4E**](https://www.py4e.com/). Tutoriales de Python.





---  

Si deseas explorar más recursos o necesitas ayuda con algún tema específico, no dudes en preguntar. 🚀

## 📝 **Exercises**

### 🔍 **1. Indexing and Slicing**

Completa las siguientes tareas usando la matriz `Animals`:

1. Extrae la cadena de texto `"Panda"` desde la matriz `Animals`.
2. Visualiza las primeras dos columnas de la `matriz`.
3. Obtén como "salida" la tercra fila de la `matriz`.
4. Muestra a los cuatro animales ubicados en la esquina superior derech.



In [1]:
import numpy as np

Animals = np.array([
    ['Elefante', 'Tortuga', 'Perico', 'Aguila', 'Eagle'],
    ['Orang-utan', 'Panda', 'Bear', 'Carp', 'Wolf'],
    ['Hyena', 'Chimpanzee', 'Hippo', 'Dove', 'Rhino'],
    ['Lion', 'Sparrow', 'Sheep', 'Boar', 'Gorilla'],
    ['Polar bear', 'Horse', 'Penguin', 'Orca', 'Frog']
])

# Output the elements/slices here with:
# print(Animals[...])

In [6]:
Animals

array([['Elefante', 'Tortuga', 'Perico', 'Aguila', 'Eagle'],
       ['Orang-utan', 'Panda', 'Bear', 'Carp', 'Wolf'],
       ['Hyena', 'Chimpanzee', 'Hippo', 'Dove', 'Rhino'],
       ['Lion', 'Sparrow', 'Sheep', 'Boar', 'Gorilla'],
       ['Polar bear', 'Horse', 'Penguin', 'Orca', 'Frog']], dtype='<U10')

<details>
    <summary><b>Solution:</b></summary>

```python
print(Animals[1,1])
print(Animals[:, 0:2])
print(Animals[2]) # If there is no comma, rows always are always before columns
print(Animals[:2,3:])  
```   
</details>

### 🌡️ **2. Celsius 🔄 Fahrenheit**

Escribe dos funciones: una para convertir grados Celsius a Fahrenheit y otra para realizar la conversión inversa. Utiliza las siguientes fórmulas:

 $°F= °C \cdot 1.8 + 32$. <br>



Luego, convierte **25 ºC a ºF** y **250 ºF a ºC** utilizando la función correspondiente.

In [None]:
def c_to_f(_____):  # write your function here

<details>
    <summary><b>Solution:</b></summary>

```python
def c_to_f(celsius):
    return celsius*1.8 + 32
    
print(c_to_f(25))    
```   
</details>

### 3.  List Comprehension
Escribe el siguiente bucle en una sola línea?


In [None]:
x = ["A", "B", "C", "D"]

for item in x:
    print(item*3)

In [None]:
# write your solution here

<details>
    <summary><b>Solution:</b></summary>

```python
[3*item for item in x]
```   
</details>

Escribe el siguiente bucle como un ciclo "for" clásico.

In [None]:
x = ["A", "B", "C", "D"]
[item + "_XY" for item in x]

In [None]:
# write your solution here

<details>
    <summary><b>Solution:</b></summary>

```python
    
for item in x:
    print(item+"_XY")
```   
</details>

### 🌀 **4. Secuencia de Fibonacci**

<center><img src="https://ichef.bbci.co.uk/images/ic/1200x675/p01gmtz6.jpg" style="width: 600px;"></center>
<h8><center>Fuente: BBC.com</center></h8>

La secuencia de Fibonacci es una serie de números donde cada número es la suma de los dos anteriores:


 $F(n)= F(n-1) + F(n-2)$ <br>

Escribe un programa que genere los **primeros 15 números** de la secuencia de Fibonacci.

Se te proporciona la lista `fib`, que contiene los números `0` y `1`. Agrega los siguientes valores a la lista.

<details>
<summary><b>💡 Pista 1</b></summary>
Puedes usar el método <code>.append()</code> para añadir números a la lista.
</details>

<details>
<summary><b>🔑 Pista 2</b></summary>
Accede al último elemento de la lista con <code>[-1]</code>.
</details>

In [None]:
fib = [0,1]
# write your solution here

<details>
    <summary><b>Solution:</b></summary>

```python
for i in range(14):
    fib.append(fib[-1]+fib[-2])
    print(fib)
```
</details>

### 🔢 **5. Suma de las Diagonales de una Matriz**

Calcula la suma de las diagonales de las matrices `A` y `B` usando un bucle `for`.

Las diagonales de una matriz son los valores que se encuentran en la línea principal que atraviesa la matriz. En el siguiente ejemplo, la diagonal está resaltada en negritas:


\begin{bmatrix}
\mathbf{1} & 2 & 3 \\
4 & \mathbf{5} & 6 \\
7 & 8 & \mathbf{9}
\end{bmatrix}


En este caso, la suma es: \(1 + 5 + 9 = 15\).

---

<details>
<summary><b>💡 Pista 1</b></summary>
La expresión <code>x = x + 1</code> incrementa el valor de <code>x</code> en 1.
</details>

<details>
<summary><b>🔑 Pista 2</b></summary>
La notación <code>x[0,0]</code> accede al elemento en la primera fila y primera columna.
</details>

In [None]:
A = np.array([
    [12,45,13,85],
    [11,4,43,23],
    [78,22,0.5,65],
    [154,11,57,1]])

print(A)



B = np.array([
    [0.96359314, 0.42621368, 0.10821601, 0.6852424 ],
    [0.23945833, 0.30840861, 0.25658861, 0.63431993],
    [0.16603427, 0.40061208, 0.2790935 , 0.94613278],
    [0.89885982, 0.00133547, 0.75911288, 0.56449904]])
    # The correct answer is 2.1155942899999998

print("\n", B)

In [None]:
summe_diag = 0
# write your solution here

<details>
    <summary><b>Solution:</b></summary>

```python
for i in range(4):
    sum_diag = sum_diag + A[i,i]
print(sum_diag)
```
</details>

`numpy` cuenta con una gran variedad de funciones. Si alguna vez no sabes qué hace una función, puedes utilizar `help()` para acceder a la documentación. Esta proporciona información detallada sobre cada función, incluyendo los parámetros de entrada requeridos y los resultados esperados.

In [None]:
help(np.sum)