# Primeros pasos con Numpy (Parte 2)


PyLadies Cuernavaca.


## Manipulación y transformación de arreglos en Numpy

In [39]:
#Importación de la librería Numpy
import numpy as np

### Atributos de arreglos

Los atributos de los arreglos en Numpy nos proporcionan las características de un arreglo. A través de los atributos podemos conocer propiedades de los arreglos como su dimensión, el tipo de datos que almacena, la cantidad de elementos, entre otros.

Los atributos más comunes de arreglos son los siguientes:

```
- ndarray.shape -> Devuelve una tupla que indica la dimensión del arreglo.
- ndarray.ndim   -> Devuelve el número de ejes (axis) del arreglo.
- ndarray.size  -> Devuelve el número total de elementos en un arreglo.
- ndarray.dtype -> Devuelve el tipo de datos que contiene un arreglo.
- ndarray.itemsize -> Devuelve el número de bytes de los elementos en un arreglo.
- ndarray.T   -> Devuelve la transpuesta de un arreglo.
```

In [None]:
# Ejemplo de la función '.shape'
a = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Dimensión del arreglo 'a': {a.shape}")

In [None]:
# Ejemplo de la función '.ndim'
a = np.array([1, 2, 3])
print(f"Cantidad de dimensiones del arreglo 'a': {a.ndim}")

b = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Cantidad de dimensiones 'b': {b.ndim}")

In [None]:
# Ejemplo de la función '.size'
a = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Cantidad de elementos del arreglo 'a': {a.size}")

In [None]:
# Ejemplo de la función '.dtype'
a = np.array([1, 2, 3])
print(f"Tipo de dato del arreglo 'a': {a.dtype}")

b = np.array([1.0, 2.0, 3.0])
print(f"Tipo de dato del arreglo 'b': {b.dtype}")

In [None]:
# Ejemplo de la función '.itemsize'
a = np.array([1, 2, 3])
print(f"Cantidad de bytes del arreglo 'a': {a.itemsize}")  # Output: 8 (para int64)

b = np.array([1.0, 2.0, 3.0])
print(f"Cantidad de bytes del arreglo 'b': {b.itemsize}")  # Output: 8 (para float64)

In [None]:
# Ejemplo de la función '.T'
a = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Arreglo original 'a':\n {a}")
print(f"Arreglo 'a' transpuesto:\n {a.T}")

### Modificación de la dimensión de los arreglos

Numpy contiene funciones que permiten cambiar la forma y dimensionalidad de los arreglos sin cambiar el contenido. Las funciones más comunes son las siguientes:
```
- ndarray.reshape(new_shape)   -> Redimensiona la forma de un array, siempre que el número de elementos sea el mismo.
- ndarray.flatten() -> Devuelve una copia del arreglo colapsada en una dimensión (un array unidimensional).
- ndarray.ravel()   -> Colapsa el array en una dimensión y devuelve una vista, lo que significa que los cambios en el arreglo plano pueden afectar al arreglo original.
```

In [None]:
### Ejemplo de la función '.reshape()'
# Crear un array de 9 elementos
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
print(f"Arreglo original 'a':\n{a}")

# Cambiar la forma del array a 3x3
b = a.reshape((3, 3))
print(f"Resultado del arreglo 'a' en 'b' con reshape:\n{b}")

In [None]:
### Ejemplo de la función '.flatten()'
# Crear un array 2x3
a = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Arreglo 'a' original:\n{a}")

# Colapsar el array en una dimensión
b = a.flatten()
print(f"Resultado del arreglo 'a' en 'b' del flatten:\n{b}")

In [None]:
### Ejemplo de la función '.ravel()'
# Crear un array 2x3
a = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Arreglo original 'a':\n{a}")


# Colapsar el array en una dimensión
b = a.ravel()
print(f"Resultado del colapso del arreglo 'a' en 'b':\n{b}")


# Modificar un elemento en 'b' afectará a 'a'
b[0] = 99
print(f"Arreglo original 'a' modificado mediante arreglo 'b':\n{a}")
print(f"Arreglo 'b' modificado en el índice 0:\n{b}")

### Concatenación y apilamiento en arreglos
Numpy proporciona funciones para la combinación de arreglos siempre y cuándo sean considerados correctamente los ejes (axis).

![Ejes_de_arreglos](https://drive.google.com/uc?id=1OkSx1w8oabGmGnf5Sr2X_DnY1EmYfFCI)


Las principales funciones para ello son las siguientes:
```
- ndarray.concatenate((array1, array2, ...), axis=0) -> Une diferentes arreglos a lo largo del eje indicado. El eje predeterminado es 0.
- ndarray.vstack((array1, array2, ...)) -> Apila diferentes arreglos de manera vertical a lo largo del eje indicado. Es equivalente a np.concatenate() con axis=0, recomendado para arreglos 2D.
- ndarray.hstack((array1, array2, ...)) -> Apila diferentes arreglos de manera horizontal a lo largo del eje indicado. Es equivalente a np.concatenate() con axis=1, recomendado para arreglos 2D.
```

In [None]:
### Ejemplo de la función '.concatenate()'
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
print(f"Arreglo 'a':\n{a}")
print(f"Arreglo 'b':\n{b}")
# Concatenar a y b a lo largo del eje 0
c = np.concatenate((a, b), axis=0)
print(f"Resultado de la concatenación del arreglo 'a' y 'b' en el eje 0:\n{c}")


# Concatenar a y b a lo largo del eje 1
d = np.concatenate((a, b.T), axis=1)  # Nota: b.T es la transposición de b
print(f"Resultado de la concatenación del arreglo 'a' y 'b' en el eje 1:\n{d}")

In [None]:
### Ejemplo de la función '.vstack()'
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(f"Arreglo 'a':\n{a}")
print(f"Arreglo 'b':\n{b}")
# Apilar a y b verticalmente
c = np.vstack((a, b))
print(f"Resultado del apilamiento vertical del arreglo 'a' y 'b':\n{c}")

In [None]:
### Ejemplo de la función '.hstack()'
a = np.array([[1], [2], [3]])
b = np.array([[4], [5], [6]])
print(f"Arreglo 'a':\n{a}")
print(f"Arreglo 'b':\n{b}")
# Apilar a y b horizontalmente
c = np.hstack((a, b))
print(f"Resultado del apilamiento horizontal del arreglo 'a' y 'b':\n{c}")

### División de arreglos
Las funciones de división de arreglos en Numpy permiten dividir un arreglos en sub-arreglos. Las principales funciones son las siguientes:

```

Donde:
  * 'array': El arreglo a dividir.
  * 'indices_or_sections': Puede ser un entero o una lista de enteros que indiquen los índices donde se realizará la división.
  * 'axis': El eje a lo largo del cual se dividirá el arreglo (el valor predeterminado es 0).

- ndarray.split(array, indices_or_sections, axis=0) -> Divide un array en múltiples sub-arrays a lo largo de un eje especificado.

- ndarray.hsplit(array, indices_or_sections) -> Divide un arreglo en múltiples sub-arreglos horizontalmente (a lo largo del eje 1). Es una forma conveniente de dividir arreglos 2D o más altos a lo largo de columnas.

- ndarray.vsplit(array, indices_or_sections) -> Divide un arreglo en múltiples sub-arreglos verticalmente (a lo largo del eje 0). Es una forma conveniente de dividir arreglos 2D o más altos a lo largo de filas.



```

In [None]:
### Ejemplo de la función '.split()'
a = np.arange(9).reshape(3, 3)
print("Arreglo original 'a':\n", a)

# Dividir el array en 3 sub-arrays iguales a lo largo del eje 0
print("Division en 3 sub-arrays del arreglo 'a' sobre eje 0:\n")
sub_arrays = np.split(a, 3, axis=0)
for sub_array in sub_arrays:
    print(sub_array)

# Dividir el array en 2 sub-arrays en los índices 1 y 2 a lo largo del eje 1
print("Division en 2 sub-arrays del arreglo 'a' sobre eje 1:\n")
sub_arrays = np.split(a, [1, 2], axis=1)
for sub_array in sub_arrays:
    print(sub_array)

In [None]:
### Ejemplo de la función '.hsplit()'
a = np.arange(9).reshape(3, 3)
print("Arreglo original:\n", a)

# Dividir el array en 3 sub-arrays horizontales iguales
print("")
sub_arrays = np.hsplit(a, 3)
for sub_array in sub_arrays:
    print(sub_array)

In [None]:
### Ejemplo de la función '.vsplit()'
a = np.arange(9).reshape(3, 3)
print("Original array:\n", a)

# Dividir el array en 3 sub-arrays verticales iguales
sub_arrays = np.vsplit(a, 3)
for sub_array in sub_arrays:
    print(sub_array)

### Transposición y permutación de ejes en arreglos
Numpy proporciona funciones para la reorganización de las dimensiones de los arreglos recomendadas para las operaciones de análisis y manipulación de arreglos. Las funciones principales son las siguientes:
```
- ndarray.transpose() -> Devuelve una vista del array original con sus ejes permutados.
- ndarray.swapaxes() -> Intercambia dos ejes de un array. A diferencia de ndarray.transpose(), que puede reordenar todos los ejes, np.swapaxes() se usa para intercambiar únicamente dos ejes específicos.
```

In [None]:
### Ejemplo de la función '.transpose()'
# Crear un array 2D
matrix = np.array([[1, 2, 3],
                   [4, 5, 6]])

# Transponer el array 2D
transposed_matrix = np.transpose(matrix)

print("Original Matrix:\n", matrix)
print("Transposed Matrix:\n", transposed_matrix)

In [None]:
### Ejemplo de la función '.transpose()' para un array 3D
tensor_3d = np.array([[[1, 2], [3, 4]],
                      [[5, 6], [7, 8]]])

# Transponer el array 3D (por defecto invierte los ejes)
transposed_tensor_3d = np.transpose(tensor_3d)

print("Original Tensor 3D:\n", tensor_3d)
print("Transposed Tensor 3D:\n", transposed_tensor_3d)

In [None]:
### Ejemplo de la función '.swapaxes()' para un array 3D
# Crear un array 3D
tensor_3d = np.array([[[1, 2], [3, 4]],
                      [[5, 6], [7, 8]]])

# Intercambiar los ejes 0 y 2
swapped_tensor = np.swapaxes(tensor_3d, 0, 2)

print("Original Tensor 3D:\n", tensor_3d)
print("Swapped Tensor 3D:\n", swapped_tensor)

## Operaciones lógicas y condicionales

### Filtrado de arreglos usando condiciones
Numpy proporciona técnicas muy poderosas para seleccionar elementos de un array que cumplen ciertas condiciones. A continuación, se describen las principales:
```
- ndarray.where(condition, [x, y]) -> Devuelve elementos seleccionados de un array basados en una condición.

Donde:
  * 'condition': Una condición que debe ser satisfecha.
  * 'x', 'y': (opcional) Valores de retorno cuando la condición es True (x) o False (y).

- Indexación booleana -> Permite seleccionar elementos de un arreglo basados en una condición booleana.

```

In [None]:
#Ejemplo 1: Selección de Elementos con la función '.where()'
array = np.array([1, 2, 3, 4, 5])
result = np.where(array > 3)

print("Indices donde el array es mayor a 3:", result)
print("Elementos donde el array es mayor a 3:", array[result])

In [None]:
#Ejemplo 2: Transformación Condicional con la función '.where()'
array = np.array([1, 2, 3, 4, 5])
result = np.where(array > 3, array, -1)

print("Array transformado:", result)

In [None]:
#Ejemplo de selección de elementos por Indexación Booleana
array = np.array([1, 2, 3, 4, 5])
condition = array > 3
result = array[condition]

print("Array original:", array)
print("Condición booleana:", condition)
print("Elementos que cumplen la condición:", result)

### Uso de funciones lógicas
Numpy proporciona funciones específicas que se utilizan para evaluar condiciones en arreglos. Las funciones principales son las siguientes:

```
- ndarray.any(a, axis=None, out=None, keepdims=False) -> Devuelve True` si al menos un elemento cumple la condición.
- ndarray.all(a, axis=None, out=None, keepdims=False) -> Devuelve True` si todos los elementos cumplen la condición.

Donde:
  * 'a': El arreglo de entrada.
  * 'axis': (int, opcional). El eje a lo largo del cual se aplica la función. Si no se especifica, se evalúan todos los elementos.
  * 'out': (ndarray, opcional). Un arreglo donde se almacenará el resultado.
  * 'keepdims': (bool, opcional). Si es True (predeterminado), se mantienen las dimensiones de salida.

```

In [None]:
### Ejemplo con la función '.any()'
array = np.array([1, 2, 3, 4, 5])
condition = array > 3  # Condición booleana: elementos mayores que 3
result_any = np.any(condition)

print("Array:", array)
print("Condición (elementos > 3):", condition)
print("¿Algún elemento es mayor que 3?:", result_any)

In [None]:
# Ejemplo con np.any() y Eje
array = np.array([[1, 2, 3], [4, 5, 6], [0, -1, -2]])
condition = array > 0
result_any_axis_0 = np.any(condition, axis=0)
result_any_axis_1 = np.any(condition, axis=1)

print("Array:\n", array)
print("Condición (elementos > 0):\n", condition)
print("¿Algún elemento es mayor que 0 a lo largo del eje 0?:", result_any_axis_0)
print("¿Algún elemento es mayor que 0 a lo largo del eje 1?:", result_any_axis_1)

In [None]:
### Ejemplo con la función '.all()'
condition = array > 0  # Condición booleana: elementos mayores que 0
result_all = np.all(condition)

print("Array:", array)
print("Condición (elementos > 0):", condition)
print("¿Todos los elementos son mayores que 0?:", result_all)

In [None]:
### Ejemplo con la función '.all()' y ejes
condition = array > -1
result_all_axis_0 = np.all(condition, axis=0)
result_all_axis_1 = np.all(condition, axis=1)

print("Array:\n", array)
print("Condición (elementos > -1):\n", condition)
print("¿Todos los elementos son mayores que -1 a lo largo del eje 0?:", result_all_axis_0)
print("¿Todos los elementos son mayores que -1 a lo largo del eje 1?:", result_all_axis_1)

## Operaciones avanzadas con arreglos en Numpy

### Broadcasting
El broadcasting es una característica que permite realizar operaciones aritméticas entre arreglos de diferentes formas (shapes).

Las reglas para determinar la compatibilidad son las siguientes:

* Si los arrays no tienen el mismo número de dimensiones, se añade una dimensión adicional al array con menos dimensiones hasta que coincidan.
* Los arrays son compatibles si, en todas las dimensiones, el tamaño es el mismo o uno de ellos es 1.
* El array con tamaño 1 en una dimensión se comporta como si se extendiera a coincidir con el tamaño del otro array en esa dimensión.

In [None]:
### Ejemplo de la sumar un escalar a un array mediante broadcasting
arr = np.array([1, 2, 3])
scalar = 2
result = arr + scalar
print(f"Arreglo original:\n{arr}")
print(f"Resultado de la suma de una escalar al arreglo con broadcasting:\n{result}")

In [None]:
### Ejemplo de la suma de arrays de dimensiones diferentes mediante broadcasting
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([1, 2, 3])
print(f"Arreglo 1:\n{arr1}")
print(f"Arreglo 2:\n{arr2}")
result = arr1 + arr2
print(f"Resultado de la suma de los arreglos con broadcasting:\n{result}")

In [None]:
### Ejemplo de la suma de array de 3D con un array de 1D mediante broadcasting
arr1 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr2 = np.array([1, 2, 3])
print(f"Arreglo 1:\n{arr1}")
print(f"Arreglo 2:\n{arr2}")
result = arr1 + arr2
print(f"Resultado de la suma de los arreglos con broadcasting:\n{result}")

In [None]:
### Ejemplo de la multiplicación de arrays de dimensiones diferentes mediante broadcasting
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([1, 2, 3])
print(f"Arreglo 1:\n{arr1}")
print(f"Arreglo 2:\n{arr2}")
result = arr1 * arr2
print(f"Resultado de la multiplicación de los arreglos con broadcasting:\n{result}")

### Funciones estadísticas
Las funciones estadísticas en NumPy proporcionan métodos eficientes para calcular diferentes medidas estadísticas básicas de arreglos numéricos. Las funciones principales son las siguientes:
```
- np.mean(ndarray)  -> Calcula la media aritmética a lo largo del eje especificado.
- np.median(ndarray) -> Calcula la mediana a lo largo del eje especificado.
- np.std()  -> Calcula la desviación estándar a lo largo del eje especificado.
- np.var()  -> Calcula la varianza a lo largo del eje especificado.
- np.min()  -> Calcula el valor mínimo a lo largo del eje especificado.
- np.max()  -> Calcula el valor máximo a lo largo del eje especificado.
```

In [None]:
### Ejemplo con la función '.mean()'
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print(f"Arreglo original:\n{arr}")
print(f"Cálculo de la media de todos los elementos:\n{np.mean(arr)}")  # Media de todos los elementos
print(f"Cálculo de la media a lo largo de las columnas:\n{np.mean(arr, axis=0)}")  # Media a lo largo de las columnas
print(f"Cálculo de la media a lo largo de las filas:\n{np.mean(arr, axis=1)}")  # Media a lo largo de las filas

In [None]:
### Ejemplo con la función '.median()'
arr = np.array([[1, 2, 3],
                [4, 5, 6]])
print(f"Arreglo original:\n{arr}")
print(f"Cálculo de la mediana de todos los elementos:\n{np.median(arr)}")  # Mediana de todos los elementos
print(f"Cálculo de la mediana a lo largo de las columnas:\n{np.median(arr, axis=0)}")  # Mediana a lo largo de las columnas
print(f"Cálculo de la mediana a lo largo de las filas:\n{np.median(arr, axis=1)}")  # Mediana a lo largo de las filas

In [None]:
### Ejemplo con la función '.std()'
arr = np.array([[1, 2, 3],
                [4, 5, 6]])
print(f"Arreglo original:\n{arr}")
print(f"Cálculo de la desviación estándar de todos los elementos:\n{np.std(arr)}")  # Desviación estándar de todos los elementos
print(f"Cálculo de la desviación estándar a lo largo de las columnas:\n{np.std(arr, axis=0)}")  # Desviación estándar a lo largo de las columnas
print(f"Cálculo de la desviación estándar a lo largo de las filas:\n{np.std(arr, axis=1)}")  # Desviación estándar a lo largo de las filas

In [None]:
### Ejemplo con la función '.var()'
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print(np.var(arr))  # Varianza de todos los elementos
print(np.var(arr, axis=0))  # Varianza a lo largo de las columnas
print(np.var(arr, axis=1))  # Varianza a lo largo de las filas

In [None]:
### Ejemplo con la función '.min()'
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print(np.min(arr))  # Valor mínimo de todos los elementos
print(np.min(arr, axis=0))  # Valor mínimo a lo largo de las columnas
print(np.min(arr, axis=1))  # Valor mínimo a lo largo de las filas

In [None]:
### Ejemplo con la función '.max()'
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print(np.max(arr))  # Valor máximo de todos los elementos
print(np.max(arr, axis=0))  # Valor máximo a lo largo de las columnas
print(np.max(arr, axis=1))  # Valor máximo a lo largo de las filas


### Operaciones matriciales
En Numpy existen funciones especializadas en las operaciones matriciales y de producto tensorial. Las principales funciones son las siguientes:
```
- ndarray.dot() -> Calcula el producto punto entre dos arreglos. Para matrices bidimensionales, realiza el producto matricial estándar; para matrices unidimensionales, calcula el producto escalar.
- ndarray.matmul() -> Realiza multiplicación de matrices, pero difiere de np.dot() en cómo maneja los operandos de dimensiones mayores a 2. Recomendado para arreglos de dimensiones mayores a 2 para mantener la claridad y evitar ambigüedades.
- ndarray.tensordot() -> Calcula el producto tensorial de dos arreflos. Recomendado especialmente en el contexto de tensores multidimensionales.
```

In [None]:
### Ejemplo con la función '.dot()'
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

C = np.dot(A, B)
print(C)

In [None]:
### Ejemplo con la función '.matmul()'
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

C = np.matmul(A, B)
print(C)

In [None]:
### Ejemplo con la función '.tensordot()'
A = np.array([1, 2, 3])
B = np.array([4, 5, 6])

C = np.tensordot(A, B, axes=0)  # Producto tensorial de vectores
print(C)

## Manejo de archivos en Numpy

Numpy cuenta con funciones para cargar y guardar arreglos desde/hacia archivos extrernos. Estas funciones son fundamentales cuando trabajas con grandes volúmenes de datos y necesitas guardar los resultados intermedios o finales de tu procesamiento para reutilizarlos más adelante.
Las principales funciones, son las siguientes:
```
- np.save() -> Se utiliza para guardar un array en un archivo binario con extensión ".npy".
- np.load() -> Se utiliza para cargar un array desde un archivo binario ".npy".
- np.savetxt() -> Se utiliza para guardar un array en un archivo de texto, como un .txt o .csv. Los datos se guardan en formato de texto plano.
- np.loadtxt() -> Se utiliza para cargar datos desde un archivo de texto en un array de NumPy.
```

In [None]:
# Ejemplo del uso de la función np.save()

# Crear un array
array = np.array([1, 2, 3, 4, 5, 6 , 7])

# Guardar el array en un archivo binario
np.save('mi_arreglo.npy', array)

In [None]:
# Ejemplo del uso de la función np.load()

# Cargar el array desde el archivo binario
array_almacenado = np.load('mi_arreglo.npy')
print(array_almacenado)

In [None]:
# Ejemplo del uso de la función np.savetxt()

# Crear un array 2D
array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 7, 7]])

# Guardar el array en un archivo de texto
np.savetxt('mi_arreglo_2d.txt', array_2d, delimiter=',')

In [None]:
# Ejemplo del uso de la función np.loadtxt()

# Cargar los datos desde el archivo de texto
array_2d_almacenado = np.loadtxt('mi_arreglo_2d.txt', delimiter=',')

print(array_2d_almacenado)

# Manejo de archivos con Python

El manejo de archivos es fundamental para leer y escribir datos en el sistema de archivos. Python provee funciones y métodos para la manipulación de archivos de manera sencilla.
```
- open('my_file.txt', 'modo') -> Para leer o escribir un archivo, primero se debe abrir usando esta función.

  Modos de apertura:
*   'r': Leer (read) - Es el modo predeterminado. El archivo debe existir.
*   'w': Escribir (write) - Crea un archivo nuevo o sobreescribe el existente.
*   'a': Añadir (append) - Agrega contenido al final del archivo sin sobrescribir.
*   'b': Modo binario - Se utiliza para archivos no de texto (e.g., imágenes).
*   'r+': Leer y escribir.

- my_file.read() -> Lee todo el contenido de un archivo.
- my_file.readline() -> Lee una línea a la vez del archivo.
- my_file.readlines() -> Lee todas las líneas de un archivo y devuelve cada un almacenada en una lista.
- my_file.write('texto_a_escribir') ->  Función para escribir en un archivo independientemente del modo de escritura.
- my_file.close() -> Función para cerrar un archivo al terminar su manipulación como buena práctica para liberar los recursos.
```

Existen métodos recomendados como buenas prácticas para el manejo de archivos como los siguientes:


```
- El uso del bloque 'with' es una práctica recomendada, ya que se cierra el archivo automáticamente después de salir del bloque.
    Sintaxis:

    with open('my_file.txt', 'mode') as var_name_file:

- Es posible el manejo de posibles errores al abrir/cerrar un archivo usando bloques 'try-except'.
    Sintaxis:

    try:
      #Codigo para abrir un archivo
    except FileNotFoundError:
      print("El archivo no fue encontrado.")
```

# Análisis de datos con Numpy

Para los siguiente ejemplo utilizaremos un archivo FASTA con 91,763 secuencias con longitudes cortas. Con este archivo y utilizando algunas de las funcines básicas de Python podremos extraer información como la longitud mínima, máxima de las secuencias. Además podremos calcular medidas de sus longitudes.

In [None]:
# Ejemplo de cómo abrir un archivo FASTA con el bloque 'with'
with open ("/content/sequences.fasta", "r") as fasta:
  for line in fasta:
    line = line.strip("\n")
    print(line)

fasta.close()

In [41]:
# Contabilizar la cantidad de secuencias y almacenar la longitud de cada una en un arreglo Numpy
#Define lista para almacenar los ID de las secuencias
#Define lista para almacenar las secuencias
#Define lista para almacenar las longitudes de las secuencias
ids_list, seq_list, len_list = [[] for _ in range(3)]

with open ("/content/sequences.fasta", "r") as fasta:
  for line in fasta:
    #Eliminar el retirno de carro
    line = line.strip("\n")
    #Identificar si es el ID o la secuencia
    if :
      #Eliminar el simbolo > del ID
    else:
      #Calcular la longitud de la secuencia
      longitud =
      #Almacenar la secuencia en la lista
      seq_list.
      #Almacenar la longitudes en la lista
      len_list.

fasta.close()

In [None]:
#Imprimir los primeros 10 elementos de cada lista
print(f"Primeros 10 elementos en ids_list: {ids_list}\n")
print(f"Primeros 10 elementos en seq_list: {seq_list}\n")
print(f"Primeros 10 elementos en len_list: {len_list}")

In [None]:
#Conversion de la lista de longitudes a arreglo Numpy
len_array = np.array(len_list)
#Mostrar arreglo
print(len_array)
print(type(len_array))

In [None]:
print(f"Cálculo de la media de todos los elementos:\n{}\n")
print(f"Cálculo de la mediana de todos los elementos:\n{}\n")
print(f"Cálculo de la desviación estándar de todos los elementos:\n{}\n")
print(f"Cálculo de la longitud mínima de todos los elementos:\n{}\n")
print(f"Cálculo de la longitud máxima de todos los elementos:\n{}\n")

Podemos visualizar los datos de longitudes de las secuencias en un gráfico de distribucion y densidad como con los ViolinPlot con el uso de otras liobrerías de graficación como Matplotlib y Seaborn.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plot = sns.violinplot(data=len_array, saturation=0.8, palette="Set1")
plot.set_xticklabels(ax.get_xticklabels(), rotation=90, ha="right")
plot.grid(True)
plt.ylabel("Longitudes de secuenicas", fontsize=11)
plt.tight_layout()
plt.show()

Otros ejercicios

In [17]:
# Crear una matriz de expresión génica simulada
import numpy as np
genes = np.array(['Gene1', 'Gene2', 'Gene3', 'Gene4'])
samples = np.array(['Sample1', 'Sample2', 'Sample3'])

# Datos de expresión (genes x muestras)
expression_data = np.array([
    [0.5, 2.3, 1.2],
    [1.5, 3.3, 2.2],
    [0.1, 0.3, 0.8],
    [2.2, 1.2, 4.1]
])

# Calcular la expresión media de cada gen
mean_expression = np.mean(expression_data, axis=1)

# Asociar los genes con su expresión media
gene_expression = dict(zip(genes, mean_expression))

print("Expresión media por gen:")
for gene, expr in gene_expression.items():
    print(f"{gene}: {expr}")


Expresión media por gen:
Gene1: 1.3333333333333333
Gene2: 2.3333333333333335
Gene3: 0.4000000000000001
Gene4: 2.5


In [18]:
import numpy as np

# Leer el archivo de datos de expresión génica
filename = 'gene_expression_data.txt'

# Cargar los datos ignorando la primera fila (cabeceras) y la primera columna (nombres de genes)
data = np.loadtxt(filename, delimiter='\t', skiprows=1, usecols=(1, 2, 3))

# Calcular la expresión media de cada gen
mean_expression = np.mean(data, axis=1)

# Cargar los nombres de los genes (primera columna)
genes = np.loadtxt(filename, delimiter='\t', skiprows=1, usecols=(0,), dtype=str)

# Asociar los genes con su expresión media
gene_expression = dict(zip(genes, mean_expression))

# Mostrar los resultados
print("Expresión media por gen:")
for gene, expr in gene_expression.items():
    print(f"{gene}: {expr:.2f}")


FileNotFoundError: gene_expression_data.txt not found.

## Con Datos de Verdad

> Agregar bloque entrecomillado



In [None]:
import numpy as np
import pandas as pd

# Definir los nombres de los archivos
files = ['/content/GSM4074291_PS1448A-WT-MM1.counts.txt', '/content/GSM4074292_PS1448A-WT-MM2.counts.txt', '/content/GSM4074293_lon-MM1.counts.txt']

# Leer los archivos en un DataFrame de pandas
dfs = [pd.read_csv(file, sep='\t', skiprows=1, index_col=0) for file in files]

# Combinar los datos en un solo DataFrame
data = pd.concat(dfs, axis=1)

# Verifica el número de columnas
print(f"Número de columnas en el DataFrame: {data.shape[1]}")

# Asignar nombres de columnas solo si el número coincide
if data.shape[1] == 3:
    data.columns = ['WT-1', 'WT-2', 'lon-1']
else:
    print("El número de columnas no coincide con el número esperado de muestras.")
    print("Las columnas actuales son:", data.columns)

print(data.head())
# Renombrar las columnas manualmente
data.columns = ['WT-1_rep1', 'WT-1_rep2', 'WT-1_rep3',
                'WT-2_rep1', 'WT-2_rep2', 'WT-2_rep3',
                'lon-1_rep1', 'lon-1_rep2', 'lon-1_rep3']

print(data.head())




Ahora que tienes tus datos combinados en un DataFrame, puedes proceder con el análisis de expresión génica. Para este análisis, calcularemos los cambios en la expresión génica entre las condiciones de tipo salvaje (WT) y la mutante (lon).

## Cálculo de la expresión diferencial

Primero, calcularemos el log2 fold change (log2FC) entre las condiciones WT y lon. Esto nos permitirá identificar los genes que están regulados hacia arriba o hacia abajo en la cepa mutante.



In [None]:
# Promediar las réplicas para cada condición
data['WT-1'] = data[['WT-1_rep1', 'WT-1_rep2', 'WT-1_rep3']].mean(axis=1)
data['WT-2'] = data[['WT-2_rep1', 'WT-2_rep2', 'WT-2_rep3']].mean(axis=1)
data['lon-1'] = data[['lon-1_rep1', 'lon-1_rep2', 'lon-1_rep3']].mean(axis=1)

# Calcular el log2 fold change (log2FC)
data['log2FC'] = np.log2(data['lon-1'] / data[['WT-1', 'WT-2']].mean(axis=1))

# Cálculo del p-valor (simulado para este ejemplo)
data['p_value'] = np.random.rand(data.shape[0])

# Visualización de los resultados
print(data[['log2FC', 'p_value']].head())


In [None]:
# Promediar las réplicas para cada condición
data['WT-1'] = data[['WT-1_rep1', 'WT-1_rep2', 'WT-1_rep3']].mean(axis=1)
data['WT-2'] = data[['WT-2_rep1', 'WT-2_rep2', 'WT-2_rep3']].mean(axis=1)
data['lon-1'] = data[['lon-1_rep1', 'lon-1_rep2', 'lon-1_rep3']].mean(axis=1)

# Calcular el log2 fold change (log2FC)
data['log2FC'] = np.log2(data['lon-1'] / data[['WT-1', 'WT-2']].mean(axis=1))

# Cálculo del p-valor (simulado para este ejemplo)
data['p_value'] = np.random.rand(data.shape[0])

# Visualización de los resultados
print(data[['log2FC', 'p_value']].head())


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Establecer estilo
sns.set(style="whitegrid")

# Crear la gráfica de volcán
plt.figure(figsize=(10, 8))
sns.scatterplot(x='log2FC', y=-np.log10(data['p_value']), data=data,
                hue=data['log2FC'].abs() > 1, palette={True: 'red', False: 'blue'},
                edgecolor=None)

# Líneas de referencia para significancia
plt.axhline(y=-np.log10(0.05), color='gray', linestyle='--', lw=1)  # p-valor significativo
plt.axvline(x=1, color='gray', linestyle='--', lw=1)  # log2FC significativo positivo
plt.axvline(x=-1, color='gray', linestyle='--', lw=1)  # log2FC significativo negativo

# Añadir etiquetas y título
plt.xlabel('log2 Fold Change')
plt.ylabel('-log10(p-value)')
plt.title('Gráfica de Volcán')

# Ajustar la leyenda
plt.legend(title='Significativo', loc='upper right')

# Mostrar la gráfica
plt.show()


Gráfica de Volcán para visualizar los Datos

> Este tipo de gráfico es útil para identificar genes que están significativamente expresados entre las condiciones.


Se crea una gráfica de dispersión donde x es el log2 fold change y y es -log10 del p-valor, lo que resalta los genes más significativos. Y...

Se añaden líneas para indicar umbrales comunes de significancia tanto en log2FC como en p-valor. Los puntos con un log2FC mayor que 1 o menor que -1 se colorean en rojo para indicar que son cambios significativos en la expresión génica

En este ejemplo, el cálculo del log2FC nos da una idea de cómo cambia la expresión génica entre las condiciones experimentales. Los p-valores son simulados, pero en un análisis real, necesitarías usar métodos como DESeq2 o edgeR en R, o utilizar herramientas como limma o voom en Python para obtener p-valores más precisos.

In [None]:
Este anáñlisis en teoría, te permitirá identificar los genes que podrían estat regulados por la proteína Lon en Pseudomonas savastonoi pv..-- bajo condiciones experimentales descritas en el artículo