# 1 Introducción
El siguiente cuaderno realiza la transpuesta de una matriz, utilizando CPU. La ejecución se realiza en forma secuencial mediante 2 ciclos FOR que permiten recorrer la matriz y ejecutar la operación.
Para la resolución se aplicaron conceptos de Lenguaje Python, CUDA y el manejo de operaciones aritméticas sobre matrices.

---
# 2 Armado del ambiente
No son necesarios, ejecuciones previas del armado del ambiente.

---
# 3 Desarrollo


In [None]:
# --------------------------------------------
#@title 3.1 Parámetros de ejecución { vertical-output: true }

cantidad_N =   2000#@param {type: "number"}

# --------------------------------------------

from datetime import datetime

tiempo_total = datetime.now()

import numpy

# --------------------------------------------
# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0

# CPU - Defino la memoria de la matriz.
M_cpu = numpy.random.randn( cantidad_N, cantidad_N)
M_cpu = M_cpu.astype( numpy.float32() )
T_cpu = numpy.random.randn( cantidad_N, cantidad_N)
T_cpu = M_cpu.astype( numpy.float32() )

# --------------------------------------------
# CPU - Realizo la función TransponerMatriz.

tiempo_bucle = datetime.now()

for idx in range( 0, cantidad_N ):
    for idy in range( 0, cantidad_N ):
         T_cpu [idy][idx] = M_cpu [idx][idy] 

tiempo_bucle = datetime.now() - tiempo_bucle

#"""
# CPU - Informo el resutlado.
print( "------------------------------------")
print( "Matriz M: " )
print( M_cpu )
print( "------------------------------------")
print( "Transpuesta T: " )
print( T_cpu )
#"""

tiempo_total = datetime.now() - tiempo_total

print("Tiempo Total: ", tiempo_en_ms( tiempo_total ), "[ms]" )
print("Tiempo bucle: ", tiempo_en_ms( tiempo_bucle ), "[ms]" )


---
# 4 Tabla de pasos de ejecución del programa

 Procesador | Función | Detalle
------------|---------|----------
CPU      |  @param                | Lectura del tamaño de vectores desde Colab.
CPU      |  import                | Importa los módulos para funcionar.
CPU      |  datetime.now()        | Toma el tiempo inicial.
CPU      |  numpy.random.randn( Cantidad_N ) | Inicializa las matrices M y T.
CPU      |  for...for                | Realiza la transpuesta de la matriz M, guardando el resultado en T. 
CPU      |  datetime.now()        | Toma el tiempo final.
CPU      |  print()               | Informa los resultados.



---
# 5 Conclusiones

A medida que aumenta la cantidad de elementos de la matriz aumenta el tiempo de procesamiento. En CPU tenemos menos funciones y pasos para ejecutar pero la ejecución se realiza mediante dos ciclos for de forma secuencial lo que afecta los tiempos de procesamiento total comparado con GPU. 

**Sugerencias de mejora:** 

1) Se podria realizar una mejora para que el algoritmo funcione para matrices no cuadradas. Ejemplo 
 N = 4 (filas)
 M = 2 (columnas)

2) Se podria realizar una mejora para que el algoritmo permita ejecutar operaciones y realizar comprobaciones de las propiedades con más de una matriz. Por ejemplo: la suma traspuesta de matrices es igual a la suma de las matrices traspuestas: (X+Z) EXP T = X EXP T + Z EXP T.

De esta manera el algoritmo podria servir aún más para fines educativos.  


---
# 6 Bibliografia

Introducción a Python: [Página Colab](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/Python_Basico.ipynb) 

Documentación PyCUDA: [WEB](https://documen.tician.de/pycuda/index.html)

Paginas de Referencia: [WEB]

https://stackoverrun.com/es/q/3720173

https://fisica.cab.cnea.gov.ar/gpgpu/images/clases/clase7_multiplicacion%20de%20matrices.pdf

https://developer.nvidia.com/blog/efficient-matrix-transpose-cuda-cc/


