# **Práctica 1: Introducción al entorno de trabajo**

<img src ="https://epigijon.uniovi.es/image/image_gallery?uuid=903ae5c8-b29b-430e-980d-1a19a885c736&groupId=3743853&t=1688576582973" width=300 px>

Este cuaderno desarrolla contenidos prácticos de la asignatura **Visión artificial** del Grado en Ciencia e Ingeniería de Datos.

***

# Introducción

En esta práctica se realizará una introducción a algunos aspectos del entorno de trabajo que se utilizarán a lo largo de la asignatura. Fundamentalmente se utilizará el lenguaje Python y el entorno de desarrollo Visual Studio Code o Colab.

# Sistema de control de versiones

A lo largo del curso se realizarán diversos programas utilizando herramientas y bibliotecas para ejemplificar los conceptos tratados durante el curso. Para organizar todo el código se recomienda crear un repositorio en [GitHub](https://github.com/) que sirva de sistema de control de versiones. El registro en GitHub se debe realizar con la cuenta corporativa de la universidad, para poder obtener los beneficios de la cuenta académica que ofrece la plataforma.

> Crea una cuenta en GitHub con la cuenta corporativa de la universidad en caso de que no la tuvieras previamente.

> Crea un repositorio para almacenar las prácticas. El repositorio debe ser privado.

> Asegúrate de incluir un fichero `.gitignore` para evitar subir ficheros indeseados usando la plantilla de Python. El propio proceso de creación ayuda a automatizar esta cuestión.

> Abre el interprete de comandos y clona el repositorio que acabas de crear, por ejemplo:
>
> ```bash
> $ git clone https://github.com/rusamentiaga/testva.git
> ```
>

> Crea un fichero `README.md` y añade tu nombre y una descripción del repositorio.

> Añade el fichero al repositorio
> ```bash
> $ git add README.md
> ```

> Almacena el fichero en el repositorio y añade un mensaje
> ```bash
> $ git commit -m "Se añade fichero de descripción del repositorio"
> ```

> Sincroniza el repositorio remotamente
> ```bash
> $ git push
> ```

A través de la interfaz web de GitHub, deberías poder ver los cambios.

Los comandos `git` más básicos que necesitan son los siguientes:

* `git add fichero`: Añade los cambios que hayas realizado en _fichero_ al índice.
* `git commit` guarda en el repositorio las modificaciones almacenadas en el índice. Git abrirá un editor para que escribas el _mensaje de commit_, que es un breve resumen de los cambios realizados.
* `git status` te muestra el estado de tu carpeta de trabajo, si hay ficheros en ella que `git` no tiene en el repositorio, si hay cambios no guardados en el índice, si hay cosas en el índice que aún no están en el repositorio, etc. 
* `git log` muestra la historia del repositorio con las fechas de cada _commit_, tus mensajes, etc. `git log --oneline` te da una versión más corta (sólo los mensajes, uno por línea). Junto a cada _commit_ aparece un número hexadecimal que es su identificador y es el que debes usar cuando quieras referirte a un _commit_ concreto, por ejemplo para recuperarlo.
* `git pull` descarga los cambios en el repositorio desde un almacén remoto.
* `git push` sube los cambios locales a un almacén remoto.

Estos comandos son los fundamentales para utilizar Git con un flujo de trabajo simple. Cuando se usa Git en un entorno colaborativo aparecen muchos más comandos y opciones, especialmente en relación al trabajo con ramas. Git es una herramienta que se debe conocer y utilizar, pero está fuera de los objetivos concretos de la asignatura. Puedes encontrar numerosos tutoriales online.

# Entornos de trabajo virtuales

Trabajar con [entornos virtuales en Python](https://docs.python.org/es/3/tutorial/venv.html) es una práctica fundamental para gestionar las dependencias de tus proyectos de manera eficiente. Los entornos virtuales permiten aislar las bibliotecas y paquetes utilizados en un proyecto específico, lo que facilita la gestión de las dependencias y evita conflictos entre versiones.

## Creación del entorno

Las últimas versiones de Python incluyen la biblioteca `venv` para la gestión de entornos virtuales. 

Para crear el entorno virtual se debe utilizar el siguiente comando

```bash
$ python -m venv nombre_del_entorno
```

se debe reemplazar `nombre_del_entorno` con el nombre que desees para tu entorno virtual. Es habitual utilizar `.env`.

## Activación del entorno

Para comenzar a trabajar en tu entorno virtual, debes activarlo. La forma de hacerlo depende de tu sistema operativo:

En Windows:
```bash
$ nombre_del_entorno\Scripts\activate
```

En Linux:
```bash
$ source nombre_del_entorno/bin/activate
``` 

Una vez activado, notarás que el nombre de tu entorno virtual se muestra en el prompt de la terminal, lo que indica que estás trabajando dentro del entorno virtual.

## Instalar paquetes en el entorno virtual

Dentro del entorno virtual, puedes instalar paquetes y bibliotecas específicas para tu proyecto sin afectar el entorno global de Python. Usa pip para instalar paquetes, por ejemplo:

```bash
$ pip install nombre_del_paquete
``` 

## Desactivar el entorno virtual

Cuando hayas terminado de trabajar en tu proyecto y quieras volver al entorno global de Python, simplemente ejecuta:

```bash
$ deactivate
``` 

Esto desactivará el entorno virtual y te llevará de vuelta al entorno global de Python.

## Eliminar el entorno virtual (opcional)

Si deseas eliminar el entorno virtual y sus dependencias, simplemente borra la carpeta del entorno virtual desde tu sistema de archivos. Asegúrate de haber desactivado el entorno virtual antes de hacerlo.


## Ejercicio

> Crea un entorno virtual

> Activa el entorno e instala los paquetes necesarios para poder usar jupyterlab (`pip install jupyterlab`).

> Ejecuta jupyter
>
> ```bash
> $ jupyter lab
> ```

> Verifica su funcionamiento

> Crea un cuaderno de ejemplo y sube los cambios al repositorio remoto.

# Colab

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d0/Google_Colaboratory_SVG_Logo.svg/1200px-Google_Colaboratory_SVG_Logo.svg.png" width=300 px>

Colaboratory, o Colab en su forma abreviada, es una plataforma gratuita basada en la nube que permite a los usuarios ejecutar y colaborar en cuadernos Jupyter (Jupyter Notebooks) con acceso a GPU y TPU de Google de forma gratuita. Estos cuadernos son ideales para desarrollar y ejecutar código en lenguajes como Python, así como para realizar investigaciones y análisis de datos de manera colaborativa.

## Acceso a Colab

Para acceder a Colab, se debe ejecutar el navegador web e ir a la página principal de Google Colab en https://colab.research.google.com/. A continuación se debe iniciar sesión en tu cuenta de Google. Si no tienes una cuenta de Google, puedes crear una de forma gratuita.

## Uso de GPU y TPU

Colab proporciona acceso gratuito a GPU y TPU de Google, lo que es especialmente útil para tareas de aprendizaje profundo y procesamiento intensivo. Para usar GPU o TPU, se deben seguir estos pasos:

* Ve al menú "Entorno de ejecución" en la parte superior de la página.

* Selecciona "Cambiar tipo de entorno de ejecución".

* En la ventana emergente, elige "GPU" o "TPU" en el campo "Acelerador de hardware".

* Haz clic en "Guardar" para confirmar la configuración.

## Abrir y guardar cuadernos

Hay distintas formas de abrir y guardar los cuadernos realizado en Colab. Entre las opciones disponibles están Google Drive y también GitHub. En ambos casos se puede tanto abrir como guardar.

También es posible descargar el cuaderno y guardarlo localmente.

## Ejercicio

> Abre el cuaderno que habías creado previamente y guardado en GitHub.

> Modifica el cuaderno y haz una copia de nuevo en GitHub.

# Visual Studio Code

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/9a/Visual_Studio_Code_1.35_icon.svg/113px-Visual_Studio_Code_1.35_icon.svg.png">

[Visual Studio Code](https://code.visualstudio.com/) (VS Code) es un editor de código altamente personalizable y ampliamente utilizado que para desarrollar código en Python. Para habilitar el soporte de Python en Visual Studio Code, es necesario instalar la extensión de Python.

En VS Code se puede trabajar tanto con ficheros de Python como con cuadernos, que se pueden ejecutar en entornos virtuales locales. Visual Studio Code tiene muchas características adicionales para mejorar la productividad, como la gestión de paquetes, control de versiones con Git, autocompletado y más. Además existe un gran ecosistema de extensiones que cubren casi cualquier necesidad. A lo largo de las prácticas que se realizarán durante el curso es una herramienta que puede resultar de gran utilidad.

# Python

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Python-logo-notext.svg/200px-Python-logo-notext.svg.png" width=80>


En esta asignatura se utilizará el lenguaje de programación Python para la mayoría de las prácticas debido a la simplicidad de su sintaxis y a la gran variedad de bibliotecas que vienen incorporadas al lenguaje y que hacen posible el abordar los problemas planteados en estas prácticas desde diferentes niveles de abstracción.

A lo largo de estas prácticas se asume que el alumnado domina el lenguaje y por tanto no se hará una introducción específica al mismo. Entre los aspectos que hay que dominar del lenguaje se incluyen:

* Tipos, variables y expresiones
* Lista, cadenas, tuplas y diccionarios
* Mutabilidad
* Control de flujo
* Funciones y clases
* Módulos

Si no se dominan alguno de estos aspectos se debe buscar información externa sobre ellos.

## Ejercicio

Para autoevaluar si se tienen los conocimientos mínimos de python realiza el siguiente ejercicio mínimo:

> Realiza un programa en Python que determine cuantos números primos hay desde el 0 al 1234567.

# NumPy

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/320px-NumPy_logo_2020.svg.png">

[NumPy](https://numpy.org/) es una  biblioteca de Python utilizada para realizar operaciones matemáticas y numéricas en vectores multidimensionales (tensores) de manera eficiente. Es ampliamente utilizada en la ciencia de datos, el aprendizaje automático y la investigación científica debido a su capacidad para manejar datos numéricos de manera eficiente. De forma general, cuando se trabaje en Python con imágenes se va a trabajar con matrices de NumPy.

Hay un gran número de [tutoriales](https://numpy.org/learn/) online que pueden ser de utilidad. En este guion simplemente se hace una breve introducción.

In [None]:
import numpy as np

print(f"Numpy version: {np.__version__}")

Existen dos forma de crear un array en NumPy, a partir de una estructura de datos en Python o con valores predefinidos. A continuación se muestran unos ejemplos

In [None]:
mi_lista = [1, 2, 3, 4, 5]
mi_array = np.array(mi_lista)
print(mi_array)

In [None]:
# Array de ceros
ceros = np.zeros(5)

# Array de unos
unos = np.ones(3)

# Array de valores constantes
constantes = np.full(4, 7)  # Un Array de 4 elementos con el valor 7

print(ceros)
print(unos)
print(constantes)

In [None]:
# Array de valores entre 0 y 9 (10 elementos)
rango = np.arange(10)

# Array de valores entre 1 y 5, con paso de 0.5
paso = np.arange(1, 5, 0.5)

print(rango)
print(paso)

In [None]:
# Array de números aleatorios entre 0 y 1
aleatorios = np.random.rand(3)

# Array de números enteros aleatorios entre 1 y 100
enteros_aleatorios = np.random.randint(1, 101, 5)  # 5 números aleatorios

print(aleatorios)
print(enteros_aleatorios)

In [None]:
# Array de números espaciados
espaciados = np.linspace(0, 10, 5)  # 5 números entre 0 y 10, espaciados uniformemente
print(espaciados)

Los atributos más importantes de un array en NumPy son:
* shape: retorna una tupla de enteros que indica el tamaño del array en cada dimensión.
* ndim: indica el número de ejes (dimensiones) del array.
* size: indica el número total de elementos del array.
* dtype: es un objeto que describe el tipo de elementos en el array.
* data: es el búfer que contiene los elementos reales del array.

In [None]:
my_numpy_array = np.array([[1,2,3],[4,5,6]])

# Atributos
print(my_numpy_array)
print(my_numpy_array.shape)
print(my_numpy_array.ndim)
print(my_numpy_array.size)
print(my_numpy_array.dtype)
print(my_numpy_array.data)

NumPy ofrece una amplia variedad de operaciones matemáticas y funciones que puedes aplicar a los arrays.

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Suma de arreglos
suma = a + b

# Resta de arreglos
resta = a - b

# Producto elemento a elemento
producto = a * b

# División elemento a elemento
division = a / b

print(suma)
print(resta)
print(producto)
print(division)

La gran ventaja de realizar las operaciones de esta forma, además de ser código más legible, es que resulta mucho más eficiente.

El acceso a un array multidimensional siempre empieza por fila y columna.

In [None]:
my_array = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]])

print(my_array)
print(my_array.shape)

row = 1
col = 2
print(my_array[row, col])

El rebanado (slicing) permite acceder a un conjunto de datos.

In [None]:
my_array = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]])

print(my_array)
print(my_array[0:2, 1:3])

# Un slide 0:1 implica el acceso a las posiciones 0 y 1. La 2 no se incluye.

> Para verificar que dominas este importante acceso a porciones de un array, determina el resultado que aparecerá por pantalla antes de ejecutar

In [None]:
a = np.array([[0, 1, 2, 3, 4, 5], 
              [6, 7, 8, 9, 10, 11], 
              [12, 13, 14, 15, 16, 17], 
              [18, 19, 20, 21, 22, 23], 
              [24, 25, 26, 27, 28, 29], 
              [30, 31, 32, 33, 34, 35]])

result_1 = a[0, 3:5]
result_2 = a[4:, 4:]
result_3 = a[:, 2]
result_4 = a[2::2, ::2]

print(result_1)
print(result_2)
print(result_3)
print(result_4)

# Ejercicio

> Realiza un programa en python que itere sobre un array de números aleatorios de tamaño 1000x1000 y multiplique cada elemento por dos.
>
> Realiza ahora el mismo programa usando directamente la multiplicación de array.
>
> Mide tiempos y compara los resultados.


La biblioteca NumPy en muchos casos se complementa con SciPy, que proporciona funciones de análisis de datos adicionales.

# PyTorch

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/c/c6/PyTorch_logo_black.svg/180px-PyTorch_logo_black.svg.png">

[PyTorch](https://pytorch.org/) es otra popular biblioteca de aprendizaje automático y desarrollo de redes neuronales que se ha vuelto muy popular en la comunidad de investigación y desarrollo de inteligencia artificial. Una de las estructuras de datos fundamentales en PyTorch es el tensor, que es similar a un array multidimensional NumPy, pero con la capacidad de realizar cálculos en GPU para acelerar el aprendizaje profundo.

In [None]:
import torch
print(torch.__version__)

En muchos casos el trabajo con tensores en PyTorch es similar al uso de arrays NumPy.

In [None]:
# Crear un tensor de ceros de tamaño (3, 2)
tensor_ceros = torch.zeros(3, 2)
print(tensor_ceros)

# Crear un tensor de unos de tamaño (2, 3)
tensor_unos = torch.ones(2, 3)
print(tensor_unos)

# Crear un tensor desde una lista
lista = [1, 2, 3, 4]
tensor_desde_lista = torch.tensor(lista)
print(tensor_desde_lista)

# Crear un tensor desde un arreglo NumPy
arreglo_numpy = np.array([5, 6, 7, 8])
tensor_desde_numpy = torch.from_numpy(arreglo_numpy)
print(tensor_desde_numpy)

La parte de operaciones matemáticas también sería similar.

In [None]:
# Crear dos tensores
tensor1 = torch.tensor([1, 2, 3])
tensor2 = torch.tensor([4, 5, 6])

# Suma de tensores
suma = tensor1 + tensor2

# Resta de tensores
resta = tensor1 - tensor2

# Producto de tensores (elemento por elemento)
producto = tensor1 * tensor2

# División de tensores (elemento por elemento)
division = tensor1 / tensor2

print(suma)
print(resta)
print(producto)
print(division)

De forma similar, también se pueden acceder a los atributos.

In [None]:
tensor = torch.zeros(6, 7)

# Atributos
print(tensor)
print(tensor.shape)
print(tensor.ndim)
print(tensor.size)
print(tensor.dtype)
print(tensor.data)

La gran diferencia respecto a NumPy es la posibilidad de transferir los arrays a la GPU y realizar las operaciones de forma similar.

In [None]:
t = torch.tensor([1,2,3])
t.device

In [None]:
t = t.to(device='cuda')
t

Las operaciones se realizan de forma transparente.

In [None]:
torch.sin(t)

In [None]:
t1 = torch.tensor([1,1,1], device='cuda')
t2 = torch.tensor([2,2,2], device='cuda')
t1 + t2

## Ejercicio

Para autoevaluar si se han quedado claros los conceptos anteriores realiza el siguiente ejercicio

> Realiza un programa en Python que mida cuanto tiempo tarda NumPy y PyTorch (GPU) en multiplicar dos matrices de 1000x1000. Repite la operación 100 veces y calcula le media. Para medir tiempos sobre la GPU es necesario sincronizar las operaciones (usar `torch.cuda.synchronize()` antes de tomar el tiempo de finalización).
>
> Calcular la aceleración (tiempo en GPU / tiempo en CPU)

# Matplotlib, Seaborn y Plotly

<img src="https://upload.wikimedia.org/wikipedia/en/thumb/5/56/Matplotlib_logo.svg/450px-Matplotlib_logo.svg.png" width=300 px>

<img src="https://seaborn.pydata.org/_static/logo-wide-lightbg.svg" width=300 px>

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Plotly-logo.png/330px-Plotly-logo.png" width=300 px>


[Matplotlib](https://matplotlib.org/) y [Seaborn](https://seaborn.pydata.org/) son dos bibliotecas de Python ampliamente utilizadas para la visualización de datos. Matplotlib es una biblioteca de bajo nivel que proporciona gran  flexibilidad para crear gráficos personalizados, mientras que Seaborn es una biblioteca de alto nivel que simplifica la creación de gráficos estadísticos atractivos y informativos. A continuación se muestran unos ejemplos.

In [None]:
import matplotlib.pyplot as plt

# Datos
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Crear un gráfico de líneas
plt.plot(x, y)

# Agregar etiquetas a los ejes y un título
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.title('Gráfico de Líneas')

# Mostrar el gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt

# Datos
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Crear un gráfico de dispersión
plt.scatter(x, y)

# Agregar etiquetas a los ejes y un título
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.title('Gráfico de Dispersión')

# Mostrar el gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt

# Datos
datos = [2, 2, 3, 3, 3, 4, 4, 5, 5, 6]

# Crear un histograma
plt.hist(datos, bins=5, edgecolor='k')

# Agregar etiquetas a los ejes y un título
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Histograma')

# Mostrar el gráfico
plt.show()


A continuación se muestra un resumen de opciones para la biblioteca.

![](https://matplotlib.org/cheatsheets/_images/cheatsheets-1.png)

![](https://matplotlib.org/cheatsheets/_images/cheatsheets-2.png)



Seaborn proporciona gráficos en ocasiones similares y en otros casos más especializados, siempre proporcionando un mejor estilo.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Datos
categorias = ['A', 'B', 'C', 'D']
valores = [10, 20, 15, 30]

# Crear un gráfico de barras
sns.barplot(x=categorias, y=valores)

# Agregar etiquetas a los ejes y un título
plt.xlabel('Categorías')
plt.ylabel('Valores')
plt.title('Gráfico de Barras')

# Mostrar el gráfico
plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Datos (matriz de correlación)
correlacion = [[1, 0.8, 0.6],
               [0.8, 1, 0.4],
               [0.6, 0.4, 1]]

# Crear un mapa de calor
sns.heatmap(correlacion, annot=True, cmap='coolwarm')

# Agregar un título
plt.title('Mapa de Calor de Correlación')

# Mostrar el gráfico
plt.show()



Estos son solo algunos ejemplos básicos de lo se puede hacer con Matplotlib y Seaborn. Ambas bibliotecas ofrecen una amplia gama de opciones de personalización y funciones avanzadas para crear visualizaciones de datos más complejas y detalladas. 

[Plotly](https://plotly.com/python/) es otra biblioteca de visualización de datos en Python que  destaca por su capacidad de crear gráficos interactivos y dinámicos. 

In [None]:
import plotly.graph_objs as go

# Datos
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Crear un gráfico de líneas
trace = go.Scatter(x=x, y=y, mode='lines', name='Línea')

# Crear un layout
layout = go.Layout(title='Gráfico de Líneas', xaxis=dict(title='Eje X'), yaxis=dict(title='Eje Y'))

# Crear una figura
fig = go.Figure(data=[trace], layout=layout)

# Mostrar el gráfico
fig.show()

In [None]:
import plotly.graph_objs as go

# Datos
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Crear un gráfico de dispersión
trace = go.Scatter(x=x, y=y, mode='markers', name='Dispersión')

# Crear un layout
layout = go.Layout(title='Gráfico de Dispersión', xaxis=dict(title='Eje X'), yaxis=dict(title='Eje Y'))

# Crear una figura
fig = go.Figure(data=[trace], layout=layout)

# Mostrar el gráfico
fig.show()

In [None]:
import plotly.graph_objs as go

# Datos
datos = [2, 2, 3, 3, 3, 4, 4, 5, 5, 6]

# Crear un histograma
trace = go.Histogram(x=datos, name='Histograma', xbins=dict(start=2, end=7, size=1))

# Crear un layout
layout = go.Layout(title='Histograma', xaxis=dict(title='Valores'), yaxis=dict(title='Frecuencia'))

# Crear una figura
fig = go.Figure(data=[trace], layout=layout)

# Mostrar el gráfico
fig.show()


La elección entre Matplotlib, Seaborn y Plotly dependerá de las necesidades específicas. Para visualizaciones estáticas y personalizadas, Matplotlib y Seaborn son opciones sólidas. Si se necesitan gráficos interactivos para aplicaciones web o presentaciones dinámicas, Plotly podría ser la elección. En muchos casos, también se pueden combinar estas bibliotecas según los requerimientos.
