# Metodología y configuración del ambiente de trabajo 
Autor: Eric S. Tellez <eric.tellez@infotec.mx><br/>

Para el curso de Recuperación de Información de información se estarán usando notebooks con el tratamiento de los temas, referencias, así como implementaciones funcionales de los algoritmos y estructuras. Se hará uso intensivo de Jupyter Notebook (https://jupyter.org/) o JupyterLab (https://github.com/jupyterlab/jupyterlab). También se pedirá que se realicen tareas con el mismo framework. En particular, se estará usando el lenguaje de programación Julia para todo esto, usando el kernel de notebook [IJulia](https://github.com/JuliaLang/IJulia.jl). Se estarán usando diversos paquetes relacionados, los cuales son parte de los productos de software de nuestras investigaciones.

Se estará probando siempre que sea posible con datos reales mediante el uso de diferentes medidas de costo / calidad.

## Sobre el lenguaje de programación para las entregas de reportes

Se estarán solicitando reportes en cada unidad que se deberán realizar como notebooks de Jupyter. En principio casi cualquier lenguaje de programación podría utilizarse para el curso, sin embargo, para efectos prácticos, nos limitaremos a dos lenguajes de programación:

- Python, se recomieda utilizar la distribución de <https://www.anaconda.com/d>
- Julia, se recomienda utilizar la versión 1.6, o superior, <https://julialang.org/>. Este curso se probó usando Julia 1.7.2.

Ambos lenguajes de programación son fáciles de aprender y altamente productivos. Python es un lenguaje excelente para realizar prototipos, o para cuando existen bibliotecas que resuelvan el problema que se este enfrentando; en este sentido se estarán listando alternativas a las presentadas.

# Como correr los notebooks

Como se comento, cada unidad tiene código asociado en notebooks de Jupyter. Es posible revisar los notebooks sin ejecutar usando un navegador y las ligas a github, ya que tiene un visualizador de notebooks. Es aconsejable usar el código directamente, correrlo y modificarlo para obtener un mejor entendimiento.

Los notebooks estan en Julia y requieren IJulia. Si usted no tiene Julia instalado, deberá bajar e instalar desde
<https://julialang.org/> o <https://juliacomputing.com/>.

Después deberá instalar IJulia, que es un paquete instalar el kernel de Julia en Jupyter. Siga las instrucciones de <https://github.com/JuliaLang/IJulia.jl>.

Una vez que tenga todo instalado, deberá lanzar Jupyter desde el directorio raíz de este repositorio, para esto deberá descargarlo o clonarlo a su computadora. Una vez que lo tenga instalado, deberá correr este notebook (Unidades/00.ipynb) para preparar el ambiente (instalar paquetes). Esto se hace con las siguientes lineas de código. Puede tardar varios minutos ya que se descargaran varios paquetes, y algunos tienen muchas dependencias (e.g., los paquetes de graficación) que también se instalaran automáticamente.

In [1]:
using Pkg
Pkg.activate(".")
Pkg.instantiate()

[32m[1m  Activating[22m[39m project at `~/IR-2022/Unidades`
[32m[1mPrecompiling[22m[39m project...
[32m  ✓ [39m[90mAccessors[39m
[32m  ✓ [39m[90mPickle[39m
[32m  ✓ [39m[90mFoldsThreads[39m
[32m  ✓ [39m[90mMLStyle[39m
[32m  ✓ [39m[90mJuliaVariables[39m
[32m  ✓ [39m[90mFLoops[39m
[32m  ✓ [39m[90mMLUtils[39m
[32m  ✓ [39mMLDatasets
  8 dependencies successfully precompiled in 31 seconds (270 already precompiled)


# Precompilación

Julia es un lenguaje de programación de alto nivel pero que compila su código. Hace uso intensivo de multi despacho estático, para nuestros fines de diseño es muy importante, ya se verá en el resto del curso como nuestro diseño esta orientado no a Programación Orientada a Objetos sino a la definición de tipos y multiples despachos. En términos que nos preocupa ahora, seguramente puede llegar a ser muy eficiente en muchas condiciones de uso, pero también requiere tiempos importantes de compilación. Para reducir estos tiempos en el resto de los notebooks haremos un primer llamado a los diferentes paquetes. 

In [2]:
using SimilaritySearch, TextSearch, InvertedFiles, KNearestCenters, StatsPlots, LinearAlgebra, HypertextLiteral, JSON, DataFrames, CSV, Base64, Languages, Snowball

┌ Info: Precompiling Snowball [fb8f903a-0164-4e73-9ffe-431110250c3b]
└ @ Base loading.jl:1423


Los paquetes y sus versiones estan listados en `Proyect.toml`


In [3]:
println(read("Project.toml", String))

[deps]
CSV = "336ed68f-0bac-5ca0-87d4-7b16caf5d00b"
CodecZlib = "944b1d66-785c-5afd-91f1-9de20f533193"
DataFrames = "a93c6f00-e57d-5684-b7b6-d8193f3e46c0"
Embeddings = "c5bfea45-b7f1-5224-a596-15500f5db411"
HypertextLiteral = "ac1192a8-f4b3-4bfe-ba22-af5b92cd3ab2"
InvertedFiles = "b20bd276-2c70-11ec-161a-3d1e1109a1c3"
JSON = "682c06a0-de6a-54ab-a142-c8b1cf79cde6"
KNearestCenters = "4dca28ae-43b8-11eb-1f5e-d55054101997"
Languages = "8ef0a80b-9436-5d2c-a485-80b904378c43"
MLDatasets = "eb30cadb-4394-5ae3-aed4-317e484a6458"
Plots = "91a5bcdd-55d7-5caf-9e0b-520d859cae80"
SimilaritySearch = "053f045d-5466-53fd-b400-a066f88fe02a"
Snowball = "fb8f903a-0164-4e73-9ffe-431110250c3b"
StatsBase = "2913bbd2-ae8a-5f71-8c99-4fb6c76f3a91"
StatsPlots = "f3b207a7-027a-5e70-b257-86293d7955fd"
TextSearch = "7f6f6c8a-3b03-11e9-223d-e7d88259bd6c"
Word2Vec = "c64b6f0f-98cd-51d1-af78-58ae84944834"

[compat]
CSV = "0.10"
CodecZlib = "0.7"
DataFrames = "1.3"
Embeddings = "0.4"
HypertextLiteral = "0.9"
InvertedFi

Ahora podrá ejecutar el resto de los notebooks, ya que estos esperan que se encuentre inicializado el ambiente.

## Sobre la ejecución de jupyter
Varios de los notebooks hacen uso intensivo de los recursos de computo. Es aconsejable usar tantos cores / threads esten disponibles en su sistema. Esto se hace corriendo Jupyter con la variable de ambiente `JULIA_NUM_THREADS=auto`. Por ejemplo, en Linux y MacOS X y estando en la raíz de este repositorio es posible correrlo usando


```bash
JULIA_NUM_THREADS=auto jupyter-lab .
```

Esto hará que cada notebook que se lance tenga todos los threads a su disposición. Puede reemplazar `auto` por el número de threads deseados. Recuerde que este número deberá ser menor o igual al número de threads de su computadora o el rendimiento más que mejorar seguramente disminuirá.

## Sobre los datos
Los datos estarán disponibles en el curso de aula virtual de Infotec. Para quienes no sean alumnos, en el directorio `data` hay un `README.md` que explica brevemente sus origenes. Se planear transitar los ejemplos para que sean descargables desde los notebooks mismos.

## Nota

Aprender a programar no es el objetivo de este curso, por lo que si es necesario, el alumno deberá fortalecer sus capacidades con auto estudio. Sin embargo, se anima a la discusión en los foros sobre cualquier problema, ya sea de programación o relacionado a los conceptos y problemas del curso.

## Recursos para aprender Python y Julia

- Documentación oficial, comenzar por el tutorial https://docs.python.org/3/
- Documentación oficial https://docs.julialang.org/en/stable/
- Curso "Introduction to computational thinking" https://computationalthinking.mit.edu/Fall20/
- Think Julia: How to Think Like a Computer Scientist https://benlauwens.github.io/ThinkJulia.jl/latest/book.html