# Práctica 0: Introducción a `Jupyter`

## Minería de Datos

### Curso académico 2021-2022

#### Profesorado:

* Juan Carlos Alfaro Jiménez
* José Antonio Gámez Martín

---

**Nota**: Adaptado de las prácticas de Jacinto Arias Martínez y Enrique González Rodrigo.

----

En esta práctica introduciremos las capacidades básicas de `Jupyter` y veremos las librerías que emplearemos durante el curso.

## 1. `Markdown`

El formato de anotado de texto `Markdown` es uno de los más populares hoy en día, después de `HTML`. Esto se debe a que, siendo solo un superconjunto con respecto a este último, la forma de trabajar es mucho más ligera, y por ello podemos usarlo en multitud de sitios. Generalmente se usa mucho para documentar pequeños fragmentos de texto, como los ficheros [`README.md`](https://github.com/alfaro96/data-mining-introduction-jupyter).

La sintaxis es muy reducida y fácil de aprender, podéis consultarla en el siguiente [enlace](https://nbviewer.jupyter.org/github/jupyter/notebook/blob/master/docs/source/examples/Notebook/Working%20With%20Markdown%20Cells.ipynb). A continuación se muestran las capacidades básicas:

### Base

Se puede añadir texto en *itálica* o **negrita** rodeándolo con uno o dos asteriscos, respectivamente.

Además es posible añadir listas sin numerar:

* Esto es un ítem sin numerar.
    * Esto es un subítem sin numerar.
        * Esto es un subsubítem sin numerar.     
* Esto es otro ítem sin numerar.

Y numeradas:

1. Esto es un ítem numerado.
    1. Esto es un subítem numerado.
        1. Esto es un subsubítem numerado.
2. Esto es otro ítem numerado.

### Encabezados

Para crear encabezados se deben escribir almohadillas seguidas de un espacio en blanco:

# Encabezado 1
## Encabezado 1.1
### Encabezado 1.1.1
#### Encabezado 1.1.1.1

## 2. Librerías científicas de `Python`

A continuación veremos las funcionalidades básicas de las librerías de `Python` que utilizaremos. Pero antes de ello, vamos a fijar una semilla para asegurar que la generación de números aleatorios se produce de acuerdo a un patrón. Esto nos permite garantizar la reproducibilidad de los experimentos, algo de vital importancia para que otros científicos puedan replicar los resultados que hayamos obtenido. Como estamos en un entorno interactivo, es muy probable que ejecutemos cada celda varias veces. Esto puede llevar a resultados que no son reproducibles, por lo que es recomendable reiniciar la libreta y ejecutar todo de manera secuencial una única vez, para así asegurar que los resultados son deterministas.

In [None]:
seed = random_state = 707005

### 2.1. `NumPy`

`NumPy` es el paquete fundamental de `Python` para entornos científicos, principalmente caracterizado por su motor de operaciones de álgebra lineal.

Se trata de una librería sumamente amplia, por lo que solo veremos su funcionalidad básica. No obstante, un tutorial más exhaustivo se ofrece en este [enlace](https://numpy.org/doc/stable/user/quickstart.html).

#### Creación de *arrays*

Podemos crear *arrays* de distintas dimensiones utilizando, para ello, distintas [rutinas](https://numpy.org/doc/stable/reference/routines.array-creation.html). En este caso, solo veremos las más utilizadas.

Para inicializar *arrays* de 1 dimensión podemos usar, por ejemplo, listas de `Python`:

In [None]:
import numpy as np

In [None]:
sequence = [0, 1, 2, 3]

In [None]:
arr = np.array(sequence)

In [None]:
arr

array([0, 1, 2, 3])

O generadores de rangos de `NumPy`:

In [None]:
arr = np.arange(4)

In [None]:
arr

array([0, 1, 2, 3])

También se pueden crear *arrays* de dos dimensiones:

In [None]:
arr = np.arange(12).reshape(3, 4)

In [None]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

El acceso a los elementos de los *arrays* se realiza de manera análoga al utilizado para las listas de `Python`. Por ejemplo, podemos acceder a la segunda fila:

In [None]:
arr[1]

array([4, 5, 6, 7])

A la primera fila y tercera columna:

In [None]:
arr[0][2]

2

O equivalentemente:

In [None]:
arr[0, 2]

2

Tal y como se puede observar, no es necesario utilizar un par de corchetes para acceder al elemento de cada dimensión, puesto que se puede indexar directamente mediante un único par separando, mediante comas, las distintas dimensiones.

También podemos crear *arrays* con un tamaño y valores predeterminados. Por ejemplo, un *array* de todo ceros:

In [None]:
shape = (3, 3)

In [None]:
arr = np.zeros(shape)

In [None]:
arr

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

Todo unos:

In [None]:
arr = np.ones(shape)

In [None]:
arr

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

O incluso todo unos en la diagonal principal:

In [None]:
arr = np.eye(3, 3)

In [None]:
arr

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### Propiedades

Podemos acceder a diversas propiedades de un *array* como el tamaño de sus dimensiones:

In [None]:
arr.shape

(3, 3)

El número de dimensiones:

In [None]:
arr.ndim

2

O el tipo de datos:

In [None]:
arr.dtype.name

'float64'

La lista exhaustiva de las propiedades de los *arrays* de `NumPy` se proporciona en la [documentación](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) del objeto `ndarray`.

#### Operaciones

`NumPy` contiene multitud de [rutinas matemáticas](https://numpy.org/doc/stable/reference/routines.math.html) en referencia a los elementos de los *arrays* y de operaciones de álgebra lineal. Por ejemplo, podemos sumar, restar, multiplicar, dividir, etc. todos los valores de un *array* por una constante:

In [None]:
arr + 3

array([[4., 3., 3.],
       [3., 4., 3.],
       [3., 3., 4.]])

In [None]:
arr - 3

array([[-2., -3., -3.],
       [-3., -2., -3.],
       [-3., -3., -2.]])

In [None]:
arr * 3

array([[3., 0., 0.],
       [0., 3., 0.],
       [0., 0., 3.]])

In [None]:
arr / 3

array([[0.33333333, 0.        , 0.        ],
       [0.        , 0.33333333, 0.        ],
       [0.        , 0.        , 0.33333333]])

O incluso transponerlo:

In [None]:
arr.T

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### *Slicing*

La operación de [*slicing*](https://numpy.org/doc/stable/reference/arrays.indexing.html) es sumamente importante en `NumPy`, puesto que permite acceder eficientemente a elementos consecutivos de un *array*.

A continuación se muestra como acceder a la tercera columna:

In [None]:
arr[:, 2]

array([0., 0., 1.])

A la primera fila:

In [None]:
arr[0, :]

array([1., 0., 0.])

O incluso a las dos primeras filas y columnas:

In [None]:
arr[:2, :2]

array([[1., 0.],
       [0., 1.]])

### 2.2. `Pandas`

`Pandas` es la librería de tratamiento de datos estructurados que utilizaremos durante las prácticas. En este caso, solo veremos su funcionalidad más básica, pero para todos aquellos que quieran profundizar se puede seguir este [tutorial](http://pandas.pydata.org/pandas-docs/stable/10min.html).

#### Creación de datos

Normalmente, trabajaremos con conjuntos de datos que han sido obtenidos de experimentos (bien reales o sintéticos). Sin embargo, para aprender su funcionalidad, utilizaremos datos artificiales que generaremos de manera aleatoria.

La estructura de datos más importante de `Pandas` es el `DataFrame` (aunque existen otras como `Series`), que puede entenderse como una tabla de datos, donde las columnas representan variables y las filas casos concretos.

A continuación vamos a ver un ejemplo de cómo podemos crear, de manera muy sencilla, un `DataFrame` de variables numéricas y discretas con casos aleatorios. Para ello, vamos a utilizar algunos de los generadores aleatorios de `NumPy` y los diccionarios de `Python`.

---

**Lectura recomendada**: Al tratarse el `DataFrame` de la estructura de datos por excelencia utilizada para cargar y almacenar conjuntos de datos, se recomienda estudiar su [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

---

Pero antes de ello, vamos a inicializar el generador de números aleatorios para garantizar la reproducibilidad de los experimentos:

In [None]:
np.random.seed(seed)

Tras esto, podemos crear las variables aleatorias:

* Distribución uniforme (`uniform`):

In [None]:
size = 1000

In [None]:
uniform = np.random.uniform(size=size)

* Distribución normal (`normal`):

In [None]:
normal = np.random.normal(size=size)

* Distribución discreta (`discrete`):

In [None]:
days = ["monday", "tuesday", "friday"]

In [None]:
discrete = np.random.choice(days, size=size)

Y juntarlas en el `DataFrame` correspondiente:

In [None]:
import pandas as pd

In [None]:
data = {"uniform": uniform, "normal": normal, "discrete": discrete}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,uniform,normal,discrete
0,0.297776,-0.073827,monday
1,0.914609,-1.595461,monday
2,0.092395,0.252506,tuesday
3,0.840928,0.780471,tuesday
4,0.753250,-0.418519,monday
...,...,...,...
995,0.262760,-0.095582,friday
996,0.146250,-0.395295,friday
997,0.367978,0.745103,monday
998,0.973925,1.197313,monday


Obsérvese que `Jupyter` solo renderiza las primeras y últimas filas del `DataFrame` para que podamos ver los datos con mayor comodidad. Para una mejor visualización, se recomienda mostrar únicamente algunas.

Podemos mostrar las `n` primeros filas:

In [None]:
df.head(5)

Unnamed: 0,uniform,normal,discrete
0,0.297776,-0.073827,monday
1,0.914609,-1.595461,monday
2,0.092395,0.252506,tuesday
3,0.840928,0.780471,tuesday
4,0.75325,-0.418519,monday


O `n` aleatorias:

In [None]:
df.sample(5, random_state=random_state)

Unnamed: 0,uniform,normal,discrete
144,0.662123,-1.505567,tuesday
663,0.683784,-0.961739,friday
952,0.979697,0.049457,friday
977,0.463871,-0.568788,tuesday
301,0.971773,-0.255816,friday


También podemos obtener un resumen de las variables numéricas del conjunto de datos:

In [None]:
df.describe(include="number")

Unnamed: 0,uniform,normal
count,1000.0,1000.0
mean,0.4965,-0.015685
std,0.28489,1.028174
min,0.000672,-3.185296
25%,0.252771,-0.782922
50%,0.505453,0.036296
75%,0.728137,0.688196
max,0.999262,3.309652


Y de las discretas:

In [None]:
df.describe(include="object")

Unnamed: 0,discrete
count,1000
unique,3
top,monday
freq,342


#### Indexado

A lo largo del curso introduciremos diversas operaciones para procesar los datos de un `DataFrame`, y así prepararlos para los diferentes algoritmos. De momento, vamos a mostrar algunas operaciones básicas.

Podemos obtener subconjuntos del `DataFrame` mediante operaciones más potentes, como indexado de filas:

In [None]:
df.loc[0:5]

Unnamed: 0,uniform,normal,discrete
0,0.297776,-0.073827,monday
1,0.914609,-1.595461,monday
2,0.092395,0.252506,tuesday
3,0.840928,0.780471,tuesday
4,0.75325,-0.418519,monday
5,0.540231,0.371267,friday


O de filas y columnas:

In [None]:
columns = ["uniform", "normal"]

In [None]:
df.loc[0:5, columns]

Unnamed: 0,uniform,normal
0,0.297776,-0.073827
1,0.914609,-1.595461
2,0.092395,0.252506
3,0.840928,0.780471
4,0.75325,-0.418519
5,0.540231,0.371267


De hecho, se puede realizar un indexado de filas basado en condiciones, equivalente al utilizado en `NumPy`:

In [None]:
condition = df.discrete == "monday"

In [None]:
df.loc[condition].head(5)

Unnamed: 0,uniform,normal,discrete
0,0.297776,-0.073827,monday
1,0.914609,-1.595461,monday
4,0.75325,-0.418519,monday
8,0.033818,0.664769,monday
15,0.982826,1.619302,monday


#### Operaciones

Podemos efectuar distintas operaciones sobre los datos, siendo las más importantes la obtención de estadísticos como la media:

In [None]:
np.mean(df)

uniform    0.496500
normal    -0.015685
dtype: float64

O la desviación estándar:

In [None]:
np.std(df)

uniform    0.284747
normal     1.027660
dtype: float64

Sin embargo, existen otras operaciones de gran interés como el reemplazo de valores:

In [None]:
df.replace(to_replace="friday", value="saturday").sample(5, random_state=random_state)

Unnamed: 0,uniform,normal,discrete
144,0.662123,-1.505567,tuesday
663,0.683784,-0.961739,saturday
952,0.979697,0.049457,saturday
977,0.463871,-0.568788,tuesday
301,0.971773,-0.255816,saturday


## 3. Ejercicios

Hemos realizado un repaso rápido por algunas de las funcionalidades que veremos a lo largo del curso. Es recomendable que los alumnos repasen de nuevo la libreta y se familiaricen con la sintaxis que acabamos de ver. Si bien no es necesario memorizar ni adquirir un nivel de experiencia demasiado alto con estas herramientas, sí es recomendable poder entender las operaciones a realizar con fluidez para evitar que estas sean un impedimento en futuras prácticas.

Por ello, **y con carácter opcional**, se proponen los siguientes ejercicios.

### Ejercicio 1

Se pide crear una lista de `Python` que contenga números impares del $ 1 $ al $ 5000000 $ (ambos inclusive) con tres funciones diferentes:

* Lista de comprehensión
* Programación funcional con `filter` y `lambda`
* Bucle `for`

Con el objetivo de llevar a cabo un estudio temporal y determinar cuál de dichas opciones es más eficiente.

Una vez se ha implementado el código correspondiente y se ha verificado que el resultado proporcionado por cada una de las funciones es correcto, podemos llevar a cabo el estudio temporal. Para ello, se puede utilizar el [*comando mágico*](https://ipython.readthedocs.io/en/stable/interactive/magics.html) `timeit`.

De acuerdo a los resultados obtenidos, ¿Qué se puede concluir?

### Ejercicio 2

Crea un *array* nulo (todo ceros) de tamaño $ 3 \times 3 $, cuya componente en la primera fila y tercera columna sea un $ 5 $.

### Ejercicio 3

Crear un *array* de tamaño $ 4 \times 5 $, en los que todos los elementos tengan un valor de $ 2 $.

### Ejercicio 4

Construir un *array* de tamaño $ 3 \times 3 $, cuyos elementos de la diagonal principal sean $ 3 $ y los demás ceros.

### Ejercicio 5

Crear un *array* de tamaño $ 5 \times 5 $ cuyos valores sean consecutivos, y obtener el *array* central de tamaño $ 3 \times 3 $ que resulta al quitar todos los elementos periféricos.

### Ejercicio 6

Basándonos en el `DataFrame` utilizado previamente, se pide crear un nuevo `DataFrame` que añada, al anterior, una columna llamada `exponential` conteniendo filas provenientes de una distribución exponencial.

Una vez se ha creado dicho `DataFrame`, se pide obtener las filas cuyo valor de la columna `normal` sea menor que $ -2 $ y, además, contengan el valor `friday` en la columna `discrete`. Tras obtener dichas filas, se debe modificar el valor de `exponential` por $ 0.0 $.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=959ace62-d858-4122-b645-b44780ef06bd' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>