# Tipos de dato de texto y arreglos

En este _notebook_ veremos los tipos de dato utilizados por Julia para trabajar con texto y conjuntos de datos.

## Tipos de datos de texto

Al programar, poder trabajar con texto siempre es deseable, pues esta funcionalidad es necesaria para, por ejemplo, poder interactuar con la persona que usar√° el programa, imprimiendo instrucciones en pantalla de qu√© hacer o pidi√©ndole que ingrese algunos datos en alg√∫n punto de la ejecuci√≥n del programa.

### `Char`

El **tipo de dato de texto primitivo** en Julia es **`Char`**. Cualquier s√≠mbolo envuelto en comillas `''` ser√° considerado como un dato de tipo `Char`:

In [1]:
'a'

'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)

In [2]:
typeof('a')

Char

La primera celda nos revela que Julia interpreta el s√≠mbolo `a` seg√∫n su clave de [Unicode](https://en.wikipedia.org/wiki/Unicode), el cual es un est√°ndar mundial que asigna una clave √∫nica a 144,697 caracteres en alrededor de 159 idiomas.

Muchos s√≠mbolos con clave Unicode que pueden ser escritos con un comando de $\LaTeX$ tambi√©n se pueden escribir en Julia con el mismo comando usando "auto completaci√≥n" con la tecla `Tab`. Por ejemplo, para escribir $\alpha$ en el REPL de Julia o en una celda de Jupyter, basta escribir el comando de $\LaTeX$ `\alpha` y luego presionar la tecla `Tab`:

In [1]:
ùõº  #¬°Escribe Œ± al inicio de esta celda (sin copiar y pegar)!

LoadError: UndefVarError: ùõº not defined

La "auto completaci√≥n" significa que si escribimos un comando parcial de $\LaTeX$ que Julia puede representar con un caracter Unicode y presionamos la tecla `Tab`, aparecer√° una lista con todos los comandos de $\LaTeX$ que empiezan con esas mismas letras y que pueden ser representados por un caracter Unicode.

In [None]:
\al #Mira las opciones presionando la tecla Tab

Los caracteres que pueden ser representados de esta manera se pueden consultar en la [documentaci√≥n de Julia](https://docs.julialang.org/en/v1/manual/unicode-input/#Unicode-Input).

Es importante recordar que todo s√≠mbolo que escribamos entre comillas `''` ser√° interpretado por Julia como un dato de tipo `Char` por lo que, por ejemplo, el siguiente c√≥digo no funcionar√°

In [4]:
'5' + '3' #Julia los interpreta como Char, no como Int

LoadError: MethodError: no method matching +(::Char, ::Char)
[0mClosest candidates are:
[0m  +(::Any, ::Any, [91m::Any[39m, [91m::Any...[39m) at operators.jl:591
[0m  +(::T, [91m::Integer[39m) where T<:AbstractChar at char.jl:237
[0m  +([91m::Integer[39m, ::AbstractChar) at char.jl:247

pues el operador **`+`** no est√° definido para datos de tipo `Char`.

### `print` y `println`

Las principales **funciones para imprimir caracteres** en Julia son **`print`** y **`println`**. La diferencia entre ellas es que `println` crea una _nueva l√≠nea_ despu√©s de haber impreso el caracter de su argumento.

In [5]:
print('a')
print(' ')
print('b')
#Compara el resultado de esta celda...

a b

In [6]:
#...con el de √©sta.
println('a')
println(' ')
print('b')

a
 
b

### `String`

Trabajar texto siempre a nivel de caracteres resulta impr√°ctico. Para escribir **secuencias de caracteres**, existe un tipo de dato llamado **`String`**. Para escribir un dato de tipo `String`, debemos envolver s√≠mbolos entre comillas **dobles** `""`:

In [7]:
"¬°Hola, mundo!"

"¬°Hola, mundo!"

In [8]:
typeof("¬°Hola, mundo!")

String

Podemos utilizar las funciones `print` y `println` con datos de tipo `String` como lo hac√≠amos con los de tipo `Char`.

In [9]:
print("¬°Hola, mundo!")
#=Este programa es t√≠picamente lo primero que alguien aprende a hacer
  cuando conoce un nuevo lenguaje de programaci√≥n de alto nivel :D=#

¬°Hola, mundo!

Observamos que los operadores aritm√©ticos tampoco funcionan con datos de tipo `String`:

In [10]:
"2.0" - "73.1" #Julia los interpreta como String, no como Float

LoadError: MethodError: no method matching -(::String, ::String)

Algunas operaciones comunes que se pueden realizar en Julia con datos de tipo `String` se pueden consultar [en la documentaci√≥n](https://docs.julialang.org/en/v1/manual/strings/#Common-Operations).

## Arreglos

A menudo es deseable procesar conjuntos de datos en vez de datos por separado; por ejemplo, cuando queremos trabajar con vectores y matrices, graficar y analizar datos, o manipular im√°genes. Para ello existen los **arreglos** de datos, que son una **estructura que permite agrupar datos de tal forma que sean f√°ciles de accesar y operar**.

En Julia, un **arreglo** se crea cuando un **conjunto de datos separados por un espacio** es **delimitado con corchetes** `[]`:

In [11]:
[ 1 2 3 4 5 6 7 8 ]

1√ó8 Matrix{Int64}:
 1  2  3  4  5  6  7  8

Vemos que surge un nuevo tipo de dato compuesto para el arreglo anterior: `Matrix{Int64}`. Adem√°s, Julia nos informa que nuestra matriz de enteros es de `1` rengl√≥n y `8` columnas. M√°s a√∫n, si le aplicamos la funci√≥n `typeof()` al arreglo anterior

In [12]:
typeof([ 1 2 3 4 5 6 7 8 ])

Matrix{Int64}[90m (alias for [39m[90mArray{Int64, 2}[39m[90m)[39m

Podemos ver que `Matrix{Int64}` es simplemente un alias para el tipo de dato (compuesto) `Array{Int64, 2}`. `Int64` se refiere al tipo de los datos contenidos en el arreglo y `2` se refiere al n√∫mero de dimensiones del arreglo (como Julia considera a nuestro arreglo como una matriz de un rengl√≥n y ocho columnas, entonces tiene dos dimensiones).

### Matrices

En el _notebook_ [`1.1-Operadores_aritm√©ticos_y_tipos_de_datos_num√©ricos.ipynb`](./1.1-Operadores_aritm√©ticos_y_tipos_de_datos_num√©ricos.ipynb) vimos c√≥mo hacer operaciones entre n√∫meros. Sin embargo, dada la utilidad de acomodar n√∫meros en arreglos -como vectores y matrices- y hacer operaciones entre ellos, existe una implementaci√≥n de lo anterior en Julia.

Para escribir una matriz de m√°s de un rengl√≥n, separamos a los vectores rengl√≥n utilizando el s√≠mbolo de punto y coma `;`:

In [13]:
[1 2 3 ; 4 5 6 ; 7 8 9]

3√ó3 Matrix{Int64}:
 1  2  3
 4  5  6
 7  8  9

Podemos usar los operadores aritm√©ticos **`+`**, **`-`** y **`*`** para hacer operaciones entre matrices, siempre que las dimensiones coincidan de tal suerte que la operacion est√© bien definida:

In [14]:
[1 2 3 ; 4 5 6 ; 7 8 9] + [1 0 0 ; 0 0 0 ; 0 1 1]

3√ó3 Matrix{Int64}:
 2  2   3
 4  5   6
 7  9  10

In [15]:
[1 2 3 ; 4 5 6] - [1 0 0 ; 0 0 0 ; 0 1 1]
#Obtenemos un error porque las dimensiones no coindicen

LoadError: DimensionMismatch: dimensions must match: a has dims (Base.OneTo(2), Base.OneTo(3)), b has dims (Base.OneTo(3), Base.OneTo(3)), mismatch at 1

In [16]:
[1 2 3 ; 4 5 6] * [1 2 ; 3 4 ; 5 6]
#=En este ejemplo, a pesar de que las dimensiones difieran, ¬°lo hacen de
  tal forma que la multiplicaci√≥n de las matrices est√© bien definida!=#

2√ó2 Matrix{Int64}:
 22  28
 49  64

M√°s a√∫n, el operador **`*`** se puede usar para multiplicar una matriz por un escalar:

In [17]:
5 * [1 2 3 ; 4 5 6 ; 7 8 9]

3√ó3 Matrix{Int64}:
  5  10  15
 20  25  30
 35  40  45

In [18]:
[1 2 3 ; 4 5 6 ; 7 8 9] * 5

3√ó3 Matrix{Int64}:
  5  10  15
 20  25  30
 35  40  45

Sin embargo, esto falla para otros tipos de operaciones:

In [19]:
[1 2 3 ; 4 5 6 ; 7 8 9] + 5 #Esto nos devuelve un mensaje de error

LoadError: MethodError: no method matching +(::Matrix{Int64}, ::Int64)
For element-wise addition, use broadcasting with dot syntax: array .+ scalar
[0mClosest candidates are:
[0m  +(::Any, ::Any, [91m::Any[39m, [91m::Any...[39m) at operators.jl:591
[0m  +([91m::T[39m, ::T) where T<:Union{Int128, Int16, Int32, Int64, Int8, UInt128, UInt16, UInt32, UInt64, UInt8} at int.jl:87
[0m  +([91m::Rational[39m, ::Integer) at rational.jl:313
[0m  ...

pues no est√° bien definido qu√© significa sumarle un n√∫mero a una matriz de varias entradas. Si lo que queremos es aplicar un operador a _cada una de las entradas de un arreglo_, generalmente funciona colocar un punto **`.`** antes del operador, como en los siguientes ejemplos:

In [20]:
[1 2 3 ; 4 5 6 ; 7 8 9] .+ 5 #Esto suma 5 a cada entrada de la matriz

3√ó3 Matrix{Int64}:
  6   7   8
  9  10  11
 12  13  14

In [21]:
[6.0 3.5 7.2] .- 1 #Esto resta el flotante 1.0 a cada entrada del vector

1√ó3 Matrix{Float64}:
 5.0  2.5  6.2

**Nota** A pesar de que en este caso utilicemos los operadores aritm√©ticos para hacer operaciones entre _arreglos de n√∫meros_ en vez de s√≥lo n√∫meros, estos tienen la misma precedencia y asociatividad que discutimos en el _notebook_ [`1.1-Operadores_aritm√©ticos_y_tipos_de_datos_num√©ricos.ipynb`](./1.1-Operadores_aritm√©ticos_y_tipos_de_datos_num√©ricos.ipynb).

**Ejercicio** ¬øQu√© tipo de dato tiene la matriz `[1 2 3 ; 4 5 6 ; 7 8 9]`? ¬øEs un tipo de dato primitivo o compuesto?

Respuesta: es un tipo de dato compuesto porque es una matriz que est√° formada por varios datos de tipo entero. 

In [22]:
 #¬øRecuerdas qu√© funci√≥n usar para averiguar esto?
typeof([1 2 3 ; 4 5 6 ; 7 8 9])

Matrix{Int64}[90m (alias for [39m[90mArray{Int64, 2}[39m[90m)[39m

**Nota** Es importante separar las entradas de las matrices con espacios pues, de lo contario, Julia las intentar√° interpretar como cifras de un mismo n√∫mero. Sin embargo, el separador de renglones `;` no necesita que dejemos espacios antes ni despu√©s de √©l; a√∫n as√≠, te recomendamos que sigas esta pr√°ctica para tener mayor claridad y legibilidad en tu c√≥digo. 

### Vectores

Siguiendo la discusi√≥n anterior, la forma de escribir vectores tal que podamos aplicarles matrices usando el operador **`*`** es escribi√©ndolos como _vectores columna_, es decir, como matrices de una sola columna.

In [23]:
[1 ; 2 ; 3]

3-element Vector{Int64}:
 1
 2
 3

In [24]:
[1 0 0 ; 0 1 0 ; 0 0 1] * [1 ; 2 ; 3] #Aplicando la matriz identidad de 3x3 a (1, 2, 3) ‚àà R^3

3-element Vector{Int64}:
 1
 2
 3

Una forma equivalente de escribir vectores columna es separando cada entrada con un s√≠mbolo de coma `,`:

In [25]:
[1, 2, 3]

3-element Vector{Int64}:
 1
 2
 3

In [26]:
[1 0 0 ; 0 1 0 ; 0 0 1] * [1, 2, 3]

3-element Vector{Int64}:
 1
 2
 3

Es decir, si escribimos un arreglo de n√∫meros separados por comas como `[a, b, c, d]`, Julia lo interpretar√° como el vector columna con entradas `a`, `b`, `c` y `d`, equivalente a la matriz de una sola columna `[a ; b ; c ; d]`.

Esto es reminiscente a c√≥mo, en matem√°ticas, normalmente escribimos vectores de alg√∫n espacio $K^n$ (donde $K$ es un campo) como $(a, b, c, \dots)$ pero, al multiplicarlos por una matriz, por conveniencia preferimos escribirlos como

$$\begin{pmatrix} a \\ b \\ c \\ \vdots \end{pmatrix},$$

lo cual implica una equivalencia entre este vector columna y la $n$-tupla $(a, b, c, \dots)$.

**Ejercicio** ¬øQu√© tipo de dato tiene el vector `[6.0, 3.5, 7.2]`? Verif√≠calo creando una celda de c√≥digo.

Respuesta: Ahora ser√° un dato de tipo Vector{Float64} porque 6.0, 3.5 y 7.2 son valores flotantes.

In [27]:
typeof([6.0, 3.5, 7.2])

Vector{Float64}[90m (alias for [39m[90mArray{Float64, 1}[39m[90m)[39m

### √çndices y subarreglos

¬øQu√© hacemos si queremos acceder al valor de alguna entrada espec√≠fica de un vector? Julia le asigna a cada entrada de un vector un **√≠ndice** que _empieza por el n√∫mero_ `1` (a diferencia de otros lenguajes de programaci√≥n, que empiezan por el `0`). Para acceder a la $i$-√©sima entrada de un vector, debemos escribir `[i]` a la derecha del vector _sin dejar espacio_: 

In [28]:
[10, 8, 5][1]

10

In [29]:
[10, 8, 5][2]

8

In [30]:
[10, 8, 5] [3] #Obtenemos un error -inicialmente- por haber dejado un espacio

LoadError: syntax: space before "[" not allowed in "[10, 8, 5] [" at In[30]:1

In [31]:
[10, 8, 5][3] #Sin espacio

5

**Ejercicio** Averigua qu√© sucede cuando intentamos acceder a la $i$-√©sima entrada de la siguiente matriz para $1\leq i\leq9$:

In [36]:
[1 2 3 ; 4 5 6 ; 7 8 9][8] #Julia enumera por columnas los √≠ndices de las entradas de las matrices

6

Una manera m√°s sencilla de acceder a la entrada del rengl√≥n $i$ y columna $j$ de una matriz es utilizando la sint√°xis `[i,j]`:

In [37]:
[1 2 3 ; 4 5 6 ; 7 8 9][2,2]

5

In [38]:
[1 2 3 ; 4 5 6 ; 7 8 9][3,1]

7

Nuestra siguiente pregunta es: ¬øqu√© hacemos si queremos acceder a alg√∫n _vector rengl√≥n_ o _vector columna_ de una matriz? Para acceder al $i$-√©simo vector rengl√≥n, utilizamos la sint√°xis `[i,:]`:

In [39]:
[1 2 3 ; 4 5 6 ; 7 8 9][3]   #Compara el resultado de esta celda...

7

In [41]:
[1 2 3 ; 4 5 6 ; 7 8 9][3,:] #...con el de √©sta.    Tendremos vectores rengl√≥n

3-element Vector{Int64}:
 7
 8
 9

An√°logamente, para acceder al `j`-√©simo vector columna, utilizamos la sint√°xis `[:,j]`:

In [42]:
[1 2 3 ; 4 5 6 ; 7 8 9][:,3]

3-element Vector{Int64}:
 3
 6
 9

Puedes pensar que el s√≠mbolo `:` significa "todos los valores posibles" para el √≠ndice correspondiente. La raz√≥n de esto quedar√° clara m√°s adelante cuando veamos _rangos_.

Los ejemplos anteriores muestran que todo arreglo contiene **subarreglos** a los cuales podemos acceder. M√°s generalmente, para obtener un arreglo con las entradas $i$, $j$ y $k$ de otro arreglo, podemos utilizar la sint√°xis `[[i,j,k]]`:

In [45]:
[1, 3, 5, 7, 9][[1,3,5]] #Nos devuelve un vector con ciertos valores determinados, es un arreglo de √≠ndices.

3-element Vector{Int64}:
 1
 5
 9

Es muy importante notar que, en este caso, en vez de escribir uno o varios √≠ndices separados por comas dentro de unos corchetes `[]`, hemos escrito un _arreglo de √≠ndices_ (con sus _propios_ corchetes) dentro de los corchetes `[]`, dando como resultado el _subarreglo_ que se obtiene con las entradas correspondientes a esos √≠ndices.

### `String` como arreglos de `Char`

Sin entrar en detalles t√©cnicos, los datos de tipo `String` _a veces_ pueden ser pensados como arreglos de datos de tipo `Char`. Por ejemplo, podemos hacer uso de √≠ndices para acceder a cualquiera de sus entradas (que ser√°n datos de tipo `Char`) o de sus subarreglos (que ser√°n de tipo `String`):

In [46]:
"¬°Hola, mundo!"

"¬°Hola, mundo!"

In [47]:
"¬°Hola, mundo!"[1]

'¬°': Unicode U+00A1 (category Po: Punctuation, other)

In [48]:
"¬°Hola, mundo!"[[1,3,4,5,6,14]]

"¬°Hola!"

**Nota** Tal vez hayas observado algo extra√±o en los √≠ndices de la √∫ltima celda de c√≥digo: a pesar de que el caracter `'¬°' ` corresponde al √≠ndice `1` de nuestro `String`, el siguiente caracter (`'H'`) corresponde al √≠ndice `3`. ¬øQu√© suceder√° entonces si intentamos acceder al segundo √≠ndice?

In [49]:
"¬°Hola, mundo!"[2]

LoadError: StringIndexError: invalid index [2], valid nearby indices [1]=>'¬°', [3]=>'H'

Obtenemos un mensaje de error que confirma nuestra sospecha: nos dice que el √≠ndice `1` le corresponde a `'¬°'`, y el `3`, a `'H'`, adem√°s de decirnos impl√≠citamente que el √≠ndice `2` es "inv√°lido". La explicaci√≥n de este fen√≥meno [es un poco t√©cnica](https://docs.julialang.org/en/v1/manual/strings/#Unicode-and-UTF-8) pero, b√°sicamente, un √≠ndice de un `String` no se refiere espec√≠ficamente a un `Char`, sino a una "unidad de c√≥digo" con una cantidad fija de memoria, y para ser almacenados algunos caracteres (como `'¬°'`) requieren una cantidad de memoria mayor a la que ofrece una sola unidad de c√≥digo. 

En general, observar detalles como √©ste e investigarlos por nuestra cuenta es una _excelente_ forma de aprender programaci√≥n, y m√°s a√∫n cuando pensamos en algunas hip√≥tesis y dise√±amos peque√±os experimentos con c√≥digo para ponerlas a prueba.

**Ejercicio** ¬øCu√°ntas palabras puedes formar con las letras de la frase "¬°Hola, mundo!"? Obten los _Strings_ correspondientes accediendo a subarreglos del `String` `"¬°Hola, mundo!"`.

In [53]:
 "¬°Hola, mundo!"[[4 , 5 , 6]]

"ola"

In [54]:
 "¬°Hola, mundo!"[[11 , 4]]

"no"

In [55]:
 "¬°Hola, mundo!"[[ 9, 6 ,11,4 ]]

"mano"

In [56]:
 "¬°Hola, mundo!"[[ 11, 10 ,12, 13 ]]

"nudo"

In [57]:
 "¬°Hola, mundo!"[[ 9, 6 ,5,4 ]]

"malo"

In [58]:
 "¬°Hola, mundo!"[[ 3, 6 ,12,6 ]]

"Hada"

In [62]:
 "¬°Hola, mundo!"[[ 4, 11 , 12 , 6 ]]

"onda"

In [63]:
 "¬°Hola, mundo!"[[ 5, 5 , 6 , 9 , 6 ]]

"llama"

In [64]:
 "¬°Hola, mundo!"[[ 6, 9 , 4 ]]

"amo"

In [65]:
 "¬°Hola, mundo!"[[ 12, 6 , 11 , 11 , 6 ]]

"danna"

In [66]:
 "¬°Hola, mundo!"[[ 5, 4 , 9 , 4 ]]

"lomo"

## Recursos complementarios

Documentaci√≥n de Julia:
* [Manual de arreglos](https://docs.julialang.org/en/v1/manual/arrays/),
* [Manual de `String`s](https://docs.julialang.org/en/v1/manual/strings/),
* [Documentaci√≥n de arreglos](https://docs.julialang.org/en/v1/base/arrays/#Concatenation-and-permutation).