# *Curso Introductorio de Programación en Python* - Ver 1.2
## Ronald Delgado - Marzo, 2022


## Introducción

A lo largo del presente curso realizaremos una introducción al lenguaje de programación **Python** y abordaremos de manera gradual y con ejemplos prácticos cada una de las funcionalidades básicas de dicho lenguaje. Para ello, haremos uso de lo que se conoce como **Jupyter Notebooks**, el cual es un entorno web y de código abierto que permite crear y compartir documentos que combinan código (interactivo), ecuaciones, gráficas y texto narrativo.

Un *Jupyter Notebook* está compuesto principalmente por celdas que pueden ser empleadas para introducir texto, ecuaciones, imágenes, etc, así como celdas en donde se pueden escribir instrucciones, funciones y código Python en general, para luego ejecutarlo presionando *Shift-Enter*.

Ejemplos de ello y demás funcionalidades de los *Jupyter Notebooks* lo veremos a lo largo del curso a medida que se vaya desarrollando.

En este sentido, los tópicos a tratar en el presente curso serán:

- Usando Python como una calculadora.
- Tipos de datos en Python.
- Listas.
- Comentarios y estructura en la programación.
- Control de Flujo: `if`, `for`, `while` y otras herramientas.
  - `if`.
  - `for`.
  - La instrucción break.
  - `while`.
- Trabajando con funciones en Python.
- Ejercicio práctico #1
- List Comprehension.
- Tuplas y secuencias.
- Diccionarios.
- Input y Output.
- Librerías e imports.
- Librería NumPy.
- Librería Matplotlib.
- Ejercicio práctico #2
- Librería Pandas.
- Proyecto de Análisis de Datos.
- Conclusiones.

# Usando Python como una calculadora

Una de las principales funcionalidades de Python es que puede usarse como una calculadora común y corriente. Es decir, podemos introducir operaciones matemáticas básicas en la línea de comandos y estas serán ejecutadas tal y como se espera. Por ejemplo, ejecutemos cada una de las siguientes celdas para obtener el resultado:

In [None]:
2+2

In [None]:
25-10*3

In [None]:
(2+3*4)/8

In [None]:
2**3

En este último caso, nótese que el operador para "elevar" un número a otro es doble asterísco **.

Por otro lado, el signo igual = puede ser utilizado para asignar un valor a una variable:

In [None]:
base = 10.5
altura = 2.5
area_triangulo = (base*altura)/2
print(area_triangulo)

En este caso, hemos usado la función `print()` de Python para mostrar el resultado final de la operación. A lo largo del curso veremos distintas funciones de utilidad que forman parte del lenguaje y cuyo conocimiento y uso se recomienda.

Si una variable no está definida y se intenta usar, el sistema generará un error de ejecución:

In [None]:
ancho = 23.65
area_rectangulo = ancho*alto
print(area_rectangulo)

De modo que es importante hacer seguimiento de las variables definidas y estar seguros de que se emplean de la manera correcta:

In [None]:
ancho = 23.65
alto = 12.30
area_rectangulo = ancho*alto
print(area_rectangulo)

# Tipos de datos en Python

En Python se usan fundamentalmente 4 tipos de datos: enteros (`int`), decimales o de *punto flotante* (`float`), booleanos (`bool`) y caracteres o cadenas de caracteres (`string`). Por defecto también es posible definir números complejos, aunque en este curso no trabajaremos con ellos.

En el caso de los `int` se trata, por supuesto, de cualquier número entero (positivo o negativo):

In [None]:
print(1253254)

In [None]:
numero = -1256878
print(numero)

In [None]:
print(type(numero))

Como se puede ver, con la función `type()` podemos conocer el tipo de dato de un número o variable dado.

Los números decimales o `float` se especifican colocando un punto decimal:

In [None]:
print(125.0)

In [None]:
decimal = 125.0
print(decimal)
print(type(decimal))

Es importante mencionar que al realizar operaciones matemáticas entre números enteros y decimales, Python siempre convertirá el resultado a un número tipo `float`:

In [None]:
a = 10
print(a)
print(type(a))
b = 3.1416
print(b)
print(type(b))
c = a+b
print(c)
print(type(c))

Como podemos ver, el resultado de la operación anterior es de tipo `float`.

En el caso de los números booleanos, estos solo pueden tomar valores de *Verdadero* o *Falso*:

In [None]:
condicion = True
print(condicion)
print(type(condicion))

nueva_condicion = False
print(nueva_condicion)
print(type(nueva_condicion))

Los números booleanos tienen formas particulares de ser usados y pueden ser de mucha utilidad dependiendo del problema que se desee resolver o bien el programa a desarrollar. A lo largo del curso conoceremos un poco más sobre sus usos y bondades.

Por último, los caracteres o `string` se refieren a variables compuestas, por supuesto, por caracteres o cadenas de caracteres. Estos deben ser definidos haciendo uso de las comillas dobles " o bien las comillas simples ', como vemos a continuación:

In [None]:
print("Esto es un string")

In [None]:
cadena = 'Esto tambien es un string'
print(cadena)
print(type(cadena))

A diferencia de las variables numéricas, las cadenas de caracteres están *indexadas*, es decir, cada elemento del `string` tiene asociado un índice que identifica cada símbolo de la cadena, es decir:

In [None]:
texto = 'Python'
print(texto[0])
print(texto[3])

En este caso, usamos los corchetes [] después del nombre de la variable `texto` para indicar el índice o la posición de la letra a la que queremos acceder. Nótese que en Python la *indexación* comienza en cero.

También es posible indicar el índice en sentido contrario usando el signo menos:

In [None]:
print(texto[-2])
print(texto[-4])

He incluso podemos tomar una sección del `string` indicando de cuál índice al otro queremos extraer:

In [None]:
seccion = texto[0:3]
print(seccion)

Nótese que Python tomará para la sección los caracteres que van desde el primer índice tomado (0 en el caso anterior) hasta el último excluído. Es decir, en nuestro ejemplo tomará los caracteres 0, 1 y 2, excluyendo la posición 3. Veamos otro ejemplo:

In [None]:
nombre = "Pedro Perez Fernandez"
corte = nombre[5:14]
print(corte)

A partir del ejemplo, ¿puede indicar qué índices deben colocarse para seleccionar solamente la palabra *Fernandez*?

Veamos:

In [None]:
apellido = nombre[12:21]
print(apellido)

Pero también podríamos haber hecho lo siguiente:

In [None]:
apellido = nombre[-10:21]
print(apellido)

He incluso, podemos tomar cualquier secuencia de caracteres desde un punto hasta el final de la cadena dejando en blanco el segundo índice:

In [None]:
apellido = nombre[6:]
print(apellido)

O bien desde el principio de la cadena hasta cualquier valor intermedio:

In [None]:
nombreyapellido = nombre[:11]
print(nombreyapellido)

Por último, es valioso conocer que los `string` pueden ser concatenados usando el operador + de la siguiente manera:

In [None]:
print('Py'+'thon')

In [None]:
primera = 'Py'
segunda = 'thon'
tercera = primera + segunda
print(tercera)
print(type(tercera))

# Listas

Una de las estructuras de datos más comunes y usadas en Python son las *listas*. Una lista no es más que un conjunto de valores que se escriben entre corchetes, y separados por coma. Las listas pueden contener elementos de tipos de dato distintos, aunque lo más frecuente es que sean del mismo tipo de datos:

In [None]:
lista = [2, 4, 6, 8, 10, 12]
lista

Nótese que en este caso no hicimos uso de la función `print()` para observar el contenido de la lista. En general, esto puede hacerse para cualquier tipo de dato en Python.

Como se mencionó, las listas pueden contener tipos de datos distintos:

In [None]:
elementos = [1, 4, 56.9, 0, 'A', 'Fernandez', True]
elementos

Aunque trabajar este tipo de estructuras no es muy común ni recomendado, sobre todo porque existen otros tipo de objetos en Python especialmente diseñados para ella (como veremos más adelante cuando hablemos de los Pandas).

Al igual que con los `string`, las listas son objetos indexados, de modo que podemos acceder a cada uno de sus elementos de la misma manera que en el caso de las cadenas de caracteres:

In [None]:
valores = [3, 6, 9, 12, 16, 23]
valores[2]

In [None]:
valores[-2]

También podemos tomar secciones de una lista tal y como lo hacemos con los `string`:

In [None]:
vals = valores[0:3]
vals

In [None]:
vals = valores[:2]
vals

In [None]:
vals = valores[-3:]
vals

Y además, también es posible concatenar listas:

In [None]:
lista1 = [1, 2, 3, 4]
lista2 = [0, 9, 8, 7, 6]
lista3 = lista1 + lista2
lista3

Para conocer la dimensión o el número de elementos que contiene cualquier lista, podemos hacer uso de la función `len()`:

In [None]:
len(lista1)

In [None]:
len(lista3)

A diferencia de los `string`, que son tipos de datos *inmutables* (esto es, que los elementos o caracteres no pueden ser modificados), las listas sí son *mutables*. Es decir, pueden modificarse los elementos individuales:

In [None]:
elems = [2, 4, 6, 8, 10, 12]
elems

In [None]:
elems[2] = 35
elems

Por lo que es importante tener esto en cuenta cuando se trabajan con listas a fin de no cometer errores de asignación de valores cuando se desarrolle un programa.

Al mismo tiempo, es posible agregar elementos al final de una lista haciendo uso de la función `append()`. En este caso, se debe escribir el nombre de la lista a la cual se le quiere incluir el nuevo elemento, seguido de un punto y luego la función:

In [None]:
elems

In [None]:
elems.append(256)
elems

Mientras que podemos modificar o asignar elementos de una lista directamente haciendo uso de los índices:

In [None]:
letras = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
letras

In [None]:
letras[2:5] = ['C', 'D', 'E']
letras

O bien podemos eliminar elementos de una lista haciendo uso de los corchetes vacios:

In [None]:
letras[2:5] = []
letras

Por último, es importante mencionar que pueden crearse listas *anidadas*, es decir, listas de listas:

In [None]:
nombres = ['Maria', 'Pedro', 'Ana', 'Nelson']
edades = [22, 34, 16, 56]
datos = [nombres, edades]
datos

Y el acceso a sus valores se hace, del mismo modo, a través de los índices:

In [None]:
datos[0]

In [None]:
datos[0][0]

In [None]:
datos[0][2]

In [None]:
datos[1][0]

In [None]:
datos[1][3]

Sin embargo, obsérvese que con el primer par de corchetes se acceden a cada una de las listas separadas, y con el siguiente par de corchetes se acceden a los elementos individuales de dichas listas.

# Comentarios y estructura en la programación

Ya que conocemos los primeros elementos básicos de la programación en Python, resulta valioso hacer un breve inciso sobre la importancia del uso de *comentarios* cuando se escribe código, así como el mantener orden y estructura en los programas.

En Python, los comentarios son líneas de código que nunca se ejecutan, y que sirven para agregar explicaciones o señalar detalles relevantes del código a fin de que cualquier otra persona que lea el programa (o incluso el propio programador) tenga una mejor idea de lo que hace o pretende hacer el código en cuestión, o bien sirva como guía para entender toda la lógica del programa.

Los comentarios en Python se introducen colocando un signo de # al principio de cualquier línea:

In [None]:
# Esto es un comentario
A = 12.4
B = 10.3
print(A*B)

Como se observa, al ejecutar la celda anterior no se produce ningún error pues la primera línea está comentada, así que se ejecutan las siguientes y se muestra el resultado final sin inconvenientes.

Es importante, entonces, que cualquier código incluya comentarios pertinentes al problema que se quiere resolver, y que además se estructure el código de una manera adecuada que facilite su posterior lectura y comprensión. Por ejemplo:

In [None]:
# Programa para calcular el area de un triangulo

# En primer lugar, definimos los valores de la base B y la altura h
B = 25.32
h = 12.3
# Imprimimos el resultado en pantalla
print('La base del triangulo es: '+str(B))
print('La altura del triangulo es: '+str(h))

# Luego, calcularmos el area segun la formula Area = (B*h)/2 e imprimos el resultado
area = (B*h/2.0)
print('El area del triangulo es: '+str(area))

En este caso, hemos empleado la función `print()` de manera conveniente para mostrar, primero, un texto descriptivo de la variable que se imprime (siempre entre comillas) y luego dicho texto se concatena con los valores de las variables presentadas, pero no sin antes convertir sus valores numéricos a `string` usando la función `str()`.

Así, al combinar tanto comentarios como formas convenientes de usar las funciones propias de Python, es posible escribir algoritmos o rutinas claras y que puedan ser comprendidas por cualquiera que lea el código.

# Control de Flujo: `if`, `for`, `while` y otras herramientas

En programación, las estructuras de control se refieren a todas esas funciones u objetos que permiten modificar el flujo de ejecución de las instrucciones de un programa. Es decir, ejecutar una parte de un código u otra dependiendo de una condición, ejecutar sentencias mientras se cumpla otra condición, o ejecutar instrucciones una cantidad determinada de veces o hasta cumplirse, de nuevo, alguna condición particular. A continuación haremos una revisión de las principales estructuras de control presentes en Python:

## `if`

La instrucción `if` (léase "si") permite seleccionar entre un grupo de instrucciones si se cumple una condición dada. Por ejemplo:

In [None]:
# Ejemplo de uso del if en control de flujo

miNumero = 56

if miNumero > 0:
  print('El número es mayor que cero')
elif miNumero == 0:
  print('El número es igual a cero')
else:
  print('El número es menor que cero')

En este caso, observe el código escrito y entienda el flujo del código. En palabras, este programa en primer lugar asigna el valor de 56 a la variable `miNumero`. Luego, se hace uso del `if` para aplicar condiciones a lo que se muestra en pantalla, dependiendo de si el valor de la variable es mayor que cero, igual a cero, o menor que cero.

Sobre la misma celda, modifique el valor de la variable y escriba 0. Ejecute la celda y observe cómo la salida del programa cambia. Una vez más, modifique el valor de la variable y coloque un número negativo. Ejecute de nuevo la celda para obtener la nueva salida.

La instrucción `elif` representa una contracción de `else if`, y se debe usar siempre que se introducen más de dos condiciones entre las posibles a seleccionar. Es decir, si sólo se necesitan dos condiciones (por ejemplo, tomar una decision dependiendo de si un número es positivo o negativo) se puede escribir:

In [None]:
# Uso de if con solo dos condiciones

miNumero = -75

if miNumero >= 0:
  print('El número es positivo')
else:
  print('El número es negativo')

Obsérvese que en este caso, la condición para positivo se tomó mayor o igual a cero.

La instrucción `if` puede, por supuesto, emplearse para tomar acciones dependiendo de condiciones en cualquier tipo de variable, no solo las numéricas, de modo que también es posible escribir un código como el siguiente:

In [None]:
# ¿Cual es el nombre de la persona almacenada en la variable?

suNombre = 'Pedro'

if suNombre == 'Ana':
  print('Su nombre es Ana')
else:
  print('No es Ana, es '+str(suNombre))

Ahora sustituya Pedro por Ana en el nombre del a variable y vuelva a ejecutar la celda (note que el signo de comparación entre variables es doble igual == ). De esta manera, se observa que las condiciones pueden aplicarse tanto a números, como a caracteres y variables booleanas.

**Nota**: en Python la *indentación* es importante. La *indentación* se refiere al sangrado o espacio que existe de una línea a la otra cuando se aplican instrucciones de tipo bucle, de control de flujo, cuando se declaran funciones, etc. En el caso de los ejemplos anteriores, note que luego de la instrucción `if` y sus respectivos : todo lo que se escriba justo después debe colocarse dejando una sangría (cuatro espacios de la barra espaciadora) con el fin de que el código "entienda" que esa sección de instrucciones pertenecen a esa condición. Esto podrá verse con mayor claridad a medida que avancemos en los ejemplos, pero lo relevante acá es resaltar que la *indentación* del código debe respetarse y, de hecho, los *Jupyter Notebooks* aplican la *indentación* de manera automática a medida que se escribe el código. Sin embargo, es importante siempre estar atento a ello y verificar, en caso de presentarse un error, de que no se deba a problemas con la *indentación*.

## for

La instrucción `for` es quizá la herramienta de control de flujo más usada y que, por su utilidad, conviene aprender a usar con claridad. A diferencia de otros lenguajes de programación (como C o Pascal), la instrucción `for` en Python no permite *iterar* en una progresión de números desde un prinpicio y un fin determinado, sino que permite iterar a lo largo de cualquier secuencia (una lista o un `string`, por ejemplo), en el orden en el que los elementos aparecen en la secuencia.

A fin de entender mejor este concepto, veamos algunos ejemplos.

Definamos, en primer lugar, una lista de números, como la que ya hemos trabajado antes:

In [None]:
edades = [12, 16, 22, 54, 18, 79, 42, 7, 21]
print(edades)

Nótese que al imprimir la variable, Python nos devuelve el objeto entero con todos sus elementos. ¿Pero cómo haríamos si necesitácemos revisar el contenido de la lista elemento por elemento? Esto es lo que se conoce como un proceso *iterativo*, es decir, repetir la misma operación de manera sucesiva sobre una secuencia de datos.

En este caso, hacemos uso del `for` de la siguiente manera:

In [None]:
# Ejemplo de iteracion con for sobre una lista

for e in edades:
  print(e)

En este caso, la variable "e" después del `for` adquirirá el valor de cada uno de los elementos de la lista `edades` en cada iteración, que luego imprimiremos por pantalla haciendo uso del `print()`. Como resultado, el programa muestra, línea por línea, cada número que contiene la lista.

El nombre de la variable iterativa puede ser cualquiera, pero la recomendación es que ésta refleje de alguna manera el contenido de lo que se desea iterar. Por ejemplo:

In [None]:
personas = ['Jose', 'Ana', 'Maria', 'Jesus', 'Esther', 'Eduardo']

for nombres in personas:
  print(nombres)

Del mismo modo, la iteración puede hacerse sobre una variable de tipo `string`:

In [None]:
# Ejemplo de iteracion con for sobre un string

miTexto = "Hola Mundo!"

for letras in miTexto:
  print(letras)

En este caso, la iteración se hace letra por letra sobre la cadena original completa, de modo que cada una de ellas se imprime en una línea distinta, como se observa tras ejecutar la celda.

Ahora bien, si necesitamos iterar una secuencia de números para, por ejemplo, recorrer un `string` o una lista a partir de sus índices, podemos hacer uso de la función `range()`:

In [None]:
# Iterar secuencias de números con range()

for i in range(5):
  print(i)

Nótese que en esta oportunidad se incrementa un número seguido del otro a partir de cero y terminando en cuatro (es decir, cinco iteraciones en total, como se especificó en `range(5)`).

Así, podemos usar entonces esta secuencia numérica para iterar a partir de los índices de una lista o una cadena de caracteres de la siguiente manera:

In [None]:
# Iterar una lista usando range y los indices

# Retomemos de nuevo la lista edades
edades = [12, 16, 22, 54, 18, 79, 42, 7, 21]

# Para conocer la cantidad de elementos que hay en la lista, podemos usar la 
# funcion len()
longitud = len(edades)
print('La lista edades tiene '+str(longitud)+' elementos...')

# Ahora iteramos como elementos tenemos
print('Las edades son:')
for i in range(longitud):
  print(edades[i])

Como se observa, se recorre entonces la lista `edades` elemento por elemento, pero haciendo referencia al índice durante cada iteración.

Del mismo modo, podemos aplicarlo para un `string`:

In [None]:
frase = 'Erase una vez...'

for i in range(len(frase)):
  print(frase[i])

¿Observa cómo se incorporó la función `len()` dentro de la función `range()`? En general, esto es posible para cualquier función o grupo de funciones en Python, aunque se recomienda no abusar de este tipo de estructuras para no afectar la claridad y legibilidad del código.

A modo de práctica, complete la celda siguiente a fin de iterar la lista:

In [None]:
# Complete el codigo para iterar la lista usando las funciones len() y range()

participantes = ['Nelson', 'Jessica', 'Armando', 'Helena', 'Natalia', 'Ricardo']

# Almacene en una variable la longitud de la lista

# Itere la lista a fin de mostrar cada uno de los elementos de la lista a partir
# de sus indices


## La instrucción `break`

Esta instrucción se emplea para detener la ejecución del `for` que le precede. Veamos:

In [None]:
# Ejemplo de utilizacion del comando break

# Definimos una lista
lista = [2, 4, 6, 8, 10, 12, 14, 16]

# Iteramos a lo largo de la lista pero, si alguno de los valores de la lista
# es igual a 10, detenemos las iteraciones y salimos del for
for l in lista:
  print('El numero es '+str(l))
  if l == 10:
    break

En este caso, no solo empleamos una instrucción `if` dentro de un `for`, sino que lo hicimos para detener la ejecución de dicho `for` si se consigue la condición, es decir, si algún elemento de la lista es igual a 10. 

En general, es posible incorporar bucles `for` e instrucciones `if` las unas dentro de las otras, lo que se conoce como estructuras *anidadas*. Por ejemplo:

In [None]:
# Definamos una lista de listas
dobleLista = [[0, 1, 2], [6, 7, 8], [10, 12, 14]]
print('dobleLista es: ')
print(dobleLista)

# Iteremos, primero, a lo largo de los elementos de la lista principal
print('Las listas internas son: ')
for elems in dobleLista:
  print(elems)
  print('Los elementos son: ')
  for n in elems:
    print(n)

Vemos que, en efecto, el primer bucle itera a lo largo de los elementos de la lista principal, y el segundo a lo largo de cada uno de los elementos de las sublistas. Luego, podemos incluir un comando `break` si se cumple una condición `if` dada:

In [None]:
# Detengamos la iteracion sobre los elementos internos si encontramos el numero
# 7 entre ellos

print('Las listas internas son: ')
for elems in dobleLista:
  print(elems)
  print('Los elementos son: ')
  for n in elems:
    print(n)
    if n == 7:
      print('Encontramos un 7!')
      break

Obsérvese que en este código, una vez que se encuentra el número 7 no se ejecuta la siguiente instrucción (es decir, la que mostraría el número 8) pero sí se ejecuta el siguiente bucle, correspondiente al de la lista principal. Como se mencionó, el comando `break` solo interrumpe la ejecución del `for` precedente inmediato.

## `while`

La instrucción `while` viene a ser equivalente al bucle `for`, solo que las iteraciones se realizan "mientras" se cumpla una cierta condición. Veamos el siguiente código:

In [None]:
# Ejemplo de uso de la instruccion while

# Definamos una variable t igual a cero
t = 0

# Mientras la variable t valga menos que 10, iteramos e incrementamos en 1 la variable
while t < 10:
  print('El valor de t es: '+str(t))
  t = t+1

Como se observa en el código, la variable inicializada como cero se irá incrementando en cada iteración "mientras" sea menor que cero, que fue lo que se colocó como condición del `while`. Una vez se hace igual a cero, la ejecución del código termina.

Cuando se trata de la función `while` hay que tener mucho cuidado al usarla, porque se corre el riesgo de caer en un "bucle infinito" si la condición no se escribe o se cumple de manera correcta. Por ejemplo, ¿qué pasaría si en el código anterior nunca incrementamos en 1 el valor de la variable t y, por lo tanto, nunca será mayor o igual a 10?.

En este caso, el bucle interior se repetirá de manera infinita, y como nunca se cumple la condición, el programa seguirá corriendo de manera indefinida y se bloqueará la máquina.

Si lo desea, puede hacer la prueba en una nueva celda, pero si es así, tendrá luego que intentar detener la ejecución de la celda haciendo clic en el símbolo de "detener" que aparece a la izquierda de la celda, y si la computadora no responde tendrá que insistir hasta que el *Notebook* muestre el mensaje de "Reiniciar el entorno de ejecución".

Esta es una de las razones por la cual la instrucción `while` no suele usarse tanto como el `for`.

# Trabajando con funciones en Python

En programación, podemos entender las funciones como objetos que convierten una entrada en una salida de otro tipo de la misma forma que las funciones matemáticas de tipo $y = f(x)$. En este caso, $x$ representa un dato de entrada al cual, tras aplicársele una función $f()$, se obtiene un dato distinto $y$.

En este sentido, las funciones en Python se construyen con la idea de facilitar cálculos o rutinas que pueden repetirse varias veces a lo largo de un programa, o bien para crear código más compacto, modular y fácil de leer y trabajar.

Volviendo al ejemplo anterior del cálculo del área de un triángulo, ya vimos que una manera válida de realizar dicho cálculo es la siguiente:

In [None]:
# Calculo del area de un triangulo

# Datos
base = 10.245
altura = 25.45

# Formula A = (b*h/2)
area_triangulo = (base*altura)/2

print(area_triangulo)

Ahora bien, si a lo largo de nuestro programa necesitácemos calcular el área de 100 triángulos, no tendría sentido repetir este mismo código cien veces y modificar los datos cada vez que tengamos un nuevo triángulo. Para ello, es preferible escribir una función que calcule el área del triángulo, y luego aplicar dicha función sobre los datos distintos cada vez. Por ejemplo, dicha función podría ser:

In [None]:
# Funcion para calcular el area de un triangulo dadas su base y su altura

def area_triangulo(b, h):
  area = (b*h)/2
  return area

(Recuerde ejecutar la celda anterior. En este caso no se obtiene salida, pero igual debe ejecutar la celda a fin de definir la función de manera correcta). 

Obsérvese que el nombre de la función es `area_triangulo()` y los *argumentos* de la función son la base y la altura, que deben ser colocados dentro de la función separados por coma como se observa. Dentro de la función se calcula el área según la fórmula conocida, y con el comando `return` se especifica el resultado que *devuelve* la función.

Una vez que se cuenta con dicha función, podemos emplearla cada vez que necesitemos calcular dicha área, por ejemplo:

In [None]:
# Primer ejemplo

nuevaBase = 102.3
nuevaAltura = 8.7

nuevaArea = area_triangulo(nuevaBase, nuevaAltura)

print(nuevaArea)

In [None]:
# Segundo ejemplo

otraArea = area_triangulo(33.5, 105.6)
print(otraArea)

Como se puede ver, es posible colocar directamente como argumento de la función los valores numéricos, o bien se pueden emplear variables. Además, es posible utilizar funciones, por ejemplo, dentro de bucles de control:

In [None]:
# Ejemplo de uso de funciones dentro de bucles

# Definimos vectores que almacenan las bases y las alturas
bases = [2, 4, 6, 8, 10]
alturas = [10, 12, 14, 16, 18]

# Definimos un vector vacio que almacenara el resultado de las areas para cada par
# base y altura
areasTriangulos = []

# Obtenemos la cantidad de areas a calcular
elementos = len(bases)

# Iteramos a lo largo de la cantidad de elementos, es decir triangulos a calcular
# sus bases
for elems in range(elementos):
  b = bases[elems]
  a = alturas[elems]
  areas = area_triangulo(b, a)

  areasTriangulos.append(areas)

# Observamos el resultado de las areas
print(areasTriangulos) 


Vemos que el vector resultante contiene las áreas correctas en cada uno de sus elementos.

Es importante mencionar que el mismo código de iteración pudiera haberse escrito de la siguiente manera:

In [None]:
# Vamos a almacenarlos en un nuevo vector
nuevosTriangulos = []

# Iteramos a lo largo de la cantidad de elementos, es decir triangulos a calcular
# sus bases
for elems in range(elementos):
  nuevosTriangulos.append(area_triangulo(bases[elems], alturas[elems]))

print(nuevosTriangulos)
  

En este caso, estamos colocando todas las instrucciones necesarias en una sola línea dentro del bucle. Observe que el resultado final de las áreas es el mismo que el anterior.

De cualquier modo, la ventaja de trabajar con funciones es que simplifica la ejecución de cálculos repetitivos además de que permite modularizar y escribir de una manera más ordenada y natural un programa, sobre todo cuando éste es muy extenso. Dependiendo del tipo de problema, además, podemos darle nombre a nuestras funciones de tal modo que nos permitan entender mejor lo que se hace a lo largo del mismo.

Las funciones, por supuesto, aceptan argumentos de todo tipo, por lo que se recomienda estudiar sus múltiples utilidades:

In [None]:
# Ejemplo de funcion con argumentos tipo lista

# Funcion para mostrar usuarios almacenados en lista
def mostrar_usuarios(usrs):
  for elems in usrs:
    print("Nombre de Usuario: "+elems)

registro = ['Hector', 'Yolanda', 'Sofia', 'Alejandro', 'Eva', 'Victor']

# Usamos la función sobre la variable registro
mostrar_usuarios(registro)

# Ejercicio práctico #1

Ahora que ya conoce los fundamentos más básicos de programación en Python, vamos a realizar un primer ejercicio práctico que le permita aplicar parte de lo que ha aprendido hasta el momento.

En este caso, escribirá un programa para indicar si los valores de los elementos de un vector son menores, mayores o iguales a cero, y almacenar dichos resultados en un segundo vector de caracteres. Luego, escribirá una función que haga lo mismo de tal forma que pueda usarlo cada vez que sea necesario.

En primer lugar, defina un vector llamado `cantidades` que contenga los siguientes elementos en el mismo orden: -1, 12, 19, -50.3, 14, 0, 17, 8, -45, -3 y muéstrelos por pantalla:


In [None]:
# Defina el vector cantidades y luego imprimalo en pantalla


Ahora defina un vector vacío llamado `resultados` en donde almacenará los resultados finales:

In [None]:
# Defina el vector resultados como vacio


Ahora, determine la longitud del vector `cantidades` y luego escriba un bucle que itere a lo largo de todos los elementos de dicho vector y agregue al vector `resultados` el caracter `Mayor` si el valor numérico es mayor que cero, `Menor` si el valor numérico es menor que cero, e `Igual` si el valor numérico es igual a cero. Para ello, haga uso de las funciones `len()`, `for`, `range()`, `if` y `append()` de la manera adecuada:

In [None]:
# Determine la longitud del vector de cantidades

# Haciendo uso de for y range, itere a lo largo de los elementos del vector cantidades

  # Haciendo uso de if, elif y else, aplique las condiciones descritas sobre los indices
  # del vector cantidades de la manera apropiada, y almacene el string resultante (Mayor, Menor, Igual) 
  # sobre el vector resultados usando append()


Por último, imprima en pantalla cada uno de los elementos del vector `resultados` usando un `for`:

In [None]:
# Imprima los elementos del vector de resultados usando un for


Finalizado el ejercicio, la salida de dicho último paso debería ser:

Menor

Mayor

Mayor

Menor

Mayor

Igual

Mayor

Mayor

Menor

Menor

Ahora, escriba una función llamada `MayorMenorQue()` que tome como argumento un vector de cantidades y devuelva una lista como la resultante anterior. 

Por último, aplique dicha función sobre el vector $x = [-0.5, 12, 0, -30, 100, 12, -3, 3, 4, 0, -5, -47]$ y valide el resultado obtenido.

In [None]:
# Funcion MayorMenorQue()


# Comprensión de Listas (List Comprehension)

La comprensión de listas es una técnica *sintáctica* de Python que permite la creación de listas de una forma rápida de escribir, legible y eficiente. Es recomendable el estudio detenido de este recurso ya que, aunque al principio resulta un tanto complicado de entender, su uso en el lenguaje es muy común y con frecuencia lo encontramos en códigos empleados para resolver cualquier variedad de problemas.

A fin de entender el concepto, partamos de un ejemplo: supongamos que deseamos crear una lista de los cuadrados de una secuencia de números. Considerando lo que ya hemos aprendido con anterioridad, podríamos crear dicha lista con el siguiente código:

In [None]:
# Creacion de lista de cuadrados de numeros

cuadrados = []
for x in range(10):
  cuadrados.append(x**2)

print(cuadrados)

Podemos ver que, ya que el rango del bucle es 10, entonces se crea una lista del cuadrado de los números de 0 a 9 (es decir, $0^2, 1^2, 2^2, 3^2,...,9^2$).

Ahora bien, se puede crear la misma lista usando *comprensión de listas* de la siguiente manera:

In [None]:
cuadrados_por_comprension = [x**2 for x in range(10)]
print(cuadrados_por_comprension)

Así, toda comprensión de lista está estructurada con unos corchetes [ ] que contienen una *expresión*, seguida de un `for`, y luego ninguna o más de una instrucción `for` o `if`. 

Veamos otro ejemplo. Tomando un caso similar al trabajado anteriormente, supongamos que tenemos una lista de números tanto negativos como positivos, y queremos, a partir de ella, construir otra lista pero seleccionando solo los números negativos. Esto podríamos realizarlo con el siguiente código:

In [None]:
# Seleccion de numeros negativos de una lista

numeros = [10, 2, -3, -4, 0, 14, -57, 6, 16, -20]

negativos = []
for i in numeros:
  if i<0:
    negativos.append(i)

print(negativos)

Este mismo cálculo se puede escribir con comprensión de listas de la siguiente manera:

In [None]:
# Seleccion de numeros negativos de una lista usando comprensión de listas

numeros = [10, 2, -3, -4, 0, 14, -57, 6, 16, -20]

negativos_por_comprension = [i for i in numeros if i<0]

print(negativos_por_comprension)

A fin de reforzar la idea, veamos otro ejemplo: consideremos la siguiente lista de strings:

In [None]:
lenguajes = ['python', 'r', 'c++', 'matlab', 'java']
print(lenguajes)

['python', 'r', 'c++', 'matlab', 'java']


Vamos a crear una nueva lista a partir de la anterior, pero transformando a mayúscula la primera letra de cada string:

In [None]:
# Conversion a mayuscula de la primera letra de cada string

lenguajes_mayuscula = []
for items in lenguajes:
  lenguajes_mayuscula.append(items.capitalize())

print(lenguajes_mayuscula)


En este ejemplo, hemos usado la función `capitalize()` aplicable a tipos de dato `string` a fin de convertir a mayúsculas la primera letra.

Ahora bien, el mismo código puede escribirse de una manera más concisa usando comprensión de listas:

In [None]:
# Conversion a mayuscula de la primera letra de cada string usando comprension
# de listas

lenguajes_mayuscula_por_comprension = [items.capitalize() for items in lenguajes]

print(lenguajes_mayuscula_por_comprension)

['Python', 'R', 'C++', 'Matlab', 'Java']


Por supuesto, la comprensión de listas también puede emplearse para crear listas anidadas. Observemos el siguiente código:

In [None]:
# Dados dos vectores que tienen elementos comunes, creemos una lista de listas
# que incluyen los elementos no comunes != (diferente de)

vector1 = [1, 2, 3]
vector2 = [3, 1, 4]

distintos = []
for x in vector1:
  for y in vector2:
    if x != y:
      distintos.append([x, y])

print(distintos)

En este caso se observa que el primer bucle recorre el `vector1` y va comparado su valor actual con cada uno de los elementos del `vector2`. Si los valores son distintos, los almacena como una lista `[x, y]`.

Usando comprensión de listas, esto mismo puede escribirse así:


In [None]:
distintos_por_comprension = [[x,y] for x in vector1 for y in vector2 if x != y]
print(distintos_por_comprension)

En función de esto, haga el siguiente ejercicio - a partir del código:

In [None]:
# Ejercicio 1 de comprension de listas

secuencia = [12, -3, 0, 45, 3, 0, 4, 0, -21, 0, 18, 0]

no_cero = []
for i in secuencia:
  if i != 0:
    no_cero.append(i)

print(no_cero)

Escriba a continuación el mismo algoritmo pero usando comprensión de listas:

In [None]:
# Resolver Ejercicio 1 usando comprension de listas



Ahora, convierta el siguiente código a su versión con comprensión de listas:

In [None]:
# Ejercicio 2 de comprension de listas

nombres1 = ['Maria', 'Pedro', 'Ana', 'Nelson']
nombres2 = ['Jose', 'Ana', 'Manuel', 'Pedro']

iguales = []
for x in nombres1:
  for y in nombres2:
    if x == y:
      iguales.append([x, y, 'Iguales'])

print(iguales)

In [None]:
# Resolver Ejercicio 2 usando comprension de listas


# Tuplas y Secuencias

En Python, tanto las listas como la secuencias numéricas que surgen al aplicar la función `range()` se consideran dentro del lenguaje como tipos de datos en forma de Secuencias. Ahora bien, una característica fundamental de, por ejemplo, las listas, es que sus elementos son *mutables*, es decir, pueden ser modificados sus valores:

In [None]:
miLista = [1, 2, 3, 4, 5, 6]
print(miLista)

miLista[4] = 25
print(miLista)

Las *tuplas*, por su parte, consisten en una secuencia de número *inmutables*, que se definen separados por comas:

In [None]:
miTupla = 1, 2, 3, 4, 5, 6
print(miTupla)

En este caso, se observa que el resultado coloca la secuencia de números entre paréntesis, lo que funciona como manera para distinguir listas de tuplas.

Podemos hacer referencia a los elementos de la tupla por su índice:

In [None]:
print(miTupla[0])

print(miTupla[4])

Pero no podemos modificar el valor de un elemento:

In [None]:
miTupla[3] = 14
print(miTupla)

Las tuplas pueden contener elementos de distinto tipo, y también pueden definirse tuplas de tuplas:

In [None]:
tupla1 = 1, 2, 3, 'Maria'
tupla2 = 'Python', 'C++', True

tupla3 = (tupla1, tupla2)
print(tupla3)

Y el acceso a sus elementos puede hacerse con corchetes de la misma manera que las listas:

In [None]:
print(tupla3[0][2])

print(tupla3[1][2])

Aunque parecen similares a las listas, las tuplas suelen emplearse cuando se trabajan con secuencias de datos que no cambian su valor a lo largo de la ejecución de un programa entero, o bien cuando se desea garantizar que una cantidad relevante permanezca *inmutable* en todo el algoritmo (por ejemplo, una secuencia de constantes matemáticas), por lo que es importante conocerlas como uno de los tipos de datos presentes en Python a fin de no caer en confusiones cuando nos encontramos con una de ellas o bien cuando comparamos con las listas tradicionales.

# Diccionarios
Los diccionarios suelen conocerse en otros lenguajes de programación como *memorias asociativas* o *arreglos asociativos*. A diferencia de las secuencias, que son indexadas a partir de rangos numéricos, los diccionarios son indexados con "claves" o *keys*.

Una manera de entender a los diccionarios es como una secuencia de pares *clave*:*valor* o bien *key*:*value*, con el requisito de que las *keys* deben ser siempre únicas dentro de un mismo diccionario. Veamos algunos ejemplos de su uso:

In [None]:
# Definicion de diccionarios

clientes = {'Maria': 33, 'Jose': 25, 'Ana': 21}
print(clientes)

Nótese que para definir un diccionario se deben emplear llaves {}, y que cada elemento (par key:value) va separado por comas. En este caso, los *keys* del diccionario `clientes` son los nombres, mientras que los valores de cada uno son las edades.
De modo que, si deseamos saber las edades de los clientes individuales, no hacemos referencia a su índice, sino a su *key*:

In [None]:
print(clientes['Maria'])

print(clientes['Ana'])

Si deseamos agregar un nuevo elemento al diccionario, basta con incorporarlo de la siguiente manera:

In [None]:
clientes['Nelson'] = 64
clientes['Patricia'] = 42
print(clientes)

Si deseamos eliminar un registro del diccionario, usamos la función `del`:

In [None]:
del clientes['Nelson']
print(clientes)

Si aplicamos la función `list()` a un diccionario, nos devuelve las *keys* en el orden en el que fueron creadas:

In [None]:
list(clientes)

Y si usamos la función `sorted()`, nos devuelve las *keys* en orden alfabético o numérico:

In [None]:
sorted(clientes)

Podemos saber si una *key* forma parte o no de un diccionario usando los operadores `in` o `not in`:

In [None]:
# ¿Esta Ana en clientes?
'Ana' in clientes

In [None]:
# ¿Esta Nelson en clientes?
'Nelson' in clientes

In [None]:
# ¿No esta Nelson en clientes?
'Nelson' not in clientes

In [None]:
# ¿No esta Maria en clientes?
'Maria' not in clientes

Por otro lado, la función `dict()` permite crear diccionarios directamente de tuplas de valores:

In [None]:
# Creacion de diccionario a partir de tuplas

miDiccionario = dict([('Primer',102),('Segundo', 201),('Tercero', 45)])
print(miDiccionario)

Y además, es posible crear un diccionario usando comprensión de listas:

In [None]:
# Diccionario a partir de una comprension de listas

cubos = {x:x**3 for x in range(10)}
print(cubos)

Con los diccionarios también es posible hacer bucles para obtener tanto sus *keys* como sus *values* de manera simultánea, y para ello se utiliza la función `items()`:

In [None]:
# Bucles con los diccionarios

correos = {'Maria': 'mariab@correo.com', 'Nelson': 'nramirez@python.com', 'Patricia': 'patri32@coding.com'}
print(correos)

for k,v in correos.items():
  print('El correo de '+k+' es '+v)

**Nota**: para el caso de las listas, también es posible realizar un bucle que arroje tanto el índice como el valor del elemento de manera simultánea, usando la función `enumerate()`:

In [None]:
# Ejemplo de uso de la funcion enumerate()

apellidos = ['Ramirez', 'Gonzalez', 'Paredes', 'Guerra']

for i,v in enumerate(apellidos):
  print('Indice='+str(i)+' Apellido: '+v)

La utilidad de los diccionarios está muy relacionada con el tipo de programa o aplicación que se desarrolla o bien el problema que se resuelve. Dadas sus características, los diccionarios son ideales cuando se desean almacenar datos que puedan referenciarse, por ejemplo, por un nombre (en este caso, las *keys*) y cuyo valor sea una cantidad numérica o algún otro dato que se necesite a efectos de realizar un algoritmo. Por ejemplo:

In [None]:
# Diccionario de constantes matemáticas

constantes = {'Pi': 3.1415, 'e': 2.71828, 'c': 299792.5}

print('La velocidad de la luz es '+str(constantes['c'])+' Km/s')
print('El número Pi es '+str(constantes['Pi']))
print('La constante de Euler es '+str(constantes['e']))

multiplicacion = constantes['Pi']*constantes['c']
print('La multiplicacion de Pi*c es '+str(multiplicacion))

# Input y Output


## Output
Como vimos en ejemplos pasados, cuando se escribe código en Python y se desea imprimir en pantalla el resultado de una operación o bien algún tipo de texto que combine caracteres y números, es posible hacerlo del modo siguiente:

In [None]:
# Salida por pantalla

variable = 256
print('El valor de la variable es '+str(variable))

Sin embago, es posible darle mayor control y calidad a las salidas por pantalla si se hace uso del método `str.format()` propio de Python. Veamos algunos ejemplos:

In [None]:
# Ejemplos del uso de str.format()

print('El valor de la variable es {}'.format(variable))

Obsérvese que se usa el {} dentro del string para indicar que allí se colocará el valor de `variable`. Esto puede emplearse para mostrar múltiples resultados:

In [None]:
print('El valor de la constante {} es {}'.format('Pi', 3.1415))

También pueden emplearse argumentos posicionales:

In [None]:
# El indice hace referencia a cual de los valores del .format() se muestra primero

print('Primero viene el {0} y luego el {1}'.format('Uno', 'Dos'))
print('Primero viene el {1} y luego el {0}'.format('Uno', 'Dos'))

También puede establecerse la cantidad de números decimales (precisión) a mostrar en un resultado:

In [None]:
# Solo mostrar 3 valores decimales del resultado

resultado = 25.1215418
print('Resultado es {:.3f}'.format(resultado))

En este caso, `:.3f` significa muestra hasta 3 valores decimales de una variable tipo float.

Ahora bien, a partir de la versión de Python 3.6, se introdujo además lo que se conoce como *f-strings*, que son una forma equivalente de darle formato a las salidas de texto y hacerlas un poco más legibles.

Para usar los f-strings, basta con colocar una f al principio de la cadena de caracteres que se quiere escribir, y luego un {} con la variable a desplegar en su interior. Veamos un ejemplo:

In [None]:
# Salida por pantalla con f-string

variable = 1024
print(f'El valor de la variable es {variable}')

El valor de la variable es 1024


Obsérvese como, en efecto, el comando resulta más sencillo pues la variable toma la posición en donde será desplegada, y solo basta agregar la f al principio del string para que funcione. Veamos otros ejemplos similares a los anteriores:

In [None]:
# Multiples f-strings
Pi = 3.1415
Euler = 2.718
print(f'El valor de la constante Pi es {Pi}, el valor de la constante de Euler es {Euler}')

El valor de la constante Pi es 3.1415, el valor de la constante de Euler es 2.718


Del mismo modo, también es posible incluir en los f-string la cantidad de cifras a representar:

In [None]:
# Decimales con f-strings
resultado = 252.648188
print(f'Resultado es {resultado:.2f}')

Resultado es 252.65


## Input

Cuando se desea realizar introducción de información a partir del teclado, se trabaja entonces con la función `input()`. En este caso, al ejecutar la función en una celda de un Jupyter Notebook, la misma se quedará esperando hasta que se introduzca la información requerida y se presione *Enter*, como vemos a continuación:

In [None]:
# Uso de la función input()

nombre = input('Por favor introduzca su Nombre: ')

In [None]:
edad = input('Por favor introduzca su Edad: ')

In [None]:
print('La edad de {} es {}'.format(nombre, edad))

**Nota**: Siempre que se introduzca un número en una función `input()`, éste la tomará como un `string`, de modo que si se quiere utilizar dicho número para un cálculo posterior, hay que convertirlo a su tipo de dato correcto, es decir: 

In [None]:
# El tipo de dato de edad es string
type(edad)

# Para usarlo como numero luego, hay que convertirlo
edad = int(edad) # Tambien puede ser float() dependiendo del caso y naturaleza de la variable
type(edad)

# Ahora puede ser, por ejemplo, sumado o multiplicado con otro número
print(edad+10)

Por último, es importante conocer las funciones existentes en Python para escribir y leer en archivos, a fin de contar con mayores herramientas y versatilidad a la hora de cargar y guardar información. Para ello, veamos el cómo se utilizan las funciones `write()` y `read()`.

En primer lugar, antes de leer o guardar en cualquier archivo, es necesario crear un objeto de tipo *archivo* con la función `open()`:

In [None]:
# Creacion de un objeto tipo archivo

f = open('miarchivo.txt', 'w')

Al ejecutar esta instrucción, se está creando el objeto `f` que es de tipo archivo. El primer argumento de la función es el nombre que llevará el archivo creado, y el segundo es el modo de operación. En este caso `w` se refiere a solo escritura, `r` se refiere a solo lectura, y `a` se refiere a agregar datos sin borrar lo anterior.

Sin embargo, la función `open()` solo crea el objeto. Todavía no hemos escrito nada en dicho archivo. Para ello, se utiliza la función `write()`:


In [None]:
# Escritura en el archivo

string = 'Voy a guardar este string en el archivo miarchivo.txt\nEsta es la segunda linea del archivo.'
          # El caracter \n indica el final de una linea

# Ahora voy a llamar a la funcion write sobre el objeto f creado previamente.
# El argumento sera el string o el dato a almacenar
f.write(string)

# Luego cierro el archivo
f.close()

Para ahora leer la información de dicho archivo, se emplea la función `read()`:

In [None]:
# Leer del archivo ya creado

# Creo una string vacia
nueva_string = ''
print(nueva_string)

# Creo el objeto tipo archivo en solo lectura
# El primer argumento debe tener el nombre del archivo a leer
# Y el archivo debe estar copiado en la misma carpeta que el Notebook
f = open('miarchivo.txt', 'r')

# Leo la informacion del archivo y lo guardo en la variable nueva_string
nueva_string =f.read()

# Cierro el archivo
f.close()

# Imprimo lo leido
print(nueva_string)

También es posible leer el archivo línea por línea:

In [None]:
# Leer el archivo linea por linea

# Creo el objeto tipo archivo en solo lectura
f = open('miarchivo.txt', 'r')

# Muestro la informacion de la primera linea
print(f.readline())

# Muestro la información de la segunda linea
print(f.readline())

# Cierro el archivo
f.close()

O incluso puede hacerse un bucle sobre cada linea del archivo:

In [None]:
# Creo el objeto tipo archivo en solo lectura
f = open('miarchivo.txt', 'r')

# Bucle a lo largo del archivo
for line in f:
  print(line)

# Cierro el archivo
f.close()

Finalmente, si se desea guardar el archivo creado, es necesario *importar* una librería específica (lo veremos más adelante) de Google Colab, y luego llamar a la función `download` de dicha librería.

Solo a modo de ejemplo, ejecutar el siguiente código:

In [None]:
# Creo el objeto tipo archivo en solo lectura
f = open('miarchivo.txt', 'r')

# Leo el archivo
f.read()

# Cargar librería de Google Colab y descargar archivo
from google.colab import files
files.download('miarchivo.txt')

Esto levantará una ventana de "Guardar como" donde podrá seleccionar el lugar donde guardar el archivo creado. 

# Librerías e *imports*
En Python, las librerías son un conjunto de módulos, funciones o métodos que amplian las capacidades del lenguaje y que ofrecen la posibilidad de llevar a cabo una gran cantidad de cálculos y operaciones especiales o específicas sin necesidad de escribir un código particular para cada una de ellas. Estas capacidades van desde librerías estándar para, por ejemplo, incorporar funciones matemáticas a los códigos escritos, o bien otras para el cálculo numérico avanzado, procesamiento digital de imágenes, base de datos, desarrollo web, inteligencia artificial, entre muchos otros (para la fecha, solamente el módulo estándar de Python tiene más de 200 librerías, y existen muchas otras más desarrolladas por terceros en modalidad open-source).

Para "llamar" a una librería en Python, se usa el comando `import`, esto significa que al escribir dicha palabra y luego el nombre de la librería, se estarán cargando todos los módulos y funciones asociadas a la misma y, por lo tanto, se podrán usar en nuestro programa.

Por ejemplo, supongamos que deseamos desarrollar una aplicación que requiera el cálculo de funciones matemáticas y trigonométricas como el seno, coseno, tangente, etc. Para ello, Python cuenta con la librería `math`, a la cual accedemos de la manera siguiente:

In [None]:
# Importamos la librería math
import math

# Una vez importada, podemos usar sus funciones
print('Pi: '+str(math.pi))

x = 0.12458
seno = math.sin(x)

print('El seno de {} es {}'.format(x, seno))

y = 12.12515
log = math.log(y, 2)

print('El logaritmo base 2 de {} es {}'.format(y, log))

Nótese que siempre que se quiere usar alguna de las funciones que forman parte de la librería, se debe escribir el nombre de la librería seguida de punto: `math.pi`, `math.cos()`, etc. Veamos otros ejemplos:

In [None]:
# Importamos la libreria random
import random

# Definimos una lista
nombres = ['Ana', 'Jose', 'Maria', 'Patricia', 'Nelson']

# Hacemos selecciones al azar dentro de la lista usando la funcion choice de la librería random
seleccion = random.choice(nombres)
print('El elegido fue {}'.format(seleccion))

# Podemos hacer un muestreo al azar sin reemplazo
# En este caso, tomamos 10 muestras al azar en un rango que va de 0 a 100
muestra = random.sample(range(100), 10)
print(muestra)

Ejecute esta última celda varias veces para observar cómo en cada caso tanto la selección como el vector de muestras cambia, ya que se toman al azar cada vez.

Gracias a las librerías podemos, por ejemplo, realizar operaciones estadísticas sobre conjuntos de datos sin necesidad de escribir código propio:

In [None]:
# Importamos la libreria statistics
import statistics

# Definimos una data
data1 = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]

# Calculamos estadistica de la data
media = statistics.mean(data1)
mediana = statistics.median(data1)
variancia = statistics.variance(data1)
desviacionstd = statistics.stdev(data1)

print('La media es {}\nla mediana es {}\nla variacia es {}\nla desviacion estandar es {}'.format(media, mediana, variancia, desviacionstd))

Adicionalmente, es posible otorgar un *alias* al cargar las librerías a fin de facilitar un poco la escritura y la legibilidad del código, sobre todo cuando las librerías tienen nombres muy largos. Por ejemplo, podemos otorgar el alias `stats` a la librería `statistics`:

In [None]:
# Importamos la libreria y le otorgamos el alias
import statistics as stats # Lease "importar statistics como stats"

# Usamos las funciones del mismo modo pero empleando el alias
data2 = [0.75, -1.75, 10.25, 0.02, -0.5, 0.25, 13.5]

media_data2 = stats.mean(data2)
variancia_data2 = stats.variance(data2)
desv_data2 = stats.stdev(data2)

print('La media es {}\nla variacia es {}\nla desviacion estandar es {}'.format(media_data2, variancia_data2, desv_data2))

Y por otro lado, también es posible importar funciones específicas de una librería dada (cuando se usa solo import + nombre de la librería, se están importando todas las funciones de dicha librería) usando el comando `from`:

In [None]:
# Importar una funcion específica de una librería
from datetime import date # Lease "de la libreria datetime importar date"

# Pedimos la fecha de hoy
fecha_hoy = date.today()

# Imprimimos el resultado
print('La fecha de hoy es {}'.format(fecha_hoy))

# Definimos una fecha de nacimiento
nacimiento = date(1970, 12, 22)

# Calculamos la diferencia entre la fecha de hoy y la de nacimiento
edad = fecha_hoy-nacimiento

# Mostramos la cantidad de dias desde el nacimiento
print('Los dias desde el nacimiento son {}'.format(edad.days))

A fin de conocer las funciones incluidas en una librería dada y cómo se utilizan cada una, es necesario recurrir a su documentación específica, que siempre puede conseguirse en internet. La documentación para la librería estándar de Python se encuentra disponible en el siguiente [link](https://docs.python.org/3/library/)

# Librería NumPy
NumPy es la principal librería para cálculo científico existente en Python. Esta ofrece la capacidad de crear arreglos multidimensionales con alto redimiento, así como las herramientas para poder trabajar con ellos de manera eficiente. En esta sección veremos una serie importante de ejemplos y usos de la librería, pues gran cantidad de otras librerías y algoritmos desarrollados en Python se valen de las funcionalidades de NumPy o bien la usan como base en lo que a manipulación de escalares, vectores y matrices se refiere.

Por convención, la manera de importar y darle *alias* a NumPy es:


In [None]:
# Importar NumPy

import numpy as np

En general, NumPy permite definir y trabajar con arreglos de 1D, 2D y 3D, usando la función `array()`, como veremos a continuación:

In [None]:
# Definicion de un arreglo unidimensional con NumPy

a = np.array([1, 2, 3, 4, 5])

print('Esto es un arreglo 1D de NumPy: ')
print(a)

Como vemos, dentro de la función `array()` se colocan los elementos del arreglo tal y como se trataran de una lista. Y del mismo modo que con las listas, a los elementos del arreglo se le puede acceder usando sus índices:

In [None]:
# Acceso a los elementos de un arreglo

print(a[1])
print(a[4])

Y también es posible iterar a lo largo de los elementos del arreglo, o bien usando índices:

In [None]:
# Iterando un arreglo de NumPy

print('Iterando por Elementos: ')
for elems in a:
  print(elems)

print('Iterando por indices: ')
for i in range(len(a)):
  print(a[i])

Para definir un arreglo bidimensional, se hace lo siguiente:

In [None]:
# Definicion de un arreglo bidimensional con NumPy

b = np.array([[2, 4, 6], [1, 3, 5]]) # Note el uso de los corchetes

print('Esto es un arreglo 2D de NumPy: ')
print(b)

De nuevo, se define el arreglo como si se tratase de una lista de listas, en donde cada lista interna se trata de una fila. Así, se pueden acceder a los elementos del arreglo usando índices como siempre:

In [None]:
# Para acceder a los elementos a partir de sus indices

print('Elemento en primera fila, segunda columna: ')
print(b[0][1])

print('Elemento en segunda fila, tercera columna: ')
print(b[1][2])

Recuerde que en Python los índices comienzan en cero, y que el orden en el que se representan los datos en los corchetes es filas-columnas.

Para iterar arreglos de dos o más dimensiones, es recomendable hacerlo a partir de sus índices. Sin embargo, es necesario primero conocer las dimensiones del arreglo a fin de saber por cuántas filas y columnas realizar las iteraciones. Para eso, se usa la función `shape`:

In [None]:
# Para conocer las dimensiones (forma) del arreglo

print('Las dimensiones del arreglo son: ')
print(b.shape)

filas = b.shape[0]
columnas = b.shape[1]

print('El arreglo tiene {} filas y {} columnas'.format(filas, columnas))

print('Podemos iterar a lo largo de filas y columnas:')
for f in range(filas):
  for c in range(columnas):
    print(b[f][c])

Nótese que la iteración primero recorre las filas y luego las columnas, es decir, para la primera fila, se imprimen en pantalla todas sus columnas (2, 4, 6), y luego para la segunda fila, se imprimen todas sus columnas (1, 3, 5).

Para conocer el número de elementos presentes en el arreglo:

In [None]:
# Numero de elementos en el arreglo

num_elems = b.size
print('El arreglo tiene {} elementos'.format(num_elems))

Y para conocer el tipo de dato almacenado en el arreglo:

In [None]:
# Tipo de dato en arreglo
print(b.dtype)

Los tipos de datos básicos para los arreglos son `int64`, `float32`, `bool` y `string_`.

En el caso anterior, al crearse al arreglo este tomó para sus tipo `int64`, pero es posible definir el tipo de dato al momento de crear el arreglo:

In [None]:
# Arreglo 2D con datos tipo float

c = np.array([[0.3, 3.4, 1.1], [-1.5, 0.54, 5.4]], dtype=np.float32)

print('Este arreglo es de tipo float: ')
print(c)
print(c.dtype)

El caso de un arreglo de 3 dimensiones puede entenderse como una matriz con "profundidad":

In [None]:
# Arreglo de 3 D

d = np.array([[[0, 1], [2, 3]], [[10, 11], [12, 13]]])

print('Esto es un arreglo 3D en NumPy: ')
print(d)

print('Las dimensiones del arreglo son: ')
print(d.shape)

profundidad = d.shape[0]
filas = d.shape[1]
columnas = d.shape[2]

print('El arreglo tiene {} filas, {} columnas y {} de profundidad'.format(filas, columnas, profundidad))

Nótese que, en el caso de tres dimensiones, el primer índice hace referencia a la profundidad, y los dos siguientes a las filas y columnas. De este modo, ¿cómo puede iterarse a lo largo del arreglo tridimensional? Veamos:

In [None]:
# Iterar en un arreglo tridimensional

for p in range(profundidad):
  for f in range(filas):
    for c in range(columnas):
      print(d[p][f][c])

¿Puede interpretar el resultado obtenido? ¿Es correcto según la lógica de ordenación de profundidad, filas y columnas?

Con NumPy, también es posible definir con facilidad arreglos predefinidos que suelen ser de uso frecuente, por ejemplo:

In [None]:
# Creacion de un arreglo lleno de ceros

ceros = np.zeros([3, 3]) # [3, 3] se refiere a 3 filas y 3 columnas
print('Arreglo de Ceros: ')
print(ceros)

In [None]:
# Creacion de un arreglo lleno de unos

unos = np.ones([5, 4]) # [5, 4] se refiere a 5 filas y 4 columnas
print('Arreglo de Unos: ')
print(unos)

In [None]:
# Creacion de una matriz identidad

identidad = np.eye(3) # 3 se refiere a 3 filas y 3 columnas
print('Matriz Identidad: ')
print(identidad)

In [None]:
# Creacion de una matriz con valores al azar entre 0 y 1 con distribucion uniforme

azar = np.random.random([3, 2])
print('Matriz al Azar: ')
print(azar)

In [None]:
# Creacion de un vector con valores igualmente espaciados

espaciado = np.arange(10, 55, 5) # Se refiere a que el vector va desde 10, hasta 55, de 5 en 5
print('Vector espaciado: ')
print(espaciado)

In [None]:
# Creacion de un vector con valores igualmente espaciados, pero entre una cantidad de muestras

espaciado_muestras = np.linspace(0, 3, 7) # Se refiere a que el vector va desde 0 hasta 3, dividido entre 7 muestras
print('Vector espaciado entre muestras: ')
print(espaciado_muestras)

A su vez, es posible realizar cortes o seleccionar subconjuntos de los arreglos de una manera similar a la aprendida con las listas:

In [None]:
# Seleccion de cortes o subcojuntos en arreglos

matriz = np.array([[14.6, 8.1, -2.5],
                   [0.8, 3.2, 1.1],
                   [-3.0, 2.4, 6.5]])

print('La matriz es: ')
print(matriz)

# Seleccionamos un subconjunto de la matriz
subconjunto1 = matriz[1:, 0:2] # De la fila 1 hasta la ultima, y de la columnas 0 a las 1 (0:2 = 0, 1)

print('El subconjunto 1 es: ')
print(subconjunto1)

# Seleccionamos otro subconjunto
subconjunto2 = matriz[:, 1] # Todas las filas de la columna 1

print('El subconjunto 2 es: ')
print(subconjunto2)

Por supuesto, al tratarse los arreglos de vectores y matrices, es posible realizar operaciones aritméticas con ellos. Veamos lo siguiente:

In [None]:
# Suma y Resta de vectores y matrices

vector1 = np.array([9, 8, 7, 6])
vector2 = np.array([3, 5, 8, 9])

# Suma de vectores con el operador +
print('Suma de vectores usando +: ')
print(vector1+vector2)

# Suma de vectores usando la funcion add()
print('Suma de vectores usando np.add(): ')
print(np.add(vector1, vector2))

# Resta con de vectores con el operador -
print('Resta de vectores usando -: ')
print(vector1-vector2)

# Resta de vectores usando la funcion subtract()
print('Resta de vectores usando np.subtract(): ')
print(np.subtract(vector1, vector2))

Es importante resaltar que tanto para este tipo de operaciones, como para las operaciones de división y multiplicación que veremos a continuación, los vectores (y matrices) deben tener las mismas dimensiones. Como se ve, las operaciones se realizan elemento a elemento entre los objetos:

In [None]:
# Division y multiplicacion de vectores

# Division de vectores con el operador /
print('Division de vectores usando /: ')
print(vector1/vector2)

# Division de vectores usando la funcion divide()
print('Division de vectores usando np.divide(): ')
print(np.divide(vector1, vector2))

# Multiplicacion de vectores con el operador *
print('Multiplicacion de vectores usando *: ')
print(vector1*vector2)

# Multiplicacion de vectores usando la funcion multiply()
print('Division de vectores usando np.multiply(): ')
print(np.divide(vector1, vector2))

En el caso de las matrices, se pueden emplear, del mismo modo, tanto los operadores como las funciones de NumPy específicas:

In [None]:
# Operaciones aritméticas con matrices

A = np.array([[3, 8, -2],
              [8, 2, 1],
              [5, 6, 10]])

B = np.array([[1, 6, 3],
              [5, 4, -1],
              [3, 3, 2]])

# Suma de matrices con +
print('Suma de matrices con +: ')
print(A+B)

# Suma de matrices con add()
print('Suma de matrices con np.add(): ')
print(np.add(A, B))

# Resta de matrices con -
print('Resta de matrices: ')
print(A-B)

# Resta de matrices con subtract
print('Resta de matrices con np.subtract(): ')
print(np.subtract(A, B))

# Divisiones de matrices
print('Division con /: ')
print(A/B)

# Operaciones combinadas
print('Operaciones combinadas: ')
print((B/A)-B*A)

Como se observa, todos estos casos son operaciones elemento a elemento. Si, en su lugar, necesitamos calcular el *producto interno* de las matrices o los vectores con las matrices, entonces se debe usar el operador `dot()`:

In [None]:
# Producto interno de matrices del mismo tamaño

# Existen dos maneras de calcular el producto interno entre A y B en Python

# Manera 1
print('Producto interno usando np.dot(): ')
print(np.dot(A, B))

# Manera 2
print('Producto interno usando A.dot(B): ')
print(A.dot(B))

Sin embargo, cuando se desea calcular el producto interno entre matrices de distintos tamaños, es importante verificar que se cumplen las condiciones de dimensionalidad entre ellas antes de realizar el cálculo. Es decir, si tenemos una matriz 2x3, esta solo puede ser multiplicada con producto interno con otra matriz que tenga un número de filas igual al número de columnas de la anterior, es decir 3 (por ejemplo, 2x3x3x4 = 2x4). Veamos:

In [None]:
# Producto interno de matrices de distintos tamaños

A = np.array([[1, 2], [3, 4], [5, 6]]) # Matriz 3x2
print('Matriz A: ')
print(A)

B = np.array([[2], [4]]) # Matriz 2x1
print('Matriz B: ')
print(B)

# El producto interno seria 3x2x2x1 = 3x1
C = A.dot(B)
print('Matriz C: ')
print(C)

Veamos otro ejemplo:

In [None]:
E = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]) # Matriz 4x3
print('Matriz E: ')
print(E)

F = np.array([[2, 7], [1, 2], [3, 6]]) # Matriz 3x2
print('Matriz F: ')
print(F)

# El producto interno seria 4x3x3x2 = 4x2
G = E.dot(F)
print('Matriz G: ')
print(G)

De modo que es posible obtener directamente resultados de producto interno entre matrices trabajando con cuidado sus dimensiones y el cómo se realiza la multiplicación.

Otra de las funcionalidades disponibles en NumPy son las de *agregación*, esto es, la posibilidad de realizar operaciones comunes sobre los datos ofreciendo un resultado acumulado. Veamos algunos ejemplos:

In [None]:
# Definamos una matriz de 1 columna y 4 filas

Mat = np.array([[3], [2], [6], [4]])

print('Matriz Mat: ')
print(Mat)

# Podemos calcular la suma de los elementos de la columna
suma = Mat.sum()
print('La suma de las columnas da {}'.format(suma))

# Podemos calcular el valor maximo y minimo de la columna
max = Mat.max()
min = Mat.min()
print('El máximo es {} y el mínimo es {}'.format(max, min))

# Podemos calcular el promedio y la desviacion estandar de la columna
mean = Mat.mean()
stdev = Mat.std()
print('El promedio es {} y la desviación estándar es {}'.format(mean, stdev))

Ahora veamos lo que ocurre si aplicamos las mismas funciones a una matriz de varias filas y columnas:

In [None]:
# Definamos una matriz de 4 filas y 3 columnas

NuevaMat = np.array([[2, 3, 4], [6, 8, 9], [3, 2, 1], [5, 1, 5]])
print('Matriz NuevaMat: ')
print(NuevaMat)

# Ahora calculemos la suma de los elementos
sumacol = NuevaMat.sum(axis=0) # En este caso, axis=0 se refiere a que la suma la va a hacer a lo largo de las filas
print('La suma de los elementos de las columnas es: ')
print(sumacol)

Realicemos ahora la misma operación, pero cambiando la indicación del índice:

In [None]:
# Calculemos la suma de los elementos por filas

sumafil = NuevaMat.sum(axis=1)
print('La suma de los elementos de las filas es: ')
print(sumafil)

Nótese que el resultado es un vector que contiene las sumas de los elementos de cada fila. En general, esto es aplicable a cualquiera de las funciones que vimos antes. Veamos:

In [None]:
# Obtengamos los maximos, minimos, promedios y desviaciones estandar de la matriz
# tanto por filas como por columnas

maxcol = NuevaMat.max(axis=0)
print('Valores máximos por columnas: ')
print(maxcol)

mincol = NuevaMat.min(axis=0)
print('Valores mínimos por columnas: ')
print(mincol)

meancol = NuevaMat.mean(axis=0)
print('Valores promedio por columnas: ')
print(meancol)

stdcol = NuevaMat.std(axis=0)
print('Desviación estándar por columnas: ')
print(stdcol)

maxfil = NuevaMat.max(axis=1)
print('Valores máximos por filas: ')
print(maxfil)

minfil = NuevaMat.min(axis=1)
print('Valores mínimos por filas: ')
print(minfil)

meanfil = NuevaMat.mean(axis=1)
print('Valores promedio por filas: ')
print(meanfil)

stdfil = NuevaMat.std(axis=1)
print('Desviación estándar por filas: ')
print(stdfil)

Adicionalmente, también podemos usar la función `sort()` de NumPy para ordenar los arreglos tanto a lo largo de sus filas como por sus columnas. Por ejemplo:

In [None]:
# Matriz Original
Mat = np.array([[2, 3, 4], [6, 8, 9], [3, 2, 1], [5, 1, 5]])
print('Matriz Original: ')
print(Mat)

# Matriz Ordenada por filas (ordena en el sentido de las filas)
print('Matriz Ordenada por Filas: ')
Mat.sort(axis=0)
print(Mat)

# Matriz Ordenada por columnas (ordena en el sentido de las columnas)
print('Matriz Ordenada por Columnas: ')
Mat.sort(axis=1)
print(Mat)

Por último, veamos otras funciones adicionales de manipulación de arreglos que es posible hacer con NumPy:



In [None]:
# Definimos el arreglo
Arreglo1 = np.array([[0, 1, -3], [2, 3, 8], [-3, 2, -4], [5, 10, 12]])
print('Arreglo1: ')
print(Arreglo1)

# Calculemos la traspuesta
Arreglo1_Tras = Arreglo1.T
print('La traspuesta es: ')
print(Arreglo1_Tras)

# Podemos modificar las dimensiones de un arreglo
print('Modifiquemos el arreglo a 2 filas y 6 columnas: ')
Arreglo2 = Arreglo1.reshape(2, 6)
print(Arreglo2)

# Podemos agregar elementos al arreglo
Columna = np.array([[10], [12], [14], [16]])
print('Matriz Columna: ')
print(Columna)

Arreglo3 = np.append(Arreglo1, Columna, axis=1) # axis=1 porque se va a incluir una columna
print('El nuevo Arreglo es: ')
print(Arreglo3)

# Podemos eliminar elementos a un arreglo
Arreglo4 = np.delete(Arreglo3, [1], axis=0) # axis=0 para eliminar fila
print('Si eliminamos la segunda fila del arreglo anterior: ')
print(Arreglo4)

# Podemos combinar arreglos
Arreglo5 = np.concatenate((Arreglo1_Tras, Arreglo4), axis=0)
print('Vamos a concatenar la traspuesta de Arreglo1 con el arreglo anterior: ')
print(Arreglo5)

Arreglo6 = np.concatenate((Arreglo1, Arreglo3), axis=1)
print('Concatenando Arreglo1 con Arreglo3: ')
print(Arreglo6)

# Podemos "Aplanar" un arreglo según sus filas o columnas
AplanadoCol = Arreglo6.ravel(order='F') # order='F' es convencion de la funcion ravel para aplanar por columnas
print('Aplanando por Columnas: ')
print(AplanadoCol)

AplanandoFil = Arreglo6.ravel(order='C') # order='C' es convencion de la funcion ravel para aplanar por filas
print('Aplanando por Filas: ')
print(AplanandoFil)

Un último detalle que es importante mencionar cuando se trabaja con arreglos en general: supongamos que estamos trabajando con una matriz dada y en algún momento queremos copiarla o duplicarla para "almacenar" la original y luego modificarla. Podríamos pensar entonces en hacer lo siguiente:

In [None]:
# Definimos la matriz original
Original = np.array([[4,6], [8, 7]])
print('Matriz Original: ')
print(Original)

# Creamos una matriz copia igual a la Original
Copia = Original
print('Matriz Copia: ')
print(Copia)

# Ahora, vamos a modificar un valor de la matriz original
Original[1][1] = 27
print('Matriz Modificada: ')
print(Original)

Como podemos ver, en efecto la matriz original fue modificada, y podríamos llegar a pensar que la matriz copia no se modificó porque no cambiamos ningún valor de ella, pero al hacer `print` sobre la matriz copia, tenemos:

In [None]:
# Veamos ahora el contenido de la matriz Copia
print('Matriz Copia: ')
print(Copia)

Es decir, que al aplicar la instrucción `Copia = Original` no se está creando una nueva matriz, sino en realidad es una nueva variable que "apunta a la misma dirección en memoria que la matriz original". Esto significa que las variables asignadas de esta manera se modificarán si se modifica la original (por cierto, esto también aplica para listas).

Para realizar una verdadera copia del arreglo, es necesario entonces usar la función `copy()` de la siguiente manera:

In [None]:
# Definimos la matriz original
Original = np.array([[4,6], [8, 7]])
print('Matriz Original: ')
print(Original)

# Creamos una verdadera copia de la matriz Original
VerdaderaCopia = Original.copy()
print('Verdadera Copia: ')
print(VerdaderaCopia)

# Modificamos la matriz Original
Original[1][1] = 27
print('Original Modificada: ')
print(Original)

# Veamos ahora la Copia
print('Verdadera Copia: ')
print(VerdaderaCopia)

Es decir, ahora al modificar el arreglo original no se altera la copia pues se tratan de objetos totalmente distintos. Cuando se trabaja con arreglos es importante tener esto claro para evitar resultados inesperados producto de crear copias de los arreglos de la manera incorrecta.

# Librería Matplotlib

Matplotlib es la librería fundamental de graficación en 2D para Python. Esta permite la generación de gráficas con "calidad de publicación" en una gran variedad de formatos de salida además de con ambientes interactivos en varias plataformas. Una de las ventajas de Matplotlib es su facilidad de uso y su carácter intuitivo, además de la versatilidad para modificar, ajustar y personalizar los elementos que componen las gráficas.

En esta sección veremos una serie de ejemplos de uso de Matplotlib y se presentarán sus funcionalidades básicas. Por supuesto, no se abarcarán todas las funcionalidades de la librería, pero se cubrirá lo suficiente como para poder entender la filosofía de uso de Matplotlib y la utilidad de la misma.

En primer lugar, el alias por convención que existe para llamar a la librería es el siguiente:

In [None]:
# Importamos el modulo pyplot de la libreria Matplotlib como plt
# Tambien importemos NumPy
import matplotlib.pyplot as plt
import numpy as np

Ahora que ya hemos cargado la librería, vamos a comenzar a conocer las funcionalidades de Matplotlib a partir de una serie de ejemplos prácticos. En primer lugar, vamos a crear un vector de 100 elementos entre 0 y 2 igualmente espaciados:

In [None]:
# Vector de 100 elementos entre 0 y 2

x = np.linspace(0, 2, 100)

Este vector `x` los tomaremos como los términos independientes de una función matemática, por ejemplo $y=x^2$ o $y=x^3$. Ahora, creemos los términos dependientes `y` para estas ecuaciones:

In [None]:
# Cuadrados de x
y1 = x**2

# Cubos de x
y2 = x**3

Ahora, tenemos un conjunto de datos que corresponden a puntos en el eje cartesiano $(x,y)$, de modo que podemos graficar a $y$ como una función de $x$. Para ello, hagamos uso de la función `plot()`:

In [None]:
# Vamos a graficar cada funcion primero por separado
# Grafico de y = x**2

plt.plot(x, y1)
plt.show()

Como se puede observar, para llamar a las funciones de Matplotlib hay que hacer uso del alias `plt` seguido de la función que se desea utilizar. En el caso de `plot()`, esta toma como argumentos mínimos el conjunto de valores x y el conjunto de valores y correspondiente. Luego, se debe escribir la función `.show()` para visualizar el gráfico creado. Vamos a graficar los valores al cubo:

In [None]:
# Grafico de y = x**3

plt.plot(x, y2)
plt.show()

Ahora bien, observe lo que ocurre en el siguiente código:

In [None]:
# Gráfico de ambas funciones
plt.plot(x, y1)
plt.plot(x, y2)
plt.show()

Ya que se colocaron dos funciones `.plot()` en secuencia, el gráfico dibujará ambas en ella. Es decir, se graficará todo lo que se coloque antes de la función `.show()`.

Sin embargo, a pesar de que de manera automática Matplotlib nos coloreó las curvas, no podemos indentificar en ellas cuál es la que corresponde al cuadrado y cuál es la que corresponde al cubo. Por lo tanto, debemos incluir etiquetas a los datos, y especificar que se visualice la leyenda:

In [None]:
# Mejoremos el gráfico anterior

plt.plot(x, y1, label='Cuadrado')
plt.plot(x, y2, label='Cubo')
plt.legend()
plt.show()

Excelente. Sin embargo, si no estamos conforme con los colores de las líneas y su estilo, podemos modificarlos también a partir de los argumentos de la función `.plot()`. Veamos:

In [None]:
# Nuevas mejoras al gráfico

plt.plot(x, y1, 'b-', label='Cuadrado') # 'b-' significa azul (blue) con linea continua -
plt.plot(x, y2, 'r--', label='Cubo') # 'r--' significa rojo (red) con linea discontinua --
plt.legend()
plt.show()

Todo gráfico debe llevar los nombres de los respectivos ejes, así que vamos a incorporarlos:

In [None]:
# Agreguemos nombres de los ejes

plt.plot(x, y1, 'b-', label='Cuadrado') # 'b-' significa azul (blue) con linea continua -
plt.plot(x, y2, 'r--', label='Cubo') # 'r--' significa rojo (red) con linea discontinua --
plt.xlabel('$x$') # Se coloca entre $ para que lo muestre como ecuacion matematica
plt.ylabel('$y=f(x)$')
plt.legend()
plt.show()

Si no se está satisfecho con la ubicación de la legenda, es posible moverla de posición en el gráfico. Vamos a colocarla mejor en la esquina inferior derecha:

In [None]:
# Movamos la leyenda de sitio

plt.plot(x, y1, 'b-', label='Cuadrado') # 'b-' significa azul (blue) con linea continua -
plt.plot(x, y2, 'r--', label='Cubo') # 'r--' significa rojo (red) con linea discontinua --
plt.xlabel('$x$') # Se coloca entre $ para que lo muestre como ecuacion matematica
plt.ylabel('$y=f(x)$')
plt.legend(loc = 'lower right') # loc se refiere a location = ubicacion
plt.show()

Por último, vamos a agregarle el respectivo título al gráfico:

In [None]:
# Agregamos el titulo

plt.plot(x, y1, 'b-', label='Cuadrado') # 'b-' significa azul (blue) con linea continua -
plt.plot(x, y2, 'r--', label='Cubo') # 'r--' significa rojo (red) con linea discontinua --
plt.xlabel('$x$') # Se coloca entre $ para que lo muestre como ecuacion matematica
plt.ylabel('$y=f(x)$')
plt.legend(loc = 'lower right') # loc se refiere a location = ubicacion
plt.title('Funciones $x^2$ y $x^3$')
plt.show()

Como pudimos ver, de una manera incremental y sencilla fuimos capaces de producir un gráfico con excelente calidad. En términos generales, para producir cualquier otro tipo de gráfico con Matplotlib se puede seguir el mismo proceso de construcción de un gráfico, modificando a su vez los distintos parámetros de acorde a las necesidades de visualización que se tenga. Supongamos, por ejemplo, que necesitamos graficar la misma información anterior pero no como dos gráficos en uno, sino como dos gráficos separados. En ese caso, podemos recurrir a la función `subplot()`:

In [None]:
# Gráficos separados con subplot

fig, axs = plt.subplots(2,1) # Los argumentos se refiere a que nuestro grafico tendra 2 filas y 1 columna
axs[0].plot(x, y1, 'b-', label='Cuadrado')
axs[0].legend(loc = 'lower right')
axs[1].plot(x, y2, 'r--', label='Cubo')
axs[1].legend(loc = 'lower right')
plt.show()

En este caso, sin embargo, deben definirse la variable que corresponde a la figura que se está creando `fig`, así como los "ejes" del gráfico `axs`. Estos ejes hacen referencia a cuál gráfico será colocado en cuál parte. En el caso anterior, se observa que en el `axs[0]` se colocó el gráfico de la función cuadrado, mientras que en el `axs[1]` el de la función cubo. Esto podría modificarse, así como si graficar en filas o columnas:

In [None]:
# Graficos en columnas

fig, axs = plt.subplots(1,2) # Los argumentos se refiere a que nuestro grafico tendra 1 fila y 2 columna2
axs[1].plot(x, y1, 'b-', label='Cuadrado')
axs[1].legend(loc = 'lower right')
axs[0].plot(x, y2, 'r--', label='Cubo')
axs[0].legend(loc = 'lower right')
plt.show()

Del mismo modo que antes, podemos agregar los nombres de los ejes y el título a cada `axs[]` por separado:

In [None]:
# Incorporando elementos por ejes

fig, axs = plt.subplots(1,2) # Los argumentos se refiere a que nuestro grafico tendra 1 fila y 2 columna2
axs[0].plot(x, y2, 'r--', label='Cubo')
axs[0].legend(loc = 'lower right')
axs[0].set_xlabel('$x$')
axs[0].set_ylabel('$y=f(x)$')
axs[0].set_title('Función Cubo')
axs[1].plot(x, y1, 'b-', label='Cuadrado')
axs[1].legend(loc = 'lower right')
axs[1].set_xlabel('$x$')
axs[1].set_title('Función Cuadrado')
plt.show()

Sin embargo, tal vez no deseamos que tanto los ejes como el título tengan nombres repetidos, sino que aparezca como ejes únicos de ambas gráficas. Para ello, podemos incorporar entonces funciones y parámetros más avanzados:

In [None]:
# Mejoremos el último gráfico en columnas

fig, axs = plt.subplots(1,2, sharey=True) #sharey = True significa que ambos graficos comparten la escala y
axs[0].plot(x, y2, 'r--', label='Cubo')
axs[0].legend(loc = 'lower right')
axs[1].plot(x, y1, 'b-', label='Cuadrado')
axs[1].legend(loc = 'lower right')
fig.text(0.5, 0, 'Valores $x$', ha='center', va='center')
fig.text(0.05, 0.5, 'Función $y=f(x)$', ha='center', va='center', rotation='vertical')
fig.text(0.5, 0.95, 'Funciones Cubo y Cuadrado', ha='center', va='center', fontdict={'size': 12, 'weight': 'bold'})
plt.show()

En este punto, haga el experimiento de variar los valores de los parámetros de las funciones `.text()` anterior y observe el efecto sobre el gráfico. ¿Puede comprender la función de cada parámetros y cómo se ubican y establecen en el gráfico?

Si está satisfecho con el gráfico dibujado y desea guardarlo como un archivo de imagen, basta usar la función `savefig()`:

In [None]:
# Guardemos la figura realizada al final

fig, axs = plt.subplots(1,2, sharey=True) #sharey = True significa que ambos graficos comparten la escala y
axs[0].plot(x, y2, 'r--', label='Cubo')
axs[0].legend(loc = 'lower right')
axs[1].plot(x, y1, 'b-', label='Cuadrado')
axs[1].legend(loc = 'lower right')
fig.text(0.5, 0, 'Valores $x$', ha='center', va='center')
fig.text(0.05, 0.5, 'Función $y=f(x)$', ha='center', va='center', rotation='vertical')
fig.text(0.5, 0.95, 'Funciones Cubo y Cuadrado', ha='center', va='center', fontdict={'size': 12, 'weight': 'bold'})
plt.savefig('MiGrafico.jpg', dpi=300)
plt.show()

In [None]:
# Ahora vamos a descargar la figura de Google Colab
from google.colab import files
files.download('MiGrafico.jpg')

A modo de ejercicio, veamos un segundo ejemplo de graficación con Matplotlib:

In [None]:
import math

# Definamos el conjunto de x entre -5Pi y 5Pi
x = np.linspace(-5*math.pi, 5*math.pi, 100)

# Definamos el conjunto y1 como la funcion sin(x)/x
y1 = np.sin(x)/x

# Creemos un vector y2 de la misma dimension de y1 y que tiene valores generados
# al azar entre -0.1 y 0.1
y2 = [np.random.uniform(-0.1, 0.1) for x in range(len(y1))]

# Creemos un vector y3 que es igual a la suma de y1+y2, es decir, es tomar
# el resultado de y1 y agregarle ruido al azar entre -0.1 y 0.1
y3 = y1+y2

# Ahora, grafiquemos en una misma grafica ambas curvas con colores y marcadores
# diferentes

plt.plot(x, y1, 'k-', label='Función Sinc', linewidth=1.5)
plt.scatter(x, y3, marker='x', color='red', s=12, label='Sinc con Ruido') # Se usa la funcion
# scatter en vez de plot porque se desean graficar son los puntos y no las lineas
plt.legend()
plt.xlabel('Valores $x$')
plt.ylabel(r'$\frac{sin(x)}{x}$', fontsize=16)
plt.title('Función Sinc con y sin ruido aleatorio', fontdict={'size': 14, 'weight':'bold'})
plt.show()

Como podemos ver, el resultado obtenido es de gran calidad visual y altamente personalizable.

Como ejercicio final de esta parte, repita el gráfico anterior pero colocando cada curva en dos gráficos separados en filas (1 columna y 2 filas, uno encima del otro) y modifique los parámetros de tal manera que compartan el eje x, y tengan una sola etiqueta en común para cada eje y un solo título.

# Ejercicio práctico #2

En primer lugar, importe la librería NumPy y luego defina un vector `x` que vaya desde -3 a 3 y que tenga 100 componentes en total.

In [None]:
# Importe libreria numpy como np

# Defina vector x


Ahora defina un vector `y` que vaya desde -4 a 4 y tenga 100 componentes en total.

In [None]:
# Defina vector y


Ahora, defina una matriz `M` de ceros cuyas dimensiones sean 100 filas y 100 columnas.

In [None]:
# Defina matriz M de ceros 100x100


Ahora, cada posicion $(i,j)$ de esa matriz, donde las $i$ son las filas y las $j$ son las columnas, le va a asignar el valor de la componente respectiva de los vectores `x` y `y` de tal manera que $M_{i,j}=x_j \exp({-x_{j}^2-y_{i}^2})$ (recuerde que la matriz `M` tiene 100 filas y 100 columnas).

In [None]:
# Importamos math para usar la funcion exp()
import math

# Complete la matriz M como se describe en la ecuacion


Ahora, vamos a observar la forma que tienen los elementos de dicha matriz. Para ello, usando las funciones de Matplotlib, haga una gráfica que contenga:
- Todas las columnas de la fila 30 de la matriz M.
- Todas las columnas de la fila 40 de la matriz M.
- Todas las columnas de la fila 50 de la matriz M.

Ayuda: recuerde que puede seleccionar *subsets* de matrices a partir de sus índices, por ejemplo, `S[10][:]`.

In [None]:
# Importe la libreria matplotlib.pyplot como plt

# Haga la grafica correspondiente y agregue titulo, leyenda y etiquetas a los ejes


Observe la gráfica que se obtiene si ejecuta el siguiente código:

In [None]:
# Grafica de contorno de la matriz M
plt.contour(M, 10)
plt.xlim([20, 80])
plt.ylim([20, 80])
plt.show()

Y cuando se ejecuta lo siguiente:

In [None]:
# Grafica de superficie de la matriz M
plt.imshow(M, cmap='viridis')
plt.xlim([20, 80])
plt.ylim([20, 80])
plt.show()

Realice una nueva gráfica que incorpore los tres tipos en forma de filas o columnas y ajuste los parámetros de los ejes (nombre de ejes, título, legendas, tamaño e letra, etc) de manera de generar el mejor resultado posible según su preferencia. 

# Librería Pandas

La librería *Pandas*, que proviene del término *panel-data*, es una de las librerías de Python más utilizadas para el análisis, limpieza, manipulación, graficación y modelado de datos. Como funcionalidad principal de la librería está la de poder construir con ella un tipo de dato conocido como *Dataframe*, el cual no es más que un tipo de dato similar a una matriz pero que puede contener en cada una de sus columnas variables con un tipo de dato distinto (es decir, combinar enteros con decimales, fechas, datos categóricos, booleanos, entre otros), cosa que no es posible con las matrices.
Una de las ventajas de pandas, como veremos más adelante, es que permite leer un archivo, por ejemplo, en formato .csv (comma separated values, o archivos separados por coma) y almacenarlo directamente con la estructura del dataframe listo para usarse en un análisis de datos.

A fin de entender mejor el concepto de dataframe, vamos a estudiar primero cómo se pueden crear dataframes desde cero, y luego cómo pueden cargarse archivos .csv para luego trabajar con ellos.


En primer lugar, vamos a importar la librería pandas y asignarle el alias por convención 'pd':

In [None]:
# Importamos pandas
import pandas as pd

Ahora, para crear un dataframe podemos, por ejemplo, partir de un diccionario que contenga definidos una serie de datos:

In [None]:
# Diccionario con informacion de cantidad de frutas

frutas = {'Naranjas':[2, 5, 4, 1],
          'Limones':[3, 0, 2, 1],
          'Peras':[0, 0, 5, 6],
          'Manzanas':[1, 1, 0, 5]}

print(frutas)

Una vez que se cuenta con el diccionario, podemos pasarlo como argumento a la función que crea el dataframe dentro de pandas:

In [None]:
# Creamos el dataframe a partir del diccionario

compras = pd.DataFrame(frutas)
print(compras)

Nótese que al imprimir el dataframe, obtenemos cada uno de los datos escritos en forma de columnas, y automáticamente pandas asocia una columna de 'índices' a cada fila, que si bien no forman parte del conjunto de datos original, sirve como una referencia para las filas que se trabajan.

Por ejemplo, al momento de construir el dataframe podríamos asociar nombres a dichas filas, de la siguiente manera:

In [None]:
# Dataframe con nombres en las filas

compras = pd.DataFrame(frutas, index=['Jose', 'Patricia', 'Maria', 'Victor'])
print(compras)

En este caso, cada fila tiene un nombre asociado, y podríamos pensar entonces en este dataframe como un registro de la cantidad de frutas que compraron una serie de clientes de una tienda (la estructura de un dataframe es similar a la que puede tener una base de datos).

De esta manera, pandas nos permite, por ejemplo, ubicar las compras de un cliente a partir de su nombre, usando la función `.loc` (por **loc**ate):

In [None]:
# Ubicamos los datos por nombre de la fila

compras.loc[['Patricia']]

Obsérvese que la función devuelve los valores de la fila que corresponde solo a Patricia e indica la cantidad de frutas que compró de cada una.
**Nota:** al colocar doble corchetes en la función .loc el resultado devolverá un dataframe, mientras que si se coloca un solo corchete, devolverá dato tipo *Series*, que es similar a un dataframe de una sola dimensión. Por ejemplo:

In [None]:
compras.loc['Patricia']

Se recomienda, sin embargo, trabajar siempre con el doble corchete a efectos de mantener la estructura del dataframe así como obtener una mejor visualización de los datos:

In [None]:
# Selección de múltiples columnas

compras.loc[['Jose', 'Victor']]

Ahora bien, en la mayoría de los casos, los datos a analizar se obtendrán a partir de un archivo externo que puede tener la forma de un .csv (también .xls, .txt u otros formatos). Para cargar datos de un archivo .csv externo se hace uso de la función `read_csv()` de pandas. En general, es recomendable que el archivo .csv se encuentre copiado en la misma carpeta donde esté el Notebook .ipynb que se esté trabajando, o bien se incorpore la ruta del archivo dentro del argumento de la función `read_csv()`. En nuestro caso, vamos a cargar el archivo de una dirección electrónica donde esté alojado dicho archivo.

El archivo a cargar será el conocido dataset **Iris**, el cual es un conjunto de datos muy famoso que contiene información de 50 medidas de tres especies de la flor Iris (más información en [Conjunto de datos Iris](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris) ).

In [None]:
# Cargamos un archivo .csv en un dataframe a partir de una dirección web

# Establecemos la direccion url del archivo en una variable
url = 'https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv'

# Cargamos el dataset a partir de la variable y lo imprimimos en pantalla
data = pd.read_csv(url)
data

Como puede verse en la salida, el conjunto de datos tiene 150 filas con 5 columnas. Estas columnas son:
- Longitud del Sépalo.
- Ancho del Sépalo.
- Longitud del Pétalo.
- Ancho del Pétalo.
- Especie de la Flor (setosa, versicolor y virginica).

En este caso las filas no tienen nombres ya que corresponden a observaciones de un conjunto de medidas.

Una vez contamos con un dataframe definido, entonces podemos empezar a usar las funciones de pandas para observar, manipular y analizar los datos. Por ejemplo, si tenemos un conjunto de datos muy extenso y queremos observar el aspecto de solo los primeros o últimos valores, podemos usar las funciones `.head()` y `.tail()`:

In [None]:
# Inspeccionamos las primeras filas de datos

data.head()

In [None]:
# Inspeccionamos las ultimas filas de datos

data.tail()

Podemos indicar además la cantidad de datos que queremos inspeccionar en el argumento de la función. Por ejemplo, si queremos observar los 15 primeros datos:

In [None]:
data.head(15)

Si deseamos obtener una descripción estadística general de los datos, podemos emplear la función `.describe()`:

In [None]:
# Descripción estadística de los datos

data.describe()

Como podemos ver, de manera automática la función nos devuelve, para cada columna numérica, la candidad de datos (count), el promedio (mean), la desviación estándar (std), el valos mínimo (min), los *cuartiles* de los datos (25, 50 y 75) así como el valor máximo (max), lo cual puede resultar muy útil si deseamos hacer un análisis estadístico de un gran conjunto de datos.

Además, con pandas podemos realizar manipulaciones a los datos, como por ejemplo:

In [None]:
# Transpuesta de los datos

data.T

In [None]:
# Ordenar por indices de filas

# axis = 0 se refiere a que el orden se hara por las filas
# ascending = True se refiere a que se ordena de manera descendente por el índice de la fila
data.sort_index(axis=0, ascending=True)

In [None]:
# En el caso descendente por filas
data.sort_index(axis=0, ascending=False)

In [None]:
# Ordenar por valores de columnas

# by = se refiere a cual columna se considera para ordenar
# ascending = True a que se hará en orden descendente para la columna seleccionada
data.sort_values(by='sepal_length', ascending=True)

In [None]:
# En orden descendente por otra columna
data.sort_values(by='petal_width', ascending=False)

In [None]:
# Ordenar por múltiples columnas
data.sort_values(by=['sepal_width','petal_width'], ascending=True)

De una manera similar a cuando se trabajaba con arreglos, con los dataframe es posible seleccionar datos a partir de columnas, o bien seleccionar subconjuntos de datos a partir de los índices del dataframe. Veamos algunos ejemplos:

In [None]:
# Seleccion de una columna por su nombre

data[['sepal_length']]

Si lo necesitásemos, podríamos crear un dataframe a partir de una o varias columnas seleccionadas:

In [None]:
# Seleccion de los datos del ancho del petalo

ancho_petalo = data[['petal_width']]
ancho_petalo

Nótese que en este caso, la variable `ancho_petalo` es un nuevo dataframe que solo contiene esa columna.

Pero podríamos seleccionar un conjunto del dataframe original usando los índices, por ejemplo:

In [None]:
# Seleccion de un subconjunto por indices
data[3:14]

O incluso seleccionar un conjunto de datos por sus índices y por los nombres de las columnas usando `.loc`:

In [None]:
# Seleccion por indices y por columnas
data.loc[5:10, ['sepal_length', 'petal_length']]

O bien acceder al valor numérico de alguna de las variables con la función `.at` (también se puede emplear `.loc`):

In [None]:
# Seleccion del valor numerico especifico de una variable
variable = data.at[10, 'sepal_width']
variable

Podemos, también, seleccionar por posiciones específicas de índices y columnas usando la función `.iloc`:

In [None]:
# Seleccion por posicion de indices y columnas

data.iloc[[0, 2, 3, 6], [0, 2]] # Seleccionamos solo las filas 0,2,3 y 6 y las columnas 0 y 2

Y del mismo modo, podemos acceder a un valor por índices con la función `iat`:

In [None]:
# Seleccion de un valor por sus indices

valor = data.iat[8, 2]
valor

Adicionalmente, también podemos hacer selección de subconjuntos a partir de condiciones booleanas, es decir, tomar solo los datos que cumplan una condición. Veamos:

In [None]:
# Seleccionar solo los datos que sean mayores que un valor

data[data.sepal_length > 4.5]

En este caso, puede leerse la condición como: seleccionar los datos del dataframe *data* solo donde los valores de la columna 'sepal_length' sea mayor que 4.5. Nótese que bajo esta condición, solo se seleccionan 145 filas.

In [None]:
# Selección por múltiples condiciones

data[(data.sepal_width > 3.6) & (data.petal_length < 1.9)]

En este caso, la condición es: seleccionar los datos cuyos valores de 'sepal_length' sean mayores que 3.6 **y** que los valores de 'petal_length' sean menores que 1.9. El símbolo **&** representa la condición **y**. En este caso, la seleccion tiene 12 filas.

Por supuesto, las mostradas son apenas algunas de las funcionalidades de inspección y manipulación de datos que pueden realizarse sobre dataframes con la librería pandas.

A continuación, veremos otras funciones útiles para visualizar datos contenidos en un dataframe:

In [None]:
# Importamos matplotlib
import matplotlib.pyplot as plt

# Graficar todos los datos numéricos presentes en el dataframe
data.plot()
plt.show();

En este caso, al aplicar la función `.plot()` al dataframe directamente se generará una gráfica para cada una de las columnas del conjunto de datos como puede observarse en la figura. Si quieremos incorporar información al gráfico, podemos hacerlo aplicando las funciones de `matplotlib` ya conocidas:


In [None]:
# Mejoremos la grafica

data.plot()
plt.title('Conjunto de Datos Iris')
plt.xlabel('Observación')
plt.ylabel('Valor')
plt.legend(loc = 'lower right')
plt.show();

Sin embargo, a efectos del análisis de los datos, esta gráfica no nos da mayor información sobre la estructura y características de los datos presentes en el conjunto Iris. Para ello, por ejemplo, podría resultar interesante estudiar las relaciones que existen entre cada una de las columnas (es decir, relaciones ancho y longitud de las flores).

Una gráfica que podemos realizar a partir del propio dataframe es el de la longitud de los sépalos vs. el ancho de los sépalos. Pero ya que se tratan de puntos de datos independientes, hagamos un *scatter plot* o gráfico de dispersión:

In [None]:
# Grafico sepal_length vs. sepal_width

data.plot.scatter(x='sepal_width', y='sepal_length')
plt.xlabel('Ancho Sépalo')
plt.ylabel('Longitud Sépalo')
plt.title('Gráfico de Dispersión Ancho Sépalo vs. Longitud Sépalo')
plt.show();

Obsérvese que, en efecto, con la función `.plot.scatter()` podemos crear un gráfico de dispersión directamente del dataframe, y asignar qué columnas queremos graficar en cada caso usando los argumentos (x, y). En el gráfico podemos ver las relaciones existentes entre cada variable, pero todavía podemos obtener mayor información del gráfico. Por ejemplo, ¿qué ocurre si coloreamos cada punto en función de especie a la que pertenece cada flor?:

In [None]:
# Necesitamos numpy para definir los colores segun las especies
import numpy as np

# Creamos un arreglo que tomara los valores r, g o b dependiendo del nombre de cada clase en el dataframe
colors = np.where(data['species']=='setosa','r', '-')
colors[data['species']=='virginica'] = 'g'
colors[data['species']=='versicolor'] = 'b'

# Creamos el scatterplot y asignamos los colores segun el arreglo colors
data.plot.scatter(x='sepal_width', y='sepal_length', c=colors)
plt.xlabel('Ancho Sépalo')
plt.ylabel('Longitud Sépalo')
plt.title('Gráfico de Dispersión Ancho Sépalo vs. Longitud Sépalo')
plt.show();

Se puede observar que, en efecto, dependiendo de la especie existen agrupamientos y correlaciones entre estas variables. ¿Qué ocurre ahora si graficamos, por ejemplo, la longitud del sépalo en función de la longitud del pétalo?:

In [None]:
# Gráfica de longitud del sepalo vs. logitud del petalo

data.plot.scatter(x='petal_length', y='sepal_length', c=colors)
plt.xlabel('Longitud Pétalo')
plt.ylabel('Longitud Sépalo')
plt.title('Gráfico de Dispersión Longitud Petalo vs. Longitud Sépalo')
plt.show();

Podemos observar cómo se hace evidente con mucha mayor claridad la relación que existe entre estas variables y la especie a la que pertenece cada una. Esto quiere decir que cada especie de flor iris podría reconocerse o clasificarse según la relación de dimensiones entre longitud y ancho de pétalos y sépalos (algoritmos de agrupamiento como K-medios generan buenos resultados de clasificación en este conjunto de datos). Esta clase de información no es evidente a simple vista cuando se observa el dataset original pero vemos que al explorar y graficar de esta manera los datos, podemos extraer información relevante.

Otro gráfico que es posible obtener a partir del dataframe y que ofrece mucha información es el *histograma*, pues nos permite conocer cómo están distribuidos los datos en un conjunto. Por ejemplo:

In [None]:
# Histograma del dataframe original

data.plot.hist(bins=20)
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma del dataset Iris')
plt.show();

De esta manera podemos observar claramente el cómo se distribuyen los distintos valores para cada columna y cuán diferentes son los rangos y frecuencias de ellos. Podríamos, por supuesto, graficar los histogramas para cada columna por sepadado:

In [None]:
# Histograma de columnas por separado

data['sepal_length'].plot.hist(bins=20, color = 'steelblue')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para columna "Sepal Length"')
plt.show();

data['sepal_width'].plot.hist(bins=20, color = 'orange')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para columna "Sepal Width"')
plt.show();

data['petal_length'].plot.hist(bins=20, color = 'green')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para columna "Petal Length"')
plt.show();

data['petal_width'].plot.hist(bins=20, color = 'red')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para columna "Petal Width"')
plt.show();

Y, a efectos de visualizar y conocer distribuciones de datos, también podemos hacer gráficas de *boxplot* de la siguiente manera:

In [None]:
# Boxplot del dataset Iris

data.plot.box()
plt.ylabel('Valor')
plt.xlabel('Variable')
plt.title('Boxplot del conjunto Iris')
plt.show();

En este caso, el boxplot es un tipo de gráfico que muestra en el centro de la caja (líneas de color verde) la mediana de la distribución, la caja (en azul) representa los cuartiles Q1 y Q3, y los bigotes (líneas extendidas) representan 1.5 veces el rango intercuartílico (mayor información en este [link](https://es.wikipedia.org/wiki/Diagrama_de_caja))

De esta manera, podemos ver una muestra del tipo de funcionalidades que están incorporadas como parte de la librería *Pandas* y que permiten, en efecto, realizar análisis, manipulaciones y exploraciones de datos que facilitan la obtención de información de tales datos de una manera más intuitiva y evidente que si sólo observásemos una tabla con valores numéricos.

## Análisis de Datos Exploratorio - Conjunto MTCARS

A manera de ejemplo de la utilidad de esta librería, vamos a realizar lo conocido como Análisis de Datos Exploratorio (también conocido como EDA, o Exploratory Data Analysis), de un conjunto de datos muy famoso dentro de la Ciencia de Datos y que se usa con frecuencia como datos de prueba para aprendizaje. Este conjunto se conoce como MTCARS y contiene, como veremos, información técnica sobre ciertas marcas y modelos de carros.

Así que, en primer lugar, vamos a cargar en un dataframe el conjunto de datos MTCARS a partir de un url web:


In [None]:
# Cargamos los datos MTCARS

# Definimos la variable donde almacenamos la direccion web
url = 'https://gist.githubusercontent.com/seankross/a412dfbd88b3db70b74b/raw/5f23f993cd87c283ce766e7ac6b329ee7cc2e1d1/mtcars.csv'

# Cargamos el archivo y lo guardamos en el dataframe mtcars
mtcars = pd.read_csv(url)

Una vez cargado el dataframe, vamos a comenzar la exploración de los datos. Primero, vamos a echarle un vistazo a la cantidad de filas y columnas que tiene el dataset, así como los primeros valores del conjunto de datos:

In [None]:
# Veamos el tamano y forma del dataset

# Tamano del dataset con la funcion .shape
mtcars.shape

Como se puede ver, el dataset contiene 32 filas y 12 columnas. Observemos los primeros datos usando la función `.head()`:

In [None]:
# Observemos los primeros datos
mtcars.head()

Como podemos ver, las columnas de este dataset hacen referencia a una serie de características técnicas de los vehículos (millas por galon, cilindros, desplazamiento, caballos de fuerza, etc), mientras que cada fila es una marca y modelo específico de un vehículo.

A efectos del ejemplo, el análisis no lo vamos a realizar sobre todas las columnas presentes en el dataset, por lo que vamos a crear un segundo dataset donde guardaremos solo aquellas columnas de interés. Esas columnas serán: model, mpg, cyl, disp, hp y gear (modelo, millas por galón, cilindros, desplazamiento, caballos de fuerza y cantidad de velocidades):

In [None]:
# Guardamos en un nuevo dataset solo las columnas que nos interesan

carros = mtcars.loc[:, ['model', 'mpg', 'cyl', 'disp', 'hp', 'gear']]
carros.head()

Obsérvese que, en efecto, reducimos la cantidad de columnas del nuevo dataset a aquellas que seleccionamos usando la función `.loc[]`.

Algo que podemos hacer enseguida es una descripción estadística del dataset:

In [None]:
# Usemos la funcion describe

carros.describe()

Sin embargo, en este caso hay que tener en cuenta algo importante: a efectos de las variables que forman parte del dataset, las únicas que podemos considerar como variables contínuas son mpg, disp y hp, ya que representan cantidades numéricas que describen la capacidad de millas por galón, desplazamiento y caballos de fuerza de cada vehículo. Por otro lado, tanto la cyl como gear, la cantidad de cilindros y la cantidad de velocidades, son siempre números discretos (enteros), por lo que no tiene mucho sentido hablar de valores promedios o desviaciones estándar para dichas variables. En este caso, tanto cyl como gear se pueden considerar variables "categóricas", es decir, que representan categorías dentro de un conjunto de datos y que no necesariamente su número representa una secuencialidad de valores. De cualquier modo, la función `.describe()` nos permite realizar una inspección rápida de la estadística de los datos, cosa que nos serviría, por ejemplo, para conocer el rango de las variables, existencia de "outliers", entre otros.

Dada la naturaleza del dataset, algo que sí podemos hacer es graficar los histogramas de las variables mpg y disp, para conocer sus distribuciones en los datos:

In [None]:
# Histograma de mpg

carros['mpg'].plot.hist(bins=10, color = 'steelblue')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para variable "mpg"')
plt.show();

En este caso, vemos que la mayoría de los vehículos presentes en el dataset tienen una valoración de millas por galón entre 15 y 20. Para el desplazamiento tenemos:

In [None]:
# Histograma del disp

carros['disp'].plot.hist(bins=10, color = 'steelblue')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para variable "disp"')
plt.show();

Para esta variable la distribución no lleva una forma Gaussiana, y existen picos de valores de desplazamiento a lo largo de todo el rango de valores.

Veamos lo que se obtiene al hacer un histograma de la variable hp:

In [None]:
# Histograma de hp

carros['hp'].plot.hist(bins=10, color = 'steelblue')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para variable "hp"')
plt.show();

En este caso se obtiene que la mayoría de vehículos tienen una cantidad de caballos de fuerza entre 50 a 125 aproximadamente, y muy pocos carros tienen hp mayor a 300.

Ahora bien, ¿qué obtendremos en el caso de los histogramas para las variables discretas como cyl y gear? Veamos:



In [None]:
# Histograma de cyl

carros['cyl'].plot.hist(bins=5, color = 'red')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para variable "cyl"')
plt.show();

In [None]:
# Histograma de gear

carros['gear'].plot.hist(bins=5, color = 'orange')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title('Histograma para variable "gear"')
plt.show();

Ya que las variables son discretas, vemos que para la cantidad de cilindros obtenemos picos en 4, 6 y 8 que, de hecho, representan los únicos valores distintos que existen en esa variable del dataset. El histograma en este caso nos dice que la mayoría de los carros presentes tienen 8 cilindros, luego 4, y por último 6.

En el caso de la cantidad de velocidades ocurre algo similar: la mayoría de los vehículos tiene 3 velocidades, luego 4 y luego 5.

En vista de esto, para variables discretas un histograma no necesariamente es la mejor opción a fin de visualizar la distribución de los datos. En ese caso es preferible hacer un gráfico de barras en donde el eje X sean, por ejemplo, la cantidad de cilindros o la cantidad de velocidades, y el eje Y el total presente para cada caso en todo el dataset.

Para lograr graficar esto, podemos hacer uso de la función `.plot.bar()`, pero antes debemos calcular de alguna manera cuál es la frecuencia de cada una de las variables en cada caso (lo que correspondería a colocar en el eje Y). Esto se logra con la función `.value_counts()`:

In [None]:
# Vamos a graficar la variable categórica cyl

# Primero, calculamos la cantidad de ocurrencias que hay para cada uno de los valores diferentes de cyl
# Luego le colocamos nombre a la variable de dicha cuenta 'cyl' con .rename_axis()
# Despues reiniciamos el indice y le colocamos el nombre 'count' a la columna con .reset_index
n_cyl = carros['cyl'].value_counts().rename_axis('cyl').reset_index(name='count')

# Esto nos genera como salida el siguiente dataframe
n_cyl

Ahora, podemos graficar este dataframe como un gráfico de barras:

In [None]:
# Grafico de barras del dataframe anterior

n_cyl.plot.bar(x='cyl', y='count')
plt.xlabel('Numero de Cilindros')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de la variable "cyl" en dataset')
plt.legend('')
plt.show();

Del mismo modo, podemos hacer algo equivalente para la variable gear:

In [None]:
# Grafiquemos la variable gear como grafico de barras

# Primero, calculemos la frecuencia por cada cantidad de velocidades
n_gear = carros['gear'].value_counts().rename_axis('gear').reset_index(name='count')

# Ahora grafiquemos
n_gear.plot.bar(x='gear', y='count', color='orange')
plt.xlabel('Numero de Velocidades')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de la variable "gear" en dataset')
plt.legend('')
plt.show();

En definitiva, con estas gráficas podemos ver cuáles son los marcajes de cilindrada y número de velocidades que tienen los vehículos que forman parte del dataset original, y cuántos de estos aparecen en el mismo.

Ahora bien, volviendo al dataset 'carros' que filtramos:

In [None]:
# Dataset carros

carros.head()

Ya que conocemos las distribuciones y frecuencias de cada una de las variables que forman parte del conjunto de datos, algo interesante de explorar son las relaciones que existen o pueden existir entre tales variables. Por ejemplo, antes de realizar el análisis, podríamos hacernos las siguientes preguntas: ¿Existe alguna relación entre las millas por galón de un vehículo y el desplazamiento producido por el mismo? ¿O entre el mpg y los caballos de fuerza que posee? Estas relaciones podemos conocerlas a partir de gráficos de dispersión como ya vimos antes:

In [None]:
# Relacion entre las mpg y el disp

carros.plot.scatter(x='mpg', y='disp', s=30)
plt.xlabel('MPG')
plt.ylabel('Desplazamiento')
plt.title('Gráfica disp vs. mpg')
plt.show();

En este caso, a partir de la gráfica podemos ver que la relación entre el desplazamiento y las millas por galón es inversamente proporcional: a medida que aumentan las mpg del vehículo, disminuye el desplazamiento que posee el motor. Esto tiene sentido si consideramos que a medida que un carro es más eficiente, es decir, capaz de producir mayor cantidad de millas por galón, entonces su consumo de gasolina debería disminuir y, por lo tanto, su desplazamiento. Podemos decir también que un vehículo con mucha potencia y, por lo tanto, mucho desplazamiento, recorrerá pocas millas por galón. Veamos la relación entre mpg y los hp:

In [None]:
# Relación entre las mpg y los hp

carros.plot.scatter(x='mpg', y='hp', color='orange', s=30)
plt.xlabel('MPG')
plt.ylabel('Caballos de Fuerza')
plt.title('Gráfica hp vs. mpg')
plt.show();

De nuevo, tenemos una relación inversa: mientras más caballos de fuerza tenga un vehículo, menos será su eficiencia y, por lo tanto, menos sus mpg.

A partir de estos resultados, podemos hacer la siguiente suposición: aquellos carros con mayor desplazamiento de gasolina tendrán mayores caballos de fuerza. Veamos si nuestra afirmación es cierta:

In [None]:
# Gráfica de hp vs. disp

carros.plot.scatter(x='hp', y='disp', color='red', s=30)
plt.xlabel('HP')
plt.ylabel('Desplazamiento')
plt.title('Gráfica hp vs. disp')
plt.show();

De manera evidente se observa que, en efecto, en este caso la relación es directamente proporcional: mientrás más caballos de fuerza tenga un vehículo, mayor será la cantidad de gasolina que desplaza su motor.

Como podemos ver, es a partir del análisis de los datos y la generación de este tipo de gráficas lo que nos permite obtener información que, en algún caso, podría ser desconocida o no muy evidente si no se realiza el trabajo exploratorio.

Para finalizar este breve análisis y con el fin de introducir otra de las funcionalidades que ofrecen los dataframe y la librería *Pandas*, está la capacidad de realizar cálculos sobre datos 'agrupados'. Por ejemplo, en base al dataset MTCARS, vimos que el conjunto de datos tiene, por ejemplo, variables categóricas como la cantidad de velocidades o el número de cilindros, y a su vez variables contínuas como las millas por galón o los caballos de fuerza.

Algo que podría ser interesante saber es el valor promedio de mpg en función de la cantidad de cilindros o velocidades, o bien el valor promedio de caballos de fuerza en función de las mismas variables.

Este tipo de resultados es posible obtenerlo haciendo uso de la función `.groupby()`:

In [None]:
# Ejemplo de agrupamiento de datos con pandas

carros.groupby('cyl')[['mpg', 'disp', 'hp']].mean()

En este caso, la instrucción ejecutada puede leerse como: toma el dataframe carros, agrúpalo por la variable 'cyl', y sólamente a las columnas mpg, disp y hp, le vas a calcular el promedio (mean) entre todos los datos presentes. Como se observa, la salida que se obtiene es el valor promedio de mpg, disp y hp para cada uno de las diferentes cilindradas del dataset.

Del mismo modo, podemos hacer el cálculo para el número de velocidades:

In [None]:
# Agrupamiento y cálculo de promedios para la variable gear

carros.groupby('gear')[['mpg', 'disp', 'hp']].mean()

Este tipo de resultados puede ofrecernos información particular como, por ejemplo, según la tabla anterior vemos que los vehículos con 4 velocidades son los que, en promedio, tienen menor cantidad de caballos de fuerza.

En el caso de la tabla del agrupamiento por cilindros, vemos que mientras más cilindros se tengan, en promedio mayor será la cantidad de caballos de fuerza.

Podríamos, por último, realizar una gráfica de esto:

In [None]:
# Relación de cantidad de cilindros y hp promedios

# Agrupamos por cilindros
cyl_mean = carros.groupby('cyl')[['mpg', 'disp', 'hp']].mean()

# Graficamos hp promedio vs. cyl
cyl_mean.plot.bar(y='hp')
plt.xlabel('Cilindros')
plt.ylabel('HP Promedio')
plt.title('Dependencia del HP Promedio con el número de Cilindros')
plt.legend('')
plt.show();

De modo que el contar datos almacenados y cargados en forma de un dataframe permite (entre una gran cantidad de otras funcionalidades que a efectos de un curso introductorio no se mencionan), realizar análisis de datos exploratorios, manipulación, limpieza y graficación de datos de una manera sencilla y que ofrece la posibilidad de extraer información que no podría conocerse de otra manera.

# Proyecto de Análisis de Datos

Para finalizar el presente curso, se plantea a continuación un proyecto de exploración de datos a fin de que el participante ejercite todo lo relacionado con la librería pandas, y la graficación con matplotlib. La idea es realizar un análisis de un dataset conocido, pero la invitación al participante es que, por su cuenta, explore las funcionalidades de pandas y sea capaz de extraer cualquier tipo de información adicional que él desee a partir del conjunto de datos propuesto.

El dataset a trabajar es el conocido como "Movie Industry", el cual contiene información histórica sobre películas de Hollywood a lo largo de los años.

Este dataset se cargará directamente de un archivo .csv que está almacenado en mi dirección de Google Drive, por lo que primero se colocan las rutinas para cargarlo, y que no debería dar ningún problema si se cuenta con una conexión a internet estable (en caso de presentar algún problema con la carga del archivo, notificarlo a rdelgado@abae.gob.ve):

In [None]:
# Carga del dataset Movie Industry almacenado en Google Drive externo
import pandas as pd
import requests
from io import StringIO

orig_url='https://drive.google.com/file/d/1qk0BqJd8VhyBUGrE8cYLrBZddecnWduV/view?usp=sharing'

file_id = orig_url.split('/')[-2]
dwn_url='https://drive.google.com/uc?export=download&id=' + file_id
url = requests.get(dwn_url).text
csv_raw = StringIO(url)
movies = pd.read_csv(csv_raw)

Una vez cargado el archivo, podemos inspeccionar las primeras líneas:

In [None]:
# Aspecto del dataset

movies.head()

Como se observa, las columnas de este conjunto de datos representan:
- budget: el presupuesto empleado para hacer la película.
- company: la compañía productora.
- director: quién dirigió la película.
- genre: a cuál género pertenece la película.
- gross: las recaudación de la película en USD.
- name: el nombre de la película.
- rating: la censura de la película.
- released: la fecha de estreno de la película.
- runtime: la duración de la película.
- score: el rating o valoración que los espectadores le dieron a la película.
- star: actor o actriz protagonista.
- votes: la cantidad de personas que valoraron la película.
- writer: escritor o escritora de la película.
- year: el año de producción de la película.

Ahora bien, antes de establecer los objetivos del análisis, vamos a incorporar una nueva columna a este dataset. Esta nueva columna se llamará 'profit' y se refiere a las ganancias que obtuvo cada película, es decir, la diferencia entre la recaudación (gross) y el presupuesto (budget). Para crear esta nueva columna, hacemos lo siguiente:

In [None]:
# Incorporamos las ganancias de cada pelicula

movies['profit'] = movies['gross']-movies['budget']
movies.head()

Nótese que, en efecto, al final del dataframe se agregó la columna 'profit' que muestra las ganancias de cada película en USD.

Ya que el dataset está listo, dejamos de parte del participante que realice como guste un Análisis de Datos Exploratorio, pero como principales objetivos del análisis deberá responder las siguientes preguntas:

- ¿Cuántas películas (filas) forman parte del dataset?
- ¿Cómo se distribuyen los datos de presupuesto, recaudación, ganancias y valoración de la audiencia?
- ¿Cuáles son las 3 películas más costosas de hacer?
- ¿Cuáles son las 3 películas que mayor recaudación tuvieron?
- ¿Cuáles son las 3 películas que mayores ganancias tuvieron?
- ¿Cuáles son las 3 películas mejor valoradas por los espectadores?
- ¿Cuáles son las 3 películas peor valoradas por los espectadores?
- ¿Cuáles son las 3 películas con menor recaudación?
- ¿Hubo películas que tuvieron pérdidas en lugar de ganancias?
- ¿Existe alguna relación entre el presupuesto de una película y su recaudación?
- ¿Existe alguna relación entre el presupuesto de una película y sus ganancias?
- ¿Las películas más caras de hacer obtienen mejores valoraciones de los espectadores?
- ¿Las películas con mayores ganancias obtienen mejores valoraciones de los espectadores?
- En promedio, ¿qué género (genre) de películas tiene mayor presupuesto?
- En promedio, ¿qué género (genre) de películas tiene mayores ganancias?
- En promedio, ¿qué género (genre) de películas obtiene mayor valoración de la audiencia?
- ¿Existe alguna relación entre el género de una película y la valoración promedio de la audiencia?
- ¿A lo largo de los años, las películas se han hecho cada vez más caras?
- ¿A lo largo de los años, las películas obtienen mayores ganancias?
- ¿Las películas más recientes obtienen mejor valoración de la audiencia que las películas más viejas?
- ¿Cuál es la relación entre la duración de una película y la valoración de la audiencia?
- ¿Cuál director de cine es, en promedio, el mejor valorado por la audiencia?
- ¿Cuál director de cine es, en promedio, el que películas con mayores ganancias ha producido?
- ¿Qué otros datos de interés puede obtener a partir del dataset presentado?

# Conclusiones

Con esto, finaliza el Curso Introductorio de Programación en Python. Por supuesto, lo presentado a lo largo del curso no agota el tema, pues lo que se mostró apenas representan algunas de las principales funcionalidades del lenguaje de programación, así como de algunas de las librerías más populares que existen. Además, en el curso no se mencionó nada relacionado con la programación orientada a objetos (OOP) y la definición y el trabajo con clases en Python, aspectos avanzados que pueden ser de utilidad para quien desea profundizar en el tema.

En este sentido, la invitación para los interesados es a investigar sobre librerías como 'OpenCV' (visión por computadora y procesamiento digital de imágenes), 'Requests' (librería para trabajar con peticiones HTTP), 'SciPy' (librería para cálculo científico), 'Scikit-learn', 'Keras', 'Tensorflow' y 'PyTorch' (librerías para machine learning e inteligencia artificial), 'SQLAlchemy' (librería para bases de datos), 'Rasterio' y 'GDAL' (librerías para procesar imágenes satelitales), 'Seaborn' (librería para graficación avanzada), entre muchas otras existentes y que, sin duda, podrían ser de utilidad para resolver una infinidad de problemas en distintas áreas del conocimiento.

Para aquellos que siguieron el curso y les resultó interesante y provechoso, espero lo aprendido pueda servirles como una herramienta profesional (y personal) adicional y poderosa para enfrentar cualquier tarea que se les presente.

Termino entonces, con una interesante frase de Francois Chollet, investigador de Google y creador de la librería 'Keras':

"Podrás destacar en prácticamente cualquier oficio si llevas contigo una mentalidad científica".