# PC para Tod@s - Introducción a Python y Automatización

Estos Notebooks de Python fueron creados por el profesor Camilo Vieira (PhD), coordinador del grupo de *Informática Educativa* para el curso de Pensamiento Computacional para Tod@s de la Universidad del Norte, en Barranquilla - Colombia. 

Todos estos materiales cuentan con una licencia **Creative Commons** de libre uso con atribución.

**Información de Contacto:** 
- cvieira@uninorte.edu.co
- @cvieiram
- https://cvieira77.wixsite.com/personal

## Python y Jupyter
*Python* es un lenguaje de programación muy usado en **ciencias humanas y exactas**. Python te permite crear programas que resuelvan problemas automatizando tareas repetitivas, procesando grandes cantidades de datos, resolviendo complejos cálculos matemáticos, o simplemente, creando visualizaciones de fenónenos complejos. 

*Jupyter* es un editor de texto y código que nos permite integrar éstos dos elementos en una página web que llamaremos NoteBook NB), para poder integrar explicaciones, ejecutar código, e incluir ejercicios prácticos. Cada que encuentres el texto **In [ ]** a la izquierda de una caja de texto, quiere decir que puedes ejecutar esta instrucción.

Al finalizar esta actividad estarás en capacidad de:
- Explicar pequeñas secuencias de pasos escritas en Python para hacer operaciones matemáticas
- Modificar instrucciones en Python para resolver problemas específicos


### Instrucciones, Variables, y Operaciones Matemáticas

Comencemos por lo más sencillo... Recuerda que programar significa darle instrucciones al computador para que haga lo que yo quiera. Podemos comenzar por pedirle que imprima algo para nosotros: 

In [None]:
print('Mi primera instrucción al computador!')

### Actividad
Lo que hicimos fue simplemente decirle al computador que imprimiera (**print**) el texto que estaba entre las comillas. Ahora tu puedes hacer que imprima algo diferente. Escribe tu instrucción en el siguiente espacio y luego lo podrás ejecutar. 

Vamos a hacer algo más interesante, vamos a crear una variable y hacer algunas operaciones con ésta.

Una variable es *un espacio donde podemos guardar un valor*. A diferencia de otros lenguajes de programación, en Python no es necesario establecer un tipo de dato desde el inicio, sino que nuestra variable puede tomar cualquier valor. Por ejemplo, en la siguiente instrucción estamos asignando el valor de **5,** a la variable **y**.

In [None]:
y=5

Por ahora no vemos nada, pero ¿qué tal si imprimirmos la variable **y**?

In [None]:
print(y)

Nota que en este caso no pusimos las comillas. Esto es porque en la parte de arriba queríamos imprimir el texto entre comillas, mientras aquí queríamos imprimir el contenido de una variable **y**. Mira lo que ocurre si pones las comillas:

In [None]:
print('y')

Como el valor que asignamos a la variable **y** es un número, podemos hacer algunas operaciones matemáticas con esta variable. Por ejemplo, acá vamos a multiplicarla por 2, y almacenar el resultado en una nueva variable **x**.

In [None]:
x = y*2

### Actividad
Divide el valor de *x* entre 3, y verifica el resultado

Otros operadores matemáticos que podemos usar en Python son **+, -, /, y \****. Éste último ( \** ) corresponde a la potenciación. Por ejemplo: **x\*\*2,** significa *x al cuadrado*. **Pruébalo en el siguiente espacio**

Además de estas operaciones matemáticas básicas, también podemos importar otras operaciones o funciones desde una "**librería**" (aunque la traducción correcta de **library** es *biblioteca*, en español se ha vuelto más común hablar de librerías). 

Por ejemplo, podemos usar la función raíz cuadrada **sqrt** importando **math**.

In [None]:
import math
math.sqrt(x)

Puedes ver todas las funciones que tiene esta biblioteca y cómo se usan, con los siguientes comandos:

In [None]:
#dir(math)           # Lista de funciones
#help(math)          # Ayuda sobre la librería math
help(math.sqrt)     # Ayuda sobre la función sqrt

En realidad la instrucción anterior solo ejecutó **help(math.sqrt)** . Esto es porque las otras dos instruccinoes tenían el signo **#,** que indica que esa línea es un comentario. Si lo borras del inicio de la línea, podrás ver lo que hacen las funciones **dir(math)** y **help(math)** 

Librerías como **math** pueden ayudarte a hacer cálculos complejos. Esta es una de las primeras razones por las cuales es muy importante que aprendamos a programar. Un lenguaje como Python te permite automatizar muchos cálculos en poco tiempo.

### Actividad

Asigna la raiz cuadrada de **x,** a una variable **b,** redondea este valor a cero decimales y luego calcula el **factorial** de este número


Aunque Python no exige declarar un tipo de variable y nunca cambiarlo (como si ocurre en otros lenguajes), cada variable si asume un tipo según el dato que tenga almacenado. Por ejemplo:

In [None]:
a = 5     # Esto es un Entero (No tiene decimales)
b = 5.3   # Esto es un flotante (Un número que puede tener comas decimals)
c = '5'   # Esto es un texto, y por ende, no podemos hacer operaciones matemáticas con c

Podemos ver el tipo de dato de cada variable con  la función **type**

In [None]:
type(a)

In [None]:
type(b)

In [None]:
type(c)

Puedes multiplicar un entero por un flotante:

In [None]:
a*b

Pero si multiplicas números con texto, puedes obtener algunos resultados inesperados:

In [None]:
a*c

In [None]:
b*c

**Pregunta:** ¿Por que crees que estás obteniendo estos resultados?

Tendríamos que hacer una conversión para poder hacer dicha multiplicación:

In [None]:
int(c)*b

Hay además otro tipo de variables. Por ejemplo, las variables **booleanas** solo pueden almacenar dos valores: *verdadero* o *falso* .  Esto sirve por ejemplo cuando quieres saber si una máquina está encendida o apagada, o si una compuerta está abierta o cerrada

In [None]:
encendido = True
print(encendido)
type(encendido)

## Actividades

Vamos ahora a practicar un poco. Completa los siguientes retos de programación:

**Promedio**

- Calcula tu promedio del semestre pasado, y almacénalo en una variable **x**.

**Considera las siguientes ecuaciones:**

$$ 4x^2 -2x +30 $$

$$ 3x^2 -(2/3)x +26 $$

- Utiliza la fórmula general (formula del bachiller) para calcular los posibles valores que puede tomar X, e imprime éstos valores

**Calcular la distancia en tres dimensions**

- La distancia entre dos átomos en un espacio tridimensional como el de la figura está dado por la siguiente ecuación:

$$ d = \sqrt{(x_2 -x_1)^2+(y_2 -y_1)^2+(z_2 -z_1)^2} $$

Donde la posición del átomo 1 está dado por: $$ (x_1, y_1, z_1) $$
y la posición del átomo 2 está dado por: $$ (x_2, y_2, z_2) $$

<img src="https://i.imgur.com/aeu2ccp.gif" width="380">

Calcula la distancia entre dos átomos ubicados en las siguientes posiciones:
$$ Atomo_1= (0,1,0) $$ y  $$ Atomo_2= (1,2,-1) $$


### Listas de Valores
U
na estructura de datos bastante útil en programación es una lista de valores, a menudo conocida como un arreglo (en inglés, Array ). **Nota:*** En Python hay algunas diferencias menores entre un arreglo y una lista, pero por ahora vamos a asumir que son lo mismo.

Para crear una lista, utilizamos los corchetes y separamos los valores de nuestra estructura con una coma. Por ejemplo, en la siguiente instrucción estamos creando una lista llamada **a** con los valores 1, 3, 2, 5, 

In [None]:
a = [1, 3, 2, 5, 2]
print(a)

Las listas no necesariamente tienen que ser de números, también pueden ser de texto:

In [None]:
nombres = ["María", "Juan","Andrés"]
print(nombres)

Cada valor en la lista puede ser accedida utilizando su posición, donde la primera posición de la lista es considerada la posición **cero.** Por ejemplo, para obtener el valor en la segunda posición de **a** y el tercer nombre en la lista de nombres, utilizamos las siguientes instrucciones:

In [None]:
print(a[1])
print(nombres[2])

### Actividad
Escribe un programa en Python que imprima uno a uno los tres primeros valores de la lista **a** junto a los tres primeros nombres de la lista

Una forma útil de recorrer una lista en Python es utilizando ciclos. Un ciclo es una estructura en la cual le decimos al computador ejecute unas tareas varias veces. El ciclo for es ideal para estas tareas ya que con tan solo la siguiente estructura, ya Python sabrá que necesitamos recorrer todos los elementos de la lista:

In [None]:
for i in a:
    print(i)

for y in nombres:
    print(y)

### Actividad
Modifica el código anterior para que imprima todas las combinaciones de números y nombres, así:

1 - María

1 - Juan

1 - Andrés

3 - María

3 - Juan

3 - Andrés

2 - María

2 - Juan

2 - Andrés

... y así sucesivamente

## Web Scraping

Ahora vamos a usar Python para automatizar algunas tareas. Específicamente, queremos usarlo para tomar datos desde algunas páginas web sin necesidad de ir a copiar y pegar manualmente.

Aunque hoy en día muchos de los datos están disponibles en la Web para descargas, hay otros sitios web que no ofrecen este servicio. Por ejemplo, .... Para poder descargar esta información necesitamos hacer *Web Scraping*.

Cuando accedemos a una página web a través de nuestro navegado (ejem. Chrome), lo que hacemos es hacer una **solicitud** (request) a un servidor a través de un protocolo (una forma predefinida de comunicarse entre computadores) llamado HTTP. Sin embargo, ésta no es la única forma de hacerlo, podemos también hacer dicha **solicitud** desde un programa que nosotros creemos.

Cuando hacemos esta solicitud, el servidor nos devuelve la página web en formato *HTML*. Esto significa que tendremos que entender cómo está construida la página para poder sacar los datos de allí.

**Comencemos...**

Lo primero que debemos hacer es llamar una *librería* llamada requests, que nos permitirá hacer la solicitud de una página. 

Vamos a traernos la página principal de El Heraldo, e imprimir su código html.

In [1]:
import requests

URL = "https://www.elheraldo.co/"

page = requests.get(URL)

print(page.content)

b'\t\t<!DOCTYPE html>\r\n\t\t<html lang="es-CO">\r\n\t\t\t<head>\r\n\t\t\t\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n<link rel="shortcut icon" href="https://www.elheraldo.co/sites/default/files/favicon_1.png" type="image/png" />\n<meta name="generator" content="Drupal 7 (https://www.drupal.org)" />\n<link rel="canonical" href="https://www.elheraldo.co/" />\n<link rel="shortlink" href="https://www.elheraldo.co/" />\n\r\n\t\t\t\t<!-- Google Tag Manager -->\r\n\t\t\t\t<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\r\n\t\t\t\tnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\r\n\t\t\t\tj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\r\n\t\t\t\t\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\r\n\t\t\t\t})(window,document,\'script\',\'dataLayer\',\'GTM-MGHCJ5L\');</script>\r\n\t\t\t\t<!-- End Google Tag Manager -->\r\n\r\n\t\t\t\t<!-- Chartbeat -->\r\

Como habrás visto, esto trae un código que es difícil de leer para nosotros, pero que los navegadores (como Chrome o Firefox) comprenden y utilizan para pintar las páginas web tal y como las vemos.

A nosotros no nos interesan todas las páginas, sino secciones específicas de noticias que podamos tomar. Para esto, debemos entender de manera general cómo está la página creada. Específicamente, vamos a buscar la sección horizontal de noticias en la parte superior, que tiene como id **widget_eh_horizontal_4_noticias**. Utilizamos otra librería, *BeautifulSoup* para acceder fácilmente a las secciones de la página.

Pide ayuda a tu docente si aún tienes dudas sobre cómo encontramos esta palabra clave ( *widget_eh_horizontal_4_noticias* )

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page.content, "html.parser")

results = soup.find(id="widget_eh_horizontal_4_noticias")

print(results)

<section class="widget-not" id="widget_eh_horizontal_4_noticias">
<h1 class="titulo-bloque-seccion">
<a href="/elecciones-2022">
				Lo que piden las regiones			</a>
</h1>
<div class="content-items">
<article class="item foto-titulo">
<div class="image">
<a class="icon icon-articulo 892608-widget" data-id="892608" href="/cesar/mas-oportunidades-y-menos-promesas-lo-que-exigen-en-el-cesar-892608" id="192491-widget"><picture><source media="(min-width: 768px)" srcset="https://www.elheraldo.co/sites/default/files/styles/384x216/public/articulo/2022/03/06/cesar_1_1.jpg?itok=VgpBgTcV"/><source media="(max-width: 767px)" srcset="https://www.elheraldo.co/sites/default/files/styles/380x214/public/articulo/2022/03/06/cesar_1_1.jpg?itok=c3ZlQXh2"/><img alt="“Más oportunidades y menos promesas”: lo que exigen en el Cesar" loading="lazy" src="https://www.elheraldo.co/sites/default/files/styles/384x216/public/articulo/2022/03/06/cesar_1_1.jpg?itok=VgpBgTcV"/></picture>
</a> </div>
<div class="text">


Esta nueva impresión nos muestra los datos muchos más organizados, y nos permite incluso ver ya algunas noticias que estaban en ésa sección.

El tercer paso es sacar cada pedacito de información de cada noticia. Para esto, usamos la función **find_all** y buscamos todas las estructuras de tipo "div" que tengan la palabra clave "text". Luego, lo recorremos con un ciclo for para tomar cada pedacito.

In [3]:
noticias = results.find_all("div", class_="text")

for noticia in noticias:
    
    titulo = noticia.find("h1")
    etiqueta = noticia.find("span", class_="tag")
    fecha = noticia.find("time")
    print(titulo.text)
    print(etiqueta.text)
    print(fecha.text)
    print()

“Más oportunidades y menos promesas”: lo que exigen en el Cesar
Elecciones 2022
Mar 07, 2022

Lo que le exigen los sucreños a los candidatos políticos
Sucre
Feb 28, 2022

La Guajira: el crudo escenario social que rodea a las elecciones
La Guajira
Feb 13, 2022

Córdoba: lo que exigen sus habitantes a los candidatos
El caribe decide
Feb 06, 2022



## Actividades
Extrae las noticias de una sección diferente en El Heraldo.

### Otro Ejemplo...
Un uso común que le dan al Web Scraping es buscar los precios de ciertos productos en páginas específicas.

Por ejemplo, podemos usar la siguiente URL para traer los precios de diferentes audífonos en Mercado Libre.

In [4]:
URL = "https://listado.mercadolibre.com.co/audifonos#D[A:audifonos]"
page = requests.get(URL)

print(page.text)


<!DOCTYPE html>
<html lang="es-CO">
<head><link rel="preconnect" href="https://www.google-analytics.com"/><link rel="preconnect" href="https://www.google.com"/><link rel="preconnect" href="https://data.mercadolibre.com"/><link rel="preconnect" href="https://http2.mlstatic.com"/><link rel="preconnect" href="https://stats.g.doubleclick.net"/><link rel="preconnect" href="https://analytics.mercadolibre.com.co"/><link rel="preconnect" href="https://analytics.mercadolibre.com"/><link rel="preconnect" href="https://www.google.com.co"/><script type='text/javascript' >window.NREUM||(NREUM={});NREUM.info = {"agent":"","beacon":"bam-cell.nr-data.net","errorBeacon":"bam-cell.nr-data.net","licenseKey":"3009922991","applicationID":"408441092","applicationTime":1557.2441760000002,"transactionName":"YlZQYEVZC0QEV0BZV1scd0xHSgBEFl5HH39wZx0bHQ==","queueTime":0,"ttGuid":"2dec517cac74361a","agentToken":null}; (window.NREUM||(NREUM={})).init={ajax:{deny_list:["bam-cell.nr-data.net"]}};(window.NREUM||(NREU

Ahora lo organizamos *BeautifulSoup*

In [5]:
soup = BeautifulSoup(page.content, "html.parser")
print(soup)


<!DOCTYPE html>

<html lang="es-CO">
<head><link href="https://www.google-analytics.com" rel="preconnect"/><link href="https://www.google.com" rel="preconnect"/><link href="https://data.mercadolibre.com" rel="preconnect"/><link href="https://http2.mlstatic.com" rel="preconnect"/><link href="https://stats.g.doubleclick.net" rel="preconnect"/><link href="https://analytics.mercadolibre.com.co" rel="preconnect"/><link href="https://analytics.mercadolibre.com" rel="preconnect"/><link href="https://www.google.com.co" rel="preconnect"/><script type="text/javascript">window.NREUM||(NREUM={});NREUM.info = {"agent":"","beacon":"bam-cell.nr-data.net","errorBeacon":"bam-cell.nr-data.net","licenseKey":"3009922991","applicationID":"408441092","applicationTime":1557.2441760000002,"transactionName":"YlZQYEVZC0QEV0BZV1scd0xHSgBEFl5HH39wZx0bHQ==","queueTime":0,"ttGuid":"2dec517cac74361a","agentToken":null}; (window.NREUM||(NREUM={})).init={ajax:{deny_list:["bam-cell.nr-data.net"]}};(window.NREUM||(NREU

Y tomamos lo que nos interesa...

In [6]:
results = soup.find(id="root-app")
print(results.prettify())



<main id="root-app" role="main">
 <div class="ui-search">
  <svg class="ui-search-svg-sprites" height="0" width="0" xmlns="http://www.w3.org/2000/svg">
   <defs>
    <symbol id="full" viewbox="0 0 100 32">
     <path d="M6.4 0h12.8l-6.4 11.429h10.667l-17.067 20.571 4.267-13.714h-10.667l6.4-18.286zM34.626 23.467h-4.77l4.077-18.498h13.562l-0.915 4.16h-8.791l-0.61 2.884h8.57l-0.915 4.16h-8.597l-1.609 7.294zM57.687 23.799c-5.685 0-8.486-2.718-8.486-6.601 0-0.305 0.083-0.943 0.139-1.22l2.441-11.010h4.853l-2.413 10.899c-0.028 0.139-0.083 0.444-0.083 0.777 0.028 1.525 1.193 2.995 3.55 2.995 2.551 0 3.855-1.609 4.326-3.772l2.413-10.899h4.826l-2.413 10.982c-0.998 4.493-3.439 7.849-9.152 7.849zM82.33 23.467h-12.203l4.077-18.498h4.77l-3.134 14.338h7.405l-0.915 4.16zM98.596 23.467h-12.203l4.077-18.498h4.77l-3.134 14.338h7.405l-0.915 4.16z">
     </path>
    </symbol>
   </defs>
   <defs>
    <symbol id="start-empty">
     <path d="M5.256 8L2.131 9.648l.597-3.49L.2 3.684l3.494-.509L5.256 0l1.562 3.

In [None]:
productos = results.find_all("div", class_="ui-search-result__wrapper")

for producto in productos:
    nombre = producto.find("h2", class_="ui-search-item__title")
    #envio = producto.find("p", class_="ui-search-item__shipping ui-search-item__shipping--free")
    precio = producto.find("span", class_="price-tag-text-sr-only")
    print(nombre.text)
    #print(envio.text)
    print(precio.text)
    print()
    

### Actividad
Descarga los datos de audífonos del sitio web de Falabella 

### Descargando datos de Twitter

Otra fuente de datos que puede ser relevante son las redes sociales. Para poder tomar datos desde redes sociales, necesitamos conectarnos a través de un servicio que cada red ofrece. Por ejemplo, en el caso de twitter solicitamos crear una aplicación a través de este enlace: https://developer.twitter.com/en/docs/twitter-api

Para el ejercicio de hoy, yo ya solicité la creación, y abajo podemos ver los datos clave que necesitamos:
my_api_key y my_api_secret . Con esto, le estamos dando como un "usuario" y "clave" a twitter para conectarnos.

In [None]:
# import tweepy
import tweepy as tw
# your Twitter API key and API secret
my_api_key = "wvXJ24P3YupUN9kNX8HnvDzp8"
my_api_secret = "33uUzfW8h1gUNMNtrsnMvF7Zt1ucJURBuYZGmNp3IWCevNxA8H"
# Esta instrucción nos permite autenticarnos antes Twitter
auth = tw.OAuthHandler(my_api_key, my_api_secret)
# Una vez autenticados, creamos una variable llamada **api** que será la que utilizaremos para consultar los tweets
api = tw.API(auth, wait_on_rate_limit=True)

Una vez nos conectamos, el siguiente paso es buscar la información que queremos. Una forma fácil de hacerlo es utilizando los hashtags, que son definidos con el símbolo #. 

En el siguiente bloque estamos consultando los tweets que han sido publicados desde el primero de marzo de este año sobre covid 19 en español. Nota que estamos filtrando para quitar los retweets, y así evitar duplicar información. Si quieres conocer cómo funcionan estos filtros y otras funciones de Tweepy ingresa a https://medium.com/@robguilarr/making-queries-to-twitter-api-on-tweepy-66afeb7184a4

Para más información sobre Tweepy
https://docs.tweepy.org/en/stable/

In [None]:
search_query = "#covid19 -filter:retweets"
# Obtener tweets
tweets = tw.Cursor(api.search,
              q=search_query,
              lang="es",
              since="2022-03-01").items(50)

# Almacenar los tweets en una lista e imprimirlos
tweets_copy = []
for tweet in tweets:
    tweets_copy.append(tweet)
    print(tweet)
    
print("Número total de tweets:", len(tweets_copy))

### Actividad
Ahora descarga los datos que se hayan publicado durante esta semana sobre las elecciones en Colombia. ¿Qué hashtag quieres usar? 