### Uso de API de manera directa
#### Sunset and sunrise times API
Sirve para obtener la hora del amanecer y el ocaso de un determinado dia
Parametro:
* lat (float):Latitud en grados decimales (Obligatorio)
* lng (float):Longitud en grados decimales (Obligatorio)
* date(string): Fecha en formato AAAA-MM-DD (opcional, por defecto usa actual)

Estructura de la query:

https://api.sunrise-sunset.org/json

lat= 36.7201600
&
lng =-4.4203400
&
date=2021-07-26

In [50]:
# definimos los parametros de nuestra query
latitud = -34.6
longitud = -58.4
fecha = '1816-07-09'


In [51]:
# Hacemos el pedido y guardamos la respuesta en una nueva variable
import requests
respuesta_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}&date={fecha}')


In [52]:
# Para des-serializar el objetivo (que era tipo 'HTTPResponse') y cargarlo como json 
datos_sunset =respuesta_sunset.json()
datos_sunset

{'results': {'sunrise': '10:58:20 AM',
  'sunset': '8:58:27 PM',
  'solar_noon': '3:58:24 PM',
  'day_length': '10:00:07',
  'civil_twilight_begin': '10:32:04 AM',
  'civil_twilight_end': '9:24:44 PM',
  'nautical_twilight_begin': '10:00:49 AM',
  'nautical_twilight_end': '9:55:58 PM',
  'astronomical_twilight_begin': '9:30:19 AM',
  'astronomical_twilight_end': '10:26:29 PM'},
 'status': 'OK',
 'tzid': 'UTC'}

In [53]:
type(datos_sunset)
print(datos_sunset.keys())
#Evaluamos el status del pedido
sunset_status = datos_sunset['status']
print(f'Status: {sunset_status}')

dict_keys(['results', 'status', 'tzid'])
Status: OK


In [54]:
# Podemos ver su contenido ya que es son diccionarios anidados 
sunset= datos_sunset['results']['sunset']
print(f'El {fecha} el sol se oculto a las {sunset} (UTC)')


El 1816-07-09 el sol se oculto a las 8:58:27 PM (UTC)


In [55]:
print("Iteracion data_sunset['results']:")
for elemento in datos_sunset['results']:
    print(elemento)
    

Iteracion data_sunset['results']:
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### Uso de API por medio de una libreria : Wikipedia
Wikipedia-Api es wrapper de Python facil de usar para la API de Wikipedia. Admite la extraccion de textos, secciones, enlaces, categorias, traducciones, etc
Repositorio: https://github.com/martin-majilis/Wikipedia-API
Documentacion: https://wikipedia-api.readthedocs.io/en/latest/README.html

In [56]:
import wikipediaapi

user_agent = 'MiAplicacion/1.0 (fernando2017diazescobar@gmail.com)'
# Crear un objeto Wikipedia con el idioma deseado y el User-Agent
wiki_wiki = wikipediaapi.Wikipedia(
    language='es',
    user_agent=user_agent
)

page = wiki_wiki.page('programación')

# Verificar si la página existe
if page.exists():
    # Imprimir el título y el resumen del artículo
    print(f"Título: {page.title}")
    print(f"Resumen: {page.summary[:60]}...")  # Mostrar los primeros 60 caracteres del resumen
else:
    print("La página no existe.")

print(page.title)
print(' ')
print(page.summary)
print(' ')
print(page.fullurl)


Título: Programación
Resumen: La programación es el proceso de crear un conjunto de instru...
Programación
 
La programación es el proceso de crear un conjunto de instrucciones que le dicen a una computadora como realizar algún tipo de tarea. Pero no solo la acción de escribir un código para que la computadora o el software lo ejecute. Incluye, además, todas las tareas necesarias para que el código funcione correctamente y cumpla el objetivo para el cual se escribió.[1]​
En la actualidad, la noción de programación se encuentra muy asociada a la creación de aplicaciones de informática y videojuegos. En este sentido, es el proceso por el cual una persona desarrolla un programa, valiéndose de una herramienta que le permita escribir el código (el cual puede estar en uno o varios lenguajes, como C++, Java y Python, entre muchos otros) y de otra que sea capaz de “traducirlo” a lo que se conoce como lenguaje de máquina, que puede "comprender" el microprocesador.[2]​
 
https://es.wikipedia.org

In [57]:
from bs4 import BeautifulSoup
import bs4
print("Version de BeatifulSoup:",bs4.__version__)
print("Version de BeatifulSoup:",requests.__version__)

Version de BeatifulSoup: 4.12.3
Version de BeatifulSoup: 2.32.3


### en el caso que no pueda se  posible utilizar el modulo 
### descargar las versiones anteriores de este 


In [58]:
# En caso de no tener la version que se usa en este curso
#! pip3 install beautifulsoup==4.11.2
#! pip3 install requests ==2.27.1

In [59]:
#Empezamos el scraping

# 1. Obtener el HTML
URL_BASE ='https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido,"html.parser")
type(soup)


bs4.BeautifulSoup

##### El metodo find()
Nos permite quedarnos con la informacion asociada a una etiqueta de HTML

In [60]:
primer_h2 = soup.find('h2')
print(primer_h2)
#Solo el texto
print(primer_h2.text)

#equivalente a:
print(soup.h2.text)

<h2>¿Por qué comprar con nosotros?</h2>
¿Por qué comprar con nosotros?
¿Por qué comprar con nosotros?


#### El metodo find_all()
Busca TODOS los elementos de la pagina con esa etiqueta y devuelve una "lista" que los contiene (en realidad devuelve un objetivo de la clase)

In [61]:
h2_todos =soup.find_all('h2')
print(h2_todos)

# si queremos limitar la cantidad de elementos a buscar el argumento limit debe ser ajustado  en un valor a buscar
h2_uno_solo = soup.find_all('h2',limit =1)
print(h2_uno_solo)

# para imprimir solo los textos de los elementos 
# se puede utilizar un ciclo for 
for seccion in h2_todos:
  print(seccion.text)
print('\n')    
  # existe un metodo que permite realizar operaciones mas avanzadas con el texto extraido
  # el argumento strip permite limpiar los espacios en blanco del elemento 
for seccion in h2_todos:
    print(seccion.get_text(strip=True))
  
  

[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #Novedades
                </h2>, <h2>
            Nuestros <span>productos</span>
</h2>, <h2>
            Testimonios de clientes
          </h2>, <h2 class="heading-container">
          Tabla de precios
        </h2>]
[<h2>¿Por qué comprar con nosotros?</h2>]
¿Por qué comprar con nosotros?

                  #Novedades
                

            Nuestros productos


            Testimonios de clientes
          

          Tabla de precios
        


¿Por qué comprar con nosotros?
#Novedades
Nuestrosproductos
Testimonios de clientes
Tabla de precios


#### Utilizando atributos de las etiquetas

In [62]:
divs =soup.find_all ('div', class_="heading-container heading-center")

for div in divs:
  print(div)
  print(" ")

<div class="heading-container heading-center" id="acerca">
<h2>¿Por qué comprar con nosotros?</h2>
</div>
 
<div class="heading-container heading-center" id="productos">
<h2>
            Nuestros <span>productos</span>
</h2>
</div>
 
<div class="heading-container heading-center">
<h3>Suscríbete para obtener descuentos y ofertas</h3>
</div>
 
<div class="heading-container heading-center">
<h2>
            Testimonios de clientes
          </h2>
</div>
 


In [63]:
# buscamos todos los elemento con la etiqueta src con el metodo find_all
src_todos = soup.find_all(src=True)
# este metodo devuelve un lista con el nombre de cada elemento
print(src_todos)
# con un ciclo for recorremos todos los elementos de la lista
for elemento in src_todos:
    # si el elemento  termina con ".jpg" imprimimos el elemento
    if elemento['src'].endswith(".jpg"):
      print(elemento)

[<img alt="Logo de ScrapePark.org" src="images/logo.svg" width="250"/>, <img alt="Parque de patinaje" src="images/slider-bg.jpg"/>, <img alt="Variedad de patinetas en la tienda" src="images/arrival-bg-store.png"/>, <img alt="Patineta 1" src="images/p1.png"/>, <img alt="Patineta 2" src="images/p2.jpg"/>, <img alt="Patineta 3" src="images/p3.png"/>, <img alt="Patineta 4" src="images/p4.png"/>, <img alt="Patineta 5" src="images/p5.png"/>, <img alt="Patineta 6" src="images/p6.png"/>, <img alt="Patineta 7" src="images/p7.png"/>, <img alt="Patineta 8" src="images/p8.png"/>, <img alt="Patineta 9" src="images/p9.png"/>, <img alt="Patineta 10" src="images/p10.png"/>, <img alt="Patineta 11" src="images/p11.png"/>, <img alt="Patineta 12" src="images/p12.png"/>, <img alt="Cliente 1" src="images/client-one.png"/>, <img alt="Cliente 2" src="images/client-two.png"/>, <img alt="Cliente 3" src="images/client-three.png"/>, <iframe src="table.html" title="table_iframe"></iframe>, <img alt="#" src="images

In [64]:
#generamos una lista vacia  para almacenar las imagenes 
url_imagenes=[]
# definimos un ciclo for para recorrer los elementos de la lista src_todos
for i, imagen in enumerate(src_todos):
    # si la imagen termina  con png
    if imagen['src'].endswith('png'):
        # imprimir la imagen 
        print(imagen['src'])
        #requerir los paquetes de datos de las imagenes
        r=requests.get(f"https://scrapepark.org/spanish/{imagen['src']}")
        # con la funcion open creamos un nuevo archivos con el nombre imagen+ # iteracion
        with open(f'imagen_{i}.png','wb') as f:
          # almacenamos los paquetes de datos de la imagen con el metodo write 
          f.write(r.content)
          

images/arrival-bg-store.png
images/p1.png
images/p3.png
images/p4.png
images/p5.png
images/p6.png
images/p7.png
images/p8.png
images/p9.png
images/p10.png
images/p11.png
images/p12.png
images/client-one.png
images/client-two.png
images/client-three.png
./images/freecodecamp-logo.png


In [65]:
#Informacion de tablas 
# string que almacena el nombre de  la pagina web
URL_BASE = 'https://scrapepark.org/spanish'
# lista que almacena los valores de las tablas 
URL_TABLA = soup.find_all('iframe')[0]['src']
# tomar los meta datos de la tablas de la pagina web
requests_tabla =requests.get(f'{URL_BASE}/{URL_TABLA}')
# definimos una lista con el texto de las tablas 
html_tabla=requests_tabla.text
# alamcena el codigo html de la pagina web
soup_tabla =BeautifulSoup(html_tabla,"html.parser")
# buscar y almacena los elementos con las etiquetas table (las tablas)
soup_tabla.find('table')
# busca los elementos con las etiquetas th y td y atributos {'style':'color: red;'} dentro de los datos de las tablas 
productos_faltantes = soup_tabla.find_all(['th','td'],attrs={'style':'color: red;'})
# almacena una lista con los textos de los elementos de la tabla 
productos_faltantes= [talle.text for talle in productos_faltantes]
# imprime los elementos extraidos de la tabla 
print(productos_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


In [66]:
# buscar todos los elementos de tipo divs y clase detail-box
divs =soup.find_all('div',class_ ='detail-box') 
# lista vacia para almacenar los elementos de tipo producto
productos = [] 
# lista vacia para almacenar los elementos de tipo precios
precios =[]
#generamos un ciclo for para recorres los elementos de la lista divs
for div in divs:
    # si el valor de h6 del div no esta vacio y el texto patineta esta en div.h5.text   
    if (div.h6 is not None) and ('Patineta' in div.h5.text):
        # almacenar el nombre del producto en la variable producto
        producto = div.h5.get_text(strip =True)
        # almacenar el valor del producto en la variable precio y sustituir el signo precio por un espacio en blanco
        precio = div.h6.get_text(strip =True).replace('$','')
        # Se puede agregar filtros
        # imprimir el valor del producto si este tiene un valor menor a 16  y el precio del producto
        print(f'producto: {producto:<16} | precio: {precio}')
        # agregar el producto a la lista de productos
        productos.append(producto)
        # agregar el precio a la lista de precios 
        precios.append(precio)
        

producto: Patineta Nueva 1 | precio: 75
producto: Patineta Usada 2 | precio: 80
producto: Patineta Nueva 3 | precio: 68
producto: Patineta Usada 4 | precio: 70
producto: Patineta Nueva 5 | precio: 75
producto: Patineta Nueva 6 | precio: 58
producto: Patineta Nueva 7 | precio: 80
producto: Patineta Nueva 8 | precio: 35
producto: Patineta Nueva 9 | precio: 165
producto: Patineta Usada 10 | precio: 54
producto: Patineta Usada 11 | precio: 99
producto: Patineta Nueva 12 | precio: 110


##### Cambios que dependen de la URL

In [67]:
# definimos un string base para iterrar entre las url
URL_BASE = "https://scrapepark.org/spanish/contact"
# definimos un ciclo for para recorrer las url 
for i in range(1,3):
    # la url de la iteracion 
    URL_FINAL = f"{URL_BASE}{i}"
    # imprimer el nombre de la url de la iteracion
    print(URL_FINAL)
    # obtener los paquetes de datos de la url
    r =requests.get(URL_FINAL)
    # generar una instancia con los paquetes de datos de la url
    soup =BeautifulSoup(r.text,"html.parser")
    #imprimir el texto del elementos h5
    print(soup.h5.text)
    

https://scrapepark.org/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


In [68]:
#Expresiones regulares 
# importamos el modulo de expresiones regulares
import re

#1. Obtener el html
#definimos un string que almacena la direccion web
URL_BASE = 'https://scrapepark.org/spanish'
#tomamos los paquetes de datos de la pagina web
pedido_obtenido = requests.get(URL_BASE)
#definimos una variable para almacenar el texto de la pagina web
html_obtenido = pedido_obtenido.text

# 2.Parsear ese HTML
soup =BeautifulSoup(html_obtenido, "html.parser")

# utilizando el metodo find_all y el metodo compile buscamos la palabra
# el metodo compile permite identificar el tipo de elemento que es el tipo de texto que buscamos
# luego find all nos devuelve un iterrable con todos los elementos queen su text tenga la forma buscada  
telefonos =soup.find_all(string=re.compile("\d+-\d+-\d+"))
print(telefonos)

[': 4-444-4444']


In [69]:
copyrights=soup.find_all(string=re.compile("©"))
print(copyrights)

['© 2022 ']


In [70]:
# para poder aceder a todo los datos de la etiqueta padre 
primer_copyright = copyrights[0]
print (primer_copyright.parent)


<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>


In [71]:
menu = soup.find(string=re.compile("MENÚ"))
#menu.parent
# perimite identificar todos los elementos que estan al mismo nivel 
menu.parent.find_next_siblings()


[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

#### Comentario sobre excepciones 

In [72]:
strings_a_buscar =["MENÚ","©","carpincho","Patineta"]

for string in strings_a_buscar :
    try: 
        resultado = soup.find(string=re.compile(string))
        print(resultado.text)
    except AttributeError:
        print(f"El string '{string}' no fue encontrado")

MENÚ
© 2022 
El string 'carpincho' no fue encontrado
Patineta nueva


#### Almacenamiento de los datos 

In [74]:
# este modulo permite trabajar con archivos csv
import csv
# insertamos la palabra "producto como primer elemento de la lista Productos"
productos.insert(0,"productos")
# insertamos la palabra "precio como primer elemento de la lista Productos"
precios.insert(0,"precios")
# con la funcion dict genereramos un diccionario  con  la tubla que devuelve la fincion zip, la funcion zip utiliza los elementos
# de las listas que tiene como argumento 
datos = dict(zip(productos,precios))
# con la funcion open creamos o modificamos un archivo csv, y le asignamos el objeto f
with open('datos.csv','w') as f:
    #con el metodo writer abrimos el archivo 
    W=csv.writer(f)
    # almacenamos los datoos con la funcion writerows
    W.writerows(datos.items())
    