## Uso de APIs
<a href="https://sunrise-sunset.org/api">Sunset and sunrise times API</a>

Sirve para obtener la hora del amanecer y el ocaso de un determinado dia

$\textit{parametros}$:
- lat (float): Latitud en grados decimales (obligatorio)
- lng (float): Longitud en grados decimales (obligatorio)
- date (string): Fecha en formato AAAA-MM-DD (opcional, por defecto usa dia actual)

entre Otros.

In [1]:
#definimos los parametros de nuestra query
latitud = 43.3
longitud = 15.38

In [2]:
#Hacemos el pedido y guardamos la respuesta en una variable
import requests
respuesta_sunset = requests.get(f"https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}")

In [3]:
#Para des-serializar el objeto que era {tipo HTTPResponse} y cargarlo como json
datos_sunset = respuesta_sunset.json()
datos_sunset

{'results': {'sunrise': '3:43:23 AM',
  'sunset': '6:26:36 PM',
  'solar_noon': '11:05:00 AM',
  'day_length': '14:43:13',
  'civil_twilight_begin': '3:12:11 AM',
  'civil_twilight_end': '6:57:48 PM',
  'nautical_twilight_begin': '2:30:58 AM',
  'nautical_twilight_end': '7:39:02 PM',
  'astronomical_twilight_begin': '1:43:48 AM',
  'astronomical_twilight_end': '8:26:11 PM'},
 'status': 'OK',
 'tzid': 'UTC'}

In [4]:
datos_sunset.keys()

dict_keys(['results', 'status', 'tzid'])

## BeautifulSoup

Documentación oficial: https://beautiful-soup-4.readthedocs.io/en/latest/

In [5]:
#from urllib.request import urlopen
#from urllib.error import HTTPError
import bs4 
print(f'beautifulsoup version : {bs4.__version__}')
print(f'requests version : {requests.__version__}')

beautifulsoup version : 4.12.2
requests version : 2.31.0


In [6]:
#Obteniendo HTML
url_base = "https://scrapepark.org/spanish/"
pedido_obtenido = requests.get(url_base)
print(type(pedido_obtenido))
print(dir(pedido_obtenido))

<class 'requests.models.Response'>
['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


In [7]:
html_obtenido = pedido_obtenido.text #atributo text
#parsear ese html
soup = bs4.BeautifulSoup(html_obtenido,"html.parser")
type(soup)

bs4.BeautifulSoup

# Metodo find()
Nos permite quedarnos con la información asociada a una etiqueta html

In [8]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2>¿Por qué comprar con nosotros?</h2>


In [9]:
print(primer_h2.text) #muestra el valor del primer h2 sin su etiqueta

¿Por qué comprar con nosotros?


## Metodo find_all()
Busca todos los elementos de la pagina con esa etiqueta y devuelve una "lista" que los contiene(en realidad devuelve un objeto de la clase bs4.element.ResultSet).

In [10]:
todos_h2 = soup.find_all('h2')
print(type(todos_h2))

<class 'bs4.element.ResultSet'>


In [11]:
print(dir(todos_h2))

['__add__', '__class__', '__class_getitem__', '__contains__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort', 'source']


In [12]:
#ARGUMENTOS
#Si usamos el parametro limit=1, emula el metodo find
h2_uno_solo = soup.find_all('h2',limit=1)
print(h2_uno_solo)

[<h2>¿Por qué comprar con nosotros?</h2>]


In [13]:
#Podemos iterar sobre el objeto
for seccion in todos_h2:
    print(seccion.text)

¿Por qué comprar con nosotros?

                  #Novedades

Nuestros productos
Testimonios de clientes
Precios


In [14]:
#la función get_text() permite no solo presentar el texto tambien puede modificar dicho texto
for seccion in todos_h2:
    print(seccion.get_text(strip=True)) #Elimina los espacios en blanco

¿Por qué comprar con nosotros?
#Novedades
Nuestros productos
Testimonios de clientes
Precios


## Utilizando atributos de las etiquetas

In [15]:
#clase especifica
menus = soup.find_all('a',class_ = "nav-link",limit=4)
for data in menus:
    print(data.get_text(strip=True))

Inicio
Contenido
Productos
Idioma


In [17]:
#Todas las etiquetas que tengan el atributo src
todos_src = soup.find_all(src=True)
todos_src

[<img alt="ScrapePark.org Logo" src="../images/logo.svg" width="250"/>,
 <img alt="Parque de patinaje" src="../images/slider-bg.jpg"/>,
 <img alt="Variedad de patinetas en nuestra tienda" src="../images/arrival-bg-store.png"/>,
 <img alt="Patineta" src="../images/p1.png"/>,
 <img alt="Patineta" src="../images/p2.jpg"/>,
 <img alt="Patineta" src="../images/p3.png"/>,
 <img alt="Patineta" src="../images/p4.png"/>,
 <img alt="Patineta" src="../images/p5.png"/>,
 <img alt="Patineta" src="../images/p6.png"/>,
 <img alt="Patineta" src="../images/p7.png"/>,
 <img alt="Patineta" src="../images/p8.png"/>,
 <img alt="Patineta" src="../images/p9.png"/>,
 <img alt="Patineta" src="../images/p10.png"/>,
 <img alt="Patineta" src="../images/p11.png"/>,
 <img alt="Patineta" src="../images/p12.png"/>,
 <img alt="Cliente" src="../images/client-one.png"/>,
 <img alt="Cliente" src="../images/client-two.png"/>,
 <img alt="Cliente" src="../images/client-three.png"/>,
 <iframe src="table.html" title="table_if

In [48]:
#Obtener todas las imagenes jpg o png
for elemento in todos_src:
    if elemento.get('src').endswith((".jpg",".png")): # es similar a elemento['src'].endswith(".jpg")
        print(elemento)

<img alt="Parque de patinaje" src="../images/slider-bg.jpg"/>
<img alt="Variedad de patinetas en nuestra tienda" src="../images/arrival-bg-store.png"/>
<img alt="Patineta" src="../images/p1.png"/>
<img alt="Patineta" src="../images/p2.jpg"/>
<img alt="Patineta" src="../images/p3.png"/>
<img alt="Patineta" src="../images/p4.png"/>
<img alt="Patineta" src="../images/p5.png"/>
<img alt="Patineta" src="../images/p6.png"/>
<img alt="Patineta" src="../images/p7.png"/>
<img alt="Patineta" src="../images/p8.png"/>
<img alt="Patineta" src="../images/p9.png"/>
<img alt="Patineta" src="../images/p10.png"/>
<img alt="Patineta" src="../images/p11.png"/>
<img alt="Patineta" src="../images/p12.png"/>
<img alt="Cliente" src="../images/client-one.png"/>
<img alt="Cliente" src="../images/client-two.png"/>
<img alt="Cliente" src="../images/client-three.png"/>
<img alt="Logo de freeCodeCamp" class="freecodecamp-logo" src=".././images/freecodecamp-logo.png"/>


In [22]:
#Bajar todas las imagenes
"""
for i, imagen in enumerate(todos_src):
    if imagen['src'].endswith((".jpg",".png")):
        print(imagen['src'])
        r = requests.get(f"https://scrapepark.org/{imagen['src']}") #imagen['src']= "../images/*.png"

        with open(f'{imagen_{i}}.png',"wb") as f:
            f.write(r.content)
"""

['DEFAULT_INTERESTING_STRING_TYPES', 'EMPTY_ELEMENT_EVENT', 'END_ELEMENT_EVENT', 'START_ELEMENT_EVENT', 'STRING_ELEMENT_EVENT', '__bool__', '__call__', '__class__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', '__unicode__', '__weakref__', '_all_strings', '_clone', '_event_stream', '_find_all', '_find_one', '_format_tag', '_indent_string', '_is_xml', '_lastRecursiveChild', '_last_descendant', '_namespaces', '_should_pretty_print', 'append', 'attrs', 'can_be_empty_element', 'cdata_list_attributes', 'childGenerator', 'children', 'clear', 'contents', 'css', 'decode', 'decode_contents', 'decompose',

In [52]:
help(enumerate)

Help on class enumerate in module builtins:

class enumerate(object)
 |  enumerate(iterable, start=0)
 |  
 |  Return an enumerate object.
 |  
 |    iterable
 |      an object supporting iteration
 |  
 |  The enumerate object yields pairs containing a count (from start, which
 |  defaults to zero) and a value yielded by the iterable argument.
 |  
 |  enumerate is useful for obtaining an indexed list:
 |      (0, seq[0]), (1, seq[1]), (2, seq[2]), ...
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  ----------------------------------------------------------------------
 |  Class methods defined here:
 |  
 |  __class_getitem__(...) from builtins.type
 |      See PEP 585
 |  
 |  --------------------------------------------------------

## Extraer info de tablas 
Etiqueta iframe crea una pagina dentro de otra pagina

In [83]:
url_base = "https://scrapepark.org/spanish/"
url_tabla = "table.html"

In [84]:
request_tabla = requests.get(f'{url_base}/{url_tabla}')

In [88]:
html_tabla = request_tabla.text
soup_tabla = bs4.BeautifulSoup(html_tabla,"html.parser")

In [96]:
producto_faltantes = soup_tabla.find_all(('th','td'),style="color: red;")
producto_faltantes

[<th class="text-center" style="color: red;">Longboard</th>,
 <td class="text-center" style="color: red;">$80</td>,
 <td class="text-center" style="color: red;">$85</td>,
 <td class="text-center" style="color: red;">$90</td>,
 <td class="text-center" style="color: red;">$62</td>,
 <td class="text-center" style="color: red;">$150</td>]

In [97]:
prod_faltantes = [data.text for data in producto_faltantes]
print(prod_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


In [127]:
divs = soup.find_all('div',attrs={'class':'detail-box'})
productos = []
precios = []
print(divs[5])

<div class="detail-box">
<h5>La mejor calidad</h5>
</div>


In [128]:
for div in divs:
    if (div.h6 is not None) and ('Patineta' in div.h5.text):
        producto = div.h5.get_text(strip=True)
        precio = div.h6.get_text(strip=True).replace('$','')
        print(f'producto : {producto:<16}  | precio : {precio}')
        productos.append(producto)
        precios.append(precio)
        

producto : Patineta nueva1   | precio : 75
producto : Patineta usada2   | precio : 80
producto : Patineta nueva3   | precio : 68
producto : Patineta usada4   | precio : 70
producto : Patineta nueva5   | precio : 75
producto : Patineta nueva6   | precio : 58
producto : Patineta nueva7   | precio : 80
producto : Patineta nueva8   | precio : 35
producto : Patineta nueva9   | precio : 165
producto : Patineta usada10  | precio : 54
producto : Patineta usada11  | precio : 99
producto : Patineta nueva12  | precio : 110


In [129]:
productos

['Patineta nueva1',
 'Patineta usada2',
 'Patineta nueva3',
 'Patineta usada4',
 'Patineta nueva5',
 'Patineta nueva6',
 'Patineta nueva7',
 'Patineta nueva8',
 'Patineta nueva9',
 'Patineta usada10',
 'Patineta usada11',
 'Patineta nueva12']

In [130]:
precios

['75', '80', '68', '70', '75', '58', '80', '35', '165', '54', '99', '110']

## Cambios que dependen de la URL

In [131]:
URL_BASE = "https://scrapepark.org/spanish/contact"
for i in range(1,3):
    URL_FINAL = f'{URL_BASE}{i}'
    print(URL_FINAL)
    r = requests.get(URL_FINAL)
    soup = bs4.BeautifulSoup(r.text,"html.parser")
    print(soup.h5.text)

https://scrapepark.org/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


# Datos que no sabemos en que parte de la pagina se encuentran

In [132]:
#Expresiones regulares
import re
url_base = "https://scrapepark.org/spanish/"
pedido_obtenido = requests.get(url_base)
html_obtenido = pedido_obtenido.text

In [133]:
soup = bs4.BeautifulSoup(html_obtenido,"html.parser")
telefonos = soup.find_all(string=re.compile("\d+-\d+-\d+"))
telefonos

[': 4-444-4444']

## Moviendonos por el arbol

In [134]:
copyrights = soup.find_all(string=re.compile("©"))
copyrights

['© 2022 ']

In [135]:
primer_copyright = copyrights[0]
primer_copyright.parent

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [137]:
menu = soup.find(string=re.compile("MENÚ"))
menu

'MENÚ'

In [139]:
menu.parent

<h3 class="menu">MENÚ</h3>

In [138]:
menu.parent.find_next_siblings()

[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

# Control de excepciones

In [140]:
string_a_buscar = ['MENÚ','©','carpincho','Patineta']
for string in string_a_buscar:
    try:
        resultado = soup.find(string=re.compile(string))
        print(resultado.text)
    except AttributeError:
        print(f'El string {string} no fue encontrado')
        

MENÚ
© 2022 
El string carpincho no fue encontrado
Patineta nueva


### Almacenamiento de datos

In [141]:
productos.insert(0,'productos')
precios.insert(0,'precios')

In [145]:
datos = dict(zip(productos,precios))
datos

{'productos': 'precios',
 'Patineta nueva1': '75',
 'Patineta usada2': '80',
 'Patineta nueva3': '68',
 'Patineta usada4': '70',
 'Patineta nueva5': '75',
 'Patineta nueva6': '58',
 'Patineta nueva7': '80',
 'Patineta nueva8': '35',
 'Patineta nueva9': '165',
 'Patineta usada10': '54',
 'Patineta usada11': '99',
 'Patineta nueva12': '110'}

In [146]:
datos.items()

dict_items([('productos', 'precios'), ('Patineta nueva1', '75'), ('Patineta usada2', '80'), ('Patineta nueva3', '68'), ('Patineta usada4', '70'), ('Patineta nueva5', '75'), ('Patineta nueva6', '58'), ('Patineta nueva7', '80'), ('Patineta nueva8', '35'), ('Patineta nueva9', '165'), ('Patineta usada10', '54'), ('Patineta usada11', '99'), ('Patineta nueva12', '110')])

In [149]:
import csv
with open('C:\\pycode\\datos.csv','w',newline="") as f:
    w = csv.writer(f)
    w.writerows(datos.items())

## Bonus: 
Algunos ejercicios para seguir practicando:

1. Las patinetas que salgan menos de $68
2. Las patinetas que en su nombre tengan un numero mayor a 3
3. Traer cualquier texto de la pagina que tenga la palabra descuento u oferta
4. Generar un archivo.csv con dos columnas: Una que contiene el nombre del cliente y otra con su testimonio