# Proyecto Web:

1. ¿Qué pregunta quiero responder?

**¿Cómo obtener los titulares de El Tiempo en tiempo real?**

Noticias (Ej, El Tiempo):

- ¿Cómo hago para acceder a la web, desde Python? ✅ 
- ¿Cómo manipular el contenido obtenido? -> Beautiful Soup
- ¿Cómo sistematizar (Funciones) todo? -> Las cosas en el tiempo

Más preguntas... -> Cómo obtener temáticas, palabras claves, resúmenes.

2. ¿Qué necesito?

- Literatura
- Ambiente separado -> paquetes que necesito ✅ 
- Librerías para acceder a la web -> requests ✅ 
- Librerías para manipular datos -> pandas
- Construir funciones

3. Manos a la obra.

### Librerías Necesarias 

In [37]:
import requests
from bs4 import BeautifulSoup
from html2text import html2text
import pandas as pd

###  Respuesta del servidor

In [73]:
url = 'https://www.eltiempo.com'
response = requests.get(url)
print(response)

<Response [200]>


In [154]:
#response.text

### Obtener Contenido Específico Web

In [75]:
soup = BeautifulSoup(response.text, "html.parser")
### Lo más avanzado
titulos_html = soup.find_all('a',{'class':'title page-link'})

### Convertir Contenido HTML a Texto

In [83]:
# Pasar hrtml a texto
titulos = [html2text(str(titulo)).split('(')[0] for titulo in titulos_html]
links = ['('+url+html2text(str(titulo)).split('(')[1] for titulo in titulos_html]

### Construir un Dataframe con la información obtenida de la Web

In [None]:
data_raw = zip(titulos,links)
datos = pd.DataFrame(data_raw,columns=['Titular','Link'])

### Limpieza General de Datos

In [99]:
datos['Titular'] = datos['Titular'].replace('\[|\]','',regex=True)
datos['Link'] = datos['Link'].replace('\(|\)','',regex=True)
datos['Titular'] = datos['Titular'].replace('\n',' ',regex=True)
datos['Link'] = datos['Link'].replace('\n','',regex=True)
print(datos.head(10).values)

[['Visa a Estados Unidos: pasos para solicitarla por primera vez o renovarla'
  'https://www.eltiempo.com/mundo/eeuu-y-canada/visa-a-estados-unidos-pasos-para-solicitarla-o-renovarla-713050']
 ['Edson Velandia, su música, historias y películas en El Cine y Yo'
  'https://www.eltiempo.com/cultura/musica-y-libros/en-vivo-edson-velandia-en-el-cine-y-yo-713188']
 ['Minhacienda analiza si habrá o no nuevos contratos petroleros en Colombia'
  'https://www.eltiempo.com/economia/sectores/contratos-petroleros-en-colombia-revaluan-dejar-de-firmarlos-713195']
 ['Exclusivo: Mauricio Gerlein y su esposa son los dueños de cabaña de la balacera'
  'https://www.eltiempo.com/unidad-investigativa/balacera-en-puerto-colombia-mauricio-gerlein-y-esposa-son-duenos-de-cabana-713161']
 ['Dólar en las nubes: ¿cuáles son los destinos que aún son baratos para viajar?'
  'https://www.eltiempo.com/vida/viajar/cuales-son-los-destinos-que-aun-son-baratos-para-viajar-713131']
 ['Kid Pambelé: así fue el día, hace 50 a

### Sistematización

In [208]:
import re
import datetime
import requests
import pandas as pd
from bs4 import BeautifulSoup
from html2text import html2text

def get_news(url):
    # Respuesta del servidor
    response = requests.get(url)
    # Obtener el código html en estructuras significantes
    soup = BeautifulSoup(response.text, "html.parser")
    
    # Segmentar tipo de info según fuente
    ### El tiempo
    if 'eltiempo' in url:
        source = 'eltiempo'
        ### Lo más avanzado, sacar info específica
        titulos_html = soup.find_all('a',{'class':'title page-link'})
    else:
        source = 'semana'
        ### Lo más avanzado, sacar info específica
        titulos_html = soup.find_all('a',{'target':'_self'})
        
    # Obtener titulos
    titulos = [html2text(str(titulo)).split('(')[0] for titulo in titulos_html]
    # Obtener links
    links = ['('+url+html2text(str(titulo)).split('(')[1] for titulo in titulos_html]
    
    # Cruzar Datos para DataFrame
    data_raw = zip(titulos,links)
    # Construir DataFrame
    datos = pd.DataFrame(data_raw,columns=['Titular','Link'])
    
    # Limpieza General (Expresiones Regulares -> Investigar)
    datos['Titular'] = datos['Titular'].replace('\[|\]','',regex=True)
    datos['Link'] = datos['Link'].replace('\(|\)','',regex=True)
    datos['Titular'] = datos['Titular'].replace('\n',' ',regex=True)
    datos['Link'] = datos['Link'].replace('\n','',regex=True)
    
    # Como guardar en archivo .csv???
    datos.to_csv(f'{source}_{str(datetime.date.today())}.csv',index=False)
    
    return datos

In [212]:
url = 'https://www.elespectador.com'
# Respuesta del servidor
response = requests.get(url)
# Obtener el código html en estructuras significantes
soup = BeautifulSoup(response.text, "html.parser")

# Segmentar tipo de info según fuente
### El tiempo
if 'eltiempo' in url:
    source = 'eltiempo'
    ### Lo más avanzado, sacar info específica
    titulos_html = soup.find_all('a',{'class':'title page-link'})
else:
    source = 'semana'
    ### Lo más avanzado, sacar info específica
    titulos_html = soup.find_all('a',{'target':'_self'})

### Usar Rutina

In [242]:
# Sirve para el tiempo y semana
### Tarea: Hacer funcionar también para el espectador
df_news = get_news('https://www.eltiempo.com')
print(df_news.values)

[['Visa a Estados Unidos: pasos para solicitarla por primera vez o renovarla'
  'https://www.eltiempo.com/mundo/eeuu-y-canada/visa-a-estados-unidos-pasos-para-solicitarla-o-renovarla-713050']
 ['Edson Velandia, su música, historias y películas en El Cine y Yo'
  'https://www.eltiempo.com/cultura/musica-y-libros/en-vivo-edson-velandia-en-el-cine-y-yo-713188']
 ['Minhacienda analiza si habrá o no nuevos contratos petroleros en Colombia'
  'https://www.eltiempo.com/economia/sectores/contratos-petroleros-en-colombia-revaluan-dejar-de-firmarlos-713195']
 ['Exclusivo: Mauricio Gerlein y su esposa son los dueños de cabaña de la balacera'
  'https://www.eltiempo.com/unidad-investigativa/balacera-en-puerto-colombia-mauricio-gerlein-y-esposa-son-duenos-de-cabana-713161']
 ['Dólar en las nubes: ¿cuáles son los destinos que aún son baratos para viajar?'
  'https://www.eltiempo.com/vida/viajar/cuales-son-los-destinos-que-aun-son-baratos-para-viajar-713131']
 ['Kid Pambelé: así fue el día, hace 50 a