## Este Notebook tem como objetivo:
* ### extrair o texto das páginas de cada semente, de 10 sites. São eles:
  1. Syngenta
  2. NK sementes (também são da Syngenta)
  3. TMG
  4. Don Mario cerrado
  5. Don Mario Sul
  6. Brasmax Cerrado
  7. Brasmax Sul
  8. Nidera
  9. Brevant
  10. KWS

In [145]:
url_1 = 'https://www.portalsyngenta.com.br/sementes/syngenta-soja'
url_2 = 'https://www.portalsyngenta.com.br/sementes/nk-soja'
url_3 = 'https://www.tmg.agr.br/ptbr/cultivares/soja'
url_4 = 'https://www.donmario.com/pt-br/catalogo-cerrado/'
url_5 = 'https://www.donmario.com/pt-br/catalogo-sul/'
url_6 = 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado/'
url_7 = 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul/'
url_8 = 'https://www.niderasementes.com.br/soja/'
url_9 = 'https://www.brevant.com.br/produtos/soja.html'
url_10 = 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/'

In [146]:
from html2text import html2text
from urllib.request import urlopen
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# 1. Syngenta
* Analisando o html da página, vemos que todos os cards das sementes tem:
  * < div class = "card-text-2 card-portfolio"
  
* Para obter os links específicos de cada semente, temos que usar `urljoin`
  * link recolhido no html + link principal

* Entretanto, alguns links parciais estão incompletos.
* Para corrigir o erro, temos que usar um if dentro da def `scrap_and_colect_syngenta` para adicionar a parte que falta _(sementes/)_, caso não tenha.

In [8]:
def scrap_and_colect_syngenta(url, class_card):
    
    """Abre o link principal das sementes de soja da Syngenta e da NK sementes.
    Recebe:
    * <url> a ser scrapped; 
    * <class_card> que contém os links das sementes.
    ---> Retorna uma lista com os links de cada semente"""
    
    html = urlopen(url)
    scrap = BeautifulSoup(html, 'html.parser')

    cards = scrap.find_all('div', {'class': class_card})
    
    links = []

    for link in cards:
        link = link.a['href']
        if 'sementes' in link:
            links.append(urljoin('https://www.portalsyngenta.com.br', link))
        else: 
            link = 'sementes/'+link
            links.append(urljoin('https://www.portalsyngenta.com.br', link))
    
    return links                   

In [9]:
links_1 = scrap_and_colect_syngenta(url_1, "card-text-2 card-portfolio") 
links_1    # link para cada semente de soja Syn 

['https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn15600-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn16861-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1059-rr',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1163-rr',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1258-rr',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1281-rr',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1683-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1785-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1687-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn13610-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn15640-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn15630-ipro',
 'https://www.portalsyngenta.com.br/sementes/syngenta-soja/syn1562-ipro',
 'https://www.portalsyngenta.com.br/semen

# 2. NK sementes (Syngenta)
* Analisando o html da página, vemos que todos os cards das sementes tem:
  * < div class = "card-text-2 card-portfolio"

In [10]:
links_2 = scrap_and_colect_syngenta(url_2, "card-text-2 card-portfolio") 
links_2    # link para cada semente de soja NK

['https://www.portalsyngenta.com.br/sementes/nk-soja/nk-8770-ipro',
 'https://www.portalsyngenta.com.br/sementes/nk-soja/nk-7777-ipro',
 'https://www.portalsyngenta.com.br/sementes/nk-soja/nk-8448-ipro',
 'https://www.portalsyngenta.com.br/sementes/nk-soja/nk-8301-ipro',
 'https://www.portalsyngenta.com.br/sementes/nk-soja/nk-7201-ipro',
 'https://www.portalsyngenta.com.br/sementes/nk-soja/nk-6201-ipro']

# 3. TMG
* Analisando o html da página, vemos que s cards das sementes tem essa div, porém com CSS **FLEX container**:
  * < div class = "cultivar-link-v" flex
* No caso da TMG, os links não são parciais, já vem completos.
* Por isso a função pode ser diferente, sem o urljoin.
* Entretanto, com a página em .js dinâmica, temos que usar `selenium` e `chromedriver`
  * REF: https://stackoverflow.com/questions/62165635/how-to-scrape-data-from-flexbox-element-container-with-python-and-beautiful-soup
  * download Chromedrive: https://chromedriver.storage.googleapis.com/index.html?path=90.0.4430.24/
    * O caminho do driver dentro do pc será usado. 
    * Exemplo: /home/anandaheino/chromedriver
    
## * função que extrai conteúdo dinâmico: 


In [149]:
# !pip install selenium

from selenium.webdriver.chrome.options import Options
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import TimeoutException
from time import sleep

In [150]:
def scrap_and_colect_css(url, class_card):
    
    """Abre o link principal das sementes de soja.
    Usa <div>.
    Recebe:
    * <url> a ser scrapped; 
    * <class_card> que contém os links das sementes.
    ---> Retorna uma lista com os links de cada semente"""

    
    chrome_options = Options()
    
    chrome_options.add_argument('disable-notifications')
    chrome_options.add_argument('--disable-infobars')
    chrome_options.add_argument("disable-infobars")
    chrome_options.add_experimental_option("prefs", 
                                           {"profile.default_content_setting_values.notifications": 2})
    
    browser = webdriver.Chrome(executable_path='/home/anandaheino/chromedriver', options = chrome_options) 
    browser.get(url)
   
    delay = 5 #secods

    #try:
    WebDriverWait(browser, delay)
    print ("\nPage is ready")
    sleep(5)
    browser.minimize_window()
    html = browser.execute_script("return document.getElementsByTagName('html')[0].innerHTML")

    #print(html)
    scrap = BeautifulSoup(html, "html.parser")
    cards = scrap.find_all('div', {'class': class_card})

    links = list(link.a['href'] for link in cards)
    return links

    browser.close() 
    browser.quit()
    
    #except TimeoutException:
        #print ("Loading took too much time! -Try again")

    #finally:
        #browser.quit()
        

In [151]:
links_3 = scrap_and_colect_css(url_3, "cultivar-link-v") 
links_3    # link para cada semente de soja da TMG


Page is ready


['https://www.tmg.agr.br/ptbr/cultivar/tmg-2375-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2379-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-7058-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2165-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-4377',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-7368-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2757-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2776-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2374-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2359-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2285-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-1180-rr',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-7063-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-7062-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-7067-ipro',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-4182',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-7262-rr',
 'https://www.tmg.agr.br/ptbr/cultivar/tmg-2185-ipro',
 'https://www.tmg.agr.br

# 4. Don Mario - Cerrado
* Analisando o html da página, vemos que os cards das sementes são:
  * < div class="images_holder"
* No caso da Don Mario, os links não são parciais, já vem completos.
* Por isso a função pode ser mais simples.

### * Implementando uma Função simples, que retornas os links dos cards informados, temos o seguinte erro:
      * HTTPError: HTTP Error 403: Forbidden

### * Usando a função com Selenium, foi possível extrair os links dos cards das sementes.

In [14]:
links_4 = scrap_and_colect_css(url_4, "images_holder")
links_4


Page is ready


['https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM80IX83',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM75i74',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM81I84',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM82K84',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM82i78',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM75i76',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM79I81',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM80i79',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM73i75',
 'https://www.donmario.com/pt-br/cultivares-cerrado/#section-DM68i69']

# 5. Don Mario - Sul
* Analisando o html da página, vemos que os cards das sementes são iguais do Cerrado:
  * < div class="images_holder"

In [15]:
links_5 = scrap_and_colect_css(url_5, "images_holder")
links_5


Page is ready


['https://www.donmario.com/pt-br/cultivares-sul/#section-DM64I63IPRO',
 'https://www.donmario.com/pt-br/cultivares-sul/#section-DM53i54',
 'https://www.donmario.com/pt-br/cultivares-sul/#section-DM60I63IPRO',
 'https://www.donmario.com/pt-br/cultivares-sul/#section-DM5958',
 'https://www.donmario.com/pt-br/cultivares-sul/#section-DM66i68',
 'https://www.donmario.com/pt-br/cultivares-sul/#section-DM57i52']

# 6. Brasmax - Cerrado
* Analisando o html da página, vemos que os cards das sementes tem:

* <a class="info" href="https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=xxxxx"
     
### * Implementando uma Função simples,temos o seguinte erro:
      * HTTPError: HTTP Error 403: Forbidden

### * Usando a função com Selenium, foi possível extrair os links dos cards das sementes.

In [17]:
def scrap_and_colect_css_Brasmax(url, class_card):
    
    """Abre o link principal das sementes de soja.
    Usa <a>.
    Recebe:
    * <url> a ser scrapped; 
    * <class_card> que contém os links das sementes.
    ---> Retorna uma lista com os links de cada semente"""

    
    chrome_options = Options()
    
    chrome_options.add_argument('disable-notifications')
    chrome_options.add_argument('--disable-infobars')
    chrome_options.add_argument("disable-infobars")
    chrome_options.add_experimental_option("prefs", 
                                           {"profile.default_content_setting_values.notifications": 2})
    
    browser = webdriver.Chrome(executable_path='/home/anandaheino/chromedriver', options = chrome_options) 
    browser.get(url)
   
    delay = 5 #secods

    #try:
    WebDriverWait(browser, delay)
    print ("\nPage is ready")
    sleep(5)
    browser.minimize_window()
    html = browser.execute_script("return document.getElementsByTagName('html')[0].innerHTML")

    #print(html)
    scrap = BeautifulSoup(html, "html.parser")
    cards = scrap.find_all('a', {'class': class_card})
    # print(cards)
    links = list(link.get('href') for link in cards)
    
    return links

    browser.close() 
    
    #except TimeoutException:
        #print ("Loading took too much time! -Try again")

    #finally:
        #browser.quit()
        

In [18]:
links_6 = scrap_and_colect_css_Brasmax(url_6, "info")
links_6


Page is ready


['https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14243',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14248',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14257',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14234',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14253',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14262',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=14239',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=244',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=258',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=273',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=4985',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=8916',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=969',
 'https:/

# 7. Brasmax - Sul
* Analisando o html da página, vemos que os cards das sementes são iguais ao do cerrado:

  * <a class="info" href="https://www.brasmaxgenetica.com.br/cultivar-regiao-cerrado?produto=xxxxx"
     


In [19]:
links_7 = scrap_and_colect_css_Brasmax(url_7, "info")
links_7


Page is ready


['https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=14276',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=14280',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=14267',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=14284',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=14271',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=2501',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=4920',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=1113',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=4927',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=1133',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=1103',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=1149',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?produto=2496',
 'https://www.brasmaxgenetica.com.br/cultivar-regiao-sul?pr

# 8. Nidera
* Analisando o html da página, vemos que os cards das sementes são:
  * div class="title"

* Implementando a função `scrap_and_colect_css` para coletar os links das sementes


In [20]:
links_8 = scrap_and_colect_css(url_8, 'title')
links_8


Page is ready


['https://www.niderasementes.com.br/soja_detalhe/ns-8109-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7790-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7654-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8595-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8400-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8590-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8397-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8338-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8300-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7700-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-8399-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7709-ipro-centro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7780-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7667-ipro/',
 'https://www.niderasementes.com.br/soja_detalhe/ns-7505-ipro/',
 'https://www.nide

In [21]:
len(links_8)

47

# 9. Brevant
* Analisando o html da página, vemos que os cards das sementes são:
  * td class = "body-cell-value"
  * os links disponibilizados **não** estão completos. 
  * usamos `urljoin` para juntar com o link principal da página.

### * refatorando a função `scrap_and_colect_css` para este caso, temos:

In [22]:
url_brevant = 'https://www.brevant.com.br'
driver = webdriver.Chrome(executable_path='/home/anandaheino/chromedriver')
driver.get(url_9)
cookies_9 = driver.get_cookies()
for cookie in cookies_9:
    driver.add_cookie(cookie)
# driver.find_element_by_xpath('/html/body/div[8]/div[1]/div/div[3]/a[1]')

In [120]:
len(cookies_9)

7

In [34]:
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import re

def scrap_and_colect_css_Brevant(url, class_card):
    
    """Abre o link principal das sementes de soja.
    Usa <td> 
    Recebe:
    * <url> a ser scrapped; 
    * <class_card> que contém os links das sementes.
    ---> Retorna uma lista com os links de cada semente"""

    
    chrome_options = Options()
    
    chrome_options.add_argument('disable-notifications')
    chrome_options.add_argument('--disable-infobars')
    chrome_options.add_argument("disable-infobars")
    chrome_options.add_experimental_option("prefs", 
                                           {"profile.default_content_setting_values.notifications": 2})
    
    browser = webdriver.Chrome(executable_path='/home/anandaheino/chromedriver', options = chrome_options) 
    browser.get(url)
    
    # tentativa de adicionar os cookies do site na lista de cookies do selenium
    cookies = browser.get_cookies()
    for cookie in cookies:
        browser.add_cookie(cookie)
    
    try:
        WebDriverWait(browser, 5)
        print ("\nPage is ready")
        sleep(5)

        html = browser.execute_script("return document.getElementsByTagName('html')[0].innerHTML")

        # print(html)
        scrap = BeautifulSoup(html, "html.parser")
        cards = scrap.find_all("a", href=re.compile("produtos/soja/"))
        # print(cards[0:5])
        
        links = []

        for link in cards:
            link = link['href']
            # print(link)
            links.append(urljoin(url_brevant, link))
            
        return links

        browser.close() 
        browser.quit()
        
    except TimeoutException:
        print ("Loading took too much time! -Try again")


In [35]:
links_9 = scrap_and_colect_css_Brevant(url_9,"body-cell-value")
links_9


Page is ready


['https://www.brevant.com.br/produtos/soja/bg4290.html',
 'https://www.brevant.com.br/produtos/soja/bg4786.html',
 'https://www.brevant.com.br/produtos/soja/cd2720ipro.html',
 'https://www.brevant.com.br/produtos/soja/cd2728ipro.html',
 'https://www.brevant.com.br/produtos/soja/cd2820ipro.html',
 'https://www.brevant.com.br/produtos/soja/cd2851ipro.html',
 'https://www.brevant.com.br/produtos/soja/cd2857rr.html',
 'https://www.brevant.com.br/produtos/soja/ds5916ipro.html',
 'https://www.brevant.com.br/produtos/soja/5d6215ipro.html',
 'https://www.brevant.com.br/produtos/soja/5d634rr.html',
 'https://www.brevant.com.br/produtos/soja/5g8015ipro.html',
 'https://www.brevant.com.br/produtos/soja/ds6017ipro.html',
 'https://www.brevant.com.br/produtos/soja/ds6217ipro.html',
 'https://www.brevant.com.br/produtos/soja/ds7417ipro.html',
 'https://www.brevant.com.br/produtos/soja/b5860ipro.html',
 'https://www.brevant.com.br/produtos/soja/bg4781ipro.html',
 'https://www.brevant.com.br/produtos/

# 10. KWS
* Analisando o html da página, vemos que os cards das sementes são:
  * < a class="kws-int-variety-teaser" 

In [37]:
url_kws = 'https://www.kws.com'
links_kws = scrap_and_colect_css_Brasmax(url_10, 'kws-int-variety-teaser')
links_10 = [urljoin(url_kws, link) for link in links_kws]
links_10


Page is ready


['https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/k8620-ipro/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk5519-rr/index-2.html',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/m6210/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk6316-ipro/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk6719-ipro/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk7518-ipro/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk8115-ipro/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk8317-ipro/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk5813-rr/',
 'https://www.kws.com/br/pt/produtos/soja/portfolio-completo-soja/rk6813-rr/']

## Agora vamos juntar todos os links das SEMENTES em uma única lista;

In [51]:
def add_links(lista_in, lista_out):
    
    for link in lista_in:    
        lista_out.append(link)
    return lista_out

links_todos = []

links_todos = add_links(links_1, links_todos)

links_todos = add_links(links_2, links_todos)

links_todos = add_links(links_3, links_todos)

links_todos = add_links(links_4, links_todos)

links_todos = add_links(links_5, links_todos)

links_todos = add_links(links_6, links_todos)

links_todos = add_links(links_7, links_todos)

links_todos = add_links(links_8, links_todos)

links_todos = add_links(links_9, links_todos)

links_todos = add_links(links_10, links_todos)

len(links_todos)

202

## Cada html vai ser capturado e transformado em texto:

In [53]:
from html2text import html2text

paginas_todos = []

chrome_options = Options()
    
chrome_options.add_argument('disable-notifications')
chrome_options.add_argument('--disable-infobars')
chrome_options.add_argument("disable-infobars")
chrome_options.add_experimental_option("prefs", 
                                       {"profile.default_content_setting_values.notifications": 2})

browser = webdriver.Chrome(executable_path='/home/anandaheino/chromedriver', options = chrome_options) 

for url in links_todos:
    
    browser.get(url)
    WebDriverWait(browser, 5)
    sleep(5)

    html = browser.execute_script("return document.getElementsByTagName('html')[0].innerHTML")

    scrap = BeautifulSoup(html, 'html.parser')
    pagina = html2text(scrap.prettify()).lower()   # trazendo tudo para minusculo

    paginas_todos.append(pagina)
    
len(paginas_todos)

202

In [54]:
"""colunas = {
           'link': links_todos, 'texto da página': paginas_todos, 'cultivar': [], 'grupo de maturação': [],
           'produtividade': [], 'potencial produtivo': [], 'acamamento': [], 'tipo de crescimento': [],
           'porte': [], 'peso de mil sementes': [], 'peso de mil graos': [], 'pustula bacteriana': [], 
           'habito de crescimento': [], 'fertilidade': [], 'mancha olho de ra': [], 'nematoide das galhas': [],
           'fitoftora	nematoide do cisto': [], 'heterodera glycines': [], 'ferrugem': [], 'recomendacao': [], 
           'nematoide das lesões': [], 'nematoide reniforme': [], 'mancha alvo': [], 'ano de lancamento': []           
          }"""

In [55]:
import pandas as pd
import numpy as np

In [57]:
data_links_texto = {'link': links_todos, 'texto da página': paginas_todos}
df_todos = pd.DataFrame(data=data_links_texto)
df_todos

Unnamed: 0,link,texto da página
0,https://www.portalsyngenta.com.br/sementes/syn...,skip to main content\n\npesquisa\n\n__\n\n![pe...
1,https://www.portalsyngenta.com.br/sementes/syn...,skip to main content\n\npesquisa\n\n__\n\n![pe...
2,https://www.portalsyngenta.com.br/sementes/syn...,skip to main content\n\npesquisa\n\n__\n\n![pe...
3,https://www.portalsyngenta.com.br/sementes/syn...,skip to main content\n\npesquisa\n\n__\n\n![pe...
4,https://www.portalsyngenta.com.br/sementes/syn...,skip to main content\n\npesquisa\n\n__\n\n![pe...
...,...,...
197,https://www.kws.com/br/pt/produtos/soja/portfo...,we value your privacy!\n\nwelcome to kws! we u...
198,https://www.kws.com/br/pt/produtos/soja/portfo...,we value your privacy!\n\nwelcome to kws! we u...
199,https://www.kws.com/br/pt/produtos/soja/portfo...,we value your privacy!\n\nwelcome to kws! we u...
200,https://www.kws.com/br/pt/produtos/soja/portfo...,we value your privacy!\n\nwelcome to kws! we u...


In [59]:
df_todos.to_csv('text_from_10.csv')

___________________________________________________________________________________________________

# Novos testes de manipulação textual (19/06/21)

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
df_todos = pd.read_csv('text_from_10.csv')

In [154]:
df_todos.loc[0]['texto da página'].find('características')

15613

In [3]:
df_todos.loc[0]['texto da página']


'skip to main content\n\npesquisa\n\n__\n\n![pesquisa](https://mediasyg.pixit.com.br/s3fs-public/search-icon-2.svg)\n\n[ ![facebook](https://mediasyg.pixit.com.br/s3fs-public/facebook-header.png)\n](https://www.facebook.com/syngenta/) [\n![instagram](https://mediasyg.pixit.com.br/s3fs-public/instagram-header.png)\n](https://www.instagram.com/syngentabrasil/) [\n![linkedin](https://mediasyg.pixit.com.br/s3fs-public/linkedin-header.png)\n](https://www.linkedin.com/company/syngenta/) [\n![youtube](https://mediasyg.pixit.com.br/s3fs-public/youtube-header.png)\n](https://www.youtube.com/user/syngentabrasil) [\n![whatsapp](https://mediasyg.pixit.com.br/s3fs-public/whatsapp-header.png)\n](https://api.whatsapp.com/send/?phone=5511957869038&text&app_absent=0)\n\ncountry websites\n\n[ argentina ](https://www.syngenta.com.ar/) [ australia\n](https://www.syngenta.com.au/) [ austria ](https://www.syngenta.at/) [\nbangladesh ](https://www.syngenta.com.bd/) [ belarus\n](https://www.syngenta.by/) [ be

In [155]:
df_todos.loc[0]['texto da página'].find('recomendação técnica')

23139

In [156]:
texto1 = df_todos.loc[0]['texto da página'][15613:23139]

resultado = re.search("cor da flor", texto1)
if resultado:
    print(resultado.group())
else:
    print('Não foi encontrado o termo: "cor da flor".')

cor da flor


* ## Testando uma forma de mostrar o texto encontrado de cada página:

In [86]:
for num, pagina in enumerate(df_todos['texto da página']):
    resultado = re.search("cor da flor", pagina)
    if resultado:
        print(f"{num}: {resultado.group()}")
    else:
        print(f'{num}: "XXX XX XXXX".')

0: cor da flor
1: cor da flor
2: cor da flor
3: cor da flor
4: cor da flor
5: cor da flor
6: cor da flor
7: cor da flor
8: cor da flor
9: cor da flor
10: cor da flor
11: cor da flor
12: cor da flor
13: cor da flor
14: cor da flor
15: cor da flor
16: cor da flor
17: cor da flor
18: cor da flor
19: cor da flor
20: cor da flor
21: cor da flor
22: cor da flor
23: cor da flor
24: cor da flor
25: cor da flor
26: cor da flor
27: cor da flor
28: cor da flor
29: cor da flor
30: cor da flor
31: cor da flor
32: cor da flor
33: cor da flor
34: cor da flor
35: cor da flor
36: cor da flor
37: cor da flor
38: cor da flor
39: cor da flor
40: cor da flor
41: cor da flor
42: cor da flor
43: cor da flor
44: cor da flor
45: cor da flor
46: cor da flor
47: cor da flor
48: cor da flor
49: cor da flor
50: cor da flor
51: cor da flor
52: cor da flor
53: cor da flor
54: cor da flor
55: cor da flor
56: cor da flor
57: cor da flor
58: "XXX XX XXXX".
59: "XXX XX XXXX".
60: "XXX XX XXXX".
61: "XXX XX XXXX".
62: "X

* ## Criando a função:
 `procura_palavras_chave` para extrair os termos encontrados em cada página de semente.

In [6]:
def procura_uma_palavra(palavra): 
    
    """Função que procura uma palavra-chave dentro de cada página de semente.
    
    * Recebe: 
    -> "palavra": uma lista contendo os pontos em que a palavra foi encontrada e NULL onde não foi.
    * Retorna: 
    -> lista contendo as palavras encontradas em cada página.
    
    ----> OBS: Esta função retorna APENAS UMA das palavras-chave da lista por página!"""
        
    lista = []
 
    for pagina in (df_todos['texto da página']):
    
        resultado = re.search(palavra, pagina)
        if resultado:
            lista.append(resultado.group())
        else:
            lista.append(np.nan)
           
    return lista
    

#Cor_da_flor (1 palavra chave apenas): certo
#GM (várias palavras): não funciona

In [8]:
cor_da_flor = procura_uma_palavra("cor da flor")
cor_da_flor

['cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 'cor da flor',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,


In [16]:
len(cor_da_flor)

202

In [24]:
def procura_palavras_chave(expressao): 
    #FUNCIONA QUANDO ENCONTRA ALGUMA PALAVRA, SEM NULL
    """Função que procura palavras-chave dentro de cada página de semente.
    
    * Recebe: 
    -> "expressao": uma lista contendo as palavras-chave iguais.
    * Retorna: 
    -> lista contendo as palavras encontradas em cada página.
    
    ----> OBS: Esta função retorna APENAS UMA das palavras-chave da lista por página!"""
    lista = []
    c = 0
    for num, pagina in enumerate(df_todos['texto da página']):
        for palavra in expressao:
            resultado = re.search(palavra, pagina)
            try:
                if resultado and c == num:
                    lista.append(resultado.group())
                    c += 1
            except: 
                lista.append(np.nan)
                       
    return lista

In [25]:
GM = ['grupo de maturação', 'maturity group', 'maturação relativa', 'gm', 'g.m.', 'g.m', 'ciclo']
grupo_maturacao = procura_palavras_chave(GM)
grupo_maturacao

['grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'grupo de maturação',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação relativa',
 'maturação

In [26]:
len(grupo_maturacao)

202

In [27]:
c_v = ['cultivar', 'variedade']
cultivar = procura_palavras_chave(c_v)
cultivar

['variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'variedade',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cultivar',
 'cu

In [28]:
len(cultivar)

113