<a href="https://colab.research.google.com/github/Erike-Simon/CESAR-AED/blob/main/MinText_desafio1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**CESAR School Recife**

**Disciplina:** *Mineração de Textos*

**Aluno:** *Erike Simon*

**Desafio 1:**

Completar um texto com dados retirados da wiki, partindo do présuposto que ela é 100% confiável e atualizada (o que claramente não é).

1. Usando o SELENIUN acesse a pagina: https://pt.wikipedia.org/
2. Na bara de busca pesquise pelo termo "cesar" (em minúsculo)
3. Na página que abrir, click no link do CESAR "*Centro de Estudos e Sistemas Avançados do Recife, conhecido como Instituto CESAR*"
4. Com os dados da página colete as informações necessárias para completar corretamente o texto do print (a célula a baixo deve ficar por ultimo no teu notebook).


**Dicas:**


*   Para coletar os dados da página você pode usar qualquer lib, mas chegar até a página do CESAR na wiki ** deve ** ser pelo seleniin seguindo os passo dados
*   Esse blog pode dar uma luz em como fazer, mas ele não diz exatamente o que fazer https://medium.com/hackerdawn/scraping-from-wikipedia-using-python-and-selenium-3d64af60975d

### Imports e configurações iniciais

In [None]:
# libraries
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import re
from io import StringIO

In [None]:
driver = webdriver.Chrome() # inicializando o WebDriver do Selenium para o Chrome, permitindo automação de interações com o navegador
driver.get('https://pt.wikipedia.org/wiki/Centro_de_Estudos_e_Sistemas_Avançados_do_Recife') # abre a URL fornecida no navegador
html = driver.page_source # O método 'page_source' do WebDriver obtém o código-fonte HTML da página carregada no navegador

# cria o objeto 'beautifulsoup'
soup = BeautifulSoup(html, 'html.parser') # 'html.parser' é o analisador

*O objeto 'soup', que é uma representação estruturada do HTML da página da Wikipedia*

### Obtendo as informações

Tipo

In [None]:
# Tenta encontra diretamente a célula com a string 'Tipo' usando regex
# O 're.compile' cria um padrão regex que ignora maiúsculas e minúsculas,
# tornando mais tolerante variações no texto
info1 = soup.find('td', string=re.compile(r'Tipo', re.IGNORECASE))

# Inicializa a variável para armazenar o tipo
tipo = None

# Se encontrar, verifica e acessa o próximo irmão pelo método 'find_next_sibling' que contém o valor do tipo
if info1:
    proximo_irmao = info1.find_next_sibling('td')
    if proximo_irmao:
        tipo = proximo_irmao.get_text(strip=True) # 'get_text(strip=True) 'é usado para extrair o texto da célula,
                                                  # removendo espaços em branco desnecessários

print('Tipo:', tipo)

Tipo: Instituto de pesquisa sem fins lucrativos


Data de fundação

In [None]:
info2 = soup.find('td', string=re.compile(r'Fundação', re.IGNORECASE))

data_fundacao = None

if info2:
    proximo_irmao = info2.find_next_sibling('td')
    if proximo_irmao:
        # Obtêm o texto dentro da tag <td> e remove espaços extras com 'striped_stirngs'
        data_fundacao = ' '.join(proximo_irmao.stripped_strings)

print('Data de Fundação:', data_fundacao)

Data de Fundação: 20 de maio de 1996 (27 anos)


 *'stripped_strings' é usado para obter uma lista de strings dentro da tag 'td'*

Fundadores

In [None]:
info3 = soup.find('td', string=re.compile(r'Fundadores', re.IGNORECASE))

fundadores = None

if info3:
    proximo_irmao = info3.find_next_sibling('td')
    if proximo_irmao:
        fundadores = proximo_irmao.get_text(strip=True)

# Separar os nomes dos fundadores em uma lista, com uma posição para cada
nomes_fundadores = [nome.strip() for nome in re.split(r',| e ', fundadores)]

# Atribuindo as variáveis
fundador_01 = nomes_fundadores[0]
fundador_02 = nomes_fundadores[1]
fundador_03 = nomes_fundadores[2]

print('Fundador 1:', fundador_01)
print('Fundador 2:', fundador_02)
print('Fundador 3:', fundador_03)


Fundador 1: Silvio Meira
Fundador 2: Fábio Silva
Fundador 3: Ismar Kaufman


Local de fundação

In [None]:
info4 = soup.find('td', string=re.compile(r'Sede', re.IGNORECASE))

local_fundacao = None

if info4:
    proximo_irmao = info4.find_next_sibling('td')
    if proximo_irmao:
        local_fundacao = ' '.join(proximo_irmao.stripped_strings)

print('Local de fundação:', local_fundacao)

Local de fundação: Recife , PE


CEO e COO

In [None]:
info5 = soup.find('td', string=re.compile(r'Organização', re.IGNORECASE))

nomes = []

if info5:
    proximo_irmao = info5.find_next_sibling('td')
    if proximo_irmao:
        textos = proximo_irmao.stripped_strings

        # Adicionar os textos à lista
        nomes.extend(textos)

        # Atribuindo as variáveis
        ceo = nomes[0]
        ceo = ceo[0:15]

        coo = nomes[1]
        coo = coo[0:11]

print('CEO:', ceo)
print('COO:', coo)

CEO: Eduardo Peixoto
COO: Karla Godoy


Número de funcionários

In [None]:
info6 = soup.find('td', string=re.compile(r'Empregados', re.IGNORECASE))

numero = None

if info6:
    proximo_irmao = info6.find_next_sibling('td')
    if proximo_irmao:
        numero = ' '.join(proximo_irmao.stripped_strings)

numero_funcionarios = numero[0:4]

print('Local de fundação:', numero_funcionarios)

Local de fundação: 600+


Site oficial

In [None]:
info7 = soup.find('td', string=re.compile(r'Sítio oficial', re.IGNORECASE))

site = None

if info7:
    proximo_irmao = info7.find_next_sibling('td')
    if proximo_irmao:
        site = proximo_irmao.get_text(strip=True)

print('Site oficial:', site)

Site oficial: http://www.cesar.org.br


Cursos

In [None]:
cursos_table = None # para armazenar a tabela que contém as informações dos cursos

# Encontrar a tabela que contém a string 'Graduação'
for th in soup.find_all('th'):
    if 'Graduação' in th.get_text(strip=True):
        cursos_table = th.find_parent('table') # obtem a tabela inteira da mesma seção da string 'Graduação'
        break

# Extração dos dados da tabela
# Verifica se a variável 'cursos_table' foi definida (ou seja, se a tabela foi encontrada)
if cursos_table:
    cursos = []

    # Itera sobre todas as tags '<tr>' (linhas) dentro da tabela de cursos, começando a partir da segunda linha.
    # A primeira linha geralmente contém cabeçalhos
    for row in cursos_table.find_all('tr')[1:]:
        td = row.find('td') #  Encontra a primeira tag '<td>' (célula) dentro da linha
        if td:
            cursos.append(td.get_text(strip=True)) # Adiciona o texto da célula à lista 'cursos'.
                                                   # O método 'get_text(strip=True)' é usado para extrair o texto da célula,
                                                   # removendo espaços em branco desnecessários

    # Atribuindo as variáveis
    graduacao_01 = cursos[0]
    graduacao_02 = cursos[1]
    mestrado_01 = cursos[2]
    mestrado_02 = cursos[3]
    doutorado_01 = cursos[4]

    print('Graduação 1:', graduacao_01)
    print('Graduação 2:', graduacao_02)
    print('Mestrado profissional 1:', mestrado_01)
    print('Mestrado profissional 2:', mestrado_02)
    print('Doutorado profissional 1:', doutorado_01)

Graduação 1: Ciência da Computação
Graduação 2: Design
Mestrado profissional 1: Engenharia de Software
Mestrado profissional 2: Design de Artefatos Digitais
Doutorado profissional 1: Engenharia de Software


### Print do texto

In [None]:
print(f"""
      O CESAR é um {tipo} fundado em {data_fundacao} por {fundador_01}, {fundador_02}, {fundador_03}
      em {local_fundacao}. Segundo os dados coletados, {ceo} (CEO) e {coo} (COO) são os chefes da organização
      que tem {numero_funcionarios}. O CESAR possui cursos de {graduacao_01}, {graduacao_02}, {metrado_01},
      {mestrado_01}, {doutorado_01}. Para mais detalhes dessa instituição incrível, acesse {site}
""")


      O CESAR é um Instituto de pesquisa sem fins lucrativos fundado em 20 de maio de 1996 (27 anos) por Silvio Meira, Fábio Silva, Ismar Kaufman
      em Recife , PE. Segundo os dados coletados, Eduardo Peixoto (CEO) e Karla Godoy (COO) são os chefes da organização
      que tem 600+. O CESAR possui cursos de Ciência da Computação, Design, Engenharia de Software,
      Engenharia de Software, Engenharia de Software. Para mais detalhes dessa instituição incrível, acesse http://www.cesar.org.br

