# Data mining
Conhecido também como mineração de dados, é o processo de descoberta e extração de padrões, informações e conhecimentos úteis ou previamente desconhecidos a partir de grandes conjuntos de dados.

- Dataset (base de dados)
- Pré-processamento
- Classificação
- Database
- Estatística
- Análise
- Avaliação



# Expressões regulares
São padrões de busca utilizados para selecionar sequências de caracteres em textos. Elas são amplamente utilizadas em linguagens de programação e ferramentas de processamento de texto para realizar operações complexas de busca, substituição e validação de padrões.

## Gramática Regex
EXEMPLO: Buscando email no exemploregex.txt: 
``[\w.-]+@[\w.-]+\.[a-zA-Z]{2,4} ``

- [\w.-] - todos os caracteres alfanuméricos + ponto ou hífen
- @ - depois dos caracteres alfanuméricos, identificar um arroba
- [\w.-]  - todos os caracteres alfanuméricos + ponto ou hífen
- ``\.`` - um ponto depois dos caracteres alfanuméricos
- [a-zA-z]{2,4} - procura um conjunto de letras de a a z com comprimento de 2 a 4 caracteres.

In [1]:
# importando modulo de regex
import re

# definindo string
texto = """O telefone da farmacia é 3000-3232, mas eles só atentem até as 18h em dias úteis"""

# tentando encontrar a frase "o telefone" NO COMEÇO DA FRASE!
# O match só busca por elementos no inicio da string
match = re.match("O telefone", texto)

# se o match for verdadeiro, retorne
if match:
    print("Correspondência encontrada!")


Correspondência encontrada!


In [3]:
# para encontrar uma palavra em qualquer lugar do texto re.search()
match = re.search("telefone", texto)

# se o match for verdadeiro, retorne
if match:
    print("Correspondência encontrada!")

Correspondência encontrada!


In [5]:
# utilizando regex para encontrar um formato de horário no padrão XXh 

match = re.search("[0-9][0-9]h", texto)

# se o match for verdadeiro, retorne
if match:
    print("Correspondência encontrada!")

Correspondência encontrada!


In [6]:
# imprimindo o índice inicial e final onde se encontra a correspondencia da string
print(match.start(), match.end())

# imprime a parte da string que corresponde a expressão regular
print(match.group(0))

63 66
18h


In [8]:
# função findall para encontrar todas as ocorrências na string que correspondem a expressão regular desejada
# exemplo: [0-9]* - uma ou mais ocorrências de dígitos numéricos
matches = re.findall("[0-9]+", texto)
matches

['3000', '3232', '18']

In [9]:
texto2 = """Lorem ipsum dolor support3@ddd.com sit amet, consectetur adipiscing elit. Fusce dapibus, felis a tempor tristique, turpis enim feugiat tortor, a varius justo lectus sed velit. Ut eu ligula euismod, lacinia elit eu,
commodo Nullam sales@salesforce.com lobortis lacus sed lorem malesuada, vel tristique quam tempus. 
Proin 3003-2312 aliquet malesuada condimentum arcu, id malesuada sagittis ex john.doe@uol.com scelerisque vitae. 
Suspendisse commodo, sapien eu vulputate viverra, metus nunc ultrices odio, at gravida turpis justo nec odio. 
In hac habitasse platea dictumst. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Sed eget leo ac justo commodo rutrum.
Curabitur malesuada jane.smith@ddd.com luctus efficitur 98993-3102 mauris, 
vitae bibendum turpis. Nulla facilisi. In ullamcorper nisi vel congue pretium. Quisque sed enim non urna fermentum tincidunt"""

In [10]:
# encontrar todas as ocorrências de sequencias de letras minusculas seguidas
# pelo simbolo @ e seguidas novamente por outra sequencia de letra minusculas
# '[a-z]+@[a-z]+'
# padroes simples de email sem domínio ou extensão

matches2 = re.findall("[a-z]+@[a-z]+", texto2)
matches2

['sales@salesforce', 'doe@uol', 'smith@ddd']

In [11]:
# mesma lógica mas agora incluindo pontos e números também
matches3 = re.findall("[a-z.0-9]+@[a-z.0-9]+", texto2)
matches3

['support3@ddd.com',
 'sales@salesforce.com',
 'john.doe@uol.com',
 'jane.smith@ddd.com']

### Para auxiliar
https://regexr.com

https://projects.lukehaas.me/regexhub/

## HTML
É a linguagem padrão utilizada para criar e estruturar páginas da web. É composto por uma série de elementos ou tags, permitindo a exibição e o formato de textos, imagens, videos, links, tabelas e outros elementos em um navegador. 

# Web scraping
É o processo de extrair automaticamente dados de sites da web. Ao realizar web scraping, um programa automatizado, muitas vezes chamado de "scraper" ou "bot", navega por páginas web fazendo download do código-fonte HTML e, em seguida, analisando e extraindo os dados relevantes

## Beautiful Soup
Biblioteca python usada para fazer análise e extração de dados de documentos HTML e XML. Ela cria uma árvore de análise a partir do documento fornecido e, em seguida, oferece uma interface simples para interagir com essa árvore. A combinação da BEAUTIFUL SOUP com a biblioteca requests, que é utilizada para fazer requesições HTTP.

Crie um objeto beautifulsoup para analias o conteúdo HTML. O método prettify() retorna uma string num formato legível das hierarquias do documento analisado. 

In [14]:
from bs4 import BeautifulSoup
import requests

url = 'https://www.google.com'
response = requests.get(url)
response.status_code

200

In [15]:
soup = BeautifulSoup(response.text, 'html.parser')
soup.prettify()

'<!DOCTYPE html>\n<html itemscope="" itemtype="http://schema.org/WebPage" lang="pt-BR">\n <head>\n  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>\n  <meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/>\n  <title>\n   Google\n  </title>\n  <script nonce="2dmlVHgCrYcB7TVCVQ-lZA">\n   (function(){var _g={kEI:\'8Bs1ZYLeMu3M1sQPpvaQgAw\',kEXPI:\'0,1365467,207,4804,2316,383,246,5,1129120,1197758,380733,16114,28684,22431,1361,12314,4750,12835,4998,17075,6884,31560,2872,2891,4139,4210,3405,606,12205,17638,30847,16016,319,20583,4,32894,26723,27038,6636,7596,1,42154,2,16395,23366,5679,1021,31122,4567,6256,23421,1252,33064,2,2,1,24626,2006,8155,23350,873,7829,11805,6,1923,9779,42459,3142,17057,927,4869,11,14329,14,82,20206,8377,408,18580,2278,3097,782,1483,765,15816,1804,22837,21261,2984,1632,13496,9867,3339,7768,146,7857,987,785,6812,5214429,826,189,2,195,101,284,397,5992779,1209,97,2806428,141,795,29230,5,3,2,47,87,165,2,41,6,17,

Use os métodos e atributos do BSoup para extrair dados desejados. Por exemplo, se você quiser extrair todos os links da página você pode utilizar o seguinte código:

In [16]:
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

https://www.google.com/imghp?hl=pt-BR&tab=wi
https://maps.google.com.br/maps?hl=pt-BR&tab=wl
https://play.google.com/?hl=pt-BR&tab=w8
https://www.youtube.com/?tab=w1
https://news.google.com/?tab=wn
https://mail.google.com/mail/?tab=wm
https://drive.google.com/?tab=wo
https://www.google.com.br/intl/pt-BR/about/products?tab=wh
http://www.google.com.br/history/optout?hl=pt-BR
/preferences?hl=pt-BR
https://accounts.google.com/ServiceLogin?hl=pt-BR&passive=true&continue=https://www.google.com/&ec=GAZAAQ
/advanced_search?hl=pt-BR&authuser=0
/intl/pt-BR/ads/
/services/
/intl/pt-BR/about.html
https://www.google.com/setprefdomain?prefdom=BR&prev=https://www.google.com.br/&sig=K_ns1Jwbyu5YRKciHuwXjw4oh88v0%3D
/intl/pt-BR/policies/privacy/
/intl/pt-BR/policies/terms/


## Outra ferramentas
- Scrapy
- Selenium
- Urllib3
- Mechanical Soup

https://www.youtube.com/watch?v=kqvWOcPog4s

https://colab.research.google.com/github/programacaodinamica/mini-projetos/blob/master/src/Raspagem_de_dados_com_Beautiful_Soup.ipynb

## OBS
A tag `<a>` é uma tag HTML utilizada para definir hiperlinks, que permitem aos usuários navegar de uma página ou recurso para outro. A letra "a" na tag `<a>` vem de "âncora" (anchor em inglês).

Os hiperlinks podem apontar para qualquer URL, como outra página web, um arquivo para download, uma imagem ou qualquer outro tipo de recurso na web. Além disso, podem também apontar para outras seções da mesma página.

O atributo mais comum usado com a tag `<a>` é o `href`, que indica o destino do link. Por exemplo:

```html
<a href="https://www.example.com">Visite o nosso site</a>
```

Neste exemplo, o texto "Visite o nosso site" será exibido como um link clicável que, quando clicado, levará o usuário para "https://www.example.com".

Além do `href`, a tag `<a>` pode ter vários outros atributos, como `target` (para definir onde o novo link será aberto, por exemplo, em uma nova janela ou aba) e `title` (para fornecer informações adicionais sobre o link, geralmente exibidas como uma dica de ferramenta quando o mouse é colocado sobre o link).

Em resumo, a tag `<a>` é fundamental para a web, pois permite a interconexão de documentos e recursos, tornando a web uma rede interligada de informações.

In [17]:
# EXEMPLOS
# df com uma coluna de urls
import pandas as pd

data = { 
    'url': [
        'https://google.com',
        'https://stackoverflow.com',
        'https://example.org',
        'https://github.com',
        'https://bbc.co.uk'
    ]
}

df = pd.DataFrame(data)
print(df)

                         url
0         https://google.com
1  https://stackoverflow.com
2        https://example.org
3         https://github.com
4          https://bbc.co.uk


In [18]:
# filtrando urls que apondam para dominios com .com
com_df = df[df['url'].str.contains(r'\.com$', regex=True)] # $: Indica o fim da linha.
com_df

Unnamed: 0,url
0,https://google.com
1,https://stackoverflow.com
3,https://github.com


In [19]:
# extraindo o nome do domínio e criando uma nova coluna
# extraia o conjunto de caracteres alfanuméricos que estão entre https:// e .com
com_df['domain'] = com_df['url'].str.extract(r'https://([\w\-]+)\.com')
com_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  com_df['domain'] = com_df['url'].str.extract(r'https://([\w\-]+)\.com')


Unnamed: 0,url,domain
0,https://google.com,google
1,https://stackoverflow.com,stackoverflow
3,https://github.com,github


In [20]:
# modificando as urls para usar http ao inves de https 
com_df['url'] = com_df['url'].str.replace(r'https://', 'http://')
com_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  com_df['url'] = com_df['url'].str.replace(r'https://', 'http://')


Unnamed: 0,url,domain
0,http://google.com,google
1,http://stackoverflow.com,stackoverflow
3,http://github.com,github


In [23]:
#exemplo 2
# Criando um dataframe de exemplo
data2 = {
    'Marca': ['Ford', 'Chevrolet', 'Honda', 'Volkswagen', 'Toyota', 'Hyundai', 'BMW', 'Mercedes', 'Audi', 'Nissan'],
    'Modelo': ['Fiesta', 'Onix', 'Civic', 'Gol', 'Corolla', 'HB20', 'X1', 'Class C', 'A3', 'Sentra'],
    'Ano': [2020, 2019, 2021, 2018, 2022, 2021, 2019, 2020, 2022, 2018],
    'Placa': ['ABC-1234', 'XYZ-5678', 'DEF-9012', 'GHI-3456', 'JKL-7890', 'LMN-0123', 'OPQ-4567', 'RST-8910', 'UVW-2345', 'XYZ-6789'],
    'Chassi': ['1HGBH41JXMN109876', '2HGBH42JXMN119876', '3HGBH43JXMN129876', '4HGBH44JXMN139876', '5HGBH45JXMN149876', '6HGBH46JXMN159876', '7HGBH47JXMN169876', '8HGBH48JXMN179876', '9HGBH49JXMN189876', '0HGBH40JXMN199876'],
    'Cor': ['Azul', 'Preto', 'Branco', 'Vermelho', 'Cinza', 'Verde', 'Amarelo', 'Roxo', 'Rosa', 'Laranja'],
    'Tipo': ['Hatch', 'Hatch', 'Sedan', 'Hatch', 'Sedan', 'Hatch', 'SUV', 'Sedan', 'Hatch', 'Sedan'],
    'Combustível': ['Gasolina', 'Flex', 'Flex', 'Flex', 'Gasolina', 'Flex', 'Diesel', 'Gasolina', 'Flex', 'Gasolina']
}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Marca,Modelo,Ano,Placa,Chassi,Cor,Tipo,Combustível
0,Ford,Fiesta,2020,ABC-1234,1HGBH41JXMN109876,Azul,Hatch,Gasolina
1,Chevrolet,Onix,2019,XYZ-5678,2HGBH42JXMN119876,Preto,Hatch,Flex
2,Honda,Civic,2021,DEF-9012,3HGBH43JXMN129876,Branco,Sedan,Flex
3,Volkswagen,Gol,2018,GHI-3456,4HGBH44JXMN139876,Vermelho,Hatch,Flex
4,Toyota,Corolla,2022,JKL-7890,5HGBH45JXMN149876,Cinza,Sedan,Gasolina
5,Hyundai,HB20,2021,LMN-0123,6HGBH46JXMN159876,Verde,Hatch,Flex
6,BMW,X1,2019,OPQ-4567,7HGBH47JXMN169876,Amarelo,SUV,Diesel
7,Mercedes,Class C,2020,RST-8910,8HGBH48JXMN179876,Roxo,Sedan,Gasolina
8,Audi,A3,2022,UVW-2345,9HGBH49JXMN189876,Rosa,Hatch,Flex
9,Nissan,Sentra,2018,XYZ-6789,0HGBH40JXMN199876,Laranja,Sedan,Gasolina


In [38]:
# função para identificar placas no formato brasileiro
def verificar_placa(placa):
    if re.match(r"^[A-Z]{3}-\d{4}$", placa):
        # ^[A-Z]{3)-: 3 letras maiúsculas no inicio SEGUIDAS DE UM HÍFEN
        #\d: Corresponde a qualquer dígito. Equivalente a [0-9].4 DIGITOS NO FINAL
            return True
    return False

# verifica chassi
def verifica_chassi(chassi):
    if len(chassi) == 17:
        # se length do chassi for 17
        return True
    return False

In [39]:
# aplicando funções
df2['placa_valida'] = df2['Placa'].apply(verificar_placa)
df2['chassi_valido'] = df2['Chassi'].apply(verifica_chassi)

In [40]:
df2

Unnamed: 0,Marca,Modelo,Ano,Placa,Chassi,Cor,Tipo,Combustível,placa_valida,chassi_valido
0,Ford,Fiesta,2020,ABC-1234,1HGBH41JXMN109876,Azul,Hatch,Gasolina,True,True
1,Chevrolet,Onix,2019,XYZ-5678,2HGBH42JXMN119876,Preto,Hatch,Flex,True,True
2,Honda,Civic,2021,DEF-9012,3HGBH43JXMN129876,Branco,Sedan,Flex,True,True
3,Volkswagen,Gol,2018,GHI-3456,4HGBH44JXMN139876,Vermelho,Hatch,Flex,True,True
4,Toyota,Corolla,2022,JKL-7890,5HGBH45JXMN149876,Cinza,Sedan,Gasolina,True,True
5,Hyundai,HB20,2021,LMN-0123,6HGBH46JXMN159876,Verde,Hatch,Flex,True,True
6,BMW,X1,2019,OPQ-4567,7HGBH47JXMN169876,Amarelo,SUV,Diesel,True,True
7,Mercedes,Class C,2020,RST-8910,8HGBH48JXMN179876,Roxo,Sedan,Gasolina,True,True
8,Audi,A3,2022,UVW-2345,9HGBH49JXMN189876,Rosa,Hatch,Flex,True,True
9,Nissan,Sentra,2018,XYZ-6789,0HGBH40JXMN199876,Laranja,Sedan,Gasolina,True,True
