# PRÁTICA GUIADA - Feature Engineering.

## Trabalhando com texto.

#### Outra necessidade comum na engenharia de recursos é converter texto em um conjunto de valores numéricos representativos. Por exemplo, a maioria das minerações automáticas de dados sociais é baseada em alguma forma de codificação de texto, como números. Um dos métodos mais simples é codificar os dados por meio da [contagem de palavras](https://scikit-learn.org/stable/modules/feature_extraction.html), que consiste em pegar cada fragmento de texto, contar as ocorrências de cada palavra e despejar os resultados em uma tabela.

#### Vamos criar uma lista de três frases.

In [1]:
textos = ['cientista de dados',
          'dados estruturados',
          'pensamento científico']

#### Para vectorizar este dataset basado en el conteo de palabras, podríamos construir una columna representando cada palabra: "científico", "datos", "pensamiento", etc.


#### Para vetorizar esse conjunto de dados com base na contagem de palavras, podemos construir uma coluna representando cada palavra: "cientista", "dados", "pensamento" etc.

#### Para isso, usamos [`sklearn.feature_extraction.text.CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) para trabalhar com a lista de `strings` e crie um objeto utilizando a função [`CountVectorizer()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) para converter uma coleção de documentos de texto em uma matriz de contagens de tokens. 


#### Use a função [`.fit_transform()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html#sklearn.feature_extraction.DictVectorizer.fit_transform) para que o algoritmo aprenda os nomes de recursos da lista criada.

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X = vec.fit_transform(textos)
print(X)

  (0, 0)	1
  (0, 3)	1
  (0, 2)	1
  (1, 2)	1
  (1, 4)	1
  (2, 5)	1
  (2, 1)	1


#### Podemos visualizar o `output` do `CountVectorizer` utilizando o método [`.todense()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.todense.html), que converte a matrix dispersa em uma matriz densa.

In [3]:
X.todense()

matrix([[1, 0, 1, 1, 0, 0],
        [0, 0, 1, 0, 1, 0],
        [0, 1, 0, 0, 0, 1]])

#### Podemos despejar esse resultado em um `DataFrame`, para obter os títulos das colunas, vamos usar o método [`.get_feature_names()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.get_feature_names) para o parâmetro `columns`. Importe o `pandas` e use a função [`pd.DataFrame()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) para criar um `dataframe` a partir da matriz condensada na célula anterior.

In [4]:
import pandas as pd
pd.DataFrame(data = X.todense(), columns = vec.get_feature_names())

Unnamed: 0,cientista,científico,dados,de,estruturados,pensamento
0,1,0,1,1,0,0
1,0,0,1,0,1,0
2,0,1,0,0,0,1


#### [Term frequency-inverse document frequency (TF–IDF)](https://towardsdatascience.com/tf-idf-for-document-ranking-from-scratch-in-python-on-real-world-dataset-796d339a4089#:~:text=TF%2DIDF%20stands%20for%20%E2%80%9CTerm,Information%20Retrieval%20and%20Text%20Mining.) é uma técnica alternativa que calcula a frequência relativa de cada palavra por documento, ponderada pelo inverso de sua frequência relativa em todo o `corpus` (coleção de documentos). Este método funciona melhor com certos algoritmos de classificação.

#### Para isso vamos utilizar a classe de funções [`sklearn.feature_extraction.text.TfidfVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html):

#### Atribua a função [`TfidfVectorizer()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) a um objeto, para converter a coleção de documentos brutos criada na célular anterior em uma matriz de recursos `TF-IDF`.

#### Utilize novamente o método [`.todense()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.todense.html), para converter a matrix dispersa em uma matriz densa e transforme o resultado em um `dataframe` com a função [`pd.DataFrame()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).


In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(textos)
pd.DataFrame(data = X.todense(), columns = vec.get_feature_names())

Unnamed: 0,cientista,científico,dados,de,estruturados,pensamento
0,0.622766,0.0,0.47363,0.622766,0.0,0.0
1,0.0,0.0,0.605349,0.0,0.795961,0.0
2,0.0,0.707107,0.0,0.0,0.0,0.707107


##### Vejamos como se calculam os valores de `tfidf`:


#### Para o cálculo da freqüência com que um termo $t_{i}$  aparece em um documento $d_{i}$: 

$ tf_{ij} = \frac{n_{ij}}{\sum_{k} n_{ik}} = \frac{n_{ij}}{|d_{i}|}$

- Em que $n_{ij}$ é o número de vezes que o termo $t_{i}$ aparece no documento $d_{i}$. 

#### Para o cálculo da freqüência inversa com que um termo $t_{i}$  aparece nos $N$ documentos:

$ idf_{j} = log\bigg(\frac{N}{n_{j}}\bigg)$


- Em que $N$ é o número total de documentos e $n_{j}$ é o número de documentos que contém o termo $t_{j}$. 

#### Um termo $t_{j}$ que aparece em poucos documentos é melhor discriminado que outro que aparece muitas vezes.

#### Cada documento $j$ é representado como um vetor de características: 

$d_{j}$:$d_{j} = (d_{j1}, … , d_{jn})$ 

#### Contabilizando todos os termos $t_{i}$ ficamos com uma matriz dada pelo produto cartesiano $tf_{ij}$ e $idf_{j}$:

$d_{ij} = tfidf_{ij} = tf_{ij}~x~idf_{j}$

###### Como exemplo, calculemos os valores da primeira linha:

####  <span style = "color:red">Código Original.</span>
<!---
textos = ['cientista de dados',
          'dados estruturados',
          'pensamento científico']
-->

#### Se o parâmetro `smooth_idf = True` (padrão), uma constante de valor `1` é agregada ao numerador e ao denominador de $idf_ {i}$ para evitar divisões por zero: $ idf_{j} = log\bigg(\frac{N}{1 + n_{j}} + 1\bigg)$. Isso cria um limite inferior $log(2)$ para as contagens. Outras variações são ainda possívels.

#### Importe a classe [`sklearn.feature_extraction.text.TfidfVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) para converta uma coleção de documentos brutos em uma matriz de recursos `TF-IDF`.

#### Defina três objetos que recebem os documentos criados na célula anterior e utilize a função  [`.TfidfVectorizer()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) para realizar o cálculo dos valroes `TF-IDF` e observe os parâmetros `norm = 'l2'`, `use_idf = True`, `smooth_idf = True`, `sublinear_tf = False`.

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

docA = textos[0]
docB = textos[1]
docC = textos[2]

tfidf = TfidfVectorizer(norm = 'l2', use_idf = True, smooth_idf = True, sublinear_tf = False)

#### A função [`.fit_transform()`](https://kite.com/python/docs/sklearn.isotonic.IsotonicRegression.fit_transform) aprende o vocabulário e `idf` e retorna uma matriz do tipo `document-term`. Vamos usá-la com os três documentos criados na célula anterior e  então aplicar o método [`.todense()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.todense.html), para converter a matrix dispersa, resultado de `.fit_transform()` em uma matriz densa.

In [7]:
response = tfidf.fit_transform([docA, docB, docC])
print(response.todense())

[[0.62276601 0.         0.4736296  0.62276601 0.         0.        ]
 [0.         0.         0.60534851 0.         0.79596054 0.        ]
 [0.         0.70710678 0.         0.         0.         0.70710678]]


#### A função [`get_feature_names`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.get_feature_names) faz um mapeamento de matriz de índices inteiros do recurso para o nome do recurso.

In [8]:
feature_names = tfidf.get_feature_names()

#### Para termos apenas aqueles índices cujos elementos são diferentes de zero, usamos a função [`.nonzero()`](https://numpy.org/doc/1.18/reference/generated/numpy.nonzero.html). Crie um `loop for` para 

In [9]:
import pandas as pd
df = pd.read_csv('features_texto.csv')
df.head()

Unnamed: 0,PROCEDIMENTO,QUANTIDADE,VALOR_UNITARIO,VALOR_PAGO_PROCEDIMENTO,DATA_ENTRADA,PORTE_PROCEDIMENTO,VIA_ACESSO
0,"Abdome inferior masculino (bexiga, próstata e ...",1,88.36,88.36,05/06/2019,02B,P
1,Doppler Colorido De Órgão Ou Estrutura Isolada,1,173.62,163.17,28/10/2019,03B,P
2,US - APARELHO URINARIO RINS URETERES E BEXIGA,1,85.07,85.07,11/02/2019,,P
3,Doppler Colorido Venoso De Membro Inferior - U...,1,298.68,298.68,14/08/2019,05A,P
4,ECODOPPLERCARDIOGRAMA TRANSTORACICO,1,226.35,226.35,18/04/2019,02A,P


In [10]:
df.PROCEDIMENTO = df.PROCEDIMENTO.str.lower()
df.head()

Unnamed: 0,PROCEDIMENTO,QUANTIDADE,VALOR_UNITARIO,VALOR_PAGO_PROCEDIMENTO,DATA_ENTRADA,PORTE_PROCEDIMENTO,VIA_ACESSO
0,"abdome inferior masculino (bexiga, próstata e ...",1,88.36,88.36,05/06/2019,02B,P
1,doppler colorido de órgão ou estrutura isolada,1,173.62,163.17,28/10/2019,03B,P
2,us - aparelho urinario rins ureteres e bexiga,1,85.07,85.07,11/02/2019,,P
3,doppler colorido venoso de membro inferior - u...,1,298.68,298.68,14/08/2019,05A,P
4,ecodopplercardiograma transtoracico,1,226.35,226.35,18/04/2019,02A,P
