# Steps for effective text data cleaning
**1.Escaping HTML characters**  
**2.Decoding data**  
**3.Apostrophe Lookup**  
**4.Removal of Stop-words**  
**5.Removal of Punctuations**  
**6.Removal of Expressions**  
**7.Split Attached Words**  
**8.Slangs lookup**  
**9.Standardizing words**  
**10.Removal of URLs**  

In [4]:
original_tweet = "I luv my &lt;3 iphone &amp; you‚Äôre awsm apple. DisplayIsAwesome, sooo happppppy üôÇ http://www.apple.com"

<br>

### Escaping HTML characters

Dados obtidos da WEB cont√©m um monte de entidades como: &lt, &gt, &amp.  
Podemos usar o htmlparser para limpa-los

In [26]:
import html
tweet = html.unescape(original_tweet)
print(tweet)

I luv my <3 iphone & you‚Äôre awsm apple. DisplayIsAwesome, sooo happppppy üôÇ http://www.apple.com


<br>

### Decoding data

Transformar simbolos complexos em um simples caracteres.  
O texto pode estar sujeito a diferentes formas de decodifica√ß√£o, como "LatiN", "ASCII", "UTF8",etc.  
Para uma melhor an√°lise, √© necess√°rio manter os dados em um formato de codifica√ß√£o padr√£o. UTF-8 √© amplamente aceito e recomendado.

In [29]:
tweet

'I luv my <3 iphone & you‚Äôre awsm apple. DisplayIsAwesome, sooo happppppy üôÇ http://www.apple.com'

In [27]:
tweet = tweet.decode("utf8").encode("ascii","ignore")

AttributeError: 'str' object has no attribute 'decode'

<br>

### Apostrophe Lookup

Quando ap√≥strofos s√£o usados, as chances de ambigua√ß√£o aumentam.   
Exemplo em ingl√™s: `it‚Äôs` pode ser uma contra√ß√£o para *it is* ou *it has*.

Todos os ap√≥strofos devem ser convertidos padr√µes l√©xicos.Pode se consultar uma tabela pra isso

In [87]:
tweet

'I luv my <3 iphone & you‚Äôre awsm apple. DisplayIsAwesome, sooo happppppy üôÇ http://www.apple.com'

In [103]:
# Example
APPOSTOPHES = {"‚Äôs" : "is", "‚Äôre" : "are"}

words = re.split("(‚Äô\w+)",tweet)
reformed = [APPOSTOPHES[word] if word in APPOSTOPHES else word for word in words]
reformed = [word.strip() for word in reformed]
reformed = " ".join(reformed)
reformed

'I luv my <3 iphone & you are awsm apple. DisplayIsAwesome, sooo happppppy üôÇ http://www.apple.com'

<br>

### Removal of Stop-words

Quando a an√°lise de dados precisa ser orientada por dados ao n√≠vel das palavras, as palavras comuns (stop-words) devem ser removidas. Para isso, podemos criar uma lista ou usar bibliotecas que possuem as stop-words. 

Ao remover as stop-wrods, o foco da an√°lise se concentra mais nas palavras que realmente contribuem para o contexto e o significado do texto, como substantivos, verbos e adjetivos que fornecem informa√ß√µes mais espec√≠ficas e √∫teis.

<br>

## Removal of Punctuations

Todos os sinais de pontua√ß√£o de acordo com as prioridades devem ser tratados. Por exemplo: ".", "," e "?" devem ser mantidos para entender o texto, enquanto outras precisam ser removidas.

<br>

### Removal of Expressions

Textos (normalmente audios transcritos) podem conter express√µes humanas como risada, choro, pausas. Essas express√µes n√£o s√£o relevantes para o conte√∫do e significado do texto e precisam ser removidas

<br>

### Split Attached Words

Os textos gerados nas redes sociais s√£o completamente informais. A maioria dos tweets, por exemplo, s√£o acompanhados por muitas palavras ligadas como "DisplayIsAwesome". Elas precisam ser separadas em sua forma original.

In [106]:
reformed

'I luv my <3 iphone & you are awsm apple. DisplayIsAwesome, sooo happppppy üôÇ http://www.apple.com'

In [114]:
cleaned = " ".join(re.findall('[A-Z][^A-Z]*',reformed))
cleaned

'I luv my <3 iphone & you are awsm apple.  Display Is Awesome, sooo happppppy üôÇ http://www.apple.com'

<br>

### Slangs lookup

As redes sociais s√£o compostas por muitas g√≠rias. Essas palavras devem ser transformadas em palavras padr√£o para formar um texto livre. Palavras como 'luv' devem ser convertidas em 'amor', 'Helo' em 'Hello', etc.  
A abordagem semelhante de pesquisa de ap√≥strofo pode ser usada para converter g√≠rias conhecidas em palavras padr√µes.

Existem v√°rias fontes dispon√≠veis na web, que fornecem todas as g√≠rias dispon√≠veis.

In [123]:
# Example
SLANGS = {"luv":"love","awsm":"awesome"}

words = cleaned.split()
reformed_2 = [SLANGS[word] if word in SLANGS else word for word in words]
# reformed_2 = [word.strip() for word in reformed]
reformed_2 = " ".join(reformed_2)
reformed_2

'I love my <3 iphone & you are awesome apple. Display Is Awesome, sooo happppppy üôÇ http://www.apple.com'

<br>

### Standardizing words

As vezes, as palavras n√£o est√£o em um formato apropriado.  

Por exemplo:  
`sooo happppppppy`

In [145]:
import itertools
tweet=''.join(''.join(s)[:2] for _, s in itertools.groupby(reformed_2))

<br>

### Removal of URLs

URLs e hiperlinks em dados de texto como coment√°rios, resenhas e tweets devem ser removidos.

In [149]:
clean_hyperlink=re.sub( r'https?://\S+','',tweet)
clean=re.sub('[\d<>]','',clean_hyperlink)

tweet_final = clean.split()
tweet_final = [word.strip() for word in tweet_final]
tweet_final = " ".join(tweet_final)

In [150]:
tweet_final

'I love my iphone & you are awesome apple. Display Is Awesome, soo happy üôÇ'