# Steps for effective text data cleaning
**1.Escaping HTML characters**  
**2.Decoding data**  
**3.Apostrophe Lookup**  
**4.Removal of Stop-words**  
**5.Removal of Punctuations**  
**6.Removal of Expressions**  
**7.Split Attached Words**  
**8.Slangs lookup**  
**9.Standardizing words**  
**10.Removal of URLs**  

In [4]:
original_tweet = "I luv my &lt;3 iphone &amp; you’re awsm apple. DisplayIsAwesome, sooo happppppy 🙂 http://www.apple.com"

<br>

### Escaping HTML characters

Dados obtidos da WEB contém um monte de entidades como: &lt, &gt, &amp.  
Podemos usar o htmlparser para limpa-los

In [26]:
import html
tweet = html.unescape(original_tweet)
print(tweet)

I luv my <3 iphone & you’re awsm apple. DisplayIsAwesome, sooo happppppy 🙂 http://www.apple.com


<br>

### Decoding data

Transformar simbolos complexos em um simples caracteres.  
O texto pode estar sujeito a diferentes formas de decodificação, como "LatiN", "ASCII", "UTF8",etc.  
Para uma melhor análise, é necessário manter os dados em um formato de codificação padrão. UTF-8 é amplamente aceito e recomendado.

In [29]:
tweet

'I luv my <3 iphone & you’re awsm apple. DisplayIsAwesome, sooo happppppy 🙂 http://www.apple.com'

In [27]:
tweet = tweet.decode("utf8").encode("ascii","ignore")

AttributeError: 'str' object has no attribute 'decode'

<br>

### Apostrophe Lookup

Quando apóstrofos são usados, as chances de ambiguação aumentam.   
Exemplo em inglês: `it’s` pode ser uma contração para *it is* ou *it has*.

Todos os apóstrofos devem ser convertidos padrões léxicos.Pode se consultar uma tabela pra isso

In [87]:
tweet

'I luv my <3 iphone & you’re awsm apple. DisplayIsAwesome, sooo happppppy 🙂 http://www.apple.com'

In [103]:
# Example
APPOSTOPHES = {"’s" : "is", "’re" : "are"}

words = re.split("(’\w+)",tweet)
reformed = [APPOSTOPHES[word] if word in APPOSTOPHES else word for word in words]
reformed = [word.strip() for word in reformed]
reformed = " ".join(reformed)
reformed

'I luv my <3 iphone & you are awsm apple. DisplayIsAwesome, sooo happppppy 🙂 http://www.apple.com'

<br>

### Removal of Stop-words

Quando a análise de dados precisa ser orientada por dados ao nível das palavras, as palavras comuns (stop-words) devem ser removidas. Para isso, podemos criar uma lista ou usar bibliotecas que possuem as stop-words. 

Ao remover as stop-wrods, o foco da análise se concentra mais nas palavras que realmente contribuem para o contexto e o significado do texto, como substantivos, verbos e adjetivos que fornecem informações mais específicas e úteis.

<br>

## Removal of Punctuations

Todos os sinais de pontuação de acordo com as prioridades devem ser tratados. Por exemplo: ".", "," e "?" devem ser mantidos para entender o texto, enquanto outras precisam ser removidas.

<br>

### Removal of Expressions

Textos (normalmente audios transcritos) podem conter expressões humanas como risada, choro, pausas. Essas expressões não são relevantes para o conteúdo e significado do texto e precisam ser removidas

<br>

### Split Attached Words

Os textos gerados nas redes sociais são completamente informais. A maioria dos tweets, por exemplo, são acompanhados por muitas palavras ligadas como "DisplayIsAwesome". Elas precisam ser separadas em sua forma original.

In [106]:
reformed

'I luv my <3 iphone & you are awsm apple. DisplayIsAwesome, sooo happppppy 🙂 http://www.apple.com'

In [114]:
cleaned = " ".join(re.findall('[A-Z][^A-Z]*',reformed))
cleaned

'I luv my <3 iphone & you are awsm apple.  Display Is Awesome, sooo happppppy 🙂 http://www.apple.com'

<br>

### Slangs lookup

As redes sociais são compostas por muitas gírias. Essas palavras devem ser transformadas em palavras padrão para formar um texto livre. Palavras como 'luv' devem ser convertidas em 'amor', 'Helo' em 'Hello', etc.  
A abordagem semelhante de pesquisa de apóstrofo pode ser usada para converter gírias conhecidas em palavras padrões.

Existem várias fontes disponíveis na web, que fornecem todas as gírias disponíveis.

In [123]:
# Example
SLANGS = {"luv":"love","awsm":"awesome"}

words = cleaned.split()
reformed_2 = [SLANGS[word] if word in SLANGS else word for word in words]
# reformed_2 = [word.strip() for word in reformed]
reformed_2 = " ".join(reformed_2)
reformed_2

'I love my <3 iphone & you are awesome apple. Display Is Awesome, sooo happppppy 🙂 http://www.apple.com'

<br>

### Standardizing words

As vezes, as palavras não estão em um formato apropriado.  

Por exemplo:  
`sooo happppppppy`

In [145]:
import itertools
tweet=''.join(''.join(s)[:2] for _, s in itertools.groupby(reformed_2))

<br>

### Removal of URLs

URLs e hiperlinks em dados de texto como comentários, resenhas e tweets devem ser removidos.

In [149]:
clean_hyperlink=re.sub( r'https?://\S+','',tweet)
clean=re.sub('[\d<>]','',clean_hyperlink)

tweet_final = clean.split()
tweet_final = [word.strip() for word in tweet_final]
tweet_final = " ".join(tweet_final)

In [150]:
tweet_final

'I love my iphone & you are awesome apple. Display Is Awesome, soo happy 🙂'