In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import petl as etl
import neattext as nt
import texthero as hero

In [2]:
text = nt.TextFrame().read_txt("villes.txt")
text.head(100)

'Paris est situÃ© dans le nord de la France\nLa petite ville de Corte se trouve dans le dÃ©partement f'

In [3]:
text.tail(100)

"nication entre la mer MÃ©diterranÃ©e et l'ocÃ©an Atlantique.\n\nking2023@06\ndata@gmail.com\nia@yahoo.fr"

In [4]:
text.describe()

Key      Value          
Length  : 970            
vowels  : 306            
consonants: 396            
stopwords: 0              
punctuations: 35             
special_char: 35             
tokens(whitespace): 160            
tokens(words): 199            


In [5]:
text.bow()

Counter({'Paris': 1,
         'est': 9,
         'situÃ': 5,
         'dans': 4,
         'le': 5,
         'nord': 3,
         'de': 17,
         'la': 15,
         'France': 4,
         'La': 1,
         'petite': 1,
         'ville': 3,
         'Corte': 2,
         'se': 1,
         'trouve': 1,
         'dÃ': 4,
         'partement': 4,
         'franÃ': 2,
         'ais': 1,
         'Haute': 2,
         'Corse': 2,
         '2B': 1,
         'en': 4,
         'rÃ': 2,
         'gion': 2,
         'compte': 1,
         'environ': 1,
         '6': 1,
         '800': 1,
         'habitants': 1,
         'sa': 1,
         'superficie': 1,
         '149': 1,
         '27': 1,
         'kmÂ²': 1,
         'Son': 1,
         'altitude': 1,
         'par': 1,
         'rapport': 1,
         'au': 3,
         'niveau': 1,
         'mer': 2,
         'comprise': 1,
         'entre': 2,
         '299': 1,
         'et': 2,
         '2626': 1,
         'm': 1,
         'Brest': 1,
         

In [6]:
text.word_stats()

{'Length of Text': 970,
 'Num of Vowels': 306,
 'Num of Consonants': 396,
 'Num of Stopwords': 0,
 'Stats of Vowels': {'a': 75, 'e': 119, 'i': 47, 'o': 32, 'u': 33},
 'Stats of Consonants': {'b': 5,
  'c': 20,
  'd': 39,
  'f': 8,
  'g': 9,
  'h': 5,
  'j': 0,
  'k': 2,
  'l': 44,
  'm': 24,
  'n': 53,
  'p': 17,
  'q': 1,
  'r': 53,
  's': 45,
  't': 59,
  'v': 8,
  'w': 0,
  'x': 1,
  'y': 2,
  'z': 1}}

In [7]:
email = nt.extract_emails(str(text))
email

['king2023@06', 'data@gmail.com', 'ia@yahoo.fr']

In [8]:
phones = nt.extract_numbers(str(text))
phones

['2', '6', '800', '149', '27', '299', '2626', '2023', '06']

In [9]:
pat = nt.extract_pattern(str(text), term_pattern='@')
pat

['@', '@', '@']

In [10]:
text.nlongest()

['Ã', 'ville', 'ville']

In [11]:
text.nshortest()

['14927', '2626', '299']

In [12]:
from neattext.functions import remove_accents, remove_bad_quotes, remove_currencies, remove_currency_symbols, remove_dates, remove_emails, remove_hashtags, remove_puncts, remove_special_characters, remove_urls

In [13]:
from neattext.pipeline import TextPipeline

In [14]:
p = TextPipeline(steps=[remove_accents, remove_bad_quotes, remove_currencies, remove_currency_symbols, remove_dates, remove_emails, remove_hashtags, remove_puncts, remove_special_characters, remove_urls])
custom_pipeline = p.fit(str(text))
custom_pipeline

'Paris est situA dans le nord de la FranceLa petite ville de Corte se trouve dans le dApartement franAais de la HauteCorse 2B en rAgion Corse Corte compte environ 6 800 habitants sa superficie est de 14927 kmA2 Son altitude par rapport au niveau de la mer est comprise entre 299 et 2626 mBrest est une ville portuaire en Bretagne au nordouest de la FranceNice est la capitale du dApartement des AlpesMaritimes sur la CA te dAzur Elle est situAe sur le littoral de galets de la baie des AngesSaintAtienneduRouvray est une commune franAaise situAe dans le dApartement de la SeineMaritime en rAgion NormandieAngers est une ville de louest de la France situAe A  cA tA de la Maine en pAriphArie de la vallAe de la Loireoulouse est situAe dans le Midi de la France au nord du dApartement de la HauteGaronne sur laxe de communication entre la mer MAditerranAe et locAan Atlantique'

In [15]:
text_data = nt.TextFrame(custom_pipeline)
text_data

TextFrame(text="Paris est situA dans le nord de la FranceLa petite ville de Corte se trouve dans le dApartement franAais de la HauteCorse 2B en rAgion Corse Corte compte environ 6 800 habitants sa superficie est de 14927 kmA2 Son altitude par rapport au niveau de la mer est comprise entre 299 et 2626 mBrest est une ville portuaire en Bretagne au nordouest de la FranceNice est la capitale du dApartement des AlpesMaritimes sur la CA te dAzur Elle est situAe sur le littoral de galets de la baie des AngesSaintAtienneduRouvray est une commune franAaise situAe dans le dApartement de la SeineMaritime en rAgion NormandieAngers est une ville de louest de la France situAe A  cA tA de la Maine en pAriphArie de la vallAe de la Loireoulouse est situAe dans le Midi de la France au nord du dApartement de la HauteGaronne sur laxe de communication entre la mer MAditerranAe et locAan Atlantique")

In [16]:
text_data.describe()

Key      Value          
Length  : 873            
vowels  : 320            
consonants: 382            
stopwords: 3              
punctuations: 0              
special_char: 0              
tokens(whitespace): 153            
tokens(words): 153            


In [17]:
text_stopwords = text_data.remove_stopwords(lang='fr')
text_stopwords

TextFrame(text="Paris situA nord FranceLa petite ville Corte trouve dApartement franAais HauteCorse 2B rAgion Corse Corte compte 6 800 habitants superficie 14927 kmA2 altitude rapport niveau mer comprise 299 2626 mBrest ville portuaire Bretagne nordouest FranceNice capitale dApartement AlpesMaritimes CA dAzur situAe littoral galets baie AngesSaintAtienneduRouvray commune franAaise situAe dApartement SeineMaritime rAgion NormandieAngers ville louest France situAe cA Maine pAriphArie vallAe Loireoulouse situAe Midi France nord dApartement HauteGaronne laxe communication mer MAditerranAe locAan Atlantique")

In [18]:
df = pd.read_csv("mail_data.csv")
df.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [19]:
message = nt.TextFrame(str(df["Message"]))
message

TextFrame(text="0       Go until jurong point, crazy.. Available only ...
1                           Ok lar... Joking wif u oni...
2       Free entry in 2 a wkly comp to win FA Cup fina...
3       U dun say so early hor... U c already then say...
4       Nah I don't think he goes to usf, he lives aro...
                              ...                        
5567    This is the 2nd time we have tried 2 contact u...
5568                 Will ü b going to esplanade fr home?
5569    Pity, * was in mood for that. So...any other s...
5570    The guy did some bitching but I acted like i'd...
5571                           Rofl. Its true to its name
Name: Message, Length: 5572, dtype: object")

In [20]:
message.describe()

Key      Value          
Length  : 680            
vowels  : 126            
consonants: 205            
stopwords: 35             
punctuations: 52             
special_char: 52             
tokens(whitespace): 110            
tokens(words): 110            


In [21]:
message.ngrams(5)

['0', 'Go', 'until', 'jurong', 'point,']
['Go', 'until', 'jurong', 'point,', 'crazy..']
['until', 'jurong', 'point,', 'crazy..', 'Available']
['jurong', 'point,', 'crazy..', 'Available', 'only']
['point,', 'crazy..', 'Available', 'only', '...']
['crazy..', 'Available', 'only', '...', '1']
['Available', 'only', '...', '1', 'Ok']
['only', '...', '1', 'Ok', 'lar...']
['...', '1', 'Ok', 'lar...', 'Joking']
['1', 'Ok', 'lar...', 'Joking', 'wif']
['Ok', 'lar...', 'Joking', 'wif', 'u']
['lar...', 'Joking', 'wif', 'u', 'oni...']
['Joking', 'wif', 'u', 'oni...', '2']
['wif', 'u', 'oni...', '2', 'Free']
['u', 'oni...', '2', 'Free', 'entry']
['oni...', '2', 'Free', 'entry', 'in']
['2', 'Free', 'entry', 'in', '2']
['Free', 'entry', 'in', '2', 'a']
['entry', 'in', '2', 'a', 'wkly']
['in', '2', 'a', 'wkly', 'comp']
['2', 'a', 'wkly', 'comp', 'to']
['a', 'wkly', 'comp', 'to', 'win']
['wkly', 'comp', 'to', 'win', 'FA']
['comp', 'to', 'win', 'FA', 'Cup']
['to', 'win', 'FA', 'Cup', 'fina...']
['win', 'F

In [22]:
message.term_freq()

{'0': 0.3333333333333333,
 'Go': 0.3333333333333333,
 'jurong': 0.3333333333333333,
 'point,': 0.3333333333333333,
 'crazy..': 0.3333333333333333,
 'Available': 0.3333333333333333,
 '...': 0.6666666666666666,
 '1': 0.3333333333333333,
 'Ok': 0.3333333333333333,
 'lar...': 0.3333333333333333,
 'Joking': 0.3333333333333333,
 'wif': 0.3333333333333333,
 'u': 0.3333333333333333,
 'oni...': 0.3333333333333333,
 '2': 1.0,
 'Free': 0.3333333333333333,
 'entry': 0.3333333333333333,
 'wkly': 0.3333333333333333,
 'comp': 0.3333333333333333,
 'win': 0.3333333333333333,
 'FA': 0.3333333333333333,
 'Cup': 0.3333333333333333,
 'fina...': 0.3333333333333333,
 '3': 0.3333333333333333,
 'U': 0.6666666666666666,
 'dun': 0.3333333333333333,
 'early': 0.3333333333333333,
 'hor...': 0.3333333333333333,
 'c': 0.3333333333333333,
 'say...': 0.3333333333333333,
 '4': 0.3333333333333333,
 'Nah': 0.3333333333333333,
 'I': 0.6666666666666666,
 'think': 0.3333333333333333,
 'goes': 0.3333333333333333,
 'usf,': 0.

In [23]:
mot = "Je pense (mon avis) que le monde va faire sa fin. Les étudiants au Congo. 11, rue Mbondzi!"

In [24]:
text = nt.TextFrame(mot)
text

TextFrame(text="Je pense (mon avis) que le monde va faire sa fin. Les étudiants au Congo. 11, rue Mbondzi!")

In [29]:
m = pd.Series(mot)
m

0    Je pense (mon avis) que le monde va faire sa f...
dtype: object

In [31]:
hero.named_entities(m)

0    [(que le monde va, ORG, 20, 35), (Congo, GPE, ...
dtype: object

In [34]:
hero.stem(m)

0    je pens (mon avis) que le mond va fair sa fin....
dtype: object

In [38]:
from nltk.corpus import stopwords

In [39]:
stop_words = stopwords.words("french")
hero.remove_stopwords(m, stop_words)

0    Je pense ( avis)   monde va faire  fin. Les ét...
dtype: object