<a href='http://moncoachdata.com'><img src= 'https://moncoachdata.com/wp-content/uploads/MonCoachData-cours/MonCoachData.jpg' width=400/></a>


---


<center><em>Copyright MonCoachData (tous droits réservés)</em></center>
<center><em>Pour plus d'informations, visitez notre site <a href='http://moncoachdata.com'>moncoachdata.com</a></em></center>



---

# Méthodes Text

[https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

Une chaîne Python normale dispose d'une variété d'appels de méthodes :

In [None]:
mystring = 'hello'

In [None]:
mystring.capitalize()

'Hello'

In [None]:
mystring.isdigit()

False

In [None]:
help(str)

Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |  
 |  Create a new string object from the given object. If encoding or
 |  errors is specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __format__(self, format_spec, /)
 |      Return a formatted version of the string as described by format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  

## Pandas et Text

Pandas peut faire beaucoup plus que ce que nous montrons ici. Une documentation complète en ligne sur des sujets tels que l'indexation avancée des chaînes de caractères et les expressions régulières avec Pandas est disponible ici : https://pandas.pydata.org/docs/user_guide/text.html


### Méthodes Text sur les colonnes de type String de Pandas

In [None]:
import pandas as pd

In [None]:
names = pd.Series(['andrew','bobo','claire','david','4'])

In [None]:
names

0    andrew
1      bobo
2    claire
3     david
4         4
dtype: object

In [None]:
names.str.capitalize()

0    Andrew
1      Bobo
2    Claire
3     David
4         4
dtype: object

In [None]:
names.str.isdigit()

0    False
1    False
2    False
3    False
4     True
dtype: bool

## Fractionner, saisir et élargir

In [None]:
tech_finance = ['GOOG,APPL,AMZN','JPM,BAC,GS']

In [None]:
len(tech_finance)

2

In [None]:
tickers = pd.Series(tech_finance)

In [None]:
tickers

0    GOOG,APPL,AMZN
1        JPM,BAC,GS
dtype: object

In [None]:
tickers.str.split(',')

0    [GOOG, APPL, AMZN]
1        [JPM, BAC, GS]
dtype: object

In [None]:
tickers.str.split(',').str[0]

0    GOOG
1     JPM
dtype: object

In [None]:
tickers.str.split(',',expand=True)

Unnamed: 0,0,1,2
0,GOOG,APPL,AMZN
1,JPM,BAC,GS


## Nettoyage ou modification des strings

In [None]:
messy_names = pd.Series(["andrew  ","bo;bo","  claire  "])

In [None]:
# Remarquez le "désalignement" sur le côté droit dû à l'espacement entre "andrew" et "claire".
messy_names

0      andrew  
1         bo;bo
2      claire  
dtype: object

In [None]:
messy_names.str.replace(";","")

0      andrew  
1          bobo
2      claire  
dtype: object

In [None]:
messy_names.str.strip()

0    andrew
1     bo;bo
2    claire
dtype: object

In [None]:
messy_names.str.replace(";","").str.strip()

0    andrew
1      bobo
2    claire
dtype: object

In [None]:
messy_names.str.replace(";","").str.strip().str.capitalize()

0    Andrew
1      Bobo
2    Claire
dtype: object

## Alternative avec l'appel personnalisé apply()

In [None]:
def cleanup(name):
    name = name.replace(";","")
    name = name.strip()
    name = name.capitalize()
    return name

In [None]:
messy_names

0      andrew  
1         bo;bo
2      claire  
dtype: object

In [None]:
messy_names.apply(cleanup)

0    Andrew
1      Bobo
2    Claire
dtype: object

## Quelle méthode est la plus efficace (d'un point de vue rapidité) ?

In [None]:
import timeit 
  
# extrait de code à exécuter une seule fois 
setup = '''
import pandas as pd
import numpy as np
messy_names = pd.Series(["andrew  ","bo;bo","  claire  "])
def cleanup(name):
    name = name.replace(";","")
    name = name.strip()
    name = name.capitalize()
    return name
'''
  
# extrait de code dont le temps d'exécution doit être mesuré 
stmt_pandas_str = ''' 
messy_names.str.replace(";","").str.strip().str.capitalize()
'''

stmt_pandas_apply = '''
messy_names.apply(cleanup)
'''

stmt_pandas_vectorize='''
np.vectorize(cleanup)(messy_names)
'''

In [None]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_str, 
                    number = 10000) 

7.706077133000008

In [None]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_apply, 
                    number = 10000) 

1.7709620529999484

In [None]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_vectorize, 
                    number = 10000) 

0.4469513010000128

Wow ! Bien que les méthodes .str() puissent être extrêmement pratiques, lorsqu'il s'agit de performances, n'oubliez pas np.vectorize() ! Consultez la leçon "Méthodes utiles" pour une discussion plus approfondie sur np.vectorize().