# División de cadenas en cualquiera de los delimitadores múltiplesas

2.1

- Problema

        Necesita dividir una cadena en campos, pero los delimitadores (y el espaciado alrededor de ellos) no son consistente en toda la cadena.

- Solución

        El método split () de objetos de cadena está realmente destinado a casos muy simples, y no permitE múltiples delimitadores o tener en cuenta posibles espacios en blanco alrededor del delimtador 
        En los casos en que necesite un poco más de flexibilidad, use el método re.split ():

In [2]:
import re

In [3]:
line = 'asdf fjdk; afed, fjek,asdf,         foo'
palabras = re.split("[,;\s]\s*",line)
palabras

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

La función re.split () es útil porque puede especificar múltiples patrones para el
separador. Por ejemplo, como se muestra en la solución, el separador es una coma (,),punto y coma (;), o espacio en blanco seguido de cualquier cantidad de espacio en blanco adicional. Cuando
ese patrón se encuentra, toda la coincidencia se convierte en el delimitador entre los campos
El resultado es una lista de campos, al igual que str.split ().

In [4]:
# Si se utilizan grupos de captura, entonces el texto coincidente 
#también se incluye en el resultado. Por ejemplo, mira lo que pasa aquí:
re.split(r'(;|,|\s)\s*', line)

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']

In [5]:
re.split(r'(;|,|\s)\s*', line)[1::2]

[' ', ';', ',', ',', ',']

In [7]:
re.split(r'(;|,|\s)\s*', line)[::2]

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

Si no desea los caracteres separadores en el resultado, pero aún necesita usar paréntesis
para agrupar partes del patrón de expresión regular, asegúrese de utilizar un grupo que no sea de captura,
especificado como (?: ...).   
Por ejemplo:

In [8]:
re.split(r'(?:,|;|\s)\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [10]:
nombre="emiliano,adrian.passarello:edad:50,argentino"

In [11]:
re.split(r"[,.;:\s]",nombre)

['emiliano', 'adrian', 'passarello', 'edad', '50', 'argentino']

In [12]:
re.split(r"(,|;|:|\.|\s])",nombre)

['emiliano',
 ',',
 'adrian',
 '.',
 'passarello',
 ':',
 'edad',
 ':',
 '50',
 ',',
 'argentino']

In [13]:
sep   = re.split(r"(,|;|:|\.|\s])",nombre)[1::2]
datos = re.split(r"(,|;|:|\.|\s])",nombre)[::2]

In [14]:
sep, datos

([',', '.', ':', ':', ','],
 ['emiliano', 'adrian', 'passarello', 'edad', '50', 'argentino'])

# Coincidencia de texto al principio o al final de una cadena

2.2

- Problema

        Debe verificar el inicio o el final de una cadena para patrones de texto específicos, como el nombre de archivo extensiones, esquemas de URL, etc.  
        

- Solución

        Una forma sencilla de comprobar el principio o el final de una cadena es utilizar str.starts con los métodos () o str.endswith ().   

Por ejemplo:

In [15]:
filename = 'spam.txt'
filename.endswith('.txt')

True

In [16]:
filename.startswith('file:')

False

In [17]:
url = 'http://www.python.org'
url.startswith('http:')

True

In [18]:
url.startswith("www",7,10) # empieza a buscar desde la posicion 7 hasta la 10

True

In [19]:
url.endswith("://",0,7) 

True

In [20]:
str.startswith("holA","o",1)

True

In [26]:
import os
filenames = os.listdir()
for i in filenames:
    if i.endswith(".ipynb"):
        print(i)

cap_2_part1.ipynb
cap_2_part2.ipynb
token_expr.ipynb
cap_2_part3.ipynb
cap_2_part4.ipynb


In [27]:
notebooks = [x for x in filenames if x.endswith(".ipynb")]

In [28]:
notebooks

['cap_2_part1.ipynb',
 'cap_2_part2.ipynb',
 'token_expr.ipynb',
 'cap_2_part3.ipynb',
 'cap_2_part4.ipynb']

In [29]:
# Curiosamente, esta es una parte de Python donde en realidad se requiere una tupla 
# como entrada. Si te pasa para tener las opciones especificadas en una lista o conjunto, 
# solo asegúrese de convertirlas usando
# tupla () primero. 
# Por ejemplo:
choices = ['http:', 'ftp:']
url = 'http://www.python.org'
url.startswith(choices)

TypeError: startswith first arg must be str or a tuple of str, not list

In [30]:
choices = ('http:', 'ftp:')
url = 'http://www.python.org'
url.startswith(choices)

True

In [31]:
# con expreciones regulares
import re
url = 'http://www.python.org'
re.match('http:|https:|ftp:', url) 

<re.Match object; span=(0, 5), match='http:'>

In [32]:
from os import listdir
# si por lo menoos hay un archivo compatible en la carpeta "/home/emi/Descargas
if any( name.endswith ( ('.ipynb', '.py') ) for name in listdir("/home/emi/Descargas") ):
    print("hay un archivo jupyter o python")

hay un archivo jupyter o python


# Coincidencia de cadenas mediante patrones de comodines de Shell

2.3

- Problema

        Desea hacer coincidir el texto con los mismos patrones de comodines que se usan comúnmente cuando
trabajando en shells de Unix (por ejemplo, * .py, Dat [0-9] *. csv, etc.).

- Solución

        El módulo fnmatch proporciona dos funciones, fnmatch () y fnmatchcase (), que se puede utilizar para realizar dicha comparación.   
    
El uso es simple:

In [33]:
from fnmatch import fnmatch, fnmatchcase

In [34]:
fnmatch('foo.txt', '*.txt')

True

In [35]:
fnmatch('foo.txt', '?oo.txt')

True

In [36]:
fnmatch('Dat45.csv', 'Dat[0-9]*')

True

In [37]:
names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']
[name for name in names if fnmatch(name, 'Dat*.csv')]

['Dat1.csv', 'Dat2.csv']

Normalmente, fnmatch () coincide con los patrones utilizando las mismas reglas de distinción entre mayúsculas y minúsculas que el sistema de archivos (que varía según el sistema operativo).

```python
>>> # En OS X (Mac)
>>> fnmatch ('foo.txt', '*.TXT')
False
>>> # En Windows
>>> fnmatch ('foo.txt', '* .TXT')
True
>>>
```
Si esta distinción es importante, use fnmatchcase () en su lugar. Coincide exactamente en base a la
convenciones de minúsculas y mayúsculas que proporciona:

In [38]:
fnmatchcase ('foo.txt', '*.TXT')

False

Una característica que a menudo se pasa por alto de estas funciones es su uso potencial con el procesamiento de datos de cadenas sin nombre de archivo. Por ejemplo, suponga que tiene una lista de direcciones como esta:

In [40]:
addresses=['5412 N CLARK ST',
           '1060 N ADDISON ST',
           '1039 W GRANVILLE AVE',
           '2122 W CLARK ST',
           '4802 N BROADWAY',]

In [41]:
[addr for addr in addresses if fnmatchcase(addr, '* ST')]

['5412 N CLARK ST', '1060 N ADDISON ST', '2122 W CLARK ST']

In [42]:
[addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *CLARK*')]

['5412 N CLARK ST']

In [43]:
[addr for addr in addresses if fnmatchcase(addr, '*N*')]

['5412 N CLARK ST',
 '1060 N ADDISON ST',
 '1039 W GRANVILLE AVE',
 '4802 N BROADWAY']

# Coincidencia y búsqueda de patrones de texto

2.4

- Problema
        Desea hacer coincidir o buscar texto para un patrón específico.
          
            
     
- Solución
        Si el texto que intenta hacer coincidir es un literal simple, a menudo puede usar la cadena básicamétodos, como str.find (), str.endswith (), str.startswith () o similares. 
        
por ejemplo:

In [44]:
text = 'yeah, but no, but yeah, but no, but yeah'

In [45]:
text == 'yeah' # buscar un mach exacto

False

In [46]:
text.endswith("no") # busacar terminacion en "no"

False

In [47]:
text.startswith('yeah') # buscar que empieze con "yeah"

True

In [48]:
text.find('no')

10

Para un emparejamiento más complicado, use expresiones regulares y el módulo re. Para ilustrar
tratar la mecánica básica del uso de expresiones regulares, suponga que desea hacer coincidir fechas
especificado como dígitos, como "27/11/2012". Aquí hay una muestra de cómo lo haría:

In [49]:
text1 = '11/27/2012'
text2 = 'Nov 27, 2012'
import re

def fecha(st):
    "Retorna True si encuentra una fecha con formato dd/mm/aaaa, aunque sea fecha incorrecta"
    import re
    # search encuentra la coicidencia en cualquier parte de la cadena de texto
    if re.search(r'\d+/\d+/\d+', st):
        return True
    else:
        return False

In [50]:
fecha(text1)

True

In [51]:
fecha(text2)

False

In [52]:
fecha("la fecha del encuentro es el 24/12/2020 ")

True

Si vas a realizar muchas coincidencias con el mismo patrón, generalmente vale la pena
precompile primero el patrón de expresión regular en un objeto patrón.   
Por ejemplo:

In [53]:
datepat = re.compile(r'\d+/\d+/\d+')

In [54]:
if datepat.match(text1):
    print('yes')
else:
    print('no')
####
if datepat.match(text2):
    print('yes')
else:
    print('no')

yes
no


match() siempre intenta encontrar la coincidencia al comienzo de una cadena. Si quieres buscar texto para todas las apariciones de un patrón, use el método search() en su lugar.
y si desea obtener una lista con todas las coincidencias use findall().  
Por ejemplo:

In [55]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepat.findall(text)

['11/27/2012', '3/13/2013']

Al definir expresiones regulares, es común introducir grupos de captura encerrando partes del patrón entre paréntesis.  
Por ejemplo:

In [56]:
datepat = re.compile(r'(?P<dia>\d+)/(?P<mes>\d+)/(?P<año>\d+)')

In [57]:
m = datepat.match('11/27/2012')
m

<re.Match object; span=(0, 10), match='11/27/2012'>

In [58]:
m.groups()

('11', '27', '2012')

In [59]:
m.groupdict()

{'dia': '11', 'mes': '27', 'año': '2012'}

In [60]:
m[0],m.group(0)

('11/27/2012', '11/27/2012')

In [61]:
m[1],m.group(1),m["dia"]

('11', '11', '11')

In [62]:
m[2],m.group(2),m["mes"]

('27', '27', '27')

In [63]:
m[2],m.group(2),m["año"]

('27', '27', '2012')

In [64]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepat.findall(text)

[('11', '27', '2012'), ('3', '13', '2013')]

# Buscar y reemplazar texto

2.5

- Problema

        Desea buscar y reemplazar un patrón de texto en una cadena.  
        

- Solución

        Para patrones literales simples, use el método str.replace ().   

Por ejemplo:

In [65]:
text = 'yeah, but no, but yeah, but no, but yeah'

In [66]:
text.replace('yeah', 'yep')

'yep, but no, but yep, but no, but yep'

Para patrones más complicados, use las funcione  sub () del módulo re. Suponga que desea volver a escribir las fechas del formulario "27/11/2012" como “2012-11-27".
Aquí hay una muestra de cómo hacerlo:

In [67]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'

In [68]:
re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

'Today is 2012-11-27. PyCon starts 2013-3-13.'

El primer argumento de sub () es el patrón que debe coincidir y el segundo argumento es el
patrón de reemplazo. Los dígitos de barra invertida como \3 se refieren a los números de grupo de captura en
el patrón.  
Si va a realizar sustituciones repetidas del mismo patrón, considere compilar
primero para un mejor rendimiento.   
Por ejemplo:

In [62]:
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')

In [63]:
datepat.sub(r'\3-\1-\2', text)

'Today is 2012-11-27. PyCon starts 2013-3-13.'

Para sustituciones más complicadas, es posible especificar una función de devolución de llamada de sustitución
en su lugar.  
Por ejemplo:

In [65]:
from calendar import month_abbr

In [66]:
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))

In [67]:
datepat.sub(change_date, text)

'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'

Si desea saber cuántas sustituciones se realizaron además de obtener el
texto de reemplazo, use re.subn () en su lugar.   
Por ejemplo:

In [80]:
newtext, n = datepat.subn(r'\3-\1-\2', text)

In [84]:
print(text)
print(newtext)

Today is 11/27/2012. PyCon starts 3/13/2013.
Today is 2012-11-27. PyCon starts 2013-3-13.


In [82]:
n

2

# Buscar y reemplazar texto que no distingue entre mayúsculas y minúsculas

2.6

- Problema
        
        Necesita buscar y posiblemente reemplazar el texto de una manera que no distinga entre mayúsculas y minúsculas.   
        

- Solución
        
        Para realizar operaciones de texto que no distinguen entre mayúsculas y minúsculas, debe utilizar el módulo re y suministrar la bandera re.IGNORECASE a varias operaciones.  
        
Por ejemplo:

In [69]:
text = 'UPPER PYTHON, lower python, Mixed Python'
re.findall('python', text, flags=re.IGNORECASE)

['PYTHON', 'python', 'Python']

In [70]:
re.sub('python', 'snake', text, flags=re.IGNORECASE)

'UPPER snake, lower snake, Mixed snake'

El último ejemplo revela una limitación de que reemplazar texto no coincidirá con el caso del
texto coincidente. Si necesita solucionar este problema, es posible que deba utilizar una función de soporte, como lo siguiente:

In [71]:
def matchcase(word):
    print(word)
    def replace(m):
        print(m)
        text = m.group()
        print(text)
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

In [72]:
re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE)

snake
<re.Match object; span=(6, 12), match='PYTHON'>
PYTHON
<re.Match object; span=(20, 26), match='python'>
python
<re.Match object; span=(34, 40), match='Python'>
Python


'UPPER SNAKE, lower snake, Mixed Snake'