## Conceptos básicos de cadenas en Python
Aunque las cadenas en Python parecen ser simples y directas, hay cierta complejidad en las reglas de cadena que es importante comprender. Conocer las reglas le ayuda a evitar ser sorprendido por el comportamiento de las cadenas cuando modifica valores o da formato al texto.

# Inmutabilidad de las cadenas
En Python, las cadenas son inmutables. Es decir, no pueden cambiar. Esta propiedad del tipo de cadena puede ser sorprendente, porque Python no te da errores cuando alteras las cadenas.

En nuestro ejemplo para este módulo, tienes un solo hecho sobre la Luna que está asignado a una variable, y debes agregarle otro hecho (oración). Usando el intérprete de Python, parece que agregar el segundo hecho alteraría la variable


In [1]:
fact = 'The Moon has no atmosphere.'
fact + 'No sound can be heard on the Moon.'

'The Moon has no atmosphere.No sound can be heard on the Moon.'

Aunque puede parecer que hemos modificado la variable fact, una comprobación rápida del valor revela que el valor original no ha cambiado

In [2]:
fact

'The Moon has no atmosphere.'

El truco aquí es que debes usar un valor devuelto. Cuando agregas cadenas, Python no modifica ninguna cadena, pero devuelve una nueva cadena como resultado. Para mantener este nuevo resultado, asígnelo a una nueva variable


In [3]:
two_facts = fact + 'No sound can be heard on the Moon.'
two_facts

'The Moon has no atmosphere.No sound can be heard on the Moon.'

## Acerca del uso de comillas
Puedes incluir cadenas de Python entre comillas simples, dobles o triples. Aunque puedes usarlos indistintamente, es mejor usar un tipo de manera consistente dentro de un proyecto. Por ejemplo, la siguiente cadena utiliza comillas dobles:

In [4]:
moon_radius = "The Moon has a radius of 1,080 miles"

Sin embargo, cuando una cadena contiene palabras, números o caracteres especiales (una subcadena) que también están entre comillas, debes usar un estilo diferente. Por ejemplo, si una subcadena utiliza comillas dobles, encierra toda la cadena entre comillas simples, como se muestra aquí:

In [5]:
'The "near side" is the part of the Moon that faces the Earth'

'The "near side" is the part of the Moon that faces the Earth'

Del mismo modo, si hay comillas simples (o un apóstrofo, como en Moon en el siguiente ejemplo) en cualquier lugar dentro de la cadena, encierra toda la cadena entre comillas dobles:

In [6]:
"We only see about 60% of the Moon's surface"

"We only see about 60% of the Moon's surface"

Si no se alternan comillas simples y dobles, el intérprete de Python puede provocar un error de sintaxis, como se muestra aquí

In [7]:
'We only see about 60% of the Moon's surface'
  File '<stdin>', line 1
    'We only see about 60% of the Moon's surface'

SyntaxError: unterminated string literal (detected at line 1) (2341163009.py, line 1)

Cuando el texto tiene una combinación de comillas simples y dobles, puedes utilizar comillas triples para evitar problemas con el intérprete:

In [8]:
"""We only see about 60% of the Moon's surface, this is known as the "near side"."""

'We only see about 60% of the Moon\'s surface, this is known as the "near side".'

## Texto multilínea
Hay algunas maneras diferentes de definir varias líneas de texto como una sola variable. Las formas más comunes son:

Utiliza un carácter de nueva línea ().

Utiliza comillas triples (""")..

Los caracteres de nueva línea separan el texto en varias líneas al imprimir la salida:

In [9]:
multiline = "Facts about the Moon:\n There is no atmosphere.\n There is no sound."
print(multiline)
Facts about the Moon:
There is no atmosphere.
There is no sound.

SyntaxError: invalid syntax (3769807879.py, line 3)

Puedes lograr el mismo resultado utilizando comillas triples:

In [10]:
multiline = """Facts about the Moon:
...  There is no atmosphere.
...  There is no sound."""
print(multiline)
Facts about the Moon:
There is no atmosphere.
There is no sound

SyntaxError: invalid syntax (2998373524.py, line 5)

## Métodos string en Python
Las cadenas son uno de los tipos de métodos más comunes en Python. A menudo tendrá que manipularlos para extraer información o ajustarse a un formato determinado. Python incluye varios métodos de cadena que están diseñados para realizar las transformaciones más comunes y útiles.

Los métodos de cadena forman parte del tipo str. Esto significa que los métodos existen como variables de cadena o parte de la cadena directamente. Por ejemplo, el método .title() se puede utilizar con una cadena directamente:

In [11]:
'temperatures and facts about the moon'.title()

'Temperatures And Facts About The Moon'

Y el mismo comportamiento y uso ocurre en una variable:

In [12]:
heading = 'temperatures and facts about the moon'
heading.title()

'Temperatures And Facts About The Moon'

## Dividir una cadena
Un método de cadena común es .split() . Sin argumentos, el método separará la cadena en cada espacio. Esto crearía una lista de cada palabra o número que está separado por un espacio:

In [13]:
temperatures = '''Daylight: 260 F
... Nighttime: -280 F'''
temperatures .split()

['Daylight:', '260', 'F', 'Nighttime:', '-280', 'F']

## Buscar una cadena
Además de usar un bucle, algunos métodos de cadena pueden buscar contenido antes del procesamiento, sin la necesidad de un bucle. Supongamos que tienes dos oraciones que discuten las temperaturas en varios planetas y lunas, pero solo te interesan las temperaturas que están relacionadas con nuestra Luna. Es decir, si las frases no hablan de la Luna, no deben procesarse para extraer información.

La forma más sencilla de descubrir si existe una palabra, un carácter o un grupo de caracteres determinados en una cadena es sin usar un método:

In [14]:
'Moon' in 'This text will describe facts and challenges with space travel'

False

In [15]:
'Moon' in 'This text will describe facts about the Moon'

True

In [16]:
temperatures = """Saturn has a daytime temperature of -170 degrees Celsius,
... while Mars has -28 Celsius."""
temperatures.find('Moon')

-1

El método .find() devuelve -1 un cuando no se encuentra la palabra o devuelve el índice (el número que representa el lugar en la cadena). Así es como se comportaría si estuvieras buscando la palabra Marte:

In [17]:
temperatures.find('Mars')

64

Otra forma de buscar contenido es usar el método .count(), que devuelve el número total de apariciones de una determinada palabra en una cadena:

In [18]:
temperatures.count('Mars')

1

## Comprobar el contenido
Hay ocasiones en las que procesarás texto para extraer información que es irregular en su presentación. Por ejemplo, la siguiente cadena es más sencilla de procesar que un párrafo no estructurado:

In [19]:
temperatures = 'Mars Average Temperature: -60 C'

In [20]:
parts = temperatures.split(':')
parts

['Mars Average Temperature', ' -60 C']

In [21]:
parts[-1]

' -60 C'

Los métodos anteriores confían ciegamente en que todo lo que está después de los dos puntos (:) es una temperatura. La cadena se divide en cuanto encuentra :, lo que produce una lista de dos elementos. Usando [-1] en la lista devuelve el último elemento, que es la temperatura en este ejemplo.

Si el texto es irregular, no puedes usar los mismos métodos de división para obtener el valor. Debes iterar por todos los elementos y comprobar si los valores son de un tipo determinado. Python tiene métodos que ayudan a comprobar el tipo de cadena:

In [22]:
mars_temperature = 'The highest temperature on Mars is about 30 C'
for item in mars_temperature.split():
    if item.isnumeric():
        print(item)

30


Al igual que el método .isnumeric(), puedes comprobar si hay cadenas que se parezcan a decimales .isdecimal()

Dato: Podría ser sorprendente saber que "-70".isnumeric() regresa False. Esto se debe a que todos los caracteres de la cadena tendrían que ser numéricos y el guión (-) no es numérico. Si necesitas comprobar los números negativos en una cadena, el método .isnumeric() no funcionaría.

Hay validaciones adicionales que puedes aplicar en cadenas para comprobar si hay valores. Para los números negativos, el guión está prefijado al número, y eso se puede detectar con el método: .startswith().

In [23]:
'-60'.startswith('-')

True

In [24]:
if "30 C".endswith("C"):
    print("This temperature is in Celsius")

This temperature is in Celsius


## Transformar texto
Hay otros métodos que ayudan en situaciones en las que el texto necesita ser transformado en otra cosa.

Hasta ahora, hemos visto cadenas que pueden usar C para Celsius y F para Fahrenheit. Puedes utilizar el método .replace() para buscar y reemplazar apariciones de un carácter o grupo de caracteres:

In [25]:
'Saturn has a daytime temperature of -170 degrees Celsius, while Mars has -28 Celsius.'.replace('Celsius', 'C')

'Saturn has a daytime temperature of -170 degrees C, while Mars has -28 C.'

Como se mencionó anteriormente, .lower() es una buena manera de normalizar el texto para hacer una búsqueda sin distinción de mayúsculas y minúsculas. Revisemos rápidamente si algún texto distingue las temperaturas:

In [26]:
text = 'Temperatures on the Moon can vary wildly.'
'temperatures' in text

False

Es posible que no necesites hacer una verificación que no distinga entre mayúsculas y minúsculas todo el tiempo, pero estandarizar cada letra es un buen enfoque cuando el texto utiliza un estilo de escritura mixto.

Después de dividir el texto y realizar las transformaciones, es posible que debas volver a juntar todas las partes. Así como el método .split() puede separar caracteres, el método .join() puede volver a unirlos.

El método .join() requiere un iterable (como una lista de Python) como argumento, por lo que su uso se ve diferente de otros métodos de cadena:

In [27]:
moon_facts = ['The Moon is drifting away from the Earth.', 'On average, the Moon is moving about 4cm every year']
'\n'.join(moon_facts)

'The Moon is drifting away from the Earth.\nOn average, the Moon is moving about 4cm every year'

## Formato de cadenas en Python
Además de transformar el texto y realizar operaciones básicas, como la coincidencia y la búsqueda, es esencial dar formato al texto cuando se presenta información. La forma más sencilla de presentar información de texto con Python es usar la función print(). Te resultará fundamental obtener información en variables y otras estructuras de datos en cadenas que puedan usar print().

## Formato con signo de porcentaje (%)
El marcador de posición es %s, y la variable se pasa al texto después del carácter % fuera de la cadena. A continuación te explico cómo dar formato mediante el uso del carácter%:

In [28]:
mass_percentage = '1/6'
print('On the Moon, you would weigh about %s of your weight on Earth' % mass_percentage)

On the Moon, you would weigh about 1/6 of your weight on Earth


In [29]:
print("""Both sides of the %s get the same amount of sunlight,
    but only one side is seen from %s because
    the %s rotates around its own axis when it orbits %s.""" % ('Moon', 'Earth', 'Moon', 'Earth'))

Both sides of the Moon get the same amount of sunlight,
    but only one side is seen from Earth because
    the Moon rotates around its own axis when it orbits Earth.
