# Tutorial 1: Como trabajar con archivos de Texto.

##### <strong>Manejo archivos y Pandas </strong>

### Cuerpo Docente

- Profesores: [Andrés Abeliuk](https://aabeliuk.github.io/), [Felipe Villena](https://fabianvillena.cl/).
- Profesor Auxiliar: [Gabriel Iturra](https://giturra.cl/)


### Objetivos del Tutorial

- Que es Google Colab.
- Que es Python y como descargarlo.
- Entender como trabajar con archivos en Python, tanto de su versión nativa como con ```Pandas```.
- Entender como trabajar texto desde ```Pandas```.
- Entender como utilizar expresiones regulares.

### Introducción a Colab

Google Colab es una herramienta para la enseñanza e investigación de Machine Learning. Es un entorno de Jupyter notebook que no requiere configuración para su uso. Colab ofrece un servicio gratuito de GPU en la nube alojado por Google para alentar la colaboración en el campo de Machine Learning, sin preocuparse por los requisitos de hardware. Colab fue lanzado al público por Google en octubre de 2017.

#### Markdown

**Markdown** es un lenguaje de marcado ligero creado por *John Gruber* que trata de conseguir la **máxima legibilidad** y **facilidad** de publicación.

Esto es un parrafo, `esto esta en codigo`, **esto esta en negrita**, *esto esta en cursiva*

Se puede insertar codigo multilinea tambien.

```python
print("hello world!")
```

Se pueden insertar lineas para separar texto

---

Se pueden insertar tablas!

| 0,1       | 0,2  | 0,3  | 0,4   | 0,5     |
|-----------|------|------|-------|---------|
| 1,1       | 1,2  | 1,3  | 1,4   | 1,5     |
| 2,1       | 2,2  | 2,3  | 2,4   | 2,5     |

Se puede "citar" texto usando cabezas de pescado
> Esta es una frase celebre de algun famoso
>
> -- Albert Einstein

Tambien se puede insertar formulas de $\LaTeX$ dentro del mismo texto: $a = \frac{e^y\sqrt{x+2}}{x^2}$. Se puede insertar $\LaTeX$ en general tambien.

\begin{equation}
\it{CE}(p,q)=\sum_{x}p(x)\log \bigg(\frac{1}{q(x)}\bigg)=- \sum_{x}p(x)\log q(x)
\end{equation}

Tambien se puede escribir `html`.

<strong> Esto esta en negrita usando html </strong>

Aca dejo mas recursos sobre Markdown, Colab y Jupyter Notebook:
* https://help.github.com/en/github/writing-on-github/basic-writing-and-formatting-syntax
* https://es.wikipedia.org/wiki/Markdown
* https://colab.research.google.com/notebooks/intro.ipynb
* https://jupyter.org/
* https://nbviewer.jupyter.org/github/ipython/ipython/blob/1.x/examples/notebooks/Cell%20Magics.ipynb

### Introducción a Python


<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/03-Intro_a_la_programacion_en_python/python_logo.png" width=400 alt="logo"/>
</div>

`Python` es un lenguaje de programación multipropósito, enfocado en preservar legibilidad y simpleza sintáctica (_o sea, que sea facil de leer y escribir_).
Sus características y principios lo convierten en un lenguaje poderoso y fácil de aprender.

Por esta razón, es ampliamente utilizado en ámbitos tales como:

- Desarrollo Web,
- Data Science,
- Scripting,
- Software de escritorio,
- etc...


## ¿Dónde puedo descargar Python?

Existe dos opciones para descargar ```Python```, que son:

- Descargarlo de la página oficial: https://www.python.org/ Sin embargo, desde la página oficial sólo se descarga la versión estándar con librerías nativas.

- Descargarlo desde la página de Anaconda: https://www.anaconda.com/ Esta versión viene con muchas librerías que utilizaremos durante el curso, por lo que es la opción más recomendada.

## Trabajando con Archivos en Python

### Importar csv o txt

#### Encoding

* UTF-8: 'utf-8' es el encoding predeterminado en Pandas y es ampliamente utilizado para archivos CSV. Es compatible con una amplia gama de caracteres y es recomendado si no estás seguro del encoding del archivo.

* Latin-1 (ISO 8859-1): 'latin-1' es otro encoding común utilizado en archivos CSV generados por aplicaciones en entornos Windows. Es compatible con una gran cantidad de idiomas europeos.

* UTF-16: 'utf-16' es un encoding de Unicode que utiliza 16 bits para representar los caracteres. Es útil cuando se trabaja con idiomas que tienen una gran cantidad de caracteres, como algunos idiomas asiáticos.

* UTF-32: 'utf-32' es un encoding de Unicode que utiliza 32 bits para representar los caracteres. Al igual que UTF-16, es útil para idiomas con una gran cantidad de caracteres.

* ASCII: 'ascii' es un encoding básico que solo admite caracteres en inglés y no es compatible con caracteres acentuados u otros caracteres especiales.

### Cargar archivos con la función ```open```

In [None]:
import csv

In [20]:
i=0
with open('../data/go_emotions_dataset.csv', 'r', encoding='utf-8') as file:
  csvreader = csv.reader(file, delimiter=',')
  for row in csvreader:
    print(row[1])
    i+=1
    if i==5:
      break

text
That game hurt.
 >sexuality shouldn’t be a grouping category It makes you different from othet ppl so imo it fits the definition of "grouping" 
You do right, if you don't care then fuck 'em!
Man I love reddit.


In [19]:
i=0
with open('../data/go_emotions_dataset.csv', 'r', encoding='latin-1') as file:
  csvreader = csv.reader(file, delimiter=',')
  for row in csvreader:
    print(row[1])
    i+=1
    if i==5:
      break

text
That game hurt.
 >sexuality shouldnât be a grouping category It makes you different from othet ppl so imo it fits the definition of "grouping" 
You do right, if you don't care then fuck 'em!
Man I love reddit.


### Cargar archivos con la función ```pandas```

In [18]:
### Cargar arhivos con ```pandas```

df = pd.read_csv('../data/go_emotions_dataset.csv')
df.head()

Unnamed: 0,id,text,example_very_unclear,admiration,amusement,anger,annoyance,approval,caring,confusion,...,love,nervousness,optimism,pride,realization,relief,remorse,sadness,surprise,neutral
0,eew5j0j,That game hurt.,False,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,eemcysk,>sexuality shouldn’t be a grouping category I...,True,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ed2mah1,"You do right, if you don't care then fuck 'em!",False,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,eeibobj,Man I love reddit.,False,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
4,eda6yn6,"[NAME] was nowhere near them, he was by the Fa...",False,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


## Strings

### Motivación

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/pets.jpg' alt='Mascotas' width=600/>
</div>

Supongamos que poseemos un dataset generado a partir de [_web scrapping_](https://es.wikipedia.org/wiki/Web_scraping) que contiene el nombre de una mascota más el resumen (_abstract_) de la página asociada a estos en Wikipedia.


In [None]:
mascotas = [
    [
        "Perro",
        "  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si "
        "se lo considera una especie por derecho propio o una subespecie del "
        "lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares"
        " coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un "
        "mamífero carnívoro de la familia de los cánidos, que constituye "
        "una especie del género Canis.8​9​. Posee un oído y un olfato muy "
        "desarrollados, y este último es su principal órgano sensorial.  \n"
        ],
    [
        "Gato",
        "  El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente "
        "gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,"
        "6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es "
        "un mamífero carnívoro de la familia Felidae. Es una subespecie "
        "domesticada por la convivencia con el ser humano.  \n"
    ],
    [
        "Canario",
        "  El canario doméstico (Serinus canaria domestica)3​4​ es una "
        "subespecie desarrollada durante siglos de selección en cautividad "
        "partiendo de ejemplares del canario silvestre o canario salvaje "
        "(Serinus canaria), una especie de ave del orden paseriforme de "
        "la familia de los fringílidos, endémica de las islas Canarias, "
        "Azores y Madeira.5​6​   \n"
    ],
]

df_mascotas = pd.DataFrame(mascotas, columns=["nombre", "resumen"])
df_mascotas

Unnamed: 0,nombre,resumen
0,Perro,El perro (Canis familiaris o Canis lupus fam...
1,Gato,El gato doméstico1​2​ (Felis silvestris catu...
2,Canario,El canario doméstico (Serinus canaria domest...


Notemos qué sucede al acceder al resumen del Perro.

In [None]:
resumen_perro = df_mascotas.loc[0, "resumen"]
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

> **Pregunta ❓**: ¿Qué representa el símbolo `\n`?

> **Pregunta ❓:** ¿Podemos utilizar directamente el texto tal cuál está, por ejemplo, para hacer un buscador? ¿Qué podemos hacer al respecto?

En muchas ocasiones, los conjuntos de datos que se utilizan en análisis de datos incluyen una columna que contiene texto. Sin embargo, este texto no siempre está listo para ser utilizado directamente, ya que puede presentarse de manera desordenada y con errores. Por esta razón, es de suma importancia aprender a preprocesar el texto antes de utilizarlo en análisis posteriores.


Las `Series` de pandas implementan diversos métodos de procesamiento de string que permiten operar facilmente con estos. Por lo general, estos métodos son una réplica de los métodos originales de la clase built-in `string`, los cuales veremos a continuación:

### Métodos de la Clase String

Python cuenta con una variedad de métodos built-in para procesar strings. Algunos de los métodos más comunes son:

In [None]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

#### `len`

Devuelve la longitud de una cadena de caracteres

In [None]:
len(resumen_perro)

471

#### `.lower`

Convierte todos los caracteres de un string a minúsculas.

In [None]:
resumen_perro.lower()

'  el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

#### `.upper()`

Convierte todos los caracteres de un string a mayúsculas.

In [None]:
resumen_perro.upper()

'  EL PERRO (CANIS FAMILIARIS O CANIS LUPUS FAMILIARIS, DEPENDIENDO DE SI SE LO CONSIDERA UNA ESPECIE POR DERECHO PROPIO O UNA SUBESPECIE DEL LOBO),1\u200b2\u200b3\u200b LLAMADO PERRO DOMÉSTICO O CAN,4\u200b Y EN ALGUNOS LUGARES COLOQUIALMENTE LLAMADO CHUCHO,5\u200b TUSO,6\u200b CHOCO,7\u200b ENTRE OTROS; ES UN MAMÍFERO CARNÍVORO DE LA FAMILIA DE LOS CÁNIDOS, QUE CONSTITUYE UNA ESPECIE DEL GÉNERO CANIS.8\u200b9\u200b. POSEE UN OÍDO Y UN OLFATO MUY DESARROLLADOS, Y ESTE ÚLTIMO ES SU PRINCIPAL ÓRGANO SENSORIAL.  \n'

#### `.title()`

title(): Convierte la primera letra de cada palabra de una cadena en mayúscula.

In [None]:
resumen_perro.title()

'  El Perro (Canis Familiaris O Canis Lupus Familiaris, Dependiendo De Si Se Lo Considera Una Especie Por Derecho Propio O Una Subespecie Del Lobo),1\u200b2\u200b3\u200b Llamado Perro Doméstico O Can,4\u200b Y En Algunos Lugares Coloquialmente Llamado Chucho,5\u200b Tuso,6\u200b Choco,7\u200b Entre Otros; Es Un Mamífero Carnívoro De La Familia De Los Cánidos, Que Constituye Una Especie Del Género Canis.8\u200b9\u200b. Posee Un Oído Y Un Olfato Muy Desarrollados, Y Este Último Es Su Principal Órgano Sensorial.  \n'

#### `.capitalize()`

capitalize(): Convierte la primera letra de una cadena en mayúscula.

In [None]:
resumen_perro.capitalize()

'  el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
"hola como estas".capitalize()

'Hola como estas'

#### `.strip()`

Elimina los espacios en blanco al principio y al final de una cadena.

In [None]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
resumen_perro.lstrip()

'El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
# method chaining <-
resumen_perro.strip().lower()

'el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.'

#### `.split()`

Divide una cadena en una lista de substrings, utilizando un string (habitualmente `" "`) como separador.

In [None]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
resumen_perro.split(" ")

['',
 '',
 'El',
 'perro',
 '(Canis',
 'familiaris',
 'o',
 'Canis',
 'lupus',
 'familiaris,',
 'dependiendo',
 'de',
 'si',
 'se',
 'lo',
 'considera',
 'una',
 'especie',
 'por',
 'derecho',
 'propio',
 'o',
 'una',
 'subespecie',
 'del',
 'lobo),1\u200b2\u200b3\u200b',
 'llamado',
 'perro',
 'doméstico',
 'o',
 'can,4\u200b',
 'y',
 'en',
 'algunos',
 'lugares',
 'coloquialmente',
 'llamado',
 'chucho,5\u200b',
 'tuso,6\u200b',
 'choco,7\u200b',
 'entre',
 'otros;',
 'es',
 'un',
 'mamífero',
 'carnívoro',
 'de',
 'la',
 'familia',
 'de',
 'los',
 'cánidos,',
 'que',
 'constituye',
 'una',
 'especie',
 'del',
 'género',
 'Canis.8\u200b9\u200b.',
 'Posee',
 'un',
 'oído',
 'y',
 'un',
 'olfato',
 'muy',
 'desarrollados,',
 'y',
 'este',
 'último',
 'es',
 'su',
 'principal',
 'órgano',
 'sensorial.',
 '',
 '\n']

In [None]:
resumen_perro

In [None]:
resumen_perro.strip().lower().split("perro")

['el ',
 ' (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado ',
 ' doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.']

> **Pregunta: ❓**: ¿Cómo podría separar oraciones?

In [None]:
oraciones_divididas = resumen_perro.split(".")
oraciones_divididas

['  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis',
 '8\u200b9\u200b',
 ' Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial',
 '  \n']

In [None]:
for oracion in oraciones_divididas:
    if len(oracion) > 10:
        print(oracion.strip().capitalize(), '\n')

El perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis 

Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial 



#### `join("")`

Une una lista de strings en un único string según algún separador (comunmente un espacio `" "`, punto `"."` o salto e linea `"\n"`).

In [None]:
" ".join(resumen_perro.split(" "))

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

#### `str1 in str2`

Devuelve True si un substring está presente en un string.

In [None]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
"perro" in resumen_perro

True

In [None]:
"gato" in resumen_perro

False

#### `.replace()`

Reemplaza un substring con otro en una string.

In [None]:
# por ejemplo, eliminar la palabra perro.

resumen_perro.replace("perro", "can")

'  El can (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado can doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
# notar que es sensible a mayúsculas.
resumen_perro.replace("Perro", "")

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
resumen_perro.replace("perro", "gato")

'  El gato (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado gato doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [None]:
resumen_perro.replace("\u200b", "")

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),123 llamado perro doméstico o can,4 y en algunos lugares coloquialmente llamado chucho,5 tuso,6 choco,7 entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.89. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

### Strings en pandas

La mayoría de los métodos de procesamiento de strings que se vieron anteriormente pueden ser ejecutados a través del atributo `.str` en las series de Pandas.

La idea detrás del uso de los métodos de .str es que el preprocesamiento se haga de manera ordenada y eficiente. Al utilizar estos métodos, los usuarios pueden aplicar una variedad de transformaciones a sus datos de texto en una sola línea de código, lo que facilita el procesamiento de grandes conjuntos de datos de texto.

In [None]:
df_mascotas

Unnamed: 0,nombre,resumen
0,Perro,El perro (Canis familiaris o Canis lupus fam...
1,Gato,El gato doméstico1​2​ (Felis silvestris catu...
2,Canario,El canario doméstico (Serinus canaria domest...


In [None]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

#### Len, Lower, Upper, Title y Capitalize

In [None]:
df_mascotas.loc[:, "resumen"].str

<pandas.core.strings.accessor.StringMethods at 0x1fbcda6a810>

In [None]:
df_mascotas.loc[:, "resumen"].str.len()

0    471
1    316
2    343
Name: resumen, dtype: int64

In [None]:
df_mascotas.loc[:, "resumen"].str.lower()

0      el perro (canis familiaris o canis lupus fam...
1      el gato doméstico1​2​ (felis silvestris catu...
2      el canario doméstico (serinus canaria domest...
Name: resumen, dtype: object

In [None]:
df_mascotas.loc[:, "resumen"].str.upper()

0      EL PERRO (CANIS FAMILIARIS O CANIS LUPUS FAM...
1      EL GATO DOMÉSTICO1​2​ (FELIS SILVESTRIS CATU...
2      EL CANARIO DOMÉSTICO (SERINUS CANARIA DOMEST...
Name: resumen, dtype: object

In [None]:
df_mascotas.loc[:, "resumen"].str.title()

0      El Perro (Canis Familiaris O Canis Lupus Fam...
1      El Gato Doméstico1​2​ (Felis Silvestris Catu...
2      El Canario Doméstico (Serinus Canaria Domest...
Name: resumen, dtype: object

In [None]:
df_mascotas.loc[:, "resumen"].str.capitalize()

0      el perro (canis familiaris o canis lupus fam...
1      el gato doméstico1​2​ (felis silvestris catu...
2      el canario doméstico (serinus canaria domest...
Name: resumen, dtype: object

#### Contains, Split y Join


> **Nota: 🗒️**: `.contains` reemplaza al operador `.in`

In [None]:
df_mascotas.loc[:, "resumen"].str.contains("perro")

0     True
1    False
2    False
Name: resumen, dtype: bool

In [None]:
df_mascotas.loc[:, "resumen"].str.contains("gato")

0    False
1     True
2    False
Name: resumen, dtype: bool

In [None]:
df_mascotas.loc[:, "resumen"].str.split(" ")

0    [, , El, perro, (Canis, familiaris, o, Canis, ...
1    [, , El, gato, doméstico1​2​, (Felis, silvestr...
2    [, , El, canario, doméstico, (Serinus, canaria...
Name: resumen, dtype: object

In [None]:
df_mascotas.loc[:, "resumen"].str.split(" ").str.join(" ")

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

#### Replace

In [None]:
df_mascotas.loc[:, "resumen"].values

array(['  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3\u200b michino,4\u200b michi,5\u200b micho,6\u200b mizo,7\u200b miz,8\u200b morroño9\u200b o morrongo,10\u200b entre otros nombres, es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie des

In [None]:
s1 = (
    df_mascotas.loc[:, "resumen"]
    .str.replace("(", "", regex=False)
    .str.replace(")", "", regex=False)
    .str.replace("1", "", regex=False)
    .str.replace("2", "", regex=False)
)

s1

0      El perro Canis familiaris o Canis lupus fami...
1      El gato doméstico​​ Felis silvestris catus, ...
2      El canario doméstico Serinus canaria domesti...
Name: resumen, dtype: object

> **Pregunta ❓:** ¿Qué indica el parámetro `regex`?

#### Expresiones Regulares

Las expresiones regulares son una herramienta de búsqueda y manipulación de texto que permiten encontrar patrones específicos en una cadena de caracteres.

Una expresión regular es una secuencia de caracteres que define un patrón de búsqueda. Los patrones pueden incluir caracteres específicos, combinaciones de caracteres, grupos de caracteres y operadores especiales que permiten hacer coincidir patrones complejos en el texto.

Aunque pueden parecer complicadas al principio, las expresiones regulares son una herramienta muy poderosa ya que pueden ser aplicadas en una amplia variedad de tareas de procesamiento de texto.


- Tutorial de regex: https://www.programiz.com/python-programming/regex
- Playground para probar regex online: https://regex101.com/

##### Sintaxis y reglas básicas

1. Usa caracteres literales para representar las letras y números que deseas buscar. Por ejemplo, la expresión regular `abc` buscará la cadena de texto `"abc"`.
2. Utiliza caracteres especiales para representar patrones de búsqueda más complejos. Por ejemplo, el carácter especial `"."` representa cualquier carácter, y el carácter especial `"^"` representa el inicio de una línea.
3. Utiliza corchetes para definir un conjunto de caracteres que deseas buscar. Por ejemplo, [abc] buscará cualquiera de los caracteres `"a"`, `"b"` o `"c"`.
4. Utiliza caracteres especiales como `*` o `+` para representar repeticiones de caracteres o patrones. Por ejemplo, `a*` buscará cero o más repeticiones de la letra `"a"` como `""`, `"a"`, `"aa"`, etc...; `a+` en cambio aceptará `"a"`, `"aa"`, etc...
5. Utiliza paréntesis para agrupar patrones y aplicar operadores a grupos de caracteres. Por ejemplo, `(abc)+` buscará una o más repeticiones de la cadena `"abc"`.
6. Utiliza el carácter especial `\` para escapar caracteres especiales (o sea, para tratar a *, +, [, ], etc... como texto) y tratarlos como caracteres literales. Por ejemplo, `\.com` buscará el texto `".com"`.
7. Utiliza el símbolo `^` para indicar que lo que se busca está al inicio de la línea, y el símbolo `$` para indica que lo que se busca el final de la línea.
8. Uitiliza `\s+` para encontrar todos los espacios, `[0-9]` para buscar los dígitos (`[0-9]+` para uno o más de un dígito) y `[a-zA-Z]` para encontrar letras (`[a-zA-Z]+` para uno o más de una letra).

In [None]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [None]:
(
    df_mascotas.loc[:, "resumen"]
    .str.strip()
    .str.replace("[\n\u200b0-9,;()\.]", "", regex=True)
    .str.lower()
    .str.split(" ")
).values

array([list(['el', 'perro', 'canis', 'familiaris', 'o', 'canis', 'lupus', 'familiaris', 'dependiendo', 'de', 'si', 'se', 'lo', 'considera', 'una', 'especie', 'por', 'derecho', 'propio', 'o', 'una', 'subespecie', 'del', 'lobo', 'llamado', 'perro', 'doméstico', 'o', 'can', 'y', 'en', 'algunos', 'lugares', 'coloquialmente', 'llamado', 'chucho', 'tuso', 'choco', 'entre', 'otros', 'es', 'un', 'mamífero', 'carnívoro', 'de', 'la', 'familia', 'de', 'los', 'cánidos', 'que', 'constituye', 'una', 'especie', 'del', 'género', 'canis', 'posee', 'un', 'oído', 'y', 'un', 'olfato', 'muy', 'desarrollados', 'y', 'este', 'último', 'es', 'su', 'principal', 'órgano', 'sensorial']),
       list(['el', 'gato', 'doméstico', 'felis', 'silvestris', 'catus', 'llamado', 'popularmente', 'gato', 'y', 'de', 'forma', 'coloquial', 'minino', 'michino', 'michi', 'micho', 'mizo', 'miz', 'morroño', 'o', 'morrongo', 'entre', 'otros', 'nombres', 'es', 'un', 'mamífero', 'carnívoro', 'de', 'la', 'familia', 'felidae', 'es', 'un

In [None]:
# sintaxis regex

# en este caso se eliminan todas las comas
df_mascotas.loc[:, "resumen"].str.replace(",", "", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo)1\u200b2\u200b3\u200b llamado perro doméstico o can4\u200b y en algunos lugares coloquialmente llamado chucho5\u200b tuso6\u200b choco7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus) llamado popularmente gato y de forma coloquial minino3\u200b michino4\u200b michi5\u200b micho6\u200b mizo7\u200b miz8\u200b morroño9\u200b o morrongo10\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie desarrollada durante 

In [None]:
# en este caso se eliminan todas las comas y los punto y coma.
# agregamos más de un caracter por eliminar usando []
df_mascotas.loc[:, "resumen"].str.replace("[,;]", "", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo)1\u200b2\u200b3\u200b llamado perro doméstico o can4\u200b y en algunos lugares coloquialmente llamado chucho5\u200b tuso6\u200b choco7\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus) llamado popularmente gato y de forma coloquial minino3\u200b michino4\u200b michi5\u200b micho6\u200b mizo7\u200b miz8\u200b morroño9\u200b o morrongo10\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie desarrollada durante s

In [None]:
# en este caso se eliminan todas las comas y los punto y coma y los puntos
# notar que el punto hay que escribirlo con un slash inverso \: \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.]", "", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo)1\u200b2\u200b3\u200b llamado perro doméstico o can4\u200b y en algunos lugares coloquialmente llamado chucho5\u200b tuso6\u200b choco7\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis8\u200b9\u200b Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus) llamado popularmente gato y de forma coloquial minino3\u200b michino4\u200b michi5\u200b micho6\u200b mizo7\u200b miz8\u200b morroño9\u200b o morrongo10\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae Es una subespecie domesticada por la convivencia con el ser humano  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie desarrollada durante siglos

In [None]:
# mismo caso para los paréntesis ( y ) y corchetes [, ]: hay que agregar \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

array(['  El perro Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo\u200b\u200b\u200b llamado perro doméstico o can\u200b y en algunos lugares coloquialmente llamado chucho\u200b tuso\u200b choco\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis\u200b\u200b Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial  \n',
       '  El gato doméstico\u200b\u200b Felis silvestris catus llamado popularmente gato y de forma coloquial minino\u200b michino\u200b michi\u200b micho\u200b mizo\u200b miz\u200b morroño\u200b o morrongo\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae Es una subespecie domesticada por la convivencia con el ser humano  \n',
       '  El canario doméstico Serinus canaria domestica\u200b\u200b es una subespecie desarrollada durante siglos de selección en cautividad 

In [None]:
# \d indica que se eliminarán todos todos los dígitos

df_mascotas.loc[:, "resumen"].str.replace("\d", "", regex=True)

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico​​ (Felis silvestris catus)...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [None]:
# todo junto:
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

> **Pregunta ❓**: ¿Según las reglas que vimos anteriormente, habría una forma más rápida de limpiar un string?

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("[^A-Za-z]+", " ", regex=True).values

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("\b[^\W]+\b", " ", regex=True).values

 > Nota:

- `\W` para buscar todas las palabras que no contienen caracteres que no sean letras ni números, incluyendo letras con acento.
- `\b` se utiliza para indicar que la expresión regular debe buscar palabras completas, es decir, que no se debe incluir ninguna letra o número antes o después de la palabra.

### Paréntesis: Método `apply`

El método apply de Pandas se utiliza para aplicar una función a una columna o fila de un DataFrame. La función que se va a aplicar puede ser una función integrada de Python, una función definida por el usuario o una función lambda.

In [None]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [None]:
def is_gato_in(value):
    if "gato" in value:
        return True
    else:
        return False

df_mascotas.loc[:, "resumen"].apply(is_gato_in)

0    False
1     True
2    False
Name: resumen, dtype: bool

In [None]:
def seleccionar_10_caracteres(value):
    return value[0:10]

df_mascotas.loc[:, "resumen"].apply(seleccionar_10_caracteres)

0      El perro
1      El gato 
2      El canar
Name: resumen, dtype: object

In [None]:
def limpiar(value):
    return value.replace(",", "").replace(";", "").lower()

df_mascotas.loc[:, "resumen"].apply(limpiar)

0      el perro (canis familiaris o canis lupus fam...
1      el gato doméstico1​2​ (felis silvestris catu...
2      el canario doméstico (serinus canaria domest...
Name: resumen, dtype: object

#### `strip_accents_ascii`

`strip_accents_ascii` se utiliza para eliminar los acentos y diacríticos de una cadena, convirtiendo los caracteres Unicode que representan los acentos y diacríticos en caracteres ASCII equivalentes.

In [None]:
import unicodedata

def strip_accents_ascii(value):
    nkfd_form = unicodedata.normalize("NFKD", value)
    return nkfd_form.encode("ASCII", "ignore").decode("ASCII")


In [None]:
strip_accents_ascii('doméstico')

'domestico'

In [None]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [None]:
df_mascotas.loc[:, "resumen"].apply(strip_accents_ascii)

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato domestico12 (Felis silvestris catus)...
2      El canario domestico (Serinus canaria domest...
Name: resumen, dtype: object

#### Uso de `.apply` sobre DataFrames

`apply` usada sobre un Dataframe permite ejecutar una función sobre las filas o columnas, lo que se indica a través del parámetro `axis`.

In [None]:
def unir_nombre_y_descripcion(row):
    return row["nombre"] + " - " + row["resumen"]

# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_nombre_y_descripcion, axis=1)

0    Perro -   El perro (Canis familiaris o Canis l...
1    Gato -   El gato doméstico1​2​ (Felis silvestr...
2    Canario -   El canario doméstico (Serinus cana...
dtype: object

In [None]:
def unir_filas(col):
    return '|'.join(col)

# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_filas, axis=0)

nombre                                    Perro|Gato|Canario
resumen      El perro (Canis familiaris o Canis lupus fam...
dtype: object

#### Preprocesamiento Completo



In [None]:
df_mascotas.loc[:, "resumen"].values

array(['  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3\u200b michino,4\u200b michi,5\u200b micho,6\u200b mizo,7\u200b miz,8\u200b morroño9\u200b o morrongo,10\u200b entre otros nombres, es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie des

In [None]:
df_mascotas_procesado = (
    df_mascotas.loc[:, "resumen"]
    .apply(strip_accents_ascii)
    .str.replace(r"[,;\.\(\)\[\]\d*]", "", regex=True)
    .str.replace(r"\s+", " ", regex=True) # en este caso se reemplazan todos los espacios por solo un espacio.
    .str.strip()
    .str.lower()
)

df_mascotas_procesado.values

array(['el perro canis familiaris o canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo llamado perro domestico o can y en algunos lugares coloquialmente llamado chucho tuso choco entre otros es un mamifero carnivoro de la familia de los canidos que constituye una especie del genero canis posee un oido y un olfato muy desarrollados y este ultimo es su principal organo sensorial',
       'el gato domestico felis silvestris catus llamado popularmente gato y de forma coloquial minino michino michi micho mizo miz morrono o morrongo entre otros nombres es un mamifero carnivoro de la familia felidae es una subespecie domesticada por la convivencia con el ser humano',
       'el canario domestico serinus canaria domestica es una subespecie desarrollada durante siglos de seleccion en cautividad partiendo de ejemplares del canario silvestre o canario salvaje serinus canaria una especie de ave del orden paseriforme de la familia de lo

---