# Tutorial 1: Como trabajar con archivos de Texto.

##### <strong>Manejo archivos y Pandas </strong>

### Cuerpo Docente

- Profesores: [Andr√©s Abeliuk](https://aabeliuk.github.io/), [Fabian Villena](https://fabianvillena.cl/).
- Profesor Auxiliar: Mar√≠a Jos√© Zambrano


### Objetivos del Tutorial

- Que es Google Colab.
- Que es Python y como descargarlo.
- Entender como trabajar con archivos en Python, tanto de su versi√≥n nativa como con ```Pandas```.
- Entender como trabajar texto desde ```Pandas```.
- Entender como utilizar expresiones regulares.

### Introducci√≥n a Colab

Google Colab es una herramienta para la ense√±anza e investigaci√≥n de Machine Learning. Es un entorno de Jupyter notebook que no requiere configuraci√≥n para su uso. Colab ofrece un servicio gratuito de GPU en la nube alojado por Google para alentar la colaboraci√≥n en el campo de Machine Learning, sin preocuparse por los requisitos de hardware. Colab fue lanzado al p√∫blico por Google en octubre de 2017.

#### Markdown

**Markdown** es un lenguaje de marcado ligero creado por *John Gruber* que trata de conseguir la **m√°xima legibilidad** y **facilidad** de publicaci√≥n.

Esto es un parrafo, `esto esta en codigo`, **esto esta en negrita**, *esto esta en cursiva*

Se puede insertar codigo multilinea tambien.

```python
print("hello world!")
```

Se pueden insertar lineas para separar texto

---

Se pueden insertar tablas!

| 0,1       | 0,2  | 0,3  | 0,4   | 0,5     |
|-----------|------|------|-------|---------|
| 1,1       | 1,2  | 1,3  | 1,4   | 1,5     |
| 2,1       | 2,2  | 2,3  | 2,4   | 2,5     |

Se puede "citar" texto usando cabezas de pescado
> Esta es una frase celebre de algun famoso
>
> -- Albert Einstein

Tambien se puede insertar formulas de $\LaTeX$ dentro del mismo texto: $a = \frac{e^y\sqrt{x+2}}{x^2}$. Se puede insertar $\LaTeX$ en general tambien.

\begin{equation}
\it{CE}(p,q)=\sum_{x}p(x)\log \bigg(\frac{1}{q(x)}\bigg)=- \sum_{x}p(x)\log q(x)
\end{equation}

Tambien se puede escribir `html`.

<strong> Esto esta en negrita usando html </strong>

Aca dejo mas recursos sobre Markdown, Colab y Jupyter Notebook:
* https://help.github.com/en/github/writing-on-github/basic-writing-and-formatting-syntax
* https://es.wikipedia.org/wiki/Markdown
* https://colab.research.google.com/notebooks/intro.ipynb
* https://jupyter.org/
* https://nbviewer.jupyter.org/github/ipython/ipython/blob/1.x/examples/notebooks/Cell%20Magics.ipynb

### Introducci√≥n a Python


<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/03-Intro_a_la_programacion_en_python/python_logo.png" width=400 alt="logo"/>
</div>

`Python` es un lenguaje de programaci√≥n multiprop√≥sito, enfocado en preservar legibilidad y simpleza sint√°ctica (_o sea, que sea facil de leer y escribir_).
Sus caracter√≠sticas y principios lo convierten en un lenguaje poderoso y f√°cil de aprender.

Por esta raz√≥n, es ampliamente utilizado en √°mbitos tales como:

- Desarrollo Web,
- Data Science,
- Scripting,
- Software de escritorio,
- etc...


## ¬øD√≥nde puedo descargar Python?

Existe dos opciones para descargar ```Python```, que son:

- Descargarlo de la p√°gina oficial: https://www.python.org/ Sin embargo, desde la p√°gina oficial s√≥lo se descarga la versi√≥n est√°ndar con librer√≠as nativas.

- Descargarlo desde la p√°gina de Anaconda: https://www.anaconda.com/ Esta versi√≥n viene con muchas librer√≠as que utilizaremos durante el curso, por lo que es la opci√≥n m√°s recomendada.

## Trabajando con Archivos en Python

### Importar csv o txt

#### Encoding

* UTF-8: 'utf-8' es el encoding predeterminado en Pandas y es ampliamente utilizado para archivos CSV. Es compatible con una amplia gama de caracteres y es recomendado si no est√°s seguro del encoding del archivo.

* Latin-1 (ISO 8859-1): 'latin-1' es otro encoding com√∫n utilizado en archivos CSV generados por aplicaciones en entornos Windows. Es compatible con una gran cantidad de idiomas europeos.

* UTF-16: 'utf-16' es un encoding de Unicode que utiliza 16 bits para representar los caracteres. Es √∫til cuando se trabaja con idiomas que tienen una gran cantidad de caracteres, como algunos idiomas asi√°ticos.

* UTF-32: 'utf-32' es un encoding de Unicode que utiliza 32 bits para representar los caracteres. Al igual que UTF-16, es √∫til para idiomas con una gran cantidad de caracteres.

* ASCII: 'ascii' es un encoding b√°sico que solo admite caracteres en ingl√©s y no es compatible con caracteres acentuados u otros caracteres especiales.

### Cargar archivos con la funci√≥n ```open```

In [None]:
import csv
import pandas as pd

l%%43*sinea

In [None]:
i=0
with open('./go_emotions_dataset.csv', 'r', encoding='utf-8') as file:
  csvreader = csv.reader(file, delimiter=',')
  for row in csvreader:
    print(row[1])
    i+=1
    if i==5:
      break

In [None]:
i=0
with open('./go_emotions_dataset.csv', 'r', encoding='latin-1') as file:
  csvreader = csv.reader(file, delimiter=',')
  for row in csvreader:
    print(row[1])
    i+=1
    if i==5:
      break

### Cargar archivos con la funci√≥n ```pandas```

In [None]:
### Cargar arhivos con ```pandas```

df = pd.read_csv('./go_emotions_dataset.csv')
df.head()

## Strings

### Motivaci√≥n

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/pets.jpg' alt='Mascotas' width=600/>
</div>

Supongamos que poseemos un dataset generado a partir de [_web scrapping_](https://es.wikipedia.org/wiki/Web_scraping) que contiene el nombre de una mascota m√°s el resumen (_abstract_) de la p√°gina asociada a estos en Wikipedia.


In [None]:
mascotas = [
    [
        "Perro",
        "  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si "
        "se lo considera una especie por derecho propio o una subespecie del "
        "lobo),1‚Äã2‚Äã3‚Äã llamado perro dom√©stico o can,4‚Äã y en algunos lugares"
        " coloquialmente llamado chucho,5‚Äã tuso,6‚Äã choco,7‚Äã entre otros; es un "
        "mam√≠fero carn√≠voro de la familia de los c√°nidos, que constituye "
        "una especie del g√©nero Canis.8‚Äã9‚Äã. Posee un o√≠do y un olfato muy "
        "desarrollados, y este √∫ltimo es su principal √≥rgano sensorial.  \n"
        ],
    [
        "Gato",
        "  El gato dom√©stico1‚Äã2‚Äã (Felis silvestris catus), llamado popularmente "
        "gato, y de forma coloquial minino,3‚Äã michino,4‚Äã michi,5‚Äã micho,"
        "6‚Äã mizo,7‚Äã miz,8‚Äã morro√±o9‚Äã o morrongo,10‚Äã entre otros nombres, es "
        "un mam√≠fero carn√≠voro de la familia Felidae. Es una subespecie "
        "domesticada por la convivencia con el ser humano.  \n"
    ],
    [
        "Canario",
        "  El canario dom√©stico (Serinus canaria domestica)3‚Äã4‚Äã es una "
        "subespecie desarrollada durante siglos de selecci√≥n en cautividad "
        "partiendo de ejemplares del canario silvestre o canario salvaje "
        "(Serinus canaria), una especie de ave del orden paseriforme de "
        "la familia de los fring√≠lidos, end√©mica de las islas Canarias, "
        "Azores y Madeira.5‚Äã6‚Äã   \n"
    ],
]

df_mascotas = pd.DataFrame(mascotas, columns=["nombre", "resumen"])
df_mascotas

Notemos qu√© sucede al acceder al resumen del Perro.

In [None]:
resumen_perro = df_mascotas.loc[0, "resumen"]
resumen_perro



In [None]:
df_mascotas["resumen"]

> **Pregunta ‚ùì**: ¬øQu√© representa el s√≠mbolo `\n`?

> **Pregunta ‚ùì:** ¬øPodemos utilizar directamente el texto tal cu√°l est√°, por ejemplo, para hacer un buscador? ¬øQu√© podemos hacer al respecto?

En muchas ocasiones, los conjuntos de datos que se utilizan en an√°lisis de datos incluyen una columna que contiene texto. Sin embargo, este texto no siempre est√° listo para ser utilizado directamente, ya que puede presentarse de manera desordenada y con errores. Por esta raz√≥n, es de suma importancia aprender a preprocesar el texto antes de utilizarlo en an√°lisis posteriores.


Las `Series` de pandas implementan diversos m√©todos de procesamiento de string que permiten operar facilmente con estos. Por lo general, estos m√©todos son una r√©plica de los m√©todos originales de la clase built-in `string`, los cuales veremos a continuaci√≥n:

### M√©todos de la Clase String

Python cuenta con una variedad de m√©todos built-in para procesar strings. Algunos de los m√©todos m√°s comunes son:

In [None]:
resumen_perro

#### `len`

Devuelve la longitud de una cadena de caracteres

In [None]:
len(resumen_perro)

In [None]:
len("   ")

#### `.lower`

Convierte todos los caracteres de un string a min√∫sculas.

In [None]:
resumen_perro.lower()

#### `.upper()`

Convierte todos los caracteres de un string a may√∫sculas.

In [None]:
resumen_perro.upper()

#### `.title()`

title(): Convierte la primera letra de cada palabra de una cadena en may√∫scula.

In [None]:
resumen_perro.title()

#### `.capitalize()`

capitalize(): Convierte la primera letra de una cadena en may√∫scula.

In [None]:
resumen_perro.capitalize()

In [None]:
"hola como estas".capitalize()


In [None]:
'hola como estas'.capitalize()

#### `.strip()`

Elimina los espacios en blanco al principio y al final de una cadena.

In [None]:
resumen_perro

In [None]:
resumen_perro.strip()

In [None]:
# method chaining <-
resumen_perro.strip().lower()

#### `.split()`

Divide una cadena en una lista de substrings, utilizando un string (habitualmente `" "`) como separador.

In [None]:
resumen_perro

In [None]:
resumen_perro.split(" ")

In [None]:
resumen_perro

In [None]:
resumen_perro.strip().lower().split("perro")

In [None]:
len(resumen_perro.strip().lower().split("perro"))

> **Pregunta: ‚ùì**: ¬øC√≥mo podr√≠a separar oraciones?

In [None]:
oraciones_divididas = resumen_perro.split(".")
oraciones_divididas

In [None]:
for oracion in oraciones_divididas:
    if len(oracion) > 10:
        print(oracion.strip().capitalize(), '\n')

#### `join("")`

Une una lista de strings en un √∫nico string seg√∫n alg√∫n separador (comunmente un espacio `" "`, punto `"."` o salto e linea `"\n"`).

In [None]:
"$".join(resumen_perro.split(" "))

In [None]:
resumen_perro.split(" ")

#### `str1 in str2`

Devuelve True si un substring est√° presente en un string.

In [None]:
resumen_perro

In [None]:
"perro" in resumen_perro

In [None]:
"gato" in resumen_perro

#### `.replace()`

Reemplaza un substring con otro en una string.

In [None]:
# por ejemplo, eliminar la palabra perro.

resumen_perro.replace("perro", "can")

In [None]:
# notar que es sensible a may√∫sculas.
resumen_perro.replace("Perro", "")

In [None]:
resumen_perro.replace("perro", "gato")

In [None]:
resumen_perro.replace("\u200b", "").replace('\n', "")

### Strings en pandas

La mayor√≠a de los m√©todos de procesamiento de strings que se vieron anteriormente pueden ser ejecutados a trav√©s del atributo `.str` en las series de Pandas.

La idea detr√°s del uso de los m√©todos de .str es que el preprocesamiento se haga de manera ordenada y eficiente. Al utilizar estos m√©todos, los usuarios pueden aplicar una variedad de transformaciones a sus datos de texto en una sola l√≠nea de c√≥digo, lo que facilita el procesamiento de grandes conjuntos de datos de texto.

In [None]:
df_mascotas

In [None]:
df_mascotas.loc[:, "resumen"]

#### Len, Lower, Upper, Title y Capitalize

In [None]:
df_mascotas.loc[:, "resumen"].str

In [None]:
df_mascotas.loc[:, "resumen"].str.len()

In [None]:
df_mascotas.loc[:, "resumen"].str.lower()

In [None]:
df_mascotas.loc[:, "resumen"].str.upper()

In [None]:
df_mascotas.loc[:, "resumen"].str.title()

In [None]:
df_mascotas.loc[:, "resumen"].str.capitalize()

#### Contains, Split y Join


> **Nota: üóíÔ∏è**: `.contains` reemplaza al operador `.in`

In [None]:
df_mascotas.loc[:, "resumen"].str.contains("perro")

In [None]:
df_mascotas.loc[:, "resumen"].str.contains("gato")

In [None]:
df_mascotas.loc[:, "resumen"].str.split(" ")

In [None]:
df_mascotas.loc[:, "resumen"].str.split(" ").str.join(" ")

#### Replace

In [None]:
df_mascotas.loc[:, "resumen"].values

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("(", "$", regex=False)

In [None]:
df_mascotas["resumen"]

In [None]:
s1 = (
    df_mascotas.loc[:, "resumen"]
    .str.replace("(", "", regex=False)
    .str.replace(")", "", regex=False)
    .str.replace("1", "", regex=False)
    .str.replace("2", "", regex=False)
)

s1

> **Pregunta ‚ùì:** ¬øQu√© indica el par√°metro `regex`?

#### Expresiones Regulares

Las expresiones regulares son una herramienta de b√∫squeda y manipulaci√≥n de texto que permiten encontrar patrones espec√≠ficos en una cadena de caracteres.

Una expresi√≥n regular es una secuencia de caracteres que define un patr√≥n de b√∫squeda. Los patrones pueden incluir caracteres espec√≠ficos, combinaciones de caracteres, grupos de caracteres y operadores especiales que permiten hacer coincidir patrones complejos en el texto.

Aunque pueden parecer complicadas al principio, las expresiones regulares son una herramienta muy poderosa ya que pueden ser aplicadas en una amplia variedad de tareas de procesamiento de texto.


- Tutorial de regex: https://www.programiz.com/python-programming/regex
- Playground para probar regex online: https://regex101.com/

##### Sintaxis y reglas b√°sicas

1. Usa caracteres literales para representar las letras y n√∫meros que deseas buscar. Por ejemplo, la expresi√≥n regular `abc` buscar√° la cadena de texto `"abc"`.
2. Utiliza caracteres especiales para representar patrones de b√∫squeda m√°s complejos. Por ejemplo, el car√°cter especial `"."` representa cualquier car√°cter, y el car√°cter especial `"^"` representa el inicio de una l√≠nea.
3. Utiliza corchetes para definir un conjunto de caracteres que deseas buscar. Por ejemplo, [abc] buscar√° cualquiera de los caracteres `"a"`, `"b"` o `"c"`.
4. Utiliza caracteres especiales como `*` o `+` para representar repeticiones de caracteres o patrones. Por ejemplo, `a*` buscar√° cero o m√°s repeticiones de la letra `"a"` como `""`, `"a"`, `"aa"`, etc...; `a+` en cambio aceptar√° `"a"`, `"aa"`, etc...
5. Utiliza par√©ntesis para agrupar patrones y aplicar operadores a grupos de caracteres. Por ejemplo, `(abc)+` buscar√° una o m√°s repeticiones de la cadena `"abc"`.
6. Utiliza el car√°cter especial `\` para escapar caracteres especiales (o sea, para tratar a *, +, [, ], etc... como texto) y tratarlos como caracteres literales. Por ejemplo, `\.com` buscar√° el texto `".com"`.
7. Utiliza el s√≠mbolo `^` para indicar que lo que se busca est√° al inicio de la l√≠nea, y el s√≠mbolo `$` para indica que lo que se busca el final de la l√≠nea.
8. Uitiliza `\s+` para encontrar todos los espacios, `[0-9]` para buscar los d√≠gitos (`[0-9]+` para uno o m√°s de un d√≠gito) y `[a-zA-Z]` para encontrar letras (`[a-zA-Z]+` para uno o m√°s de una letra).

In [None]:
df_mascotas.loc[:, "resumen"]

In [None]:
(
    df_mascotas.loc[:, "resumen"]
    .str.strip()
    .str.replace("[\n\u200b0-9,;()\.]", "", regex=True)
    .str.lower()
    .str.split(" ")
).values

In [None]:
# sintaxis regex

# en este caso se eliminan todas las comas
df_mascotas.loc[:, "resumen"].str.replace(",", "", regex=True).values

In [None]:
# en este caso se eliminan todas las comas y los punto y coma.
# agregamos m√°s de un caracter por eliminar usando []
df_mascotas.loc[:, "resumen"].str.replace("[,;]", "", regex=True).values

In [None]:
# en este caso se eliminan todas las comas y los punto y coma y los puntos
# notar que el punto hay que escribirlo con un slash inverso \: \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.]", "", regex=True).values

In [None]:
# mismo caso para los par√©ntesis ( y ) y corchetes [, ]: hay que agregar \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

In [None]:
# \d indica que se eliminar√°n todos todos los d√≠gitos

df_mascotas.loc[:, "resumen"].str.replace("\d", "", regex=True)

In [None]:
# todo junto:
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

> **Pregunta ‚ùì**: ¬øSeg√∫n las reglas que vimos anteriormente, habr√≠a una forma m√°s r√°pida de limpiar un string?

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("[^A-Za-z]+", " ", regex=True).values

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("\b[^\W]+\b", " ", regex=True).values

 > Nota:

- `\W` para buscar todas las palabras que no contienen caracteres que no sean letras ni n√∫meros, incluyendo letras con acento.
- `\b` se utiliza para indicar que la expresi√≥n regular debe buscar palabras completas, es decir, que no se debe incluir ninguna letra o n√∫mero antes o despu√©s de la palabra.

### Par√©ntesis: M√©todo `apply`

El m√©todo apply de Pandas se utiliza para aplicar una funci√≥n a una columna o fila de un DataFrame. La funci√≥n que se va a aplicar puede ser una funci√≥n integrada de Python, una funci√≥n definida por el usuario o una funci√≥n lambda.

In [None]:
df_mascotas.loc[:, "resumen"]

In [None]:
def is_gato_in(value):
    if "gato" in value:
        return True
    else:
        return False

df_mascotas.loc[:, "resumen"].apply(is_gato_in)

In [None]:
def seleccionar_10_caracteres(value):
    return value[0:10]

df_mascotas.loc[:, "resumen"].apply(seleccionar_10_caracteres)

In [None]:
def limpiar(value):
    return value.replace(",", "").replace(";", "").lower()

df_mascotas.loc[:, "resumen"].apply(limpiar)

#### `strip_accents_ascii`

`strip_accents_ascii` se utiliza para eliminar los acentos y diacr√≠ticos de una cadena, convirtiendo los caracteres Unicode que representan los acentos y diacr√≠ticos en caracteres ASCII equivalentes.

In [None]:
import unicodedata

def strip_accents_ascii(value):
    nkfd_form = unicodedata.normalize("NFKD", value)
    return nkfd_form.encode("ASCII", "ignore").decode("ASCII")


In [None]:
strip_accents_ascii('dom√©stico')

In [None]:
df_mascotas.loc[:, "resumen"]

In [None]:
df_mascotas.loc[:, "resumen"].apply(strip_accents_ascii)

#### Uso de `.apply` sobre DataFrames

`apply` usada sobre un Dataframe permite ejecutar una funci√≥n sobre las filas o columnas, lo que se indica a trav√©s del par√°metro `axis`.

In [None]:
def unir_nombre_y_descripcion(row):
    return row["nombre"] + " - " + row["resumen"]

# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_nombre_y_descripcion, axis=1)

In [None]:
def unir_filas(col):
    return '|'.join(col)

# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_filas, axis=0)

#### Preprocesamiento Completo



In [None]:
df_mascotas.loc[:, "resumen"].values

In [None]:
df_mascotas_procesado = (
    df_mascotas.loc[:, "resumen"]
    .apply(strip_accents_ascii)
    .str.replace(r"[,;\.\(\)\[\]\d*]", "", regex=True)
    .str.replace(r"\s+", " ", regex=True) # en este caso se reemplazan todos los espacios por solo un espacio.
    .str.strip()
    .str.lower()
)

df_mascotas_procesado.values

---