# Clases 5 y 6: Técnicas para la exploración de los datos

Parte 1: Filtrado de datos

Resumen de métodos avanzados de filtrado y manipulación de datos en Pandas, incluyendo LOC, ILOC, Where, Query, y funciones como Pivot, Apply, Merge y Concat.

**Parte 2: Limpieza de texto**

Síntesis de los pasos clave en la limpieza y preparación de texto para análisis, como normalización, eliminación de ruido, lematización y stemming.

Parte 3: Selección de características

Introducción concisa al proceso de identificar y elegir características relevantes para optimizar modelos predictivos.

##  Limpieza de Texto
Antes de analizar el texto, necesitamos limpiarlo eliminando elementos que pueden no ser útiles o que podrían sesgar los resultados. Aquí hay algunos pasos comunes en la limpieza de texto:

* Convertir a minúsculas
* Eliminar caracteres especiales y números
* Eliminar stopwords
* Eliminar espacios en blanco adicionales
* Lemmatización
* Stemming

# Limpieza de texto

In [None]:
# Texto sucio
texto_original = """
        ¡Hola! Este es un ejemplo de texto para limpieza.
Contiene varios elementos: números 12345, símbolos @#$%, y caracteres especiales.
Además, algunas palabras se REPITEN, repiten varias ve.-ascv a{ñskcf?=)(&/%$#
ces para probar                     la limpieza.
"""
print("Texto Original:")
print(texto_original)

Texto Original:

        ¡Hola! Este es un ejemplo de texto para limpieza.
Contiene varios elementos: números 12345, símbolos @#$%, y caracteres especiales.
Además, algunas palabras se REPITEN, repiten varias ve.-ascv a{ñskcf?=)(&/%$#
ces para probar                     la limpieza.



In [None]:
# limpiar espacios y conversión a minusculas
# strip() elimina espacion al inicio y al final
# lower() convierte a minusculas

def limpiar_espacios_y_minusculas(texto):
    return texto.strip().lower()

# Aplicar limpieza
texto_limpio_1 = limpiar_espacios_y_minusculas(texto_original)

print("Texto Limpio (Espacios y Minúsculas):")
print(texto_limpio_1)

Texto Limpio (Espacios y Minúsculas):
¡hola! este es un ejemplo de texto para limpieza.
contiene varios elementos: números 12345, símbolos @#$%, y caracteres especiales.
además, algunas palabras se repiten, repiten varias ve.-ascv a{ñskcf?=)(&/%$#
ces para probar                     la limpieza.


###Las expresiones regulares

Utilizamo el módulo re de Python, que es una herramienta para trabajar con expresiones regulares. Las expresiones regulares nos permiten buscar y manipular patrones de texto de manera eficiente.

En el código re.sub(r'\s+', ' ', texto), estamos utilizando \s+ para buscar uno o más espacios en blanco consecutivos en el texto y reemplazarlos con un solo espacio.

En otro caso, re.sub(r'[^\w\s]', '', texto) utiliza una expresión regular para eliminar todos los caracteres especiales, números y cualquier cosa que no sea una letra o un espacio, dejándonos solo con palabras."

In [None]:
# Eliminar caracteres especiales y espacios extras

import re
# esta funcion elimina caracteres especiales y espacios duplicados
def limpiar(texto):
    # Reemplazar múltiples espacios por uno solo
    texto = re.sub(r'\s+', ' ', texto)
    # Eliminar caracteres especiales
    texto = re.sub(r'[^\w\s]', '', texto) # cualquier cosa que no sea una letra, un número o un espacio
    return texto

# Aplicar eliminación de caracteres especiales
texto_limpio_2 = limpiar(texto_limpio_1)
print("Texto Limpio (Sin Caracteres Especiales):")
print(texto_limpio_2)

Texto Limpio (Sin Caracteres Especiales):
hola este es un ejemplo de texto para limpieza contiene varios elementos números 12345 símbolos  y caracteres especiales además algunas palabras se repiten repiten varias veascv añskcf ces para probar la limpieza


In [None]:
# eliminación de stopwords
import nltk #NLTK (Natural Language Toolkit) es una biblioteca para NLP

# Descargamos un conjunto de datos de stopwords para varios idiomas
nltk.download('stopwords')

# eliminación de stopwords
from nltk.corpus import stopwords

def eliminar_stopwords(texto):
    stop_words = set(stopwords.words('spanish')) # lo convertimos a un objeto conjunto para optimizar la busqueda
    palabras = texto.split()
    return ' '.join([palabra for palabra in palabras if palabra not in stop_words])

##TODO Cómo crearpias esta funcionalidad en una sola linea para aumentar la eficiencia del método?

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
texto_limpio_3 = eliminar_stopwords(texto_limpio_2)

print("Texto:")
print(texto_limpio_2)

print("Texto Limpio (stopword):")
print(texto_limpio_3)

Texto:
hola este es un ejemplo de texto para limpieza contiene varios elementos números 12345 símbolos  y caracteres especiales además algunas palabras se repiten repiten varias veascv añskcf ces para probar la limpieza
Texto Limpio (stopword):
hola ejemplo texto limpieza contiene varios elementos números 12345 símbolos caracteres especiales además palabras repiten repiten varias veascv añskcf ces probar limpieza


### Stemming

In [None]:
# Stemming
from nltk import word_tokenize
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')
stemmer_text_list = [stemmer.stem(word) for word in texto_limpio_3.split(" ")]
stemmer_text_list

['hol',
 'ejempl',
 'text',
 'limpiez',
 'contien',
 'vari',
 'element',
 'numer',
 '12345',
 'simbol',
 'caracter',
 'especial',
 'ademas',
 'palabr',
 'repit',
 'repit',
 'vari',
 'veascv',
 'añskcf',
 'ces',
 'prob',
 'limpiez']

In [None]:
## Unimos las palabras
clean_text_stem = ' '.join(stemmer_text_list)
clean_text_stem

'hol ejempl text limpiez contien vari element numer 12345 simbol caracter especial ademas palabr repit repit vari veascv añskcf ces prob limpiez'

### Lemmatization

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m39.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [None]:
clean_text_lemm = ' '.join([word.lemma_ for word in nlp(texto_limpio_3)])
clean_text_lemm

'holar ejemplo texto limpieza contener varios elemento número 12345 símbolo caracter especial además palabra repetir repetir varios veascv añskcf ces probar limpieza'

## Ejercicio : Extracción de información de una página web
Objetivo: Extraer información específica de una página web utilizando técnicas de manipulación de texto y expresiones regulares.

Instrucciones:
1. Descarguen el contenido HTML de la página web de la diplomatura
2. Extraigan el texto de la sección relacionado al módulo 3
"""
Módulo 3 – Análisis exploratorio de datos
Carácter: Obligatorio
....por el cliente o la empresa.""

3. Limpie el texto para que quede legible
4. Muestren el texto extraído.

In [None]:
from urllib.request import urlopen
page = urlopen("https://exa.unne.edu.ar/diplomatura/index.php/plan-de-estudios")
page_html = page.read().decode("utf-8")
print(page_html[10000:18000])
#print(page_html)

-red-color{color: var(--wp--preset--color--vivid-red) !important;}.has-luminous-vivid-orange-color{color: var(--wp--preset--color--luminous-vivid-orange) !important;}.has-luminous-vivid-amber-color{color: var(--wp--preset--color--luminous-vivid-amber) !important;}.has-light-green-cyan-color{color: var(--wp--preset--color--light-green-cyan) !important;}.has-vivid-green-cyan-color{color: var(--wp--preset--color--vivid-green-cyan) !important;}.has-pale-cyan-blue-color{color: var(--wp--preset--color--pale-cyan-blue) !important;}.has-vivid-cyan-blue-color{color: var(--wp--preset--color--vivid-cyan-blue) !important;}.has-vivid-purple-color{color: var(--wp--preset--color--vivid-purple) !important;}.has-black-background-color{background-color: var(--wp--preset--color--black) !important;}.has-cyan-bluish-gray-background-color{background-color: var(--wp--preset--color--cyan-bluish-gray) !important;}.has-white-background-color{background-color: var(--wp--preset--color--white) !important;}.has-pal