# Taller 01 - Analítica de datos
- **Autor:** David Santiago Barreto Mora
- **Profesor:** Jhon Corredor
- **Objetivo:** Conocer las diferentes herramientas para el tratamiento de texto.
---

## 2. Carga de fuente de datos
### 2.b Escribir en secciones de texto del cuaderno python, brevemente la utilidad de las siguientes bibliotecas en azul:
a. **numpy:** Biblioteca indispensable para los cálculos numéricos en Python. Su función principal es proporcionar soporte para trabajar con matrices y arrays multidimensionales de gran tamaño, acompañado de un completo conjunto de funciones matemáticas que operan eficientemente sobre estos arrays. La estructura de datos principal de NumPy es ndarray, que permite manipular datos y realizar operaciones matemáticas de forma eficiente. Es crucial para las operaciones de álgebra lineal y el análisis estadístico. Además, NumPy se integra a la perfección con otras bibliotecas populares como Pandas para la manipulación de datos y Matplotlib para la visualización de datos, por lo que es una piedra angular de los flujos de trabajo de la ciencia de datos.

b. **regex:** Permite a los usuarios definir y buscar patrones específicos dentro de cadenas o datos de texto, a través de las expresiones regulares (RegEx). Las expresiones regulares consisten en una secuencia de caracteres que definen un patrón de búsqueda.

c. **string:** Módulo estándar que proporciona una colección de constantes y funciones diseñadas para facilitar la manipulación de cadenas. Este módulo incluye constantes como string.ascii_letters, string.digits y string.punctuation que simplifican las operaciones relacionadas con caracteres. Además, ofrece varias funciones para trabajar con cadenas de manera eficiente.

d. **nltk.tokenize import word_tokenize:** La función word_tokenize forma parte del Natural Language Toolkit (NLTK), una biblioteca para tareas de procesamiento del lenguaje natural (NLP). En concreto, word_tokenize sirve para tokenizar texto, lo que implica dividir el texto en palabras individuales o tokens. La tokenización es un paso fundamental en la NLP y el análisis de textos.

Word_tokenize es crucial para preparar datos de texto para diversas tareas de NLP. Desempeña un papel importante en tareas como el análisis de sentimientos, la clasificación de textos y el modelado del lenguaje, ya que descompone el texto en las palabras que lo componen, lo que permite su posterior análisis y la extracción de características.

e. **nltk.stem import WordNetLemmatizer:** WordNetLemmatizer es otro componente esencial de la biblioteca NLTK, que se utiliza principalmente para la lematización, un proceso cuyo objetivo es reducir las palabras a su forma básica o de diccionario, conocida como lemas. La lematización es una técnica de preprocesamiento de textos que normaliza las palabras a su forma más básica y significativa.

f. **wordcloud import WordCloud:** La biblioteca WordCloud permite generar nubes de palabras, que son representaciones visuales de las palabras más frecuentes en un corpus de texto determinado. En una nube de palabras, las palabras se muestran con distintos tamaños en función de su frecuencia de aparición, lo que facilita la identificación de los términos más destacados.

g. **sklearn.feature_extraction.text import TfidfVectorizer:** Componente especializado en la extracción de características de texto. Transforma una colección de documentos de texto en vectores de características numéricas utilizando el método TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF asigna valores numéricos a las palabras en función de su importancia dentro de cada documento y en todo el corpus.

En ciencia de datos, TfidfVectorizer es usado frecuentemente para preparar datos para algoritmos de machine learning. Al cuantificar la importancia de las palabras, mejora el rendimiento de los modelos basados en texto, incluidos los clasificadores y los algoritmos de agrupación. 

### 2.c Importar al cuaderno las bibliotecas anteriores

Mencionamos todas las librerias y modulos mencionados antermiente. Adicionalmente, importamos las librerias frecuentemente usadas, y de vital importancia para el análisis y visualizacion de datos.

In [8]:
%pip install wordcloud

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [29]:
# Previously mentioned libraries are imported.
import numpy as np
import regex as re
import string
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Additional libraries used for data analysis and visualization
# Data anaylisis
import pandas as pd

# Data visualization
import seaborn as sns
import matplotlib.pyplot as plt

### 2.D. Cargar desde el ENLACE , a objetos dataframe cada uno de los ficheros csv, ejemplo:

El link contiene un total de 9 dataframes, por lo que crearemos un total de 9 dataframes. Como nota adicional, se crean los dataframes con los archivos descargados debido al tamaño de los .csv. Si se hiciera con los links de internet, los re-runs del codigo se demorarian considerablemente más.

Los .csv estan incluidos con el codigo.

In [2]:
# All dataframes are created from the "./csvs/" directory
biologia_df = pd.read_csv("csvs/Biologia.csv")
bricolage_df = pd.read_csv("csvs/Bricolage.csv")
cocina_df = pd.read_csv("csvs/Cocina.csv")
criptografia_df = pd.read_csv("csvs/Criptografia.csv")
fisica0_df = pd.read_csv("csvs/Fisica0.csv")
fisica1_df = pd.read_csv("csvs/Fisica1.csv")
fisica2_df = pd.read_csv("csvs/Fisica2.csv")
robotica_df = pd.read_csv("csvs/Robotica.csv")
viajes_df = pd.read_csv("csvs/Viajes.csv")


Ahora miramos la primera fila de cada dataframe para verificar que todos hayan sido creados correctamente.

In [3]:
biologia_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,What is the criticality of the ribosome bindin...,"<p>In prokaryotic translation, how critical fo...",ribosome binding-sites translation synthetic-b...


In [4]:
bricolage_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,"How do I install a new, non load bearing wall ...",<p>I'm looking to finish my basement and simpl...,remodeling basement carpentry


In [5]:
cocina_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,How can I get chewy chocolate chip cookies?,<p>My chocolate chips cookies are always too c...,baking cookies texture


In [6]:
criptografia_df.head(1)

Unnamed: 0,id,title,content,tags
0,3,What are the benefits of the two permutation t...,<p>Why do we use a permutation table in the fi...,block-cipher des permutation


In [7]:
fisica0_df.head(1)

Unnamed: 0,id,title,content
0,1,What is spin as it relates to subatomic partic...,<p>I often hear about subatomic particles havi...


In [8]:
fisica1_df.head(1)

Unnamed: 0,id,title,content
0,94481,Does Super Mario physics work in reality?,<p>This illustration summarizes my question:</...


In [9]:
fisica2_df.head(1)

Unnamed: 0,id,title,content
0,187184,Can an object have 0 acceleration because its ...,<p>If an object has an instantaneous velocity...


In [10]:
robotica_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,What is the right approach to write the spin c...,<p>Imagine programming a 3 wheel soccer robot....,soccer control


In [11]:
viajes_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,What are some Caribbean cruises for October?,<p>My fiancée and I are looking for a good Car...,caribbean cruising vacations


### 2.e Unir los dataframe de fisica en un solo dataframe
Usamos la funcion 'concat' de padas para unir los 3 dataframes (funcion usada en el taller pasado).

In [12]:
fisica_total_df = pd.concat([fisica0_df, fisica1_df, fisica2_df])

### 2.F Crear un diccionario con todos los objetos dataframe 

In [13]:
df_dicc = {'biologia': biologia_df, 'bricolage': bricolage_df, 'cocina': cocina_df, "criptografia": criptografia_df, "fisica": fisica_total_df, 
           "robotica": robotica_df, "viajes": viajes_df}
df_dicc['robotica']

Unnamed: 0,id,title,content,tags
0,1,What is the right approach to write the spin c...,<p>Imagine programming a 3 wheel soccer robot....,soccer control
1,2,How can I modify a low cost hobby servo to run...,"<p>I've got some hobby servos (<a href=""http:/...",control rcservo
2,3,What useful gaits exist for a six legged robot...,"<p><a href=""http://www.oricomtech.com/projects...",gait walk
3,4,Good Microcontrollers/SOCs for a Robotics Project,<p>I am looking for a starting point for my pr...,microcontroller arduino raspberry-pi
4,5,Nearest-neighbor data structure for non-Euclid...,<p>I'm trying to implement a nearest-neighbor ...,motion-planning rrt
...,...,...,...,...
2766,10568,What types of actuators do these industrial bo...,<p>I have a particular example robot that inte...,motor robotic-arm actuator torque
2767,10573,Technique to increase POV resolution,<p>I have thought of a technique to increase t...,microcontroller electronics
2768,10580,How can I upload sketches to an Arduino over a...,<p>I am doing robotics project on Raspberry pi...,arduino raspberry-pi embedded-systems first-ro...
2769,10581,EKF SLAM 2d laser scanned datasets usage,<p>How to understand the 2d laser scanner scan...,slam ekf first-robotics


### 2.g Escribir brevemente en una sección de Texto del Cuaderno python que hace y como se importan al cuaderno python, las siguientes bibliotecas de nltk:
a. **stopwords:** Las stopwords son palabras de uso frecuente en un idioma, como "el", "y", "en", "es" e "it", que tienen poco significado semántico y a menudo se eliminan durante el preprocesamiento del texto en tareas de procesamiento del lenguaje natural (PLN) y minería de textos. NLTK ofrece una lista predefinida de palabras clave para varios idiomas, lo que facilita a los científicos de datos la eliminación de estas palabras de los datos de texto. Este paso es crucial, ya que ayuda a centrarse en las palabras más significativas del texto, reduciendo el ruido en los modelos de NLP y machine learning al descartar palabras que no contribuyen sustancialmente al análisis.

b. **punkt:** Ccomponente de NLTK que representa el tokenizador Punkt, un modelo de machine learning no supervisado entrenado para la tokenización de frases. La tokenización de frases consiste en descomponer el texto en frases individuales de forma precisa. Punkt puede manejar varias estructuras de frases e idiomas. Viene pre-entrenado en un amplio corpus de texto, por lo que es capaz de segmentar con precisión el texto en oraciones, lo cual es esencial para numerosas tareas de PLN, incluyendo el resumen de texto, análisis de sentimiento, y el modelado del lenguaje.b

### 2.h Importar la biblioteca stopwords de nltk: nltk.download(‘stopwords’), nltk.download('punkt')


In [15]:
%pip install stopwords

Defaulting to user installation because normal site-packages is not writeable
Collecting stopwords
  Downloading stopwords-1.0.0-py2.py3-none-any.whl (37 kB)
Installing collected packages: stopwords
Successfully installed stopwords-1.0.0
Note: you may need to restart the kernel to use updated packages.


In [None]:
import nltk
nltk.download(['stopwords', 'punkt'])

---

## 3 Pre procesamiento de datos de texto
### 3.a Limpieza de datos de texto, usar la función limpieza (fichero funciones.py) para la limpieza de columna content de cada diccionario (identificar y explicar brevemente que elementos esta retirando del texto con la función):

In [34]:
def limpieza(objeto_df):
    contenido = objeto_df.content
    #Convertir textos a caracteres en minúsculas
    contenido = contenido.apply(lambda x: x.lower())
    #Remover HTML tags
    contenido = contenido.apply(lambda x: re.sub(r'\<[^<>]*\>','',x))
    #Remover cualquier caracter que no coincida con una letra, un digito o un guion bajo "_" 
    contenido = contenido.apply(lambda x: re.sub(r'^\W+|\W+$',' ',x))
    #Remover espacios, nueva linea, tabulador
    contenido = contenido.apply(lambda x: re.sub(r'\s',' ',x))
    #Remover puntuacion
    contenido = contenido.apply(lambda x: re.sub(r'[^a-zA-Z0-9]',' ',x))
    #Tokenizar los data (https://datapeaker.com/big-data/que-es-la-tokenizacion-metodos-para-realizar-la-tokenizacion/)
    contenido = contenido.apply(lambda x: word_tokenize(x))
    #Remover stopwords
    contenido = contenido.apply(lambda x: [i for i in x if i not in stops])
    return(content)

In [None]:
for df in df_dicc:
    df_dicc[df]['content'] = limpieza(df_dicc[df]['content'])

- x.lower(): Convierte todo el texto a minúsculas, garantizando la coherencia de las mayúsculas.

- re.sub(r'\<[^<>]*\>', '', x): Elimina las etiquetas HTML del texto mediante una expresión regular, eliminando así cualquier marca HTML.

- re.sub(r'^\W+|\W+$', ' ', x): Elimina todos los caracteres que no sean letras, dígitos o guiones bajos del principio o el final de cada palabra y los 
sustituye por un espacio.

- re.sub(r'\s', ' ', x): Sustituye los espacios, caracteres de nueva línea y caracteres de tabulación por espacios simples, garantizando un espaciado uniforme.

- re.sub(r'[^a-zA-Z0-9]', ' ', x): Elimina los signos de puntuación y los caracteres no alfanuméricos, sustituyéndolos por espacios.
word_tokenize(x): Tokeniza el texto, dividiéndolo en palabras individuales o tokens utilizando la función word_tokenize de NLTK.

- [i for i in x if i not in stops]: Elimina las palabras de parada (palabras de uso común pero menos informativas) del texto tokenizado filtrando las palabras que se encuentran en las paradas.

### 3.b Usar la función limpieza (fichero funciones.py) para la limpieza de columna title de cada diccionario

In [None]:
for df in df_dicc:
    df_dicc[df]['title'] = limpieza(df_dicc[df]['title'])

### 3.c Crear nubes de puntos a los seis (menos fisT) datos de texto del diccionario usando las rutinas a continuación:

In [None]:
tx_viaje = ''
for x in dicc_df['viajes'].title:
    for y in x:
        tex_viaje +=''+y
plt.figure(figsize=(valor, valor)) 
nubeV = WordCloud(max_words=valor).generate(tx_viaje)
plt.imshow(nubeV)

### 3.d Combinar en el dataframe fisT las diferentes variantes de palabras, en una única palabra madre que transmita el mismo significado

In [None]:
conversion = WordNetLemmatizer()
dicc['fisT'].title = dicc['test'].title.apply(lambda x:[wordnet.lemmatize(i, pos='v') for i in x])
dicc['fisT'].content = dicc['test'].content.apply(lambda x:[wordnet.lemmatize(i, pos='v') for i in x])

### 3.f Utilizar el concepto de frecuencia de términos y frecuencia inversa de documentos para eliminar todos los tokens no secuenciales de la vectorización

In [None]:
def identity_tokenizer(texto):
 return texto
vector = TfidfVectorizer(tokenizer = identity_tokenizer, lowercase = False)
x = vector.fit_transform(diccionario['fisica'].title.values)