# Taller 01 - Analítica de datos
- **Autor:** David Santiago Barreto Mora
- **Profesor:** Jhon Corredor
- **Objetivo:** Conocer las diferentes herramientas para el tratamiento de texto.
---

## 2. Carga de fuente de datos
### 2.b Escribir en secciones de texto del cuaderno python, brevemente la utilidad de las siguientes bibliotecas en azul:
a. **numpy:** Biblioteca indispensable para los cálculos numéricos en Python. Su función principal es proporcionar soporte para trabajar con matrices y arrays multidimensionales de gran tamaño, acompañado de un completo conjunto de funciones matemáticas que operan eficientemente sobre estos arrays. La estructura de datos principal de NumPy es ndarray, que permite manipular datos y realizar operaciones matemáticas de forma eficiente. Es crucial para las operaciones de álgebra lineal y el análisis estadístico. Además, NumPy se integra a la perfección con otras bibliotecas populares como Pandas para la manipulación de datos y Matplotlib para la visualización de datos, por lo que es una piedra angular de los flujos de trabajo de la ciencia de datos.

b. **regex:** Permite a los usuarios definir y buscar patrones específicos dentro de cadenas o datos de texto, a través de las expresiones regulares (RegEx). Las expresiones regulares consisten en una secuencia de caracteres que definen un patrón de búsqueda.

c. **string:** Módulo estándar que proporciona una colección de constantes y funciones diseñadas para facilitar la manipulación de cadenas. Este módulo incluye constantes como string.ascii_letters, string.digits y string.punctuation que simplifican las operaciones relacionadas con caracteres. Además, ofrece varias funciones para trabajar con cadenas de manera eficiente.

d. **nltk.tokenize import word_tokenize:** La función word_tokenize forma parte del Natural Language Toolkit (NLTK), una biblioteca para tareas de procesamiento del lenguaje natural (NLP). En concreto, word_tokenize sirve para tokenizar texto, lo que implica dividir el texto en palabras individuales o tokens. La tokenización es un paso fundamental en la NLP y el análisis de textos.

Word_tokenize es crucial para preparar datos de texto para diversas tareas de NLP. Desempeña un papel importante en tareas como el análisis de sentimientos, la clasificación de textos y el modelado del lenguaje, ya que descompone el texto en las palabras que lo componen, lo que permite su posterior análisis y la extracción de características.

e. **nltk.stem import WordNetLemmatizer:** WordNetLemmatizer es otro componente esencial de la biblioteca NLTK, que se utiliza principalmente para la lematización, un proceso cuyo objetivo es reducir las palabras a su forma básica o de diccionario, conocida como lemas. La lematización es una técnica de preprocesamiento de textos que normaliza las palabras a su forma más básica y significativa.

f. **wordcloud import WordCloud:** La biblioteca WordCloud permite generar nubes de palabras, que son representaciones visuales de las palabras más frecuentes en un corpus de texto determinado. En una nube de palabras, las palabras se muestran con distintos tamaños en función de su frecuencia de aparición, lo que facilita la identificación de los términos más destacados.

g. **sklearn.feature_extraction.text import TfidfVectorizer:** Componente especializado en la extracción de características de texto. Transforma una colección de documentos de texto en vectores de características numéricas utilizando el método TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF asigna valores numéricos a las palabras en función de su importancia dentro de cada documento y en todo el corpus.

En ciencia de datos, TfidfVectorizer es usado frecuentemente para preparar datos para algoritmos de machine learning. Al cuantificar la importancia de las palabras, mejora el rendimiento de los modelos basados en texto, incluidos los clasificadores y los algoritmos de agrupación. 

### 2.c Importar al cuaderno las bibliotecas anteriores

Mencionamos todas las librerias y modulos mencionados antermiente. Adicionalmente, importamos las librerias frecuentemente usadas, y de vital importancia para el análisis y visualizacion de datos.

In [2]:
# Previously mentioned libraries are imported.
import numpy as np
import regex
import string
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from wordcloud import WordCloud
from sklearn.feature_extraction.text import TfidfVectorizer

# Additional libraries used for data analysis and visualization
# Data anaylisis
import pandas as pd

# Data visualization
import seaborn as sns
import matplotlib.pyplot as plt

### 2.D. Cargar desde el ENLACE , a objetos dataframe cada uno de los ficheros csv, ejemplo:

El link contiene un total de 9 dataframes, por lo que crearemos un total de 9 dataframes. Como nota adicional, se crean los dataframes con los archivos descargados debido al tamaño de los .csv. Si se hiciera con los links de internet, los re-runs del codigo se demorarian considerablemente más.

Los .csv estan incluidos con el codigo.

In [3]:
# All dataframes are created from the "./csvs/" directory
biologia_df = pd.read_csv("csvs/Biologia.csv")
bricolage_df = pd.read_csv("csvs/Bricolage.csv")
cocina_df = pd.read_csv("csvs/Cocina.csv")
criptografia_df = pd.read_csv("csvs/Criptografia.csv")
fisica0_df = pd.read_csv("csvs/Fisica0.csv")
fisica1_df = pd.read_csv("csvs/Fisica1.csv")
fisica2_df = pd.read_csv("csvs/Fisica2.csv")
robotica_df = pd.read_csv("csvs/Robotica.csv")
viajes_df = pd.read_csv("csvs/Viajes.csv")


Ahora miramos la primera fila de cada dataframe para verificar que todos hayan sido creados correctamente.

In [4]:
biologia_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,What is the criticality of the ribosome bindin...,"<p>In prokaryotic translation, how critical fo...",ribosome binding-sites translation synthetic-b...


In [5]:
bricolage_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,"How do I install a new, non load bearing wall ...",<p>I'm looking to finish my basement and simpl...,remodeling basement carpentry


In [6]:
cocina_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,How can I get chewy chocolate chip cookies?,<p>My chocolate chips cookies are always too c...,baking cookies texture


In [7]:
criptografia_df.head(1)

Unnamed: 0,id,title,content,tags
0,3,What are the benefits of the two permutation t...,<p>Why do we use a permutation table in the fi...,block-cipher des permutation


In [8]:
fisica0_df.head(1)

Unnamed: 0,id,title,content
0,1,What is spin as it relates to subatomic partic...,<p>I often hear about subatomic particles havi...


In [9]:
fisica1_df.head(1)

Unnamed: 0,id,title,content
0,94481,Does Super Mario physics work in reality?,<p>This illustration summarizes my question:</...


In [10]:
fisica2_df.head(1)

Unnamed: 0,id,title,content
0,187184,Can an object have 0 acceleration because its ...,<p>If an object has an instantaneous velocity...


In [11]:
robotica_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,What is the right approach to write the spin c...,<p>Imagine programming a 3 wheel soccer robot....,soccer control


In [12]:
viajes_df.head(1)

Unnamed: 0,id,title,content,tags
0,1,What are some Caribbean cruises for October?,<p>My fiancée and I are looking for a good Car...,caribbean cruising vacations


### 2.e Unir los dataframe de fisica en un solo dataframe
Usamos la funcion 'concat' de padas para unir los 3 dataframes (funcion usada en el taller pasado)

In [None]:
fisica_total_df = pd.concat(fisica0_df, )