## Conceptos

### JSON

JSON (JavaScript Object Notation) es un formato ligero basado en texto que se utiliza para el intercambio de datos.

A menudo se usa para transmitir datos entre un servidor y una aplicación web, así como para almacenar e intercambiar datos en una variedad de lenguajes de programación.

JSON está diseñado para que sea fácil de leer y escribir tanto para humanos como para máquinas. Utiliza una sintaxis simple que consta de pares clave-valor, con tipos de datos que incluyen cadenas, números, booleanos, matrices y objetos.

Ejemplo de un objeto JSON:

```json
{
  "name": "John Smith",
  "age": 32,
  "isEmployed": true,
  "hobbies": ["reading", "swimming", "traveling"],
  "address": {
    "street": "123 Main St",
    "city": "Anytown",
    "state": "CA",
    "zip": "12345"
  }
}
```


***

### NLP

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de la inteligencia artificial que se enfoca en la interacción entre los seres humanos y los sistemas computacionales mediante el uso del lenguaje natural.

El NLP se encarga de desarrollar técnicas y algoritmos que permiten a las computadoras entender, interpretar y generar lenguaje humano. Algunas de las aplicaciones prácticas del NLP incluyen la traducción automática, la extracción de información, la generación de resúmenes, la identificación de sentimientos y emociones en el lenguaje, y la interacción de voz con sistemas inteligentes.

Mira esto: https://medium.com/cloudcraftz/detailed-nlp-basics-with-hands-on-implementation-in-python-part-1-7397d1136e59

***

### Stopwords

Las stopwords (palabras vacías, en español) son palabras que se consideran comunes y que generalmente no aportan mucho significado en el análisis de texto. Estas palabras incluyen artículos, conjunciones, preposiciones y otros términos que se utilizan con frecuencia en el lenguaje cotidiano.

Algunos ejemplos de stopwords en español son: "el", "la", "los", "las", "un", "una", "y", "o", "de", "en", "a", "con", "para", "por", entre otras.

En el análisis de texto, es común eliminar las stopwords antes de realizar ciertas tareas, como la extracción de características (feature extraction) o la generación de resúmenes, ya que al eliminar estas palabras se puede reducir el ruido y enfocarse en las palabras más relevantes del texto. 

***

### Vectorización

La vectorización en data science es el proceso de convertir datos no estructurados o de alta dimensionalidad en vectores numéricos de menor dimensión, que son más fáciles de analizar y procesar por los algoritmos de aprendizaje automático.

En el procesamiento del lenguaje natural, por ejemplo, la vectorización se utiliza para convertir el texto en vectores numéricos. Esto se hace asignando un valor numérico a cada palabra o término del texto y creando un vector para cada documento o texto que representa la frecuencia o la importancia de cada término en ese texto. Estos vectores se pueden utilizar para entrenar modelos de aprendizaje automático, como la clasificación de texto o la generación de resúmenes.

En otras áreas de data science, como el análisis de imágenes o el procesamiento de señales, la vectorización se utiliza para transformar datos complejos en vectores numéricos. Por ejemplo, en el análisis de imágenes, se pueden extraer características de una imagen y convertirlas en vectores para entrenar modelos de clasificación o detección de objetos.

Mira esto: https://thinkingneuron.com/how-to-classify-text-using-word2vec

Nota: los **word embeddings** son una técnica de representación de palabras que permite asignar a cada palabra un vector numérico de baja dimensión que captura el significado semántico de la palabra en un contexto específico. Los word embeddings se basan en el concepto de que las palabras que aparecen en contextos similares tienen significados similares, y se entrenan a partir de grandes cantidades de texto utilizando técnicas de aprendizaje automático, como las redes neuronales.

***

### Conceptos relacionados con NLP:

- Tokenización: es el proceso de dividir un texto en unidades significativas llamadas tokens. Estos tokens pueden ser palabras individuales, signos de puntuación, números, etc. La tokenización es un paso esencial en el procesamiento del lenguaje natural, ya que permite que el texto se convierta en una forma procesable por la computadora.

- Bag of words: es una técnica de representación de texto que consiste en construir un modelo que ignora el orden de las palabras en el texto y solo cuenta la frecuencia de cada palabra en el documento. Esto se conoce como "bolsa de palabras" porque es como si se hubieran mezclado todas las palabras en una bolsa y se contara cuántas veces aparece cada una.

- TF-IDF: es una técnica de ponderación de términos que se utiliza comúnmente en el análisis de texto. TF-IDF significa "Term Frequency-Inverse Document Frequency" y se utiliza para evaluar la importancia de una palabra en un documento. La frecuencia del término (TF) es la frecuencia con la que aparece una palabra en un documento. La frecuencia inversa del documento (IDF) mide la rareza de una palabra en un corpus de documentos. El peso TF-IDF de una palabra es el producto de su frecuencia en el documento y la frecuencia inversa del documento, lo que permite identificar las palabras que son importantes para un documento específico en relación con el corpus más amplio.

- Stemming: es el proceso de reducir una palabra a su forma base o raíz, eliminando los sufijos y prefijos. Esto se hace para reducir la complejidad del vocabulario y agrupar las palabras que tienen un significado similar.

- Lematización: es un proceso similar al stemming, pero en lugar de reducir una palabra a su forma base, lo que hace es convertir la palabra a su forma canónica o lemma. Por ejemplo, la lematización convertiría las palabras "corriendo", "corrió" y "corre" a su forma canónica "correr".

- Stopwords: como se mencionó anteriormente, son palabras comunes que generalmente no aportan mucho significado en el análisis de texto y se pueden eliminar para reducir el ruido en el análisis.

- N-gramas: son secuencias de N palabras contiguas en un texto. Por ejemplo, un bigrama es una secuencia de dos palabras contiguas, mientras que un trigrama es una secuencia de tres palabras contiguas. Los n-gramas se utilizan en el análisis de texto para capturar información sobre la estructura del lenguaje y las relaciones entre las palabras.

- Bag of n-grams: es una extensión del modelo de bag of words que utiliza n-gramas en lugar de palabras individuales. Esto permite capturar información sobre la estructura del lenguaje y las relaciones entre las palabras.

- Word2vec: es una técnica de aprendizaje automático utilizada para generar word embeddings, es decir, vectores numéricos que representan palabras en un espacio semántico. Word2vec utiliza una red neuronal para entrenar un modelo que puede predecir las palabras que aparecen en un contexto dado.

- GloVe: es otra técnica para generar word embeddings que se basa en la matriz de co-ocurrencia de palabras en un corpus de texto. GloVe utiliza un enfoque de factorización de matriz para generar vectores numéricos que representan palabras en un espacio semántico.

***

### SQL

SQL significa "Structured Query Language" (Lenguaje de Consulta Estructurada) y se utiliza para interactuar con bases de datos relacionales. Permite a los usuarios consultar, insertar, actualizar y eliminar datos de una base de datos, así como definir la estructura de la base de datos, crear tablas y establecer relaciones entre ellas.

SQL es un lenguaje ampliamente utilizado en el mundo empresarial y es una habilidad importante para los profesionales de la tecnología de la información y los analistas de datos. Es compatible con la mayoría de los sistemas de gestión de bases de datos relacionales, incluyendo MySQL, Oracle y Microsoft SQL Server.

***

### Dataframe Pivot_Table

pd.pivot_table es una función de la librería Pandas de Python que permite crear tablas dinámicas a partir de un dataframe. Una tabla dinámica es una herramienta de análisis de datos que permite resumir, agrupar y analizar información de una tabla de datos en diferentes dimensiones.

En particular, pd.pivot_table permite crear una tabla dinámica a partir de un dataframe, especificando cuál columna se utilizará para los índices, cuál columna se utilizará para las columnas y cuál columna se utilizará para los valores a agregarse. Además, se pueden especificar diferentes opciones de agregación, como sumar, contar, calcular el promedio, entre otras.

La función pd.pivot_table toma como entrada los siguientes argumentos:

- data: el dataframe de origen.

- values: la columna del dataframe que se utilizará para los valores a agregarse.

- index: la columna del dataframe que se utilizará para los índices de la tabla dinámica.

- columns: la columna del dataframe que se utilizará para las columnas de la tabla dinámica.

- aggfunc: la función de agregación que se utilizará para los valores a agregarse.

Supongamos que tenemos un dataframe llamado ventas que contiene información sobre las ventas de una tienda por departamento en diferentes días y categorías de productos. Podemos crear una tabla dinámica para obtener el total de ventas diarias por categoría de producto de la siguiente manera:

In [35]:
import pandas as pd
# Creamos el dataframe de ejemplo
ventas = pd.DataFrame({'fecha': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03', '2022-01-03'],
                       'categoria': ['ropa', 'accesorios', 'ropa', 'accesorios', 'ropa', 'accesorios'],
                       'ventas': [100, 50, 75, 30, 90, 40]})
ventas

Unnamed: 0,fecha,categoria,ventas
0,2022-01-01,ropa,100
1,2022-01-01,accesorios,50
2,2022-01-02,ropa,75
3,2022-01-02,accesorios,30
4,2022-01-03,ropa,90
5,2022-01-03,accesorios,40


In [36]:
# Creamos la tabla dinámica con pivot_table
tabla_dinamica = pd.pivot_table(ventas, values='ventas', index='fecha', columns='categoria', aggfunc=sum)
# Mostramos la tabla dinámica resultante
tabla_dinamica

categoria,accesorios,ropa
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,50,100
2022-01-02,30,75
2022-01-03,40,90


***

### Diferencia entre append y extend en Pandas

En Pandas, append se utilizan para agregar filas a un DataFrame existente. Sin embargo, extend sólo existe para listas de Python, no en dataframes de Pandas.

In [37]:
import pandas as pd
# Creamos un DataFrame vacío con dos columnas
df = pd.DataFrame(columns=['Nombre', 'Edad'])
# Creamos una nueva fila como un diccionario
new_row = {'Nombre': 'Juan', 'Edad': 30}

append agrega una fila al DataFrame existente. Por ejemplo, si tienes un DataFrame df y deseas agregar una nueva fila new_row a la parte inferior del DataFrame, puedes usar el método append de la siguiente manera:

In [38]:
# Usamos la función append para agregar la nueva fila al DataFrame
df = df.append(new_row, ignore_index=True) # Can only append a dict if ignore_index=True
df

  df = df.append(new_row, ignore_index=True) # Can only append a dict if ignore_index=True


Unnamed: 0,Nombre,Edad
0,Juan,30


Aquí, new_row debe ser un objeto tipo Series o DataFrame que tenga las mismas columnas que el DataFrame df, o bien un diccionario, como en el ejemplo.
En Pandas, extend no funciona:

In [39]:
# df = df.extend(another_dataframe)
# Produce el error "DataFrame object has no attribute 'extend'"

El error "DataFrame object has no attribute 'extend'" ocurre cuando intentas utilizar el método extend() en un objeto DataFrame de pandas. Esto se debe a que el método extend() es propio de los objetos de tipo lista en Python y no está disponible para los objetos DataFrame.

***

### Álgebra lineal, producto escalar y norma

El **álgebra lineal** es una rama de las matemáticas que se enfoca en el estudio de los **vectores** y las **matrices**, y cómo se relacionan entre sí. Uno de los conceptos fundamentales del álgebra lineal es el producto escalar.

El **producto escalar**, también conocido como producto punto, es una operación binaria que toma dos vectores y devuelve un escalar. Se denota con el símbolo "·" o "<,>" y se define de la siguiente manera para dos vectores $\mathbf{v}=(v_1,v_2,\ldots,v_n)$ y $\mathbf{w}=(w_1,w_2,\ldots,w_n)$:

$$\mathbf{v}\cdot\mathbf{w} = \sum_{i=1}^n v_iw_i = v_1w_1 + v_2w_2 + \cdots + v_nw_n$$

El producto escalar se puede utilizar para calcular la longitud o **norma** de un vector.

La **norma de un vector** es una medida de su longitud o magnitud. La norma se define como la raíz cuadrada del producto escalar del vector consigo mismo. Se denota como $|\mathbf{v}|$ y se calcula de la siguiente manera:

$$|\mathbf{v}| = \sqrt{\mathbf{v}\cdot\mathbf{v}} = \sqrt{\sum_{i=1}^n v_i^2}$$

La norma de un vector es siempre un número positivo y representa la distancia del vector desde el origen del espacio vectorial hasta su punto final. La norma también se utiliza para definir la distancia entre dos vectores, lo que se conoce como **la distancia euclidiana**.

Por tanto recordemos que el producto escalar es una operación que toma dos vectores y devuelve un escalar, mientras que la norma es una medida de la longitud de un vector y se puede calcular utilizando el producto escalar.

In [40]:
# Calculemos la distancia del coseno entro dos elementos vectorizados, Juan y Diego
Juan = [5,4,4]
Diego = [4,5,5]

In [41]:
# Usando skLearn
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity([Juan, Diego])

array([[1.        , 0.97823198],
       [0.97823198, 1.        ]])

In [42]:
# Usando álgebra lineal
import numpy as np

# En numpy el producto escalar lo da el método np.dot
# y la norma, np.linalg.norm
np.dot(Juan,Diego)/np.dot(np.linalg.norm(Juan), np.linalg.norm(Diego))

0.9782319760890369

In [None]:
# vector normalizado
v = [1, 0]
norma de v = 1

# vector no normalizado
w = [2, 0]
norma de w = sqrt(2**2 + 0**2) = sqrt(4) = 2

w2 = [0.8, 0]
norma de w2 < 1

### Lenguaje R

In [None]:
# Crear dataframe con los datos X = [1, 2, 3, 4, 5, 6] e Y = [10, 4, 1, 2, 5, 11]
datos <- data.frame(X = c(1, 2, 3, 4, 5, 6), Y = c(10, 4, 1, 2, 5, 11))

# Dibujar con la función nativa de R
plot(datos)

# Dibujar con la librería ggplot2
library(ggplot2)
ggplot(data = datos) + geom_point(aes(x = X, y = Y))

In [29]:
import pandas as pd
df = pd.DataFrame(
    {"customerID": ["Luis", "José", "María", "Luis", "José", "María", "Luis", "José", "María"]
    , "InvoiceNo": ["Fact001", "Fact002", "Fact003", "Fact001", "Fact002", "Fact003", "Fact001", "Fact002", "Fact003"]
    , "Description": ["Lápiz", "Papel", "Cartón", "Bolígrafo", "Pegatinas", "Grapas", "Regla", "Celo", "Adhesivo"]
    }
    )
df

Unnamed: 0,customerID,InvoiceNo,Description
0,Luis,Fact001,Lápiz
1,José,Fact002,Papel
2,María,Fact003,Cartón
3,Luis,Fact001,Bolígrafo
4,José,Fact002,Pegatinas
5,María,Fact003,Grapas
6,Luis,Fact001,Regla
7,José,Fact002,Celo
8,María,Fact003,Adhesivo


In [17]:
compras_agrupada = df.groupby('InvoiceNo').aggregate(lambda x: x.unique().tolist())
compras_agrupada

Unnamed: 0_level_0,customerID,Description
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1
Fact001,[Luis],"[Lápiz, Bolígrafo, Regla]"
Fact002,[José],"[Papel, Pegatinas, Celo]"
Fact003,[María],"[Cartón, Grapas, Adhesivo]"


In [18]:
compras_agrupada = compras_agrupada.drop(['customerID'], axis=1)
compras_agrupada

Unnamed: 0_level_0,Description
InvoiceNo,Unnamed: 1_level_1
Fact001,"[Lápiz, Bolígrafo, Regla]"
Fact002,"[Papel, Pegatinas, Celo]"
Fact003,"[Cartón, Grapas, Adhesivo]"


In [20]:
compras = pd.DataFrame(compras_agrupada)
compras

Unnamed: 0_level_0,Description
InvoiceNo,Unnamed: 1_level_1
Fact001,"[Lápiz, Bolígrafo, Regla]"
Fact002,"[Papel, Pegatinas, Celo]"
Fact003,"[Cartón, Grapas, Adhesivo]"


In [28]:
compras.to_numpy().tolist()

[[['Lápiz', 'Bolígrafo', 'Regla']],
 [['Papel', 'Pegatinas', 'Celo']],
 [['Cartón', 'Grapas', 'Adhesivo']]]

In [26]:
compras.to_numpy()

array([[list(['Lápiz', 'Bolígrafo', 'Regla'])],
       [list(['Papel', 'Pegatinas', 'Celo'])],
       [list(['Cartón', 'Grapas', 'Adhesivo'])]], dtype=object)

In [None]:
df = df.drop(['customerID'], axis=1)
compras_group = df.groupby(['InvoiceNo']).sum()
# Crear una nueva columna "palabras_separadas" utilizando la función str.split()
compras_group['Descripciones'] = compras_group['Description'].str.split(pat='(?=[A-Z])')
# Elimino la columna Description
compras_group = compras_group.drop(['Description'], axis=1)
# Elimino el primer espacio vacío
compras_group['Descripciones'] = compras_group['Descripciones'].apply(lambda x: x[1:])
compras_group
compras = pd.DataFrame(compras_group)
compras.to_numpy().tolist()

In [None]:
prueba = data.drop(['CustomerID','StockCode','Quantity', 'UnitPrice', 'Country', 'venta_total', 'Date'], axis=1)
compras = prueba.groupby(['InvoiceNo']).sum()
# Crear una nueva columna "palabras_separadas" utilizando la función str.split()
compras['cesta'] = compras['Description'].str.split(pat='(?=[a-z])')
# Elimino la columna Description
compras = compras.drop(['Description'], axis=1)
compras
#lista_compras = pd.DataFrame(compras)
lista_compras.to_numpy().tolist()

In [30]:
import pandas as pd
df = pd.DataFrame(
    {"customerID": ["Luis", "José", "María", "Luis", "José", "María", "Luis", "José", "María"],
     "InvoiceNo": ["Fact001", "Fact002", "Fact003", "Fact001", "Fact002", "Fact003", "Fact001", "Fact002", "Fact003"],
     "Description": ["Lápiz", "Papel", "Cartón", "Bolígrafo", "Pegatinas", "Grapas", "Regla", "Celo", "Adhesivo"]
    }
)
# Agrupar por customerID y combinar las descripciones de ventas en una lista
grouped_df = df.groupby("customerID")["Description"].agg(list)
# Convertir el resultado en una lista de listas
result = grouped_df.tolist()
print(result)


[['Papel', 'Pegatinas', 'Celo'], ['Lápiz', 'Bolígrafo', 'Regla'], ['Cartón', 'Grapas', 'Adhesivo']]
