#Manual de Uso: Funciones para Software matemático y estadístico

**Autor/a: Ibon Eskudero**
**2024-11-03**

# Introducción

Este documento describe las funciones implementadas para el entregable de la asignatura de Software matemático y estadístico, así como ejemplos de uso. Las funciones para el entregable se dividen en 7 archivos: 5 archivos enumerados según los puntos requeridos en el entregable, y 2 archivos de ayuda que contienen funciones auxiliares. 
Los 5 ficheros principales son:

1. [Discretización](#disc): `discretize.py`
2. [Cálculo de Métricas](#metr): `metrics.py`
3. [Normalización y Estandarización](#norm): `normalize.py`
4. [Filtrado de Variables](#filtr): `filter.py`
5. [Cálculo de Correlación e Información Mutua](#corr): `correlation.py`
6. [Visualización (Curva ROC, Mapa de Calor de Correlación)](#plot): `plot.py`

Cada fichero lleva asociado un fichero `_test` con ejemplos de uso de cada función principal.

Los ficheros de ayuda son:

7. [Funciones matemáticas auxiliares](#math): `customMath.py`
8. [Funciones auxiliares de utilidad](#utils): `utilities.py`

También estan disponibles los ficheros de ejemplo de uso de cada función, que se usarán en este notebook para explicar el uso de cada función principal. Para poder lanzar el código de este notebook en vez de ejecutar cada fichero por separado, será necesario instalar las librerias necesarias desde el archivo requeriments.txt. Para ello, ejecutar el siguiente comando en la terminal:

```bash
pip install -r requirements.txt
```

In [2]:
pip install -r requirements.txt

Collecting pandas
  Downloading pandas-2.2.3-cp310-cp310-win_amd64.whl (11.6 MB)
     --------------------------------------- 11.6/11.6 MB 11.7 MB/s eta 0:00:00
Collecting tzdata>=2022.7
  Downloading tzdata-2024.2-py2.py3-none-any.whl (346 kB)
     -------------------------------------- 346.6/346.6 kB 7.2 MB/s eta 0:00:00
Collecting pytz>=2020.1
  Downloading pytz-2024.2-py2.py3-none-any.whl (508 kB)
     ------------------------------------- 508.0/508.0 kB 10.6 MB/s eta 0:00:00
Installing collected packages: pytz, tzdata, pandas
Successfully installed pandas-2.2.3 pytz-2024.2 tzdata-2024.2
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.2.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


<a id="disc"></a>
# 1. Discretización

### Introducción

**Enunciado**: Algoritmos de discretización para un solo atributo y para un dataset completo (ambas opciones): Igual frecuencia e igual anchura

Dentro del fichero `discretize.py` se encuentra la clase `Discretize`, que contiene las funciones para discretizar que pide el enunciado del entregable (`discretize_attribute` y `discretize_dataframe`) y las funciones auxiliares necesarias (`discretize` y `discretize_vector`).

### Métodos Implementados

#### discretize_attribute(df, column, num.bins, method)
Método para discretizar un atributo mediante los métodos "equal width" y "equal frecuency"

**Definición**
```python
discretice_attribute(df, column, num_bins, method='equal_width')
'''
	Método para discretizar un atributo mediante los métodos "equal width" y "equal frecuency" 	
	Parámetros:                                         
		df: (dataframe) data.frame que se desea discretizar.   
		column: (str) Nombre de la columna/atributo a discretizar. 
		cuts: (int) Número de intervalos en los que se desea discretizar.	
		method: (str) String que indica el método de discretización a utilizar:             
				"equal_width" para igual anchura o "equal_frequency" para igual frecuencia. 

	Return: (object) Un objeto que contiene los valores discretizados y los puntos de corte.
	discretice_attribute <- function(df, column, num.bins, method = "equal_width")
'''
```
**Ejemplo de Uso**

In [3]:
import pandas as pd

from discretize import Discretize
from utilities import Utilities

# Instanciar la clase Discretize
discretizer = Discretize()

# Crear datos de prueba
v1 = [11.5, 10.2, 1.2, 0.5, 5.3, 20.5, 8.4]
v2 = [11.5, 15, 1.2, 0.5, 5.3, 20.5, 8.4]
k = 4

Utilities.clean_console()
df = pd.DataFrame( { 'valor1': v1, 'valor2': v2 } )
test2_width = discretizer.discretice_attribute(df,"valor1",k,"equal_width")
print(test2_width)
df = pd.DataFrame( { 'valor1': v1, 'valor2': v2 } )
test2_freq = discretizer.discretice_attribute(df,"valor1",k,"equal_frequency")
print(test2_freq)

{'valores': [(10.5, 15.5], (5.5, 10.5], (-inf, 5.5], (-inf, 5.5], (-inf, 5.5], (15.5, inf], (5.5, 10.5]]
Categories (4, interval[float64, right]): [(-inf, 5.5] < (5.5, 10.5] < (10.5, 15.5] < (15.5, inf]], 'puntos': array([ 0.5,  5.5, 10.5, 15.5, 20.5])}
{'valores': [(8.4, 11.5], (8.4, 11.5], (-inf, 1.2], (-inf, 1.2], (1.2, 8.4], (11.5, inf], (1.2, 8.4]]
Categories (4, interval[float64, right]): [(-inf, 1.2] < (1.2, 8.4] < (8.4, 11.5] < (11.5, inf]], 'puntos': [0.5, 1.2, 8.4, 11.5, 20.5]}


#### discretize_dataframe(df, num.bins, method)
Método para discretizar un data.frame mediante los métodos "equal width" y "equal frecuency" 

**Definición**
```python
discretice_dataframe(df, num_bins, method='equal_width')
'''
	Método para discretizar un data.frame mediante los métodos "equal width" y "equal frecuency"
	Parámetros:
		df: (dataframe) data.frame que se desea discretizar.
		num_bins: (int) Número de intervalos en los que se desea discretizar.
		method: (str) String que indica el método de discretización a utilizar.
				"equal_width" para igual anchura o "equal_frequency" para igual frecuencia.

	Return: (dataframe) Mismo objeto de entrada con los atributos discretizados.
'''
```
**Ejemplo de Uso**

In [None]:
import pandas as pd

from discretize import Discretize
from utilities import Utilities

# Instanciar la clase Discretize
discretizer = Discretize()

# Crear datos de prueba
v1 = [11.5, 10.2, 1.2, 0.5, 5.3, 20.5, 8.4]
v2 = [11.5, 15, 1.2, 0.5, 5.3, 20.5, 8.4]
k = 4

Utilities.clean_console()
df = pd.DataFrame( { 'valor1': v1, 'valor2': v2 } )
test3_width = discretizer.discretice_dataframe(df,k,"equal_width")
print(test3_width)
df = pd.DataFrame( { 'valor1': v1, 'valor2': v2 } )
test3_freq = discretizer.discretice_dataframe(df,k,"equal_frequency")
print(test3_freq)

#### discretize_vector(x, cuts, method)
Método auxliar para discretizar vectores mediante los métodos "equal width" y "equal frecuency" 

**Definición**
```python
discretice_vector(x, cuts, method='equal_width')
'''
	Método auxliar para discretizar vectores mediante los métodos "equal width" y "equal frecuency"
	Parámetros:
		x: (list) Vector numérico que se desea discretizar.
		cuts: (int) Número de intervalos en los que se desea discretizar.
		method: (str) String que indica el método de discretización a utilizar.
				"equal_width" para igual anchura o "equal_frequency" para igual frecuencia.
					
	Return: (object) Un objeto que contiene los valores discretizados y los puntos de corte.
'''
```
**Ejemplo de Uso**

In [None]:
from discretize import Discretize
from utilities import Utilities

# Instanciar la clase Discretize
discretizer = Discretize()

# Crear datos de prueba
v1 = [11.5, 10.2, 1.2, 0.5, 5.3, 20.5, 8.4]
v2 = [11.5, 15, 1.2, 0.5, 5.3, 20.5, 8.4]
k = 4

Utilities.clean_console()
test1_width = discretizer.discretice_vector(v,k,"equal_width")
print(test1_width)
test1_freq = discretizer.discretice_vector(v,k,"equal_frequency")
print(test1_freq)

#### discretize(x, cut.points)
Método auxiliar para generar tramos en un vector mediante los puntos de corte 

**Definición**
```python
discretize(x, cut_points)
'''
	Método auxiliar para generar tramos en un vector mediante los puntos de corte
	Parámetros: 
		x: (list) Vector numérico que se desea discretizar.
		cut_points: (list) Vector numérico con los puntos de corte.
			
	Return: (object) Un objeto que contiene los valores discretizados y los puntos de corte.
'''	    
```
**Ejemplo de Uso**

In [None]:
from discretize import Discretize
from utilities import Utilities

# Instanciar la clase Discretize
discretizer = Discretize()

# Crear datos de prueba
v1 = [11.5, 10.2, 1.2, 0.5, 5.3, 20.5, 8.4]
v2 = [11.5, 0.5, 20.5]

Utilities.clean_console()
test = discretizer.discretice(v1,v2)
print(test)

<a id="metr"></a>
# 2. Cálculo de Métricas

### Introducción

**Enunciado**: Cálculo de métricas para los atributos de un dataset: varianza y AUC para las variables contínuas y entropía para las discretas. La función deberá reconocer el tipo de atributo y actuar en consecuencia. Notese que en el caso del AUC, el dataset debe ser supervisado, es decir, es necesario especificar una variable clase binaria con la que evaluar el AUC de los atributos numéricos.

Dentro del fichero `metrics.py` se encuentra la clase `Metrics` con la función para el cálculo de métricas que pide el enunciado (`get_metricas`) y la función auxiliar necesaria para el cálculo de AUC( `calculate_auc`).

### Métodos Implementados

#### get_metricas(df, AUC_target)
Método para conseguir las métricas de varianza,entropia y UAC de un dataframe 

**Definición**
```python
get_metricas(df,AUC_target)
'''
	Método para conseguir las métricas de varianza,entropia y UAC de un dataframe
	Parámetros:
		df: (dataframe) data.frame para el que se desean generar métricas
		AUC_target: (dataframe) Si se desea calcular UAC para algún variable, hay que pasarle una variable
					con igual nombre para calcular el target
	Return: (dataframe) Métricas para cada variable dependiendo de si es númerico discreto o no.
'''
```
**Ejemplo de Uso**

In [None]:
import pandas as pd
import numpy as np

from metrics import Metrics
from utilities import Utilities

# Instanciar la clase Discretize
metrics = Metrics()

# TEST VARIABLES
df = pd.DataFrame({
    'x': np.random.normal(size=100),
    'y': np.random.normal(size=100),
    'z': pd.Series(np.random.choice(['A', 'B'], size=100)).astype('category')
})

AUC_target = pd.DataFrame({
    'x': np.random.choice([0, 1], size=100),
    'y': np.random.choice([0, 1], size=100)
})

Utilities.clean_console()

test_result = metrics.get_metricas(df,AUC_target)

print(test_result)

#### calculate_auc(predictions, target)
Método auxiliar para calcular el AUC de una variable 

**Definición**
```python
calculate_auc(predictions,target)
'''
	Método auxiliar para calcular el AUC de una variable
	Parámetros:
		predictions: (list) Vector numérico en el que se desea calcular el AUC.
		target: (list) target para el calculo supervisado.

	Return: (object) Object con AUC=valor AUC, TPR=positive rate y FPR=negative rate.
'''
```
**Ejemplo de Uso**

In [None]:
import numpy as np

from metrics import Metrics
from utilities import Utilities

# Instanciar la clase Metrics
metrics = Metrics()

# TEST VARIABLES
v = np.random.normal(size=100)
target = np.random.choice([0, 1], size=100)

Utilities.clean_console()

test_result = metrics.calculate_auc(v, target)

print(test_result)

<a id="norm"></a>
# 3. Normalización y Estandarización

### Introducción

**Enunciado**: Normalización y estandarización de variables, tanto de manera individual como para el dataset completo. Esto solo debe ser aplicado a atributos que sean numéricos.

Dentro del fichero `normalize.py` se encuentra la clase `Normalize` con las funciones para normalizar y estandarizar que pide el enunciado (`normalize` y `standardize`).

### Métodos Implementados

#### normalize(df)
Método para normalizar un dataframe 

**Definición**
```python
normalize(df)
'''
	Método para normalizar un dataframe
	Parámetros:
		df: (dataframe) dataframe para normalizar
	Return: (dataframe) dataframe normalizado. Solo normaliza columnas numéricas. 
'''
```
**Ejemplo de Uso**

In [None]:
import pandas as pd

from normalize import Normalize
from utilities import Utilities

# Instanciar la clase Normalize
normalize = Normalize()

# TEST VARIABLES
df = pd.DataFrame( {# Caso con valores distintos e iguales
  "x": [10, 20, 30, 40, 50],
  "y":[5, 5, 5, 5, 5]
})

Utilities.clean_console()

test_result = normalize.normalize(df)

print(test_result)

#### standardize(df)
Método para estandarizar un dataframe 

**Definición**
```python
standardize(df)
'''
	Método para estandarizar un dataframe
	Parámetros:
		df: (dataframe) dataframe para estandarizar
	Return: (dataframe) estandarizado. Solo estandariza columnas numéricas 
'''
```
**Ejemplo de Uso**

In [None]:
import pandas as pd

from normalize import Normalize
from utilities import Utilities

# Instanciar la clase Normalize
normalize = Normalize()

# TEST VARIABLES
df = pd.DataFrame( {# Caso con valores distintos e iguales
  "x": [10, 20, 30, 40, 50],
  "y":[5, 5, 5, 5, 5]
})

Utilities.clean_console()

test_result = normalize.standardize(df)

print(test_result)

<a id="filtr"></a>
# 4. Filtrado de Variables

### Introducción

**Enunciado**: Filtrado de variables en base a las métricas implementadas. Es decir, partiendo de un dataset, obtener uno nuevo donde todas las variables cumplan los requisitos indicado (por ejemplo, una entropía superior a un cierto umbral).

Dentro del fichero `filter.py` se encuentra la clase `Filter` con la función para filtrar un dataset que pide el enunciado (`filter_by_entropy`). Se ha seleccionado el filtrado por entropía mínima como ejemplo de filtrado, pero se podrían implementar filtros con otras métricas.

### Métodos Implementados

#### filter_by_entropy(df, threshold)
Método para filtar un dataframe en base a un threshold de entropia

**Definición**
```python
filter_by_entropy(df, threshold)
'''
	Método para filtar un dataframe en base a un threshold de entropía
	Parámetros:
		df: (dataframe) data.frame para filtar
		threshold: (float) Threshold para filtar por entropia
	Return: (dataframe) dataframe filtrado, eliminando las variables que no hayan superado el threshold
'''
```
**Ejemplo de Uso**

In [None]:
import pandas as pd

from filter import Filter
from utilities import Utilities

# Instanciar la clase Filter
filter = Filter()

# TEST VARIABLES
df = pd.DataFrame( {
  "categoria1": pd.Series(["A", "A", "B", "A", "B", "B"]).astype("category"),
  "categoria2": pd.Series(["X", "X", "X", "X", "X", "X"]).astype("category"),  # Entropía baja
  "valores": [10, 20, 30, 40, 50, 60],
  "texto": ["uno", "dos", "tres", "uno", "dos", "tres"]
})
threshold = 0.0001

Utilities.clean_console()

test_result = filter.filter_by_entropy(df, threshold)

print(test_result)

<a id="corr"></a>
# 5. Cálculo de Correlación e Información Mutua

### Introducción

**Enunciado**: Cálculo de la correlación (información mutua en el caso de variables categóricas) por pares entre variables de un dataset. La función deberá considerar de qué tipo es cada variable.

Dentro del fichero `correlation.py` se encuentra la clase `Correlation` con la función para calcular la correlación e información mutua que pide el enunciado (`get_correlation`).

### Métodos Implementados

#### get_correlation(df, max_values)
Método para calcular la correlación en un dataframe en base al tipo de variable 

**Definición**
```python
get_correlation(df, max_values=5)
'''
	Método para calcular la correlación en un data.frame en base al tipo de variable
	Parámetros:
		df: (dataframe) dataframe para correlacionar
		max_values: (int) cantidad máxima de opciones únicas de un factor a tener en cuenta para ser
								considerado como variable categórica
	Return: (matrix) matriz de correlaciones
'''
```
**Ejemplo de Uso**

In [None]:
import pandas as pd
import numpy as np

from correlation import Correlation
from utilities import Utilities

# Instanciar la clase Correlation
correlation = Correlation()

# TEST VARIABLES
df = pd.DataFrame({
    'x': np.random.normal(size=100),
    'y': np.random.normal(size=100),
    'a': pd.Series(np.random.choice(['A', 'B', 'C'], size=100)).astype('category'),
    'b': pd.Series(np.random.choice(['A', 'B', 'C'], size=100)).astype('category')
})

Utilities.clean_console()

test_result = correlation.get_correlation(df)

print(test_result)

<a id="plot"></a>
# 6. Visualización

### Introducción

**Enunciado**: Plots para el AUC y para las matrices de correlación/información mutua.

Dentro del fichero `plot.py` se encuentra la clase `Plot` con las funciones para visualizar que pide el enunciado (`calculate_plot_auc` y `plot_correlation_heatmap`). hacen uso de las funciones implementadas en el punto 2 y 5.

### Métodos Implementados

#### calculate_plot_auc(variable, target)
Método para mostrar el plot del AUC de una variable 

**Definición**
```python
calculate_plot_auc(variable, target)
"""
	Método para mostrar el plot del AUC de una variable
	Parámetros:
		variable: (list) Vector numérico en el que se desea calcular el AUC.
		target: (list) target para el calculo supervisado.
"""
```
**Ejemplo de Uso**

In [None]:
import numpy as np

from plot import Plot

# Instanciar la clase Plot
plot = Plot()

# TEST VARIABLES
v = np.random.normal(size=100)
target = np.random.choice([0, 1], size=100)

plot.calculate_plot_auc(v, target)


#### plot_correlation_heatmap(df)
Método para mostrar el plot de una matriz de correlación

**Definición**
```python
plot_correlation_heatmap(df)
"""
	Método para mostrar el plot de la matriz de correlación de un data.frame
	Parámetros:
		df: (dataframe) dataframe para el cálculo de la matriz de correlación.
"""
```
**Ejemplo de Uso**

In [None]:
import pandas as pd
import numpy as np

from plot import Plot

# Instanciar la clase Plot
plot = Plot()

# TEST VARIABLES
df = pd.DataFrame({
    'a': np.random.normal(size=100),
    'b': np.random.normal(size=100),
    'c': np.random.normal(size=100),
    'd': np.random.normal(size=100),
})

plot.plot_correlation_heatmap(df)


<a id="math"></a>
# 7. Funciones matemáticas auxiliares

### Introducción
 Se han implementado varias funciones auxiliares para el cálculo de operaciones matemáticas necesarias a lo largo de todo el entregable. Estas funciones se encuentran en el fichero `customMath.py`. Son funciones que se pueden encontrar en otras librerías de python, como numpy, pero se han implementado para tener un mayor control sobre el código y para evitar dependencias externas.

### Métodos Implementados

#### get_entropia(fact)
Función auxiliar para calcular la entropía

**Definición**
```python
get_entropia(fact)
"""
	Método auxiliar para calcular la entropía
	Parámetros:
		fact: (list) vector con los valores de la categoría
	Return: (float) entropía
"""
```

#### get_varianza(x)
Función auxiliar para calcular la varianza

**Definición**
```python
get_varianza(x)
"""
	Método auxiliar para calcular la varianza
	Parámetros:                                                                             
		x: (list) vector numérico para el cálculo de la varianza.
	Return: (float) varianza
"""
```

#### normalize_variable(x)
Función auxiliar para normalizar valores

**Definición**
```python
normalize_variable(x)
"""
	Método auxiliar para normalizar valores
	Parámetros:                                                                             
		x: (list) vector numérico a normalizar entre 0 y 1
	Return: (list) vector normalizado
"""
```

#### standardize_variable(x)
Función auxiliar para estandarizar valores

**Definición**
```python
standardize_variable(x)
"""
	Método auxiliar para la estandarización de valores (media=0, desviación estándar=1)
	Parámetros:                                                                             
		x: (list) vector numérico a estandarizar
	Return: (list) vector estandarizado
"""
```

#### media_variable(x)
Función auxiliar para sacar la media

**Definición**
```python
media_variable(x)
"""
	Método auxiliar para lcalcular la media
	Parámetros:                                                                             
		x: (list) vector numérico para el cálculo de la media
	Return: (float) media
"""
```

#### sd_variable(x)
Función auxiliar para sacar la desviación estandard

**Definición**
```python
sd_variable(x)
"""
	Método auxiliar para lcalcular la desviación estandard
	Parámetros:                                                                             
		x: (list) vector numérico para el cálculo de la desviación estandard
	Return: (float) desviación estandard
"""
```

#### get_pearson_cor(x,y)
Función auxiliar para calcular la correlación de pearson entre dos variables numéricas

**Definición**
```python
get_pearson_cor(x, y)
"""
	Método auxiliar para calcular la correlación de pearson
	Parámetros:
		x: (list) vector numérico para el cálculo de la correlación
		x: (list) vector numérico para el cálculo de la correlación
	Return: (float) correlación de pearson
"""
```

#### get_mutual_information_cor(x,y)
Función auxiliar para calcular la información mutua entre dos variables categóricas

**Definición**
```python
get_mutual_information_cor(x, y)
"""
	Método auxiliar para calcular la información mutua entre dos variables categóricas
	Parámetros:
		x: (list) vector str para el cálculo de la información mutua
		x: (list) vector str para el cálculo de la información mutua
	Return: (float) información mutua
"""
```

<a id="utils"></a>
# 8. Utilidades

### Introducción
Además de las funciones necesarias para la implementación de los puntos requeridos en el entregable y las funciones matemáticas necesarias, se han implemetnado algunas funciones auxiliares de utilidad que se encuentran en el fichero `utilities.py`. Estas funciones ayudan a la implementación de tareas comunes durante el desarrollo del código.
también se ha desarrollado un fichero llamado `launch.json` para poder debugear el código de python en el IDE vscode, además del fichero `requirements.txt` para instalar las librerias necesarias para ejecutar el código de este notebook.

NOTA: aunque no sea necesario, es recomendable instalar las dependencias en un entorno virtual. Para ello, ejecutar los siguientes comandos en la terminal:

```bash
python3 -m venv venv
```

### Métodos Implementados

#### clean_console()
Función auxiliar para limpiar la consola
```python
clean_console()
"""
	Método auxiliar para borrar la consola
"""
```


### VSCode Debugging

Contenido del fichero `launch.json` para poder debugear el código. Debe guardarse en la carpeta `.vscode`, y modificar la variable `${filePath}` por la ruta del archivo que se desea debugear. (Ejemplo: `${workspaceFolder}/Entregable/plot_test.py`)

```json
{
	"configurations": [
		{
			"name": "Python: code debug",
			"type": "debugpy",
			"request": "launch",
			"program": "${filePath}",
			"justMyCode": false
		}
	]
}
```