# Paquete SMEPY
## Autor: Erik Angulo

# Instalación

Esta es la guía de uso del paquete 'smer'. Está alojado en "github.com/erikangulo/smepy"

Este paquete se puede instalar fácilmente a través de la librería devtools, desde Github:

También se puede instalar a través del código fuente usando la consola de R.

Este paquete tiene dependencias únicamente para ciertas funciones concretas listadas a continuación. El paquete puede operar correctamente sin ellas excepto para las funciones mencionadas e indicará al usuario al ejecutar cada programa si necesita alguna dependencia.

* jupyter notebook
* pandas
* numpy
* seaborn
* matplotlib

Cargamos el paquete:

In [1]:
import smepy.dataset as ds 

# Uso

El objetivo de este paquete es facilitar la aplicación de cálculos y estadísticos en datos a usuarios que dispongan de poca experiencia en el ámbito de la programación. También es adecuado para conseguir los resultados deseados automáticamente en pocas líneas de código sin necesidad de programar nada. Entre las funciones disponibles, se encuentran la lectura y escritura de datasets, cálculo de la varianza, curva ROC, discretización, normalización y estandarización de variables, cálculo de la correlación, cálculo de la entropía y distintos gráficos que representen los resultados.

En este jupyter notebook presentaremos un tutorial de cómo usar el paquete


# Gestión de Dataset

En esta sección observaremos que son los Dataset y como podemos crearlos, cargarlos, guardarlos y visualizarlos.

## Creación de Dataset

Los Dataset son unas clases que funcionan como tablas, donde cada fila corresponde a instancias y las columnas a las variables. Cada variable será de un tipo, ya sea numérica, lógica o de caracteres. Los dataset, además de la tabla, tendrán un nombre.

Empecemos observando como se crea un Dataset.

Los Dataset se deben crear con estructura de diccionario, donde las llaves son el nombre de las columnas y los valores son el contenido de las columnas. El único requisito que tiene es que ha de tener como mínimo dos filas y una columna (pues para elementos con una fila independientemente de las columnas ya podemos trabajar con un vector normal y corriente).

A cada Dataset le podemos asignar un id o nombre, el cual se generará automáticamente con un número en caso de no especificarlo. Además, podemos decidir si factorizar alguna de sus columnas. De esta forma, aquellas que contengan menos valores distintos que el número indicado serán factorizadas.

In [2]:
prueba1 = [3,3,5,8,9,5]
prueba2 = ["A", "B", "D", "R", "S", "P"]
dictPrueba = {"N" : prueba1, "L": prueba2}

dsPrueba = ds.Dataset(dictPrueba)
print(dsPrueba)

Nombre del Dataset: 1
Columnas del Dataset: 2
Filas del Dataset: 6
Contenido del Dataset:
   N  L
0  3  A
1  3  B
2  5  D
3  8  R
4  9  S
5  5  P


También podemos cambiarles el nombre a las columnas deseadas o directamente a todas ellas. Para cada columna deseada se indicará mediante un diccionario como llave los nombres antiguos y como valores los nombres nuevos. Para cambiar todas las columnas a la vez basta con crear un array con los nuevos nombres para las columnas

In [3]:
dsPrueba.nombres_columna({"N":"Num"}) #cambiar la columna deseada
print(dsPrueba)
dsPrueba.nombres_columna(["Num", "Let"]) #todas las columnas
print(dsPrueba)

Nombre del Dataset: 1
Columnas del Dataset: 2
Filas del Dataset: 6
Contenido del Dataset:
   Num  L
0    3  A
1    3  B
2    5  D
3    8  R
4    9  S
5    5  P
Nombre del Dataset: 1
Columnas del Dataset: 2
Filas del Dataset: 6
Contenido del Dataset:
   Num Let
0    3   A
1    3   B
2    5   D
3    8   R
4    9   S
5    5   P


## Lectura y guardado de Dataset

Además de poder crear Dataset usando los comandos anteriores, también podemos crearlos desde un fichero. De la misma manera, podemos guardar un Dataset como fichero.

El guardado de ficheros está limitado a formato csv, pero la lectura puede ser de formato csv o derivados como tsv. Para ello es necesario indicar que separador usa (por defecto ",") y el caracter usado para los números decimales (por defecto "."). De igual manera podemos asignar un nombre al dataset creado. Si el fichero dispone de encabezado, es decir, nombres asignados a cada columna como la primera instancia del fichero, se usarán como nombres del Dataset, en caso contrario, deberá indicarse con el parámetro 'encabezado' como False.


In [7]:
dsPuntos = ds.leer_datos("LecturaCSV_R.csv", nombre="Puntos", encabezado=True, sep=",", decimal='.')
print(dsPuntos)

Nombre del Dataset: Puntos
Columnas del Dataset: 4
Filas del Dataset: 8
Contenido del Dataset:
   Intento  Puntuacion Participante  Conseguido
0        1         2.1         Juan        True
1        5         3.4         Pepe       False
2        8         5.6        Paula       False
3        5         2.3       Marisa        True
4        6         8.8        Nerea       False
5        4         5.5        Jorge       False
6        0         9.6         Juan       False
7        0         1.3        Paula        True


In [None]:
#ds.guardar_datos(dsPuntos, "Guardar.txt")