# Tipos de variables estadísticas

* **Variables Continuas:** Se generan a partir de mediciones.
* **Variables discretas:** Se generan a partir de conteos.
* **Variables Categóricas:** Se generan a partir de clasificaciones.



A la hora de realizar un análisis descriptivo, se recomienda inicialmente realizar resúmenes y representaciones visuales de los datos, por medio de herramientas como los gráficos y tablas. La siguiente fase es utilizar medidas numéricas, para determinar valores representativos de centralidad, variabilidad o atipicidad en los datos.



# Datos agrupados

En ocaciones cuando se tienen variables númericas(discretas o continuas) con un rango de datos muy aplio por lo que se recomienda realizar agrupaciones en clases. Luego estas agrupaciones seran representadas en forma de tabla de frecuencia

In [1]:
import pandas as pd
import os
import numpy as np
from math import ceil

In [2]:
# Conocer el directorio local
os.getcwd()

'C:\\Users\\ydmar\\OneDrive\\Documentos\\CurosCienciasDatos\\01 - Mineria de datos'

In [3]:
# Cambiamos el directorio local a donde tenemos nuestras bases de datos
os.chdir('BasesDatos/')

In [4]:
# Cargar la base de datos con la que se va a trabajar
df_ventas = pd.read_excel('ventas.xlsx')

In [5]:
# observamos las primeras filas de la base de datos
df_ventas.head()

Unnamed: 0,NoFactura,Producto,Cantidad,FechaFactura,PrecioUnidad,Pais
0,536365,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-01-12 08:26:00,2.55,United Kingdom
1,536365,WHITE METAL LANTERN,6,2010-01-12 08:26:00,3.39,United Kingdom
2,536365,CREAM CUPID HEARTS COAT HANGER,8,2010-01-12 08:26:00,2.75,United Kingdom
3,536365,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-01-12 08:26:00,3.39,United Kingdom
4,536365,RED WOOLLY HOTTIE WHITE HEART.,6,2010-01-12 08:26:00,3.39,United Kingdom


In [6]:
 def tabla_frecuencia(df, columna, cabecera=True):
        
    # tabla de frecuencia para pais
    tabla_frecuencia = pd.DataFrame(df[str(columna)].value_counts())

    # Cambiamos el nombre a las columnas
    tabla_frecuencia.columns = ['Frecuencia']

    # Contruimos la columna de frecuencia relativa
    tabla_frecuencia['Frecuencia_relativa'] = tabla_frecuencia.Frecuencia / tabla_frecuencia.Frecuencia.sum() 

    # Contruimos la variable porcentaje
    tabla_frecuencia['Porcentaje'] = tabla_frecuencia.Frecuencia_relativa.apply(lambda x: str(round(x * 100, 2)) + "%")
    
    if cabecera:
        salida = tabla_frecuencia.head()
    else:
        salida = tabla_frecuencia
    
    # Imprimir dimensiones 
    print('Las dimensiones de la tabla es: ', tabla_frecuencia.shape)
    
    return salida

In [7]:
tabla_frecuencia(df_ventas, 'Pais')

Las dimensiones de la tabla es:  (37, 3)


Unnamed: 0,Frecuencia,Frecuencia_relativa,Porcentaje
United Kingdom,230345,0.91843,91.84%
Germany,4344,0.01732,1.73%
France,3736,0.014896,1.49%
EIRE,3308,0.01319,1.32%
Netherlands,1245,0.004964,0.5%


In [8]:
tabla_frecuencia(df_ventas, 'Cantidad')

Las dimensiones de la tabla es:  (488, 3)


Unnamed: 0,Frecuencia,Frecuencia_relativa,Porcentaje
1,71260,0.284127,28.41%
2,38260,0.15255,15.26%
12,27531,0.109771,10.98%
6,19706,0.078572,7.86%
4,16938,0.067535,6.75%


Dado que podemos encontrar 488 valores posibles en la variable `Cantidad` recurrimos a realizar una sub división por clases.

para realizar lo anterior seguimos el siguiente procedimiento:

* Extraer el valor máximo y el minimo para la variable.
* Seleccionar el número de clases que se quieren, de manera que se cubra todo el rango de datos y sin que ningún par de clases de traslapan entre si (intervalo de clase).
* Contar le número de observaciones que se encuentran en cada sub intervalo (Frecuencia de clase).
* Calcular la frecuencia relativa para cada sub intervalo.

Cuando no tenemos claro el número de clases que debemos seleccionar podemos utilizar algunos metodos propuestos en la bibliografia:

* Sturges $K=1+3.333\log_{10}(n)$ donde $n$ es el número de datos. Subestima el número de intervalos.
* Vallema $K = 2\sqrt(n)$. Recomenadado cuando $n \leq 50$.
* Dixon y Kronmal $K=10 \ \log_{10}(n)$. Recomenadao cuando $n \geq 50$.



El problema de la agrupación es la pérdida de información ya que se reemplazan las distribución de cada clase por la frecuencia. Además si se tienen muy pocas clases la pérdida de información es muy grande, y si se tienen muchas clases se corre el riesgo de no observar patrones de interés.



In [2]:
def tablas_clases(df, columna, cabecera=True):
    from math import ceil
    minimo = df[str(columna)].min()
    maximo = df[str(columna)].max() + 1 
    rango = maximo - minimo

    k = ceil(1 + 3.333 * np.log10(df_ventas.shape[0]))

    amplitud = rango / k

    valor = minimo
    lista = [minimo]
    for _ in range(19):
        valor += amplitud
        lista.append(round(valor, 0))

    conteo = 0 
    diccionario = {}
    lista_x = []
    for i in range(len(lista)-1):
        for j in df[str(columna)]: 
            if lista[i] <= j and j < lista[i+1]:
                conteo += 1
            diccionario['['+str(lista[i])+', '+str(lista[i+1])+')'] = [conteo]
        conteo = 0
        lista_x.append(lista[i] + ((lista[i+1]-lista[i])/2))



    tabla_frecuencia = pd.DataFrame(diccionario).T

    tabla_frecuencia.columns = ['Frecuencia']

    # Contruimos la columna de frecuencia relativa
    tabla_frecuencia['Frecuencia_relativa'] = tabla_frecuencia.Frecuencia / tabla_frecuencia.Frecuencia.sum() 

    # Contruimos la variable porcentaje
    tabla_frecuencia['Porcentaje'] = tabla_frecuencia.Frecuencia_relativa.apply(lambda x: str(round(x * 100, 2)) + "%")
    
    # centro de clase
    tabla_frecuencia['xi'] = lista_x
    #print(lista_x)
    
    if cabecera:
        salida = tabla_frecuencia.head()
    else:
        salida = tabla_frecuencia
    
    # Imprimir dimensiones 
    print('Las dimensiones de la tabla es: ', tabla_frecuencia.shape)
    #print(len(lista_x))
    
    return salida

In [3]:
tablas_clases(df_ventas, 'Cantidad')

NameError: name 'df_ventas' is not defined

<div class="alert alert-info">
   Implementar la función anterior de forma que se pueden aplicar la diferentes metodologias
</div>