# Medidas de resumen

Las medidas de resumen son aquellas que se usan con el fin de condensar la información de un *DataFrame* a través de estadísticos. Dentro de los estadísticos más conocidos se encuentran: media $\bar{x}$, desviación estándar $s$, varianza $s^2$, mediana (segundo cuartil $Q_2$) y la moda. También existen otro tipo de medidas como el mínimo ($\min$), el máximo ($\max$), la suma y el conteo, entre otros.

In [16]:
#importamos las librerías necesarias
import pandas as pd

#Generamos el DataFrame de ejemplo
datos = pd.DataFrame({'Fecha': ['21/08/2023', '21/08/2023', '22/08/2023',
                                '10/09/2024', '10/09/2024'],
                      'No. de Referencia': [1, 2, 3, 4, 5],
                     'Detalle o Cuenta': ['Inmueble', 'Cuentas por pagar', 'Caja',
                                          'Cuentas por pagar', 'Inmueble'],
                     'Debe': [100000, 0, 0, 0, 20000],
                     'Haber': [0, 50000, 50000, 20000, 0]})

In [17]:
#Dentro de las medidas de resumen tenemos:
#suma: Cuanto se trata de datos cuantitativos es a nivel aritmético
#cuando se trata de datos cualitativos es concatenación
print(datos['Detalle o Cuenta'].sum()) #Datos cualitativos
print(datos['Haber'].sum()) #Datos cuantitativos

InmuebleCuentas por pagarCajaCuentas por pagarInmueble
120000


In [18]:
# si lo quiero hacer en más de una columna
datos[['Haber', 'Debe']].sum()

Unnamed: 0,0
Haber,120000
Debe,120000


In [19]:
#Por ejemplo podríamos utilizar la suma para comparar el Haber y el Debe
if datos['Haber'].sum() == datos['Debe'].sum():
    print('El Haber y el Debe son iguales')
else:
    print('El Haber y el Debe son diferentes')

El Haber y el Debe son iguales


In [20]:
#la moda es otro estadístico conocido como  medida de resumen
#por ejemplo, si queremos saber sobre qué cuenta se realizan más transacciones
#podemos calcular la moda

datos['Detalle o Cuenta'].mode()

Unnamed: 0,Detalle o Cuenta
0,Cuentas por pagar
1,Inmueble


In [21]:
#el promedio o media es un dato estadístico bastante utilizado.
#este sólo sirve para datos cuantitativos
datos[['Debe', 'Haber']].mean()

Unnamed: 0,0
Debe,24000.0
Haber,24000.0


In [22]:
#para la mediana, sería algo muy similar
datos[['Debe', 'Haber']].median()

Unnamed: 0,0
Debe,0.0
Haber,20000.0


In [23]:
# En el caso de máximo y el mínimo, tendremos una forma análoga de cálculo
maximo_debe = datos['Debe'].max()
minimo_debe = datos['Debe'].min()

# El rango es la diferencia entre el máximo valor y el mínimo valor de una
# variable numérica.
print('El rango del Debe  es: ', maximo_debe - minimo_debe)

El rango del Debe  es:  100000


In [24]:
# El conteo indica el número de registros
datos['Detalle o Cuenta'].count()

5

In [25]:
datos['Detalle o Cuenta'].unique()

array(['Inmueble', 'Cuentas por pagar', 'Caja'], dtype=object)