In [228]:
import numpy as np
import matplotlib as mp
import matplotlib.pyplot as plt
from matplotlib.ticker import PercentFormatter
import pandas as pd
import random as r
import pprint as pp

In [251]:
# Utils
# Params: dataset: pd.DataFrame(pd.Series(data).valueCounts())
def getAcumulative(dataset):
    acum = []
    valor_acum = 0
    for i in dataset:
        valor_acum += i
        acum.append(valor_acum)
    return acum

# Params: df : FrecuencyTable
def paretoDiagram(df):
    fig = plt.figure()
    ax = fig.add_subplot(1,1,1)
    ax.set_title("Diagrama de Pareto")
    ax.bar(df.index, df["Frecuencia Absoluta"], color="#ccc000")

    ax2 = ax.twinx()
    ax2.plot(df.index, df["Frecuencia Absoluta Acumulada"], color="#ccc111", marker="D", ms=5)
    ax2.yaxis.set_major_formatter(PercentFormatter())

    ax.tick_params(axis="y", colors="#ccc000")
    ax2.tick_params(axis="y", colors="#ccc111")

    ax.set_xticklabels(df.index,rotation=75)

    plt.show()

## Tablas de frecuencias
def FrecuencyTable(sample):
    frec1 = pd.Series(sample).value_counts()
    dataFrame = pd.DataFrame(frec1).sort_index()
    dataFrame.columns = ["Frecuencia Absoluta"]
    dataFrame["Frecuencia Absoluta Acumulada"] = getAcumulative(dataFrame["Frecuencia Absoluta"].values)
    dataFrame["Frecuencia Relativa"] = 100*dataFrame["Frecuencia Absoluta"]/len(sample)
    dataFrame["Frecuencia Relativa Acumulada"] = getAcumulative(dataFrame["Frecuencia Relativa"].values)
    return dataFrame

## Analisis completo, muestra:
# Mínimo, Máximo, Recorrido, Media muestral, Desvío medio, y Estadístico varianza muestral 
def getAnalysis(dataset):    
    minimo = np.min(dataset)
    maximo = np.max(dataset)
    recorrido = maximo - minimo
    acc = 0
    for i in dataset:
        acc += i
    media_muestral = acc/len(dataset)
    acc = 0
    for i in dataset:
        acc += abs(i - media_muestral)
    desvio_medio = acc / len(dataset)
    acc = 0
    for i in dataset:
        acc += (i - media_muestral)**2
    estadistico_varianza_muestral = acc/(len(dataset) - 1)
    desvio_muestral = np.sqrt(estadistico_varianza_muestral)
    acc = 0
    for i in dataset:
        if i < 1000:
            acc += 1
    p1 = acc / len(dataset) * 100
    return [minimo, maximo, recorrido, media_muestral, desvio_medio, estadistico_varianza_muestral, desvio_muestral, p1]


In [215]:
def createSampleC1():
    arr = []
    for i in range(30):
        arr.append(int(np.floor(np.log(1-r.random())*(-900))))
    return arr
def createSampleC2():
    arr = []
    for i in range(35):
        arr.append(int(np.floor(np.log(1-r.random())*(-1000))))
    return arr
def createSampleC3():
    arr = []
    for i in range(40):
        arr.append(int(np.floor(np.log(1-r.random())*(-1100))))
    return arr

In [222]:
# C1m1 = createSampleC1()
# print(C1m1)
# C2m2 = createSampleC2()
# print(C2m2)
C3m3 = createSampleC3()
print(C3m3)

[2583, 591, 1193, 141, 250, 157, 125, 597, 670, 1166, 326, 885, 652, 2555, 1526, 98, 491, 616, 787, 490, 168, 156, 2386, 715, 507, 1119, 122, 253, 882, 28]
[411, 273, 830, 755, 1147, 1420, 606, 443, 294, 838, 1018, 1936, 1989, 1253, 278, 1, 1296, 1213, 273, 173, 100, 1438, 106, 1253, 254, 570, 301, 913, 1380, 130, 799, 2129, 77, 1358, 201, 875, 2023, 2990, 31, 921]


In [249]:
def fullAnalysis(dataset):
    analysis = getAnalysis(dataset)
    print(f"Mínimo: {analysis[0]}\nMáximo: {analysis[1]}\nRecorrido: {analysis[2]}\nMedia muestral: {analysis[3]}\nDesvio medio: {analysis[4]}\nEstadístico varianza muestral: {analysis[5]}\nDesvío Muestral: {analysis[6]}\nP1: {analysis[7]}")

In [254]:
fullAnalysis(C3m3)
FrecuencyTable(C3m3)

Mínimo: 1
Máximo: 2990
Recorrido: 2989
Media muestral: 857.4
Desvio medio: 555.9399999999998
Estadístico varianza muestral: 487882.14358974365
Desvío Muestral: 698.4856072889002
P1: 62.5


Unnamed: 0,Frecuencia Absoluta,Frecuencia Absoluta Acumulada,Frecuencia Relativa,Frecuencia Relativa Acumulada
1,1,1,2.5,2.5
31,1,2,2.5,5.0
77,1,3,2.5,7.5
100,1,4,2.5,10.0
106,1,5,2.5,12.5
130,1,6,2.5,15.0
173,1,7,2.5,17.5
201,1,8,2.5,20.0
254,1,9,2.5,22.5
273,2,11,5.0,27.5


In [241]:
a = sorted([2583, 591, 1193, 141, 250, 157, 125, 597, 670, 1166, 326, 885, 652, 2555, 1526, 98, 491, 616, 787, 490, 168, 156, 2386, 715, 507, 1119, 122, 253, 882, 28])
print(a)

[28, 98, 122, 125, 141, 156, 157, 168, 250, 253, 326, 490, 491, 507, 591, 597, 616, 652, 670, 715, 787, 882, 885, 1119, 1166, 1193, 1526, 2386, 2555, 2583]
