## Tablas de frecuencias y análisis de Pareto
## Caso: Compras

In [2]:
# Cargado de librerías
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import PercentFormatter

In [None]:
# Carga de datos
mainpath = "C:/Users/Carlos/OneDrive/Formación/Python/Casos de análisis/Compras/"
filename = "Datos Compras.csv"
fullpath = mainpath + filename
Productos = pd.read_csv(fullpath, sep = ",")

### Barrido general de datos

In [None]:
# Características generales de los datos
Productos.info()

In [None]:
Productos.head()

### Creación de la tabla de frecuencias para variables cualitativas - Método 1

In [None]:
frec = pd.value_counts(Productos["Producto"])
frec

In [None]:
frec = pd.value_counts(Productos["Producto"])
frec_df = pd.DataFrame(frec).reset_index()

# Asignación de nombres de columna
frec_df.columns = ["Producto","Frec_abs"]

# Frecuencia acumulada
frec_df["Frec_acum"] = frec_df["Frec_abs"].cumsum()

# Frecuencia relativa
frec_df["Frec_rel_%"] = round((frec_df["Frec_abs"] / frec_df["Frec_abs"].sum())*100,1)

# Frecuencia relativa acumulada
frec_df["Frec_rel_acum_%"] = frec_df["Frec_rel_%"].cumsum()

# Visualizacón del resultado
frec_df

### Creación de la tabla de frecuencias para variables cualitativas - Método 2

In [None]:
# Creación de la tabla de frecuencias
table = pd.crosstab(index = Productos["Producto"], columns = "Frecuencia")

# Frecuencia relativa
table["Frecuencia_rel"] = table["Frecuencia"] / table["Frecuencia"].sum()

# Fila de total
table = table.append(table[["Frecuencia","Frecuencia_rel"]].sum().rename("TOTAL"))

table

### Creación de la tabla de frecuencias para variables cuantitativas - Método 1

Use cut when you need to segment and sort data values into bins. This function is also useful for going from a continuous variable to a categorical variable. For example, cut could convert ages to groups of age ranges. Supports binning into an equal number of bins, or a pre-specified array of bins.

In [None]:
# Carga de datos
mainpath = "C:/Users/Carlos/OneDrive/Formación/Python/Casos de análisis/Compras/"
filename = "Distance.csv"
fullpath = mainpath + filename
Data_distance = pd.read_csv(fullpath, sep = ",")

In [None]:
Data_distance.head()

In [None]:
# Contenedores y etiquetas de datos
bins = [0,7,14,21,28,35,42]
labels = ["1-7","7-14","14-21","21-28","28-35","35-42"]

# Incorporación de los datos sobre el dataset original
Data_distance["Distance bracket"] = pd.cut(Data_distance["Distance"], bins = bins, labels = labels, right = False)
Data_distance
# Creación de la distribución de frecuencias
#table = pd.crosstab(index = Data_distance["Distance bracket"], columns = "Frequency")

# Frecuencia acumulada
#table["Frec_acum"] = table["Frequency"].cumsum()

# Frecuencia relativa
#table["Frec_rel_%"] = round((table["Frequency"] / table["Frequency"].sum())*100,1)

# Frecuencia relativa acumulada
#table["Frec_rel_acum_%"] = table["Frec_rel_%"].cumsum()

# Visualizacón del resultado
#table

### Creación de la tabla de frecuencias para variables cuantitativas - Método 2

In [4]:
# Carga de datos
mainpath = "C:/Users/Carlos/OneDrive/Formación/Python/Casos de análisis/Compras/"
filename = "Distance.csv"
fullpath = mainpath + filename
Data_distance = pd.read_csv(fullpath, sep = ",")

In [53]:
Data_distance.head()

Unnamed: 0,Distance,Distance bracket
0,14,14-21
1,25,21-28
2,3,1-7
3,36,35-42
4,40,35-42


In [51]:
# Contenedores y etiquetas de datos
bins = [0,7,14,21,28,35,42]
labels = ["1-7","7-14","14-21","21-28","28-35","35-42"]

# Incorporación de los datos sobre el dataset original
Data_distance["Distance bracket"] = pd.cut(Data_distance["Distance"], bins = bins, labels = labels, right = False)

frec = pd.value_counts(Data_distance["Distance bracket"])
table = (pd.DataFrame(frec).
         reset_index(drop = False).
         sort_values("index", ascending = True).
         reset_index(drop = True))

# Asignación de nombres de columna
table.columns = ["Class","Frequency"]

# Frecuencia acumulada
table["Frec_acum"] = table["Frequency"].cumsum()

# Frecuencia relativa
table["Frec_rel_%"] = round((table["Frequency"] / table["Frequency"].sum())*100,1)

# Frecuencia relativa acumulada
table["Frec_rel_acum_%"] = table["Frec_rel_%"].cumsum()

# Visualizacón del resultado
table

Unnamed: 0,Class,Frequency,Frec_acum,Frec_rel_%,Frec_rel_acum_%
0,1-7,7,7,17.5,17.5
1,7-14,6,13,15.0,32.5
2,14-21,8,21,20.0,52.5
3,21-28,9,30,22.5,75.0
4,28-35,4,34,10.0,85.0
5,35-42,6,40,15.0,100.0


### Diagrama de Pareto

In [None]:
# Indicamos que utilizaremos un solo gráfico
fig = plt.figure()
ax = fig.add_subplot(1,1,1)

# Título del gráfico
ax.set_title("Diagrama de Pareto")

# Creamos un diagrama de barras con las frecuencias absolutas
ax.bar(frec_df["Producto"], frec_df["Frec_abs"], color = "C0")

# Graficamos los valores de frecuencia relativa acumulada
ax2 = ax.twinx() # Nuevo eje a graficar
ax2.plot(frec_df["Producto"],frec_df["Frec_rel_acum_%"], color = "C1", marker = "D", ms = 5)
ax2.yaxis.set_major_formatter(PercentFormatter())

# Asignamos un color para las etiquetas de los ejes "y"
ax.tick_params(axis="y", color = "C0")
ax2.tick_params(axis="y", color = "C1")

# Rotamos las etiqetas del eje "x"
ax.set_xticklabels(frec_df["Producto"], rotation = 75)

plt.show()
