# Media y Desviación Estandard de una Distribución de Frecuencias
Media ponderada, Varianza ponderada Distribución de recuencia ponderada
Explicación de cálculos con ejemplos

In [62]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from statistics import mean, median, stdev, variance

## Entrega de Oscars
Cada año se otorgan Óscares a la mejor actriz y al mejor actor. 
+ Se presenta una listas (actrices y actores) con las edades de los galardonados en el momento de la ceremonia de entrega de los premios. 
+ Las edades aparecen en orden, empezando con la primera ceremonia de los Premios de la Academia en 1928. 
    + [Notas: 
        + En 1968 hubo un empate en la categoría de mejor actriz, y se utilizó el promedio (la media) de las dos edades; 
        + En 1932 hubo un empate en la categoría de mejor actor, y se utilizó el promedio (la media) de las dos edades. 
        + Tales datos se basan en el artículo “Ages of Oscar-winning Best Actors and Actresses”, de Richard Brown y Gretchen Davis, en la revista Mathematics Teacher. 
            + En ese artículo, el año de nacimiento del ganador del premio se restó del año de la ceremonia; 
            + no obstante, las edades de las listas se basan en la fecha de nacimiento del ganador y en lafecha de la ceremonia de premiación].

In [63]:
# Datos proporcionados
edades_actrices = [22, 37, 28, 63, 32, 26, 31, 27, 27, 28, 30, 26, 29, 24, 38, 25, 29, 41, 30, 35,
                   35, 33, 29, 38, 54, 24, 25, 46, 41, 28, 40, 39, 29, 27, 31, 38, 29, 25, 35, 60,
                   43, 35, 34, 34, 27, 37, 42, 41, 36, 32, 41, 33, 31, 74, 33, 50, 38, 61, 21, 41,
                   26, 80, 42, 29, 33, 35, 45, 49, 39, 34, 26, 25, 33, 35, 35, 28]

edades_actores = [44, 41, 62, 52, 41, 34, 34, 52, 41, 37, 38, 34, 32, 40, 43, 56, 41, 39, 49, 57,
                  41, 38, 42, 52, 51, 35, 30, 39, 41, 44, 49, 35, 47, 31, 47, 37, 57, 42, 45, 42,
                  44, 62, 43, 42, 48, 49, 56, 38, 60, 30, 40, 42, 36, 76, 39, 53, 45, 36, 62, 43,
                  51, 32, 42, 54, 52, 37, 38, 32, 45, 60, 46, 40, 36, 47, 29, 43]

### Las consultas son:
+ Cuales son las medias de ambas distribuciondes de frecuencias
+ Cuales son las medias de ambos grupos de datos

# Media de las distribuciones de frecuencia
Para armar las medias de las distribuciones de frecuencia tenemos que armar primero las distribuciones de frecuencia

### Distribuciones de Frecuencia


In [64]:
# Crear el DataFrame con todas las edades y generos de los ganadores del oscar
datos = {
    'Edad': edades_actrices + edades_actores,
    'Género': ['Actriz'] * len(edades_actrices) + ['Actor'] * len(edades_actores)
}
df= pd.DataFrame(datos)
# Crear los rangos, clases o intervalos y agregarlo a cada muestra el rango al que pertenece
# https://pandas.pydata.org/docs/reference/api/pandas.cut.html
bins = [20, 30, 40, 50, 60, 70, 80, 90]
labels = ['21–30', '31–40', '41–50', '51–60', '61–70', '71–80', '81–90']
df['Rango de Edad'] = pd.cut(df['Edad'], bins=bins, labels=labels, right=False)
df


Unnamed: 0,Edad,Género,Rango de Edad
0,22,Actriz,21–30
1,37,Actriz,31–40
2,28,Actriz,21–30
3,63,Actriz,61–70
4,32,Actriz,31–40
...,...,...,...
147,40,Actor,41–50
148,36,Actor,31–40
149,47,Actor,41–50
150,29,Actor,21–30


#### Construcción de la distirbuciones de frecuencias
A partir de la lista anterior se construye una tabla con las distribuciones de frencuencias por rango de edad.
+ Tanto para Actrices como Actores

In [65]:
# Crear la tabla de frecuencias con crosstab
# https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html
tabla_frecuencias = pd.crosstab(df['Rango de Edad'], df['Género'])

# Mostrar la tabla de frecuencias
tabla_frecuencias

Género,Actor,Actriz
Rango de Edad,Unnamed: 1_level_1,Unnamed: 2_level_1
21–30,1,26
31–40,24,31
41–50,33,12
51–60,12,2
61–70,5,3
71–80,1,1
81–90,0,1


## Marcas de Clase, Rango o Itervalo
Se arman las marcas de clase con el valor medio entre los extremos de cada clase.

In [66]:
tabla_frecuencias['Marca']= [(bins[i]+1+bins[i+1])/2 for i in range(len(bins)-1)]

## Producto entre las marcas y su frecuencia
Se calculan multiplicando las marcas por su frecuencia para actores y actrices respectivamente

In [67]:
tabla_frecuencias['azm'] = tabla_frecuencias.Marca * tabla_frecuencias.Actriz
tabla_frecuencias['arm'] = tabla_frecuencias.Marca * tabla_frecuencias.Actor
tabla_frecuencias

Género,Actor,Actriz,Marca,azm,arm
Rango de Edad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
21–30,1,26,25.5,663.0,25.5
31–40,24,31,35.5,1100.5,852.0
41–50,33,12,45.5,546.0,1501.5
51–60,12,2,55.5,111.0,666.0
61–70,5,3,65.5,196.5,327.5
71–80,1,1,75.5,75.5,75.5
81–90,0,1,85.5,85.5,0.0


## Calculo de la media de la distribución de frecuencias
+ Es el cociente entre la sumatoria de los productos de las marcas por sus frecuencias y la sumatoria de las frecuencias
    + Hay una media para la distribución de frecuencias de las actirces y una para los actores

#### Calculo de la sumatoria de las frecuencias para actrices y actores
Es simplemente la suma de los valores para las actrices y para los actores respectivamente

In [68]:
# La suma debe de los oscars dar igual para acrices y actores dado que se entrega un oscar por año para ambos.
OscarsActriz = tabla_frecuencias.Actriz.sum()
OscarsActor = tabla_frecuencias.Actor.sum()

# La suma-producto de las los oscars por rangos de edades será distinta por estar condicionada
# a las edades en que reciben los oscars
sum_Actrices = tabla_frecuencias.azm.sum()
sum_Actores = tabla_frecuencias.arm.sum()

### Calculo de las medias de las distribuciones de frecuencia para actrices y actores
Se realiza aplicando el cociente entre la sumaproducto y la sumatoria de los oscars

In [69]:
mp_Actrices = num_Actrices/OscarsActriz
mp_Actores = num_Actores/OscarsActor
print('Medias de la distribuciones de Frecuencias:')
print('Media Actrices        Media Actores')
mp_Actrices, mp_Actores

Medias de la distribuciones de Frecuencias:
Media Actrices        Media Actores


(36.55263157894737, 45.36842105263158)

### Calculo de las varianzas y las desviaciones estandard de las distribuciones de frecuencia


In [85]:
(tabla_frecuencias.azm)


Rango de Edad
21–30     663.0
31–40    1100.5
41–50     546.0
51–60     111.0
61–70     196.5
71–80      75.5
81–90      85.5
Name: azm, dtype: float64

In [82]:
(tabla_frecuencias.Actriz.sum()-1)

75

In [87]:
# varianza
varianza_actrices = sum((tabla_frecuencias.Marca - mp_Actrices)**2) / (tabla_frecuencias.Actriz.sum()-1)
varianza_actores = sum((tabla_frecuencias.Marca - mp_Actores) ** 2) / (tabla_frecuencias.Actor.sum()-1)

# desviación estandard
desviacion_actrices = varianza_actrices ** 0.5
desviacion_actores = varianza_actores ** 0.5

# impresión de resultados
print(f'Actrices Media ponderada: {mp_Actrices}.    Actrices Varianza ponderada: {varianza_actrices}.    Actrices Desviación estandard ponderada: {desviacion_actrices}')
print(f'Actrices Media ponderada: {mp_Actores}.    Actrices Varianza ponderada: {varianza_actores}.   Actrices Desviación estandard ponderada: {desviacion_actores}')

Actrices Media ponderada: 36.55263157894737.    Actrices Varianza ponderada: 70.84025854108955.    Actrices Desviación estandard ponderada: 8.41666552389303
Actrices Media ponderada: 45.36842105263158.    Actrices Varianza ponderada: 46.913896583564174.   Actrices Desviación estandard ponderada: 6.849371984610281


## Comparación de medias aritmeticas y medias de las muestras

In [74]:
print('Medias de las observaciones de edades actrices ganadoras del Oscar:')
print(f'Media Actrices:         {mean(edades_actrices)},        Media Actores: {mean(edades_actores)}')
print(f'Varianza Actrices:      {variance(edades_actrices)},    Varianza Actores: {variance(edades_actores)}')
print(f'Desviación Estandar Actrices: {stdev(edades_actrices)},     Desviación Estandar Actores: {stdev(edades_actores)}')

Medias de las observaciones de edades actrices ganadoras del Oscar:
Media Actrices:         35.68421052631579,        Media Actores: 43.94736842105263
Varianza Actrices:      122.40561403508772,    Varianza Actores: 82.15719298245614
Desviación Estandar Actrices: 11.06370706567594,     Desviación Estandar Actores: 9.064060512952025


Las medias se parecen pero no son iguales.
+ Obviamente las medias de las observaciones tienen mayor presición que las medias sobre las distribuciones de frecuencia.
+ Claramente las medias de las distribuciones de frecuencia son utiles cuando las observaciones no son conocidas.

### Conslusiones
+ Se observa que la media de la distribución de frecuencias de actrices (36,5)
+ Es menor que la media de la distribución de frecuencias de actores (45,3)
+ Esto se debe a que las mujeres ganan mas oscars cuando son más jovenes que los hombres,
+ y los hombres ganan mas oscares cuando son mayores

+ Las medidas de tendencia central ponderadas son solo aproximaciones de las medidas de tendencia central
+ Las medidas de variación ponderadas son solo aproximaciones de las medidas de variación

_______________________________________________________________________________________________________________________________

## Multas por exceso de velocidad. 

 + La distribución de frecuencias dada describe las velocidades de conductores multados por la policía de la ciudad de Poughkeepsie. 
 + Estos conductores circulaban por una zona con velocidad límite de 30 km.
    + Rangos de Velocidad: 42-45, 46-49, 50-53, 54-57, 58-61.
    + Frecuencias para estos rangos: 25, 14, 7, 3, 1
 + Calcular la media y la desviación estandard. Luego sacar conclusiones.

In [72]:
# Construcción de listas
Veloc = [42-45, 46-49, 50-53, 54-57, 58-61]
Casos = [25, 14, 7, 3, 1]

# Definición de fronteras entre rangos o clases
Frontera = [41, 45, 49, 53, 57]

# Armado de marcas de clase con el valor medio entre los extremos de cada clase
Marcas = [(Frontera[i]+Frontera[i+1])/2 for i in range (len(Frontera)-1)]

# Producto de las marcas por su frecuencia
Produc = [Marcas[i] * Casos[i] for i in range(len(Marcas))]


In [73]:
# Calculo de la media, varianza ponderada y desviación estandard
total_casos = sum(Casos)

# media
media_ponderada = sum(Produc) / total_casos

# varianza
varianza_ponderada = sum(Casos[i] * (Marcas[i] - media_ponderada) ** 2 for i in range(len(Marcas))) / total_casos

# desviación estandard
desviacion_estandar = varianza_ponderada ** 0.5

# impresión de resultados
print(f'Media ponderada: {media_ponderada}.    Varianza ponderada: {varianza_ponderada}.    Desviación estandard ponderada: {desviacion_estandar}')


Media ponderada: 45.1.    Varianza ponderada: 13.969799999999998.    Desviación estandard ponderada: 3.737619563304965


La media y la desviación estandar permiten inferir que el grueso de los exesos de velocidad se concentra dentro del primer y segundo rango.
+ Luego se atenúa para los rangos de velocidad superiores.

_______________________________________________________________________________________________________________________________