## La librería statistics

La librería **statistics** incluye funciones matemáticas para realizar
cálculos estadísticos.

### Alcance y limitaciones

Esta librería está muy lejos de la potencia de otras librerías de
terceros como numPy, sciPy y otros, pero tiene la ventaja de que viene
incorporade en lo librería standars (desde Pythn 3.4), y tiene
funcionalidad suficiente para realizar varias gráficas y cálculos
relativamente complejos.

Estas funciones trabajan con números enteros, en coma flotante
(`float`), decimales (`Decimal`) y fraciones (`Fraction`). Pero es muy
recomendable trabajar con listas y otras colecciones que los datos sean
__homogeneos__. Por ejemplo, una lista de enteros solo deberia tener
enteros.

### Funciones definidas en este modulo

Las mas importantes (o al menos las que veremos aquí) son:

- mean
- geometric_mean
- median
- mode
- stdev
- variance

- `mean`

La funcion **mean** calcula la media arietmética de un conjunto de datos
(Una poblacion o una muestra, en terminos estadisticsos)

Ejercicio: Calcular la media arietmética de 23, 76, 99, 12

In [1]:
import statistics

print(statistics.mean([23, 76, 99, 12]))

52.5


la función **geometric\_mean()** es equivalente a la anterior, pero
calcula media geométrica.

La media geométrica de \$n\$ numeros es la raíz n-ésima del producto de
todos los números. Se usa por ejemplo para promediar intereses
compuestos.

Por ejemplo, la media geométrica de 2 y 18 es

$$ \sqrt[2]{2 \cdot 18} = \sqrt[2]{36} = 6 $$

Otro ejemplo, la media de 1, 3 y 9 sería:

$$ \sqrt[3]{1 \cdot 3 \cdot 9} = \sqrt[3]{27} = 3 $$

Ejercicio: Calcular la media geometrica de 23, 76, 99, 12 usando statistics.geometric_mean

- `median`

La función **median()** nos devuelve la mediana de una serie de valores,
es decir, el valor que está en la posición central en un conjunto de
datos ordenados. Si el número de datos es impar, la posicion central es
unica y el valor que esté ahí es la medianda, pero si son pares, el
valor de la mediana es la media de los dos valores que estan a la mitad.

Por ejemplo, la serie \[3, 6, 9, 12, 24\], como tiene 5 elementos,
impar, la posicion de la mediana es $3$ y para este caso la mediana vale
$9$.

Pero si el número de elementos es par, como en \[3, 6, 9, 12\], no hay
una posición central única, el centro podrias ser bien la segunda
posicion o la tercera. Asi que lo que se hace es tomar la media de los
valores en esa posicion, $3$ y $6$, asi que la mediana es $4.5$.

Ejercicio: Calcular la mediana 23, 76, 99, 12 usando statistics.median

In [19]:
import statistics

print(statistics.median([23, 76, 99, 120]))

87.5


- `mode`

La función **mode()** nos da la moda, esto es, el valor o valores que
más se repite dentro de la serie.

Por ejemplo, para los valores \[1, 2, 4, 4, 4, 4, 7, 39142\], la moda es
4.

Esta función es la única dentro de esta librería que, además de aceptar
números, tambien acepta valores discretos, por ejemplo:

In [21]:
import statistics

statistics.mode(["red", "blue", "blue", "blue", "blue", "blue", "blue", "red", "green", "red", "red"])

'blue'

Ejercicio: Dado el siguiente texto:

In [2]:
from samples import text
print(text)

- Haga el favor de poner atención en la primera cláusula porque es muy importante. Dice que… la parte contratante de la primera parte será considerada como la parte contratante de la primera parte. ¿Qué tal, está muy bien, eh?
- No, eso no está bien. Quisiera volver a oírlo.
- Dice que… la parte contratante de la primera parte será considerada como la parte contratante de la primera parte.
- Esta vez creo que suena mejor.
- Si quiere se lo leo otra vez.
- Tan solo la primera parte.
- ¿Sobre la parte contratante de la primera parte?
- No, solo la parte de la parte contratante de la primera parte.
- Oiga, ¿por qué hemos de pelearnos por una tontería como ésta? La cortamos.
- Sí, es demasiado largo. ¿Qué es lo que nos queda ahora?
- Dice ahora… la parte contratante de la segunda parte será considerada como la parte contratante de la segunda parte.
- Eso si que no me gusta nada. Nunca segundas partes fueron buenas.
- Escuche: ¿por qué no hacemos que la primera parte de la segunda parte con

In [22]:
from IPython.display import HTML

HTML('''
<iframe width="560" height="315" src="https://www.youtube.com/embed/uaeLtGvLxF0" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>''')

1)  Usar `statistics.mean` para encontrar la media de la *longitud* de las
    palabras
    
2)  Usar `statistics.mode` para encontrar la palabra más repetida

Podemos usar esta función a la que le pasamos un texto y nos devuelve
todas las palabras que lo contienen en forma de lista, manteniendo el
orden pero eliminando simpbolos como -, ?, !...

In [29]:
import re

def text_to_words(text):
    pat_seps = re.compile("[-\s!?¿+.,;:]+")
    words = (w.strip().lower() for w in pat_seps.split(text))
    return [w for w in words if w]

text = """\
- Haga el favor de poner atención en la primera cláusula porque es muy importante. Dice que… la parte contratante de la primera parte será considerada como la parte contratante de la primera parte. ¿Qué tal, está muy bien, eh?
- No, eso no está bien. Quisiera volver a oírlo.
- Dice que… la parte contratante de la primera parte será considerada como la parte contratante de la primera parte.
- Esta vez creo que suena mejor.
- Si quiere se lo leo otra vez.
- Tan solo la primera parte.
- ¿Sobre la parte contratante de la primera parte?
- No, solo la parte de la parte contratante de la primera parte.
- Oiga, ¿por qué hemos de pelearnos por una tontería como ésta? La cortamos.
- Sí, es demasiado largo. ¿Qué es lo que nos queda ahora?
- Dice ahora… la parte contratante de la segunda parte será considerada como la parte contratante de la segunda parte.
- Eso si que no me gusta nada. Nunca segundas partes fueron buenas.
- Escuche: ¿por qué no hacemos que la primera parte de la segunda parte contratante sea la segunda parte de la primera parte?
"""

words = text_to_words(text)

['haga',
 'el',
 'favor',
 'de',
 'poner',
 'atención',
 'en',
 'la',
 'primera',
 'cláusula',
 'porque',
 'es',
 'muy',
 'importante',
 'dice',
 'que…',
 'la',
 'parte',
 'contratante',
 'de',
 'la',
 'primera',
 'parte',
 'será',
 'considerada',
 'como',
 'la',
 'parte',
 'contratante',
 'de',
 'la',
 'primera',
 'parte',
 'qué',
 'tal',
 'está',
 'muy',
 'bien',
 'eh',
 'no',
 'eso',
 'no',
 'está',
 'bien',
 'quisiera',
 'volver',
 'a',
 'oírlo',
 'dice',
 'que…',
 'la',
 'parte',
 'contratante',
 'de',
 'la',
 'primera',
 'parte',
 'será',
 'considerada',
 'como',
 'la',
 'parte',
 'contratante',
 'de',
 'la',
 'primera',
 'parte',
 'esta',
 'vez',
 'creo',
 'que',
 'suena',
 'mejor',
 'si',
 'quiere',
 'se',
 'lo',
 'leo',
 'otra',
 'vez',
 'tan',
 'solo',
 'la',
 'primera',
 'parte',
 'sobre',
 'la',
 'parte',
 'contratante',
 'de',
 'la',
 'primera',
 'parte',
 'no',
 'solo',
 'la',
 'parte',
 'de',
 'la',
 'parte',
 'contratante',
 'de',
 'la',
 'primera',
 'parte',
 'oiga',
 

In [27]:
import statistics
from samples import text


words = text_to_words(text)
words[0:10]



['haga',
 'el',
 'favor',
 'de',
 'poner',
 'atención',
 'en',
 'la',
 'primera',
 'cláusula']

Usar ahora esta version mejorada que elimina palabras demasiado
comunes.

In [31]:
def text_to_words(text):

    exclude_words = ['', 'el', 'la', 'los', 'las', 'y', 'o']
    pat_seps = re.compile("[-\s!?¿+.,;:]+")
    words = (w.strip().lower() for w in pat_seps.split(text))
    return [w for w in words if w not in exclude_words]

In [32]:
import statistics
from samples import text

words = text_to_words(text)
print(statistics.mode(words))

parte


- `stdev`

La función **stdev(data, xbar=None)** devuelve la desviación estándar
(esto es, la raiz cuadrada de la varianza). Tambien podemos calcular
directamente la varianza con la funcion **variance(data, xbar=None)**.

Las dos funciones usan los mismo parámetros, y estas dos medidas se usan
para medir la variabilidad, es decir, si los datos estan muy dispersdos
o muy agrupados). Un numero alto indica que los datos estan muy
dispersos, un numero pequeño, que estan muy agrupados. Un valor de cero
significaria que no hay disperson en absoluto; todos los valores son
iguales

- `harmonic_mean`

Por úlimo, la funcion **`harmonic_mean(data)`** devuelve la media
armónica. Esta es muy útil en conjuntos de números que se definen en
relación con alguna unidad, por ejemplo la velocidad (distancia por
unidad de tiempo).

$$ \bar{x} = \frac{n}{\sum_{i=1}^{n}  \left( \frac{1}{x_n} \right)} $$


La media armónica es la inversa de la media arietmetica, aplicado a los
inversos de los valores. Es decir, que donde la media divide, ahora
multiplicamos, pero la suma no se hace con los valores, sino con los
inversos de los valores.

Por ejemplo, la media armónica de los números: 34, 27, 45, 55, 22, y 34
es:

$$ \frac{6}{\frac{1}{34}+\frac{1}{27}+\frac{1}{45}+\frac{1}{55}+\frac{1}{22}+\frac{1}{34}} \approx 33,018 $$

Nota: Si alguno de los valores es cero, la meia armónica se considera 0

Para que sirve la media armonica? para aquellos valores que sean
proporciones o ratios, por ejemplo las velocidades.

Pregunta: Supongamos un coche que circula 10 kilometros a 40 km/h, luego
otros 10 km a 60 km/h. ¿Cuál es su velocidad media?

In [19]:
import statistics
statistics.harmonic_mean([40, 60])

48.0

Pregunta: Supongamos un inversor que ha invertido la misma cantidad en
tres compañias, que le proporcionan un ratio de beneficios
(Precio/Beneficio) o PER de 2.5, 3 y 10. Cual es el ratio de beneficios de toda
la cartera?

In [23]:
import statistics
statistics.harmonic_mean([2.5, 3, 10])

3.6

Miniproyecto: Calcular el tamaño medio de todos los archivos que hay en
un una carpeta determinada. Usa el esqueleto que vimos en la librería
**os** para recorrer un arbol de directorios con la funcion walk.

Bonus: Informa tambien de los valores media y desviacion
estandar del tamanno de los ficheros

In [33]:
import os  # Usar os.path.getsize
import statistics  # User statistics.mean, statistics.stdev

sizes = []

for filename in os.listdir():
    print(filename)
    size = os.path.getsize(filename)
    # Tu codigo aqui
# Y aqui

timeit.rst
pdb.ipynb
datetime.ipynb
urllib.rst
statistics.ipynb
smtplib.rst
files.backup
xml.rst
re.rst
hashlib.rst
sys.md
zlib.ipynb
zlib_sol_01.py
img
.ipynb_checkpoints
samples.py
__pycache__
lorem.txt
difflib.rst
heapq.rst
traceback.rst
os.ipynb
traceback.ipynb
sqlite3.rst
statistics.rst
logging.ipynb
base64.ipynb
a
os.rst
file.txt.gz
sys.rst
timeit.ipynb
logging.rst
itertools.ipynb
__init__.py
random.rst
zipfile.ipynb
curses.rst
itertools.rst
compression.ipynb
curses
sys.ipynb
lorem.txt.gz
argparse.rst
pdb.rst
argparse.ipynb
datetime.rst
http_server.rst
notebooks.zip
gzip.ipynb
time.rst
csv.rst
totoro.webp
time.ipynb
base64.rst
csv.ipynb
os.md
collections.rst


In [41]:
import os  # Usar os.path.getsize
import statistics  # User statistics.mean, statistics.stdev

sizes = []

for filename in os.listdir():
    # print(filename)
    size = os.path.getsize(filename)
    sizes.append(size)
print(f"Tam. medio: {statistics.mean(sizes)}")
print(f"Desviacion estandar: {statistics.stdev(sizes)}")
print(f"Max. tam.: {max(sizes)}")
print(f"Min. tam.: {min(sizes)}")

Tam. medio: 72790.5172413793
Desviacion estandar: 444410.3884971456
Max. tam.: 3381743
Min. tam.: 0
