# Estatística básica con Python
## Capítulo 1: Medidas de tendencia central
### Media, mediana, moda e cuartiles

**AVISO**: Para os exemplos empréganse numpy e pandas, para instalalos dende conda executa:

>   conda install scipy

>   conda install pandas

O paquete scipy xa inclúe numpy, xa que fai uso del.

![](./imaxes-wikipedia/mode_median_mean.png)

## Media

É o valor promedio. Obtense sumando tódolos valores e dividido entre o número de valores.

A fórmula matemática é:

$${\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}{x_{i}}}$$

Ou empregando unha táboa de frecuencias:

$$ \frac {\sum {x_i*f_i}}{N}$$

Código Python **puro**:

In [1]:
pesos_estudantes = [87, 83, 90, 65, 58, 67, 88, 87, 90, 89, 88]
total_pesos = 0
for pesada in pesos_estudantes:
    total_pesos+=pesada

media_pesos = total_pesos / len(pesos_estudantes)
print(media_pesos)

81.0909090909091


Alternativa máis limpa con Python **puro**:

In [2]:
pesos_estudantes = [87, 83, 90, 65, 58, 67, 88, 87, 90, 89, 88]
media_pesos = sum(pesos_estudantes) / len(pesos_estudantes)
print(media_pesos)

81.0909090909091


Código Python coa librería **statistics**:

In [3]:
from statistics import mean
pesos_estudantes = [87, 83, 90, 65, 58, 67, 88, 87, 90, 89, 88]
media_pesos=mean(pesos_estudantes)
print(media_pesos)

81.0909090909091


Código Python coa librería **Numpy**:

In [4]:
import numpy
pesos_estudantes = [87, 83, 90, 65, 58, 67, 88, 87, 90, 89, 88]
media_pesos = numpy.mean(pesos_estudantes)
print(media_pesos)

81.0909090909091


Código Python coa librería **PANDAS**:

In [5]:
import pandas as pd
datos_estudantes = ({
    'Nomes':["Fulano", "Mengana", "Zutano", "Perengana"],
    'Pesos' :[83, 56, 90, 60],
    'Notas':[9, 8, 7, 6]
        })
df = pd.DataFrame(datos_estudantes)
# Imprimir o Data Frame
print(df)

# Calcular a media de tódolos datos numéricos do Data Frame
print(df.mean(numeric_only=1))

# Calcular a media dos rangos especificadas
print(df[['Pesos','Notas']].mean())

       Nomes  Pesos  Notas
0     Fulano     83      9
1    Mengana     56      8
2     Zutano     90      7
3  Perengana     60      6
Pesos    72.25
Notas     7.50
dtype: float64
Pesos    72.25
Notas     7.50
dtype: float64


Útil cando non temos demasiados valores extremos. Contraexemplos:
 1. "Se ti comes un polo enteiro e eu ningún, de media temos comido cada un medio polo".
 2. "Se metes os pes no forno e a cabeza no conxelador, de media estarás ben de temperatura".

## Moda

É o valor con maior frecuencia, é dicir, o que máis se repite.
 - Pode haber conxuntos de datos con unha, dúas, tres ou máis modas.
 - Se o conxunto de dato sigue unha distribución uniforme discreta (tódolos datos contan coa mesma frecuencia: aparecen todos o mesmo número de veces) poderíamos dicir que non existe moda.

Exemplo: A principio de setembro, nunha clase, temos as seguintes idades:

  - Idades en 1º da ESO = [ 11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14 ] (24 estudantes)

Sacamos a **táboa de frecuencias** dos datos:

|Idade (X<sub>i</sub>)|Frecuencia (f<sub>i</sub>)| x<sub>i</sub> * f<sub>i</sub> | Frecuencia <br/>acumulada (F<sub>i</sub>)| Frecuencia <br/>absoluta (h<sub>i</sub>)$$ h_i = \frac {f_i} {N}$$|%|Frecuencia absoluta <br/>acumulada (H<sub>i</sub>)|
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
|11|1|11|1|1/24 = *0,0416...*|4,17%|0,0417...|
|12|17|204|18|17/24 = 0,7083...|70,83%|0,7500...|
|13|4|52|22|4/24 = *0,1666...*|16,67%|0,9167...|
|14|2|28|24|2/24 = 0,0833...|8,33%|1|
|Totais:|N = 24|||1|100%||

Os números en *cursiva* redondeáronse.

Polo que a idade que máis se repite "Frecuencia (f<sub>i</sub>)" (que "está á moda") son os 12 anos.

| Idades en 1º da ESO | $$M_o$$ |
| -- |:--:|
| 11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14 ,14 | 12 |

Outros exemplos: Os produtos máis mercados dunha tenda, as páxinas máis visitadas

Código Python coa librería **statistics**:

In [20]:
from statistics import mode
idades_estudantes = [11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14]
idade_mais_repetida=mode(idades_estudantes)
print(idade_mais_repetida)

12


Código Python coa librería **scipy** para o cálculo da moda:

In [7]:
from scipy import stats
idades_estudantes = [11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14]
print(stats.mode(idades_estudantes, keepdims=True).mode)

[12]


Código Python coa librería **PANDAS**:

In [8]:
import pandas as pd
datos_estudantes = ({
    'Idades' :[11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14]
        })
df = pd.DataFrame(datos_estudantes)
# Imprimir o Data Frame
#print(df)

# Calcular a media de tódolos datos numéricos do Data Frame
print(df.mode(numeric_only=1))

# Calcular a media dos rangos especificadas
print(df[['Idades']].mode())

   Idades
0      12
   Idades
0      12


## Mediana
É o valor que ocupa o lugar central de tódolos datos (cando están ordeados de menor a maior). E dicir, corta os datos en dous e deixa a mesma cantidade de valores a cada lado. Represéntanse como: M<sub>e</sub>

#### Mediana dun número impar de elementos
 - Se temos un conxunto **impar** de números, a mediana é o número que ocupa a posición central no conxunto: $$\mathrm {M_e} (x)=x_{(n+1)/2}$$

  **Exemplos**:

  |Conxunto | $$\mathrm {M_e}$$ |
  |--|:--:|
  | 1, 1, 2, 2, 3, 4, 4, 5, 5 | 3 |
  | 2, 3, 4, 5, 6 | 4 |
  | 2, 3, 4, 4, 5, 5, 5, 6, 6 | 5 |
  | 5, 5, 5, 5, 7, 9, 10 | 5 |

  
#### Mediana dun número par de elementos
 - Se temos un conxunto **par** de números, a mediana é a media entre os números que ocupan a posición central do conxunto: $$\mathrm {M_e} (x)={\frac {x_{(n/2)}+x_{((n/2)+1)}}{2}}$$

  **Exemplos**:
  
  | Conxunto | M<sub>e</sub> |
  |--|:--:|
  |7, 8, 9, 10, 11, 12 | 9,5 |
  |1, 1, 2, 2, 3, 3 | 2 |
  |1, 1, 1, 2, 3, 3, 3, 3 | 2,5 |

#### Caso práctico de uso da mediana

Temos unha clase con 5 estudantes. Por simplicidade imos imaxinar que son todos do mesmo sexo e idade, xa que no caso contrario estas diferencias farían que a comparativa de datos puidese ser non significativa.

Os pesos son: 51, 53, 54, 55, 200

Como vemos temos un valor extremo, cunha obesidade mórbida.

A media é: 82,6 e a mediana é: 54 como vemos no cálculo:

In [9]:
pesos_estudantes= [51, 53, 54, 55, 200]
from statistics import median, mean
print(f"Media: {mean(pesos_estudantes)}. Mediana: {median(pesos_estudantes)}")

Media: 82.6. Mediana: 54


Neste caso considerar a media distorsionaría moito os datos polo caso desta obesidade mórbida. A moda (o valor máis repetido) "non existe" xa que este conxunto de datos seguiría unha distribución uniforme discreta (tódolos datos contan coa mesma frecuencia: aparecen todos o mesmo número de veces).

Algunhas veces, nunha fase de limpieza de datos podemos descartar valores extremos ou que sexan erróneos. Exemplo: Temperatura atmosférica sacada dun sensor se nos da un valor de máis de 60 grados centígrados.

**Advertencia**: Algunhas librerías en Python toman o primeiro valor do conxunto como moda.

Código Python coa librería **statistics**:

In [10]:
from statistics import median
pesos_estudantes = [87, 83, 90, 65, 58, 67, 88, 87, 90, 89, 88]
mediana_pesos=median(pesos_estudantes)
print(mediana_pesos)

87


Código Python coa librería **Numpy**:

In [11]:
import numpy
pesos_estudantes = [87, 83, 90, 65, 58, 67, 88, 87, 90, 89, 88]
mediana_pesos = numpy.median(pesos_estudantes)
print(mediana_pesos)

87.0


Código Python coa librería **PANDAS**:

In [12]:
import pandas as pd
datos_estudantes = ({
    'Nomes':["Fulano", "Mengana", "Zutano", "Perengana"],
    'Pesos' :[83, 56, 90, 60],
    'Notas':[9, 8, 7, 6]
        })
df = pd.DataFrame(datos_estudantes)
print("DataFrame")
# Imprimir o Data Frame
print(df)

print("Tódalas medianas de datos numéricos")
# Calcular a media de tódolos datos numéricos do Data Frame
print(df.median(numeric_only=1))

print("Medianas dos rangos especificados")
# Calcular a media das filas especificadas
print(df[['Pesos','Notas']].median())

DataFrame
       Nomes  Pesos  Notas
0     Fulano     83      9
1    Mengana     56      8
2     Zutano     90      7
3  Perengana     60      6
Tódalas medianas de datos numéricos
Pesos    71.5
Notas     7.5
dtype: float64
Medianas dos rangos especificados
Pesos    71.5
Notas     7.5
dtype: float64


## Cuartiles (Q<sub>1</sub>, Q<sub>2</sub>, Q<sub>3</sub>)

Permiten dividir os datos en partes:

 - Q<sub>1</sub>: 25% dos datos
 - Q<sub>2</sub>: 50% dos datos (coincide coa mediana)
 - Q<sub>3</sub>: 75% dos datos


Código Python coa librería **Numpy**:

In [31]:
import numpy

idades = [11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14]
cuartiles = numpy.quantile(idades, [0.25, 0.5, 0.75, 1])

print(cuartiles)

[12.   12.   12.25 14.  ]


Código Python coa librería **statistics**:

In [39]:
from statistics import quantiles

idades = [11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14]

#Ollo! hai que poñer method='inclusive' porque estamos a falar dese modo de cálculo se comparamos con numpy
cuartiles_stats = quantiles(idades, n=4, method='inclusive')
print(cuartiles_stats)

[12.0, 12.0, 12.25]


Código Python coa librería **PANDAS**:

In [42]:
import pandas as pd
datos_estudantes = ({
    'Idades' :[11, 12, 12, 12, 12, 12, 12, 12, 13, 13, 12, 12, 13, 12, 12, 12, 13, 12, 12, 12, 12, 12, 14, 14]
        })
df = pd.DataFrame(datos_estudantes)

df.quantile([0.25, 0.5, 0.75], numeric_only=True)

Unnamed: 0,Idades
0.25,12.0
0.5,12.0
0.75,12.25


## Bibliografía

 - <https://es.wikipedia.org/wiki/Media_(matem%C3%A1ticas)>
 - <https://es.wikipedia.org/wiki/Moda_(estad%C3%ADstica)>
 - <https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)>
 - <https://es.wikipedia.org/wiki/Distribuci%C3%B3n_uniforme_discreta>
 - <https://docs.python.org/3/library/statistics.html>
 - <https://numpy.org/doc/stable/reference/generated/numpy.mean.html>
 - <https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html>

## Máis información

 - Estatística básica: <https://www.youtube.com/watch?v=xq6tBKbg3HQ&list=PLiWRH3aE37VItjWpOg0FDV2w1o4IWJ1Om&index=1>

Jose Sánchez &copy; Xullo 2023 &mdash; Materiales para docencia

Se atopas erros ou tes suxestións de mellora escríbeme a: &mdash;jfsanchez&#64;edu&#46;xunta&#46;gal&mdash; 