![imagenes](logo.png)

# Estadística descriptiva

La Estadística Descriptiva es el proceso de resumir la información mediante el uso de varias **métricas**. 

Como hemos dicho antes, usualmente nuestra información viene organizada por tablas de información. Sin embargo no siempre nos será sencillo hacernos de una idea general del fenómeno de estudio, o descubrir algunas características notables, únicamente viendo las tablas. Precisamente mediante la Estadístic Descriptiva podremos entender y explicar nuestros datos de manera eficiente.

## Tablas de frecuencia

Veamos qué es una tabla de frecuencias. Consideremos una tabla de 50 estudiantes, donde tenemos las calificaciones de cada uno. 

![imagenes](im008.png)


Notemos que aún cuando se trata de una tabla pequeña (50 estudiantes), no es sencillo visualizarla. Por lo tanto necesitamos una manera de más eficiente de resumir nuestros datos y exhibirlos. Una manera de hacer esto es con una tabla de frecuencias. 

Una tabla de frecuencias es una tabla que divide los valores de una columna en algunas clases de cierto ancho y muestra cuántos elementos hay en cada una de dichas clases. Este número es llamado frecuencia. 

| Clase   | Etiqueta de clase | Frecuencia | Frecuencia relativa| Frecuencia relativa acumulada |
|---------|-------------|-----------|--------------------|------------------------------|
| 0-20    | 10          | 4         | 0.08               | 0.08                         |
| 20-40   | 30          | 8         | 0.16               | 0.24                         |
| 40-60   | 50          | 17        | 0.34               | 0.58                         |
| 60-80   | 70          | 14        | 0.28               | 0.86                         |
| 80-100  | 90          | 7         | 0.14               | 1.00                         |


Para construir una tabla de frecuencias en Python, puedes revisar el archivo https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/scripts/tablas_de_frecuencia.py de nuestro repositorio.

Consideremos ahora la siguiente tabla, la cual se encuentra en nuestro repositorio: https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/data/estadisticas_futbol.csv

| País        | Goles marcados | Partidos ganados | Penales atajados | Zona|
|-------------|----------------|------------------|------------------|-----|
| Brasil      | 12             | 4                | 2                |SudA|
| Argentina   | 10             | 3                | 1                |SudA|
| Francia     | 15             | 5                | 3                |Euro|
| Alemania    | 13             | 4                | 2                |Euro|
| España      | 9              | 2                | 0                |Euro|
| México      | 8              | 2                | 1                |Conca|
| Italia      | 11             | 3                | 2                |Euro|
| Inglaterra  | 10             | 3                | 1                |Euro|
| Uruguay     | 7              | 1                | 1                |SudA|
| Portugal    | 9              | 2                | 0                |Euro|


In [None]:
import pandas as pd
import numpy as np
from plotnine import *
import os

In [None]:
futbol = pd.read_csv("C:/Users/Usuario/Documents/scidata/24_inf_est/proyectos/estadistica_futbol/estadisticas_futbol.csv")
futbol

## Medidas de tendencia central

En Estadística, todos los datos están distribuidos a través de varios puntos, que es lo que se conoce como la distribución de los datos.

A partir de la distribución de los datos es muy complicado llegar a conclusiones, pues muchas veces corresponden a distribuciones demasiado complejas. Sin embargo, muchas veces existe una tendencia de los datos a juntarse al rededor de un cierto valor.

Este valor es lo que se conoce como una tendencia central. De esta manera, la tendencia central es un representante global de los datos. En particular, representa las características generales del conjunto de datos.

En primer lugar, estudiaremos las medidas de representación central de los datos, conocidas como **medidas de tendencia central**.

### Media

Esta se define como el promedio aritmético de los datos de la muestra o de la población en una característica medida (es decir, en una columna). Su valor tiene la siguiente interpretación: **si elijo una observación al azar, ya sea de la muestra o de la población, su valor en dicha característica se *espera* que sea cercano a la media aritmética**.


Es decir, si tenemos una columna $X$ que toma valores $x_1,x_2,...,x_n$ en nuestra tabla, se denota por $\overline{x}$ al valor promedio. Esto es: $$\overline{x}=\frac{x_1+x_2+...+x_n}{n}=\frac{1}{n}\sum_{i=1}^nx_i$$ donde $n$ es el tamaño de la muestra.

Existe también la llamada media poblacional. Este sería el parámetro poblacional que representa al promedio. Si $x_1,x_2,...,X_N$ son toda la población (una población de tamaño $N$), su media poblacional se representa por $\mu$ y viene dada por el promedio de los valores de toda la población: $$\mu=\frac{x_1+x_2+...+x_N}{N}=\frac{1}{N}\sum_{i=1}^Nx_i$$

Recordemos que los parámetro poblacionales son, en general, desconocidos, de modo que utilizaremos $\overline{x}$ como una aproximación de $\mu$ (y posteriormente veremos qué tan buena es dicha aproximación).

In [None]:
futbol["Goles_marcados"].mean()

In [None]:
futbol["Partidos_ganados"].mean()

In [None]:
observacion_aleatoria = futbol.sample(n=1)
observacion_aleatoria

No obstante, una desventaja que presenta la media es que **es muy sensible a datos atípicos**. Para verlo, consideremos el siguiente ejemplo:

In [None]:
datos = pd.DataFrame({"valor":[35,58,61,41,216,72,56,48,90,66]})
datos["valor"].mean()

Observamos que únicamente un valor es próximo a la media

### Mediana

Hagamos un vistazo gráfico a los datos anteriores:

In [None]:
(ggplot(data=datos) + 
    geom_point(mapping=aes(x="valor"),y=0) + 
    geom_vline(mapping=aes(xintercept="valor.mean()"),color="red") +
    ylim(-0.01,0.01)
    )

Observamos que la presencia del valor 216 altera fuertemente el resultado. Esto es lo que se conoce como datos atípicos. De no tenerlo, la media cambia sustancialmente:

In [None]:
datos = pd.DataFrame({"valor":[35,58,61,41,72,56,48,90,66]})
datos["valor"].mean()

In [None]:
(ggplot(data=datos) + 
     geom_point(mapping=aes(x="valor"),y=0) + 
     geom_vline(mapping=aes(xintercept="valor.mean()"),color="red") +
     ylim(-0.01,0.01)
)

Ante estas situaciones, una alternativa para represantar los datos mediante un valor es la llamada **mediana**.

La mediana es un valor que divide al total de datos de la columna en el 50% más alto y el 50% más bajo. Es decir, aquel valor que queda a la mitad aproximada de los datos cuando estos se ordenan de menor a mayor.

In [None]:
futbol["Goles_marcados"].sort_values()

In [None]:
futbol["Goles_marcados"].median()

In [None]:
futbol["Partidos_ganados"].sort_values()

In [None]:
futbol["Partidos_ganados"].median()

La mediana nos da una medida de la concentración de los datos.

Por ejemplo, en México tenemos una población de 130,000,000. La edad mediana es de 29 años. Esto significa que 65,000,000 de habitantes tienen menos de 29 de años y el resto tiene 29 años o más. Pero la esperanza de vida es de 75 años.  Esto significa que hay más concentración en las edades jóvenes que en las mayores: de 0 a 29 años se distribuyen en 30 estaños; pero de 29 a 75 se distribuyen en 46 estaños.

Además, la mediana no es tan sensible ante la presencia de atípicos:

In [None]:
datos = pd.DataFrame({"valor":[35,58,61,41,216,72,56,48,90,66]})
datos["valor"].median()

In [None]:
(ggplot(data=datos) + 
     geom_point(mapping=aes(x="valor"),y=0) + 
     geom_vline(mapping=aes(xintercept="valor.mean()"),color="red") +
     geom_vline(mapping=aes(xintercept="valor.median()"),color="blue") +
     ylim(-0.01,0.01)
)

### Moda

Notemos que la media y la mediana se alimentan de valores numéricos. En cuanto a variables categóricas, una manera de realizar un resumen de los datos es con la **moda**. Esta se define como el valor que más se repite.

In [None]:
futbol["Partidos_ganados"].mode()

## Medidas de tendencia central en grupos con Python

Ya hemos visto cómo calcular las medidas de tendencia central en Python para una columna fija. Ahora veamos para grupos:

In [None]:
# Media en un grupo en una columna: tabla[tabla["columna de clases"]=="grupo requerido"].columna_requerida.mean() 
futbol[futbol["Zona"]=="Euro"].Goles_marcados.mean()

In [None]:
# Media en un grupo en algunas columnas:  
futbol[["Goles_marcados","Partidos_ganados"]][futbol["Zona"]=="Euro"].mean()

In [None]:
# Media en un grupo en todas las columnas:
futbol[futbol["Zona"]=="Euro"].mean()

In [None]:
# Media en todos los grupos y una columna
futbol.groupby("Zona").Goles_marcados.mean()

In [None]:
# Media en todos los grupos y algunas columnas
futbol[["Goles_marcados","Partidos_ganados","Zona"]].groupby("Zona").mean()

In [None]:
# Media en todos los grupos y todas las columnas
futbol.groupby("Zona").mean()