# Medidas de tendencia central

## Promedio o media aritmética

$\bar{x}=\frac{\sum_{i=1}^{n}x_i}{n}$

## Varianza
### Población

$\sigma^{2}={\frac{{\displaystyle \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}}{N}}$

### Muestra

$s^{2}={\frac{{\displaystyle \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}}{n-1}}$

## Desviación estándar
### Población : $\sigma=\sqrt{\sigma^{2}}$
### Muestra : $s=\sqrt{s^{2}}$

In [None]:
import random
import numpy as np
import pandas as pd
from statistics import mean, median, median_grouped

In [None]:
random.seed(29)
edades = range(17,66)
muestra = random.sample(edades, 30)
print(muestra)

[52, 21, 39, 55, 62, 35, 22, 49, 63, 42, 43, 18, 19, 23, 45, 31, 57, 59, 32, 27, 36, 34, 30, 40, 65, 50, 48, 24, 61, 37]


In [None]:
print("{0:<25} : {1:.2f}".format("Media", np.mean(muestra)))
print("{0:<25} : {1:.2f}".format("Mediana", np.median(muestra)))
print("{0:<25} : {1:.2f}".format("Varianza", np.var(muestra)))
print("{0:<25} : {1:.2f}".format("Desviación estándar", np.std(muestra)))
print("{0:<25} : {1:.2f}".format("Desviación estándar *", np.sqrt(np.var(muestra))))

Media                     : 40.63
Mediana                   : 39.50
Varianza                  : 200.83
Desviación estándar       : 14.17
Desviación estándar *     : 14.17


# Medidas de posición

In [None]:
# Medidas de posición
# Tercer cuartil
print("{0:<15}: {1}".format("Tercer quartil", np.percentile(muestra, 75)))
# Segundo cuartil
print("{0:<15}: {1}".format("Tercer quartil", np.percentile(muestra, 50)))
# Primer cuartil
print("{0:<15}: {1}".format("Primer quartil", np.percentile(muestra, 25)))

Tercer quartil : 51.5
Tercer quartil : 39.5
Primer quartil : 30.25


In [None]:
print("{0:<20} : {1:.2f}".format("Mediana ", median(muestra)))
print("{0:<20} : {1:.2f}".format("Mediana agrupada", median_grouped(muestra)))
print("{0:<20} : {1:.2f}".format("Promedio", mean(muestra)))

Mediana              : 39.50
Mediana agrupada     : 39.50
Promedio             : 40.63


In [None]:
# Definir los datos
datos = [15, 25, 35, 45, 55]  # Puntos medios de los intervalos
frecuencias = [5, 8, 12, 7, 3]  # Frecuencias correspondientes

# Expander los datos según las frecuencias
datos_expandidos = []
for dato, frecuencia in zip(datos, frecuencias):
    datos_expandidos.extend([dato] * frecuencia)

# Calcular la mediana agrupada
mediana = median_grouped(datos_expandidos)
print(f"Mediana Agrupada: {mediana}")


Mediana Agrupada: 34.875


# Trabajando con dataset

[Descripción de los datos](http://www.biostatisticien.eu/springeR/jeuxDonnees4-en.html)

In [None]:
# Descargar el archivo y guardarlo en el entorno
!wget https://raw.githubusercontent.com/JaznaLaProfe/InteligenciaArtificial/master/data/nutrition_elderly.xls

--2024-08-20 16:18:43--  https://raw.githubusercontent.com/JaznaLaProfe/InteligenciaArtificial/master/data/nutrition_elderly.xls
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 30208 (30K) [application/octet-stream]
Saving to: ‘nutrition_elderly.xls’


2024-08-20 16:18:43 (18.2 MB/s) - ‘nutrition_elderly.xls’ saved [30208/30208]



In [None]:
data = pd.read_excel("nutrition_elderly.xls")

In [None]:
# Cantidad de observaciones y características
data.shape

(226, 13)

In [None]:
# Muestra 5 observaciones al azar
data.sample(5)

Unnamed: 0,gender,situation,tea,coffee,height,weight,age,meat,fish,raw_fruit,cooked_fruit_veg,chocol,fat
95,1,2,0,2,176,75,86,4,2,4,5,0,4
111,1,2,2,0,168,65,70,5,2,1,5,1,4
181,2,2,0,1,152,53,78,3,2,5,5,3,4
107,2,1,2,1,163,75,89,3,3,5,5,1,2
16,2,1,0,2,159,57,74,3,2,5,3,1,4


## Variables

Existen 2 tipos de variables

+ Cualitativas
+ Cuantitativas

Las cualitativas se dividen en:
+ Discreta
+ Continua

![](https://rea.ceibal.edu.uy/elp/aprendiendo-estadistica/curso_variable.png)

In [None]:
# Nombre de las columnas
data.columns

Index(['gender', 'situation', 'tea', 'coffee', 'height', 'weight', 'age',
       'meat', 'fish', 'raw_fruit', 'cooked_fruit_veg', 'chocol', 'fat'],
      dtype='object')

$\textbf{Cualitativas}$
+ gender,
+ situation,
+ fat,
+ meat,
+ fish,
+ raw_fruit,
+ cooked_fruit_veg,
+ chocol

$\textbf{Cuantitativa discreta}$
+ tea
+ coffee

$\textbf{Cuantitativa continua}$
+ height
+ weight
+ age

In [None]:
# Información de las columnas disponibles
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 226 entries, 0 to 225
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   gender            226 non-null    int64
 1   situation         226 non-null    int64
 2   tea               226 non-null    int64
 3   coffee            226 non-null    int64
 4   height            226 non-null    int64
 5   weight            226 non-null    int64
 6   age               226 non-null    int64
 7   meat              226 non-null    int64
 8   fish              226 non-null    int64
 9   raw_fruit         226 non-null    int64
 10  cooked_fruit_veg  226 non-null    int64
 11  chocol            226 non-null    int64
 12  fat               226 non-null    int64
dtypes: int64(13)
memory usage: 23.1 KB


In [None]:
# Obtiene los valores únicos de la columna
data.fat.unique()

array([6, 4, 2, 3, 8, 1, 5, 7])

In [None]:
data.gender.unique()

array([2, 1])

## Análisis de columnas

In [None]:
# Cálculo de medidas
data['age'].describe()

count    226.000000
mean      74.477876
std        6.005327
min       65.000000
25%       70.000000
50%       74.000000
75%       78.000000
max       91.000000
Name: age, dtype: float64

In [None]:
# Cálculo de medidas
data['gender'].describe()

count    226.000000
mean       1.623894
std        0.485482
min        1.000000
25%        1.000000
50%        2.000000
75%        2.000000
max        2.000000
Name: gender, dtype: float64

**OBSERVACIÓN**



---



Lo anterior no tiene mucho sentido porque la variable género está codificada, porque la variable es cualitativa

In [None]:
# Agrega la descripción
dict_gender = {1:'Male', 2:'Female'}
data['gender_c'] = data['gender'].replace(dict_gender).astype("category")

In [None]:
# Volvemos a usar el método describe()
data['gender_c'].describe()

count        226
unique         2
top       Female
freq         141
Name: gender_c, dtype: object

In [None]:
# Construye una simple tabla de frecuencia relativa
data['gender_c'].value_counts()

Female    141
Male       85
Name: gender_c, dtype: int64

## Desafío

+ Termine usted de transformar todas las otras variables del tipo cualitativas considerando la descripción de la data desde el enlace que le han entregado.

+ Calcule e interprete las medidas de tendencia central que estime conveniente de, al menos, 2 variables.