# Ejercicios de Estadística Descriptiva

## Univariante

In [1]:
import pandas as pd
import numpy as np

# Ejercicio 1

Las cifras dadas en la tabla adjunta corresponden a miligramos de hidroxiprolina absorbidos por 1 miligramo de masa intestinal, analizados en distintos pacientes:

| hidroxipolina (mg) | 77.3 | 61.2 | 82.4 | 75.9 | 61 | 70.2 | 65 | 80 |
|--------------------|------|------|------|------|----|------|----|----|
| nº pacientes       | 3    | 10   | 15   | 13   | 8  | 5    | 2  | 0  |

Se pide:

1. Confeccionar la tabla de frecuencias.
2. Calcular la media, mediana, moda y cuartiles.
3. Calcular la desviación típica de la muestra.
4. ¿Qué porcentaje de observaciones se concentra en el intervalo $(x −5\sigma,x +5\sigma)$?

#### 1. Tabla de Frecuencias

In [5]:
ls_data = [77.3, 61.2, 82.4, 75.9, 61, 70.2, 65, 80]
ls_count_data = [3, 10, 15, 13, 8, 5, 2, 0]

df_freq = pd.DataFrame({'x_i': ls_data, 'n_i': ls_count_data})
df_freq = df_freq.sort_values(by='x_i')
df_freq

Unnamed: 0,x_i,n_i
4,61.0,8
1,61.2,10
6,65.0,2
5,70.2,5
3,75.9,13
0,77.3,3
7,80.0,0
2,82.4,15


In [6]:
N = df_freq['n_i'].sum()
df_freq['N_i'] = df_freq['n_i'].cumsum()
df_freq['f_i'] = df_freq['n_i'] / N
df_freq['F_i'] = df_freq['f_i'].cumsum()
df_freq

Unnamed: 0,x_i,n_i,N_i,f_i,F_i
4,61.0,8,8,0.142857,0.142857
1,61.2,10,18,0.178571,0.321429
6,65.0,2,20,0.035714,0.357143
5,70.2,5,25,0.089286,0.446429
3,75.9,13,38,0.232143,0.678571
0,77.3,3,41,0.053571,0.732143
7,80.0,0,41,0.0,0.732143
2,82.4,15,56,0.267857,1.0


In [8]:
df_freq['x_i*n_i'] = df_freq['x_i'] * df_freq['n_i']
df_freq

Unnamed: 0,x_i,n_i,N_i,f_i,F_i,x_i*n_i
4,61.0,8,8,0.142857,0.142857,488.0
1,61.2,10,18,0.178571,0.321429,612.0
6,65.0,2,20,0.035714,0.357143,130.0
5,70.2,5,25,0.089286,0.446429,351.0
3,75.9,13,38,0.232143,0.678571,986.7
0,77.3,3,41,0.053571,0.732143,231.9
7,80.0,0,41,0.0,0.732143,0.0
2,82.4,15,56,0.267857,1.0,1236.0


#### 2. Media, mediana, moda y cuartiles

In [9]:
# Calculamos la media ponderando cada valor por su frecuencia
avg = df_freq['x_i*n_i'].sum() / N
avg

72.06428571428572

In [20]:
# Calculamos la mediana a partir de las F_i
median = df_freq[df_freq['F_i'] > .5].iloc[0, 0]
median

75.9

In [21]:
# Los cuartiles los sacamos de manera análoga
q1 = df_freq[df_freq['F_i'] > .25].iloc[0, 0]
q3 = df_freq[df_freq['F_i'] > .75].iloc[0, 0]
print(q1, q3)

61.2 82.4


#### 3. Desviación estándar

In [23]:
# Podemos calcular la varianza y después la desv típica

## Fórmula \sigma^2 = mean(x^2) - mean(x)^2
var = (df_freq['x_i']**2 * df_freq['n_i']).sum() / N - avg**2
print(var)

## Fórmula \sigma^2 = mean((x - mean(x))^2)
df_freq['(x_i - avg)'] = df_freq['x_i'] - avg
df_freq['(x_i - avg)^2'] = df_freq['(x_i - avg)']**2
var = (df_freq['(x_i - avg)^2'] * df_freq['n_i']).sum() / N
print(var)

74.15658163265289
74.15658163265309


In [24]:
std = np.sqrt(var)
std

8.611421580241737

#### 4. Porcentaje de observaciones en la media +- 5 std

In [25]:
# Aplicamos la fórmula del teorema de Chebyshev
prob = 1 - 1/5**2
print(prob)

0.96


In [27]:
print(f'El {prob:.2%} de las observaciones que hagamos estarán en {avg:.2f}+-{5*std:.2f}')

El 96.00% de las observaciones que hagamos estarán en 72.06+-43.06


# Multivariante

# Ejercicio 2

Los valores del pH sanguíneo de 32 individuos son los siguientes:

|7.33 |7.31 |7.26 |7.33 |7.37 |7.27 |7.30 |7.33|
|-----|-----|-----|-----|-----|-----|-----|----|
|7.33 |7.32 |7.35 |7.39 |7.33 |7.38 |7.33 |7.31|
|7.37 |7.35 |7.34 |7.32 |7.29 |7.35 |7.38 |7.32|
|7.32 |7.33 |7.32 |7.40 |7.33 |7.32 |7.34 |7.33|

1. Agrupar los datos en 5 intervalos y confeccionar la tabla de frecuencias.
2. Calcular la media aritmética, la moda y la mediana.
3. Hallar el tercer decil.
4. Determinar el porcentaje de individuos que se concentra fuera del intervalo $(x −4\sigma,x +4\sigma)$

# Ejercicio 3

En pacientes con distrofia muscular progresiva (enfermedad de Duchenne), la actividad de creatinquinasa sérica se eleva llamativamente sobre el valor normal de 50 unidades por litro. Los siguientes
datos son niveles séricos de creatinquinasa (en unidades por litro) medidos en 24 jóvenes pacientes con la enfermedad confirmada:

|3720 |3795 |3340 |5600 |3800 |3580|
|-----|-----|-----|-----|-----|----|
|5500 |2000 |1570 |2360 |1500 |1840|
|3725 |3790 |3345 |3805 |5595 |3575|
|1995 |5505 |2055 |1575 |1835 |1505|

Se pide:

1. Agrupar los datos en 5 intervalos de clase.
2. Determinar la media y la desviación típica. Calcular la moda y la mediana.
3. Determinar el tercer cuartil, el séptimo decil y el centil 25.