# Medidas de Tendencia Central

Las medidas de tendencia central son estadísticas que nos permiten resumir un conjunto de datos con un solo valor. Las más comunes son la media, la mediana, la varianza y la desviación estándar. Aquí te explico cada una:

**Media (μ)**: Es la suma de todos los valores dividida por el número total de valores. Se calcula con la fórmula:

$$
\mu = \frac{\Sigma x}{N}
$$


donde Σx es la suma de todos los valores y N es el número total de valores.

**Mediana**: Es el valor que divide los datos en dos partes iguales, es decir, el 50% de los datos son menores que la mediana y el otro 50% son mayores. Para calcularla, se ordenan los datos de menor a mayor y se selecciona el valor del medio (o el promedio de los dos valores del medio si el número total de datos es par).

**Varianza (σ²)**: Es una medida de dispersión que indica cuánto varían los datos respecto a su media. Se calcula con la fórmula:

$$
\sigma^2 = \frac{\Sigma (x - \mu)^2}{N}
$$


donde x son los valores individuales, μ es la media y N es el número total de valores.

**Desviación estándar (σ)**: Es la raíz cuadrada de la varianza y proporciona una medida de dispersión que está en las mismas unidades que los datos. Se calcula con la fórmula:

$$
\sigma = \sqrt{\sigma^2}
$$


donde σ² es la varianza.

Para calcular estas medidas en Python puedes usar las funciones `numpy.mean()`, `numpy.median()`, `numpy.var()` y `numpy.std()`, respectivamente.


In [26]:
import random
random.seed(29) # Establecemos la semilla a 29, para que los resultados sean siempre los mismos.
edades = range(17, 66) # Creamos una lista con las edades de 17 a 65 años.
muestra = random.sample(edades, 30) # Seleccionamos 30 edades de la lista anterior.
print(muestra) # Mostramos la muestra.

[52, 21, 39, 55, 62, 35, 22, 49, 63, 42, 43, 18, 19, 23, 45, 31, 57, 59, 32, 27, 36, 34, 30, 40, 65, 50, 48, 24, 61, 37]


In [27]:
import numpy as np # Importamos numpy

print(f"Media: {np.mean(muestra):.2f}") # Mostramos la media de la muestra con dos decimales.
print(f"Mediana: {np.median(muestra)}") # Mostramos la mediana de la muestra.
print(f"Varianza: {np.var(muestra):.2f}") # Mostramos la varianza de la muestra con dos decimales.
print(f"Desviación estándar: {np.std(muestra):.2f}") # Mostramos la desviación estándar de la muestra con dos decimales.
print(f"Desviación estándar: {np.sqrt(np.var(muestra)):.2f}") # Mostramos la desviación estándar de la muestra con dos decimales. Esta es la forma de calcularla sin usar la función np.std.

Media: 40.63
Mediana: 39.5
Varianza: 200.83
Desviación estándar: 14.17
Desviación estándar: 14.17


In [28]:
from statistics import mean, median, median_grouped, pvariance # Importamos las funciones de la librería statistics.

# Media
print(f"Media: {mean(muestra):.2f}") # Mostramos la media de la muestra con dos decimales.

# Mediana
print(f"Mediana: {median(muestra)}") # Mostramos la mediana de la muestra.

# Mediana agrupada
print(f"Mediana agrupada: {median_grouped(muestra)}") # Mostramos la mediana agrupada de la muestra.

# Varianza
print(f"Varianza: {pvariance(muestra):.2f}") # Mostramos la varianza de la muestra con dos decimales.

Media: 40.63
Mediana: 39.5
Mediana agrupada: 39.5
Varianza: 200.83


# Medidas de posición

Las medidas de posición son estadísticas que nos permiten dividir un conjunto de datos en partes iguales. Las más comunes son los cuartiles, los deciles y los percentiles. Aquí te explico cada una:

**Cuartiles**: Son tres valores que dividen un conjunto de datos en cuatro partes iguales. Cada cuartil representa el 25% de los datos.

- **Primer cuartil (Q1)**: El 25% de los datos son menores o iguales a este valor.
- **Segundo cuartil (Q2)**: También conocido como la mediana, el 50% de los datos son menores o iguales a este valor.
- **Tercer cuartil (Q3)**: El 75% de los datos son menores o iguales a este valor.

Para calcular los cuartiles en Python puedes usar la función `numpy.percentile()` con los percentiles 25, 50 y 75 respectivamente.

**Deciles**: Son nueve valores que dividen un conjunto de datos en diez partes iguales. Cada decil representa el 10% de los datos.

**Percentiles**: Son cien valores que dividen un conjunto de datos en cien partes iguales. Cada percentil representa el 1% de los datos.

Para calcular los deciles y percentiles en Python también puedes usar la función `numpy.percentile()` con los percentiles correspondientes.


In [29]:
# Tercer cuartil
print(f"Tercer cuartil: {np.percentile(muestra, 75)}") # Mostramos el tercer cuartil de la muestra.

# Segundo cuartil
print(f"Segundo cuartil: {np.percentile(muestra, 50)}") # Mostramos el segundo cuartil de la muestra.

# Cuarto decil
print(f"Cuarto decil: {np.percentile(muestra, 40)}") # Mostramos el cuarto decil de la muestra.

# Decimoséptimo percentil
print(f"17mo percentil: {np.percentile(muestra, 17)}") # Mostramos el decimoséptimo percentil de la muestra.

Tercer cuartil: 51.5
Segundo cuartil: 39.5
Cuarto decil: 35.6
17mo percentil: 23.93


# Trabajando con dataset

## Importar la biblioteca pandas
Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Para usarla, primero debes importarla:

```python
import pandas as pd
```

Recordar que se debe instalar pandas y el módulo para leer archivos excel. Esto se debe hacer desde la terminal cmd (Modo Admin).
```
pip install pandas
pip install xlrd
```

## Leer los datos
Pandas puede leer datos en muchos formatos, incluyendo CSV, Excel y SQL. Por ejemplo:

```python
pd.read_excel('rutal/al/archivo.xls')
```
## Explorar los datos
Puedes obtener una visión general de tus datos usando varias funciones de pandas:

**df.head()**: Muestra las primeras filas del DataFrame.

**df.info()**: Muestra un resumen conciso de tu DataFrame, incluyendo el número de entradas no nulas y los tipos de datos.

**df.describe()**: Muestra estadísticas descriptivas de las columnas numéricas.

## Manipular datos
Pandas proporciona muchas funciones para manipular tus datos:

**df.replace()**: Reemplaza los valores en una columna.

```python
df['columna'].replace({'valor_original': 'nuevo_valor'})
```

**df.astype()**: Cambia el tipo de datos de una columna.

```python
df['columna'].astype('tipo')
```


In [30]:
import pandas as pd # Importamos pandas
data = pd.read_excel("docs/nutrition_elderly.xls") # Leemos el archivo excel.

In [31]:
# Cantidad de observaciones y características
print(f"Cantidad de observaciones y características: {data.shape}") # Mostramos la cantidad de observaciones (Filas) y características (Columnas).

Cantidad de observaciones y características: (226, 13)


In [32]:
# Mostrar cinco observaciones aleatorias del conjunto de datos.add()
print(data.sample(5)) # Mostramos cinco observaciones aleatorias del conjunto de datos.

     gender  situation  tea  coffee  height  weight  age  meat  fish  \
202       1          1    0       2     168      67   69     3     3   
135       2          1    0       2     168      63   69     3     3   
188       1          2    0       2     182      90   66     5     2   
126       1          2    2       3     165      64   78     5     3   
136       2          2    2       1     162      55   65     3     3   

     raw_fruit  cooked_fruit_veg  chocol  fat  
202          5                 5       1    3  
135          4                 5       1    3  
188          5                 3       1    5  
126          5                 5       1    2  
136          5                 5       1    3  


# Variables

### Existen 2 tipos de variables
* Cualitativas
* Cuantitativas

### Las cuantitativas se dividen en:
* Discretas
* Continua

In [33]:
# Nombres de las columnas
print(data.columns) # Mostramos los nombres de las columnas.

Index(['gender', 'situation', 'tea', 'coffee', 'height', 'weight', 'age',
       'meat', 'fish', 'raw_fruit', 'cooked_fruit_veg', 'chocol', 'fat'],
      dtype='object')


#### Cualitativas
* Gender
* Situation
* Fat
* Meat
* Fish
* Raw_fruit
* Cooked_fruit_veg
* Chocol

#### Cuantitativa Discreta
* Tea
* Coffee

#### Cuantitativa Continua
* Height
* Weigth
* Age

In [34]:
# Información de las columnas disponibles
print(data.info()) # Mostramos información de las columnas disponibles.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 226 entries, 0 to 225
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   gender            226 non-null    int64
 1   situation         226 non-null    int64
 2   tea               226 non-null    int64
 3   coffee            226 non-null    int64
 4   height            226 non-null    int64
 5   weight            226 non-null    int64
 6   age               226 non-null    int64
 7   meat              226 non-null    int64
 8   fish              226 non-null    int64
 9   raw_fruit         226 non-null    int64
 10  cooked_fruit_veg  226 non-null    int64
 11  chocol            226 non-null    int64
 12  fat               226 non-null    int64
dtypes: int64(13)
memory usage: 23.1 KB
None


In [35]:
# Obtener valores únicos de la columna
data.fat.unique() # Mostramos los valores únicos de la columna fat.

array([6, 4, 2, 3, 8, 1, 5, 7], dtype=int64)

In [36]:
# Obtener valores únicos de la columna
data.gender.unique() # Mostramos los valores únicos de la columna gender.

array([2, 1], dtype=int64)

## AnáLisis de Columnas

In [37]:
# Cálculo de las medidas de tendencia central de la columna age
data['age'].describe() # Mostramos las medidas de tendencia central de la columna age.

count    226.000000
mean      74.477876
std        6.005327
min       65.000000
25%       70.000000
50%       74.000000
75%       78.000000
max       91.000000
Name: age, dtype: float64

In [38]:
# Calculos de las medidas de tendencia central de la columna gender
data['gender'].describe() # Mostramos las medidas de tendencia central de la columna gender.

count    226.000000
mean       1.623894
std        0.485482
min        1.000000
25%        1.000000
50%        2.000000
75%        2.000000
max        2.000000
Name: gender, dtype: float64

**Observacion**

---

Lo anterior no tiene mucho sentido porque la variable género está codificada, porque la variable es cualitativa.

In [39]:
# Agregamos descripción
dict_gender = {1:'Male', 2: 'Female'} # Ocupamos un diccionario para la "codificación"
data['gender_c'] = data['gender'].replace(dict_gender).astype("category")

In [40]:
# Mostramos la columna recién creada
data.gender_c.unique()

['Female', 'Male']
Categories (2, object): ['Female', 'Male']

In [41]:
# Ahora podemos utlizar la función describe
data['gender_c'].describe()

count        226
unique         2
top       Female
freq         141
Name: gender_c, dtype: object

Al utilizar la línea de código <code>data['gender_c'].describe()</code>, estás solicitando un resumen estadístico de la columna <code>‘gender_c’</code> en tu DataFrame data.

Dado que <code>‘gender_c’</code> es una variable categórica (es decir, no numérica), el método <code>describe()</code> proporcionará un resumen ligeramente diferente al que proporcionaría para una variable numérica. En lugar de calcular medidas como la media y la desviación estándar, <code>describe()</code> proporcionará la siguiente información para una variable categórica:

* **count**: el número total de entradas no nulas en la columna.
* **unique**: el número de categorías distintas en la columna.
* **top**: la categoría que aparece con más frecuencia.
* **freq**: la frecuencia de la categoría más común.
Por lo tanto, este método te dará una idea rápida de la distribución de las categorías en la columna <code>‘gender_c’</code>.

In [42]:
# Construimos una tabla simple de frecuencias relativas
data['gender_c'].value_counts()

gender_c
Female    141
Male       85
Name: count, dtype: int64

In [43]:
# Cantidad de Filas y Columnas
data.shape

(226, 14)

In [44]:
# La función head() nos permite ver las primeras observaciones del conjunto de datos.
data.head()

Unnamed: 0,gender,situation,tea,coffee,height,weight,age,meat,fish,raw_fruit,cooked_fruit_veg,chocol,fat,gender_c
0,2,1,0,0,151,58,72,4,3,1,4,5,6,Female
1,2,1,1,1,162,60,68,5,2,5,5,1,4,Female
2,2,1,0,4,162,75,78,3,1,5,2,5,4,Female
3,2,1,0,0,154,45,91,0,4,4,0,3,2,Female
4,2,1,2,1,154,50,65,5,3,5,5,3,2,Female


## Desafío
Termine usted de transformar todas las otras variables del tipo cualitativas considerando la descripción de la data desde el enlace que le han entregado.

* Situation
* Fat
* Meat
* Fish
* Raw_fruit
* Cooked_fruit_veg
* Chocol

In [45]:
dict_fat = {1: 'Buteer', 2: 'Margarine', 3: 'Peanut oil', 4: 'Sunflower oil',
            5: 'Olive oil', 6: 'Mix of vegetable oils', 7: 'Colza oil', 8: 'Duck of goose fat'}

dict_mix = {0: 'Never', 1: 'Less than once a week', 2: 'Once a week',
            3: '2/3 times a week', 4: '4/6 times a week', 5: 'Every day'}

columns = ['fat', 'meat', 'fish', 'raw_fruit', 'cooked_fruit_veg', 'chocol']

# Definimos una función para añadir categorías a las columnas
def add_categories(column: str, dictionary: dict, data: pd.DataFrame, columns: np.array):
    column_name = columns[i] + '_c'
    data[column_name] = data[column].replace(dictionary).astype("category")
    return data

# Agregamos las columnas al DataFrame
dictionaries = [dict_fat, dict_mix]
for i in range(6):
    data = add_categories(columns[i], dictionaries[0] if i == 0 else dictionaries[1], data, columns)

In [46]:
# Mostramos las columnas recién creadas
data.columns

Index(['gender', 'situation', 'tea', 'coffee', 'height', 'weight', 'age',
       'meat', 'fish', 'raw_fruit', 'cooked_fruit_veg', 'chocol', 'fat',
       'gender_c', 'fat_c', 'meat_c', 'fish_c', 'raw_fruit_c',
       'cooked_fruit_veg_c', 'chocol_c'],
      dtype='object')

In [47]:
# Mostramos 6 observaciones aleatorias del conjunto de datos.
data.sample(6)

Unnamed: 0,gender,situation,tea,coffee,height,weight,age,meat,fish,raw_fruit,cooked_fruit_veg,chocol,fat,gender_c,fat_c,meat_c,fish_c,raw_fruit_c,cooked_fruit_veg_c,chocol_c
23,1,1,0,4,168,90,73,3,2,4,5,0,3,Male,Peanut oil,2/3 times a week,Once a week,4/6 times a week,Every day,Never
122,2,1,0,3,150,56,77,4,2,2,5,0,3,Female,Peanut oil,4/6 times a week,Once a week,Once a week,Every day,Never
176,2,2,0,2,162,71,73,5,3,5,5,0,8,Female,Duck of goose fat,Every day,2/3 times a week,Every day,Every day,Never
172,2,1,0,5,155,57,69,2,1,2,4,5,4,Female,Sunflower oil,Once a week,Less than once a week,Once a week,4/6 times a week,Every day
82,2,1,0,0,162,58,74,3,2,1,5,0,4,Female,Sunflower oil,2/3 times a week,Once a week,Less than once a week,Every day,Never
198,1,2,0,2,168,67,73,4,3,5,5,0,4,Male,Sunflower oil,4/6 times a week,2/3 times a week,Every day,Every day,Never


## Cálculos Estadísticos

In [53]:
# Definimos una función para obtener los datos estadísticos y la tabla de frecuencias
def column_review(columns: str):
    print(f"Estadísticos de la columna {columns}:")
    print("-"*20)
    display(data[columns].describe())
    print("-"*20)
    print(f"Tabla de frecuencias\n" + "-"*20)
    display(data[columns].value_counts())
    print("*"*20 + "\n")

In [54]:
# Impresión de los datos estadísticos y la tabla de frecuencias
for column in data.columns[6:]:
    column_review(column + "_c")

Estadísticos de la columna age:
--------------------


count    226.000000
mean      74.477876
std        6.005327
min       65.000000
25%       70.000000
50%       74.000000
75%       78.000000
max       91.000000
Name: age, dtype: float64

--------------------
Tabla de frecuencias
--------------------


age
78    18
74    17
69    17
73    16
76    15
72    14
71    13
70    13
75    12
77    12
67    11
66    10
68     8
79     7
65     6
84     5
85     5
82     4
81     4
89     4
87     3
80     3
91     2
83     2
88     2
86     2
90     1
Name: count, dtype: int64

********************

Estadísticos de la columna meat:
--------------------


count    226.000000
mean       3.747788
std        0.981210
min        0.000000
25%        3.000000
50%        4.000000
75%        5.000000
max        5.000000
Name: meat, dtype: float64

--------------------
Tabla de frecuencias
--------------------


meat
3    83
4    67
5    61
2    11
1     3
0     1
Name: count, dtype: int64

********************

Estadísticos de la columna fish:
--------------------


count    226.000000
mean       2.619469
std        0.922013
min        0.000000
25%        2.000000
50%        3.000000
75%        3.000000
max        5.000000
Name: fish, dtype: float64

--------------------
Tabla de frecuencias
--------------------


fish
3    118
2     61
1     21
4     15
5      7
0      4
Name: count, dtype: int64

********************

Estadísticos de la columna raw_fruit:
--------------------


count    226.000000
mean       4.486726
std        1.092317
min        0.000000
25%        5.000000
50%        5.000000
75%        5.000000
max        5.000000
Name: raw_fruit, dtype: float64

--------------------
Tabla de frecuencias
--------------------


raw_fruit
5    172
4     22
3     14
1      8
2      8
0      2
Name: count, dtype: int64

********************

Estadísticos de la columna cooked_fruit_veg:
--------------------


count    226.000000
mean       4.384956
std        1.014361
min        0.000000
25%        4.000000
50%        5.000000
75%        5.000000
max        5.000000
Name: cooked_fruit_veg, dtype: float64

--------------------
Tabla de frecuencias
--------------------


cooked_fruit_veg
5    148
4     36
3     30
2      7
1      3
0      2
Name: count, dtype: int64

********************

Estadísticos de la columna chocol:
--------------------


count    226.000000
mean       2.340708
std        1.985241
min        0.000000
25%        1.000000
50%        2.000000
75%        5.000000
max        5.000000
Name: chocol, dtype: float64

--------------------
Tabla de frecuencias
--------------------


chocol
5    65
1    62
0    50
3    22
2    16
4    11
Name: count, dtype: int64

********************

Estadísticos de la columna fat:
--------------------


count    226.000000
mean       3.814159
std        1.473009
min        1.000000
25%        3.000000
50%        4.000000
75%        5.000000
max        8.000000
Name: fat, dtype: float64

--------------------
Tabla de frecuencias
--------------------


fat
4    68
3    48
5    40
2    27
6    23
1    15
8     4
7     1
Name: count, dtype: int64

********************

Estadísticos de la columna gender_c:
--------------------


count        226
unique         2
top       Female
freq         141
Name: gender_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


gender_c
Female    141
Male       85
Name: count, dtype: int64

********************

Estadísticos de la columna fat_c:
--------------------


count               226
unique                8
top       Sunflower oil
freq                 68
Name: fat_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


fat_c
Sunflower oil            68
Peanut oil               48
Olive oil                40
Margarine                27
Mix of vegetable oils    23
Buteer                   15
Duck of goose fat         4
Colza oil                 1
Name: count, dtype: int64

********************

Estadísticos de la columna meat_c:
--------------------


count                  226
unique                   6
top       2/3 times a week
freq                    83
Name: meat_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


meat_c
2/3 times a week         83
4/6 times a week         67
Every day                61
Once a week              11
Less than once a week     3
Never                     1
Name: count, dtype: int64

********************

Estadísticos de la columna fish_c:
--------------------


count                  226
unique                   6
top       2/3 times a week
freq                   118
Name: fish_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


fish_c
2/3 times a week         118
Once a week               61
Less than once a week     21
4/6 times a week          15
Every day                  7
Never                      4
Name: count, dtype: int64

********************

Estadísticos de la columna raw_fruit_c:
--------------------


count           226
unique            6
top       Every day
freq            172
Name: raw_fruit_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


raw_fruit_c
Every day                172
4/6 times a week          22
2/3 times a week          14
Less than once a week      8
Once a week                8
Never                      2
Name: count, dtype: int64

********************

Estadísticos de la columna cooked_fruit_veg_c:
--------------------


count           226
unique            6
top       Every day
freq            148
Name: cooked_fruit_veg_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


cooked_fruit_veg_c
Every day                148
4/6 times a week          36
2/3 times a week          30
Once a week                7
Less than once a week      3
Never                      2
Name: count, dtype: int64

********************

Estadísticos de la columna chocol_c:
--------------------


count           226
unique            6
top       Every day
freq             65
Name: chocol_c, dtype: object

--------------------
Tabla de frecuencias
--------------------


chocol_c
Every day                65
Less than once a week    62
Never                    50
2/3 times a week         22
Once a week              16
4/6 times a week         11
Name: count, dtype: int64

********************

