# Estadística para interpretar grandes cantidades de datos

# Clase 1

##  Población y muestra

La *población* es el conjunto de individuos que son objeto de estudio. Si la población es muy grande se selecciona al azar un grupo menos numeroso llamado *muestra*. El propósito de la estadística es describir características importantes sobre esta muestra.

## Tipos de variables estadísticas

Llamamos *variable estadística* a cualquier característica que varíe entre los distintos individuos de una población.

### Variables cuantitativas (cantidades/números)

Son las que se describen por números. Pueden ser *continuas* o *discretas*:

#### Variable cuantitativa continua

Es aquella que puede tomar cualquier valor real.

* ***Ejemplo:*** 
    * El peso de un objeto
    * El volumen de un líquido.
    * Temperatura.

#### Variable cuantitativa discreta

Es aquella relacionada con el conteo y por lo general toma valores enteros.

* ***Ejemplo:*** 
    * Número de días de la semana en la que alguien come carne
    * Cánicas que tienen infantes de 10 años para abajo en la ciudad de México.

### Variables cualitativas (cualidades)

Son las que se describen mediante nombres o cualidades no numéricas. Pueden ser *ordinales* o *nominales*: 

#### Variable cualitativa ordinal (orden)

Es aquella en la cual podemos establecer un **orden** entre las etiquetas.

* ***Ejemplo:*** 
    * Turno en la fila de las tortillas
    * Qué tanto nos gusta el mole ("nada", "poco", "más o menos", "mucho", "es lo que más me gusta")

#### Variable cualitativa nominal (nombres)

Es aquella en la cual **NO** podemos/queremos establecer un orden entre las etiquetas (nombres).

* ***Ejemplo:*** 
    * Colores que se ven en el cielo
    * Tipos de cerveza

### Periodo

Tiempo que pasa para que una cosa se repita. 

### Frecuencia

Cantidad que nos dice qué tan repetitivo es algo. 

### Censo

Consiste en obtener mediciones de una población mediante diversas técnicas de recuento y se realiza cada determinado periodo.

### Muestreo

Consiste en obtener mediciones de una muestra (significativa) de la población.

## Sumatoria, $ \sum $

Imaginemos que tenemos un número muy grande de datos y queremos saber la suma de todos ellos. Una manera de expresar esta suma de manera concisa es mediante la *"sumatoria"* :

$$ \sum_{i=1}^{n}x_i=x_1+x_2+x_3+\cdots+x_{n} $$

La sumatoria significa la suma de cada uno de los datos que tenemos.

Lo que está abajo del símbolo $\sum$ significa en cuál dato empezamos y lo que está arriba significa en cuál dato terminamos. El número de datos totales que se tienen usando esta notación es

$$ \text{Número de dato final}-\text{Número de dato inicial}+1$$

* ***Ejemplo:*** Calificaciones redondeadas de seis materias de estudiante de ENP

$C_1=8$, $C_2=6$, $C_3=9$, $C_4=7$, $C_5=8$, $C_6=8$, $C_7=10$

La suma de todas las calificaciones se puede expresar como una sumatoria:

$$ \sum_{i=1}^6C_i=C_1+C_2+C_3+C_4+C_5+C_6+C_7 $$

Lo de la izquierda significa *"la suma desde el primer dato hasta el séptimo dato"*.

$$ \sum_{i=1}^6C_i=C_1+C_2+C_3+C_4+C_5+C_6=8+6+9+7+8+8=46 $$

* ***Ejemplo:*** La suma de 100 datos:

$$ \sum_{i=1}^{100}x_i=x_1+x_2+x_3+\dots+x_{98}+x_{99}+x_{100} $$

Lo del lado izquierdo se lee como *"la sumatoria desde 1 hasta 100 de los datos"*.

## Medidas de tendencia central

Son valores numéricos que representan o resumen el conjunto total de los datos y se ubican en la parte central de la distribución de frecuencia.

### Media aritmética o media, $\bar{x}$

Es el promedio del conjunto de datos observados. Si tenemos $n$ datos se puede obtener mediante

$$ \bar{x}=\dfrac{x_1+x_2+x_3+\dots+x_n}{n}=\dfrac{\sum_{i=1}^nx_i}{n} $$

* ***Ejemplo:*** Calificaciones redondeadas de seis materias de estudiante de ENP

$C_1=8$, $C_2=6$, $C_3=9$, $C_4=7$, $C_5=8$, $C_6=8$, $C_7=10$

La suma de todas las calificaciones se puede expresar como una sumatoria:

$$ \bar{C}=\dfrac{\sum_{i=1}^7C_i}{7} $$

$$ \bar{C}=\dfrac{8+6+9+7+8+8+10}{7}=\dfrac{56}{7}=8 $$

* ***Ejemplo:*** Calificaciones redondeadas de seis materias de estudiante de CCH

$C_1=8$, $C_2=6$, $C_3=9$, $C_4=7$, $C_5=8$, $C_6=8$

La suma de todas las calificaciones se puede expresar como una sumatoria:

$$ \bar{C}=\dfrac{\sum_{i=1}^6C_i}{6} $$

$$ \bar{C}=\dfrac{8+6+9+7+8+8}{6}=\dfrac{46}{6}=7.6 $$

### Mediana, $\tilde{x}$

Es el dato que se encuentra en medio de los datos ordenados. 

* Si tenemos un número impar de datos la mediana $\tilde{x}$ se encuentra en la posición $\dfrac{n+1}{2}$.
* Si tenemos un número par de datos la mediana $\tilde{x}$ es el promedio de los dos datos que se encuentren en las posiciones $\dfrac{n}{2}$ y $\dfrac{n}{2}+1$.


* **Nota**:
    * Nuḿeros impares son aquellos números enteros que su último dígito es 1, 3, 5, 7, 9.
    * Nuḿeros pares son aquellos números enteros que su último dígito es 2, 4, 6, 8, 0.

* ***Ejemplo:*** Calificaciones redondeadas de siete materias de estudiante de ENP

$C_1=8$, $C_2=6$, $C_3=9$, $C_4=7$, $C_5=8$, $C_6=8$, $C_7=10$

Tenemos $n=7$ datos, la posición de la mediana es

$$\dfrac{n+1}{2}=\dfrac{7+1}{2}=4$$

| No de calificación | Valor de calificación |
|--------------------|-----------------------|
| 1                  | 6                     |
| 2                  | 7                     |
| 3                  | 8                     |
| 4                  | 8                     |
| 5                  | 8                     |
| 6                  | 9                     |
| 7                  | 10                    |

La mediana de las calificaciones es
$$\tilde{C}=8$$

* ***Ejemplo:*** Calificaciones redondeadas de seis materias de estudiante de ENP

$C_1=8$, $C_2=6$, $C_3=9$, $C_4=7$, $C_5=8$, $C_6=8$

Tenemos $n=6$ datos. Consideramos los datos de la posición  
* $\dfrac{n}{2}=\dfrac{6}{2}=3$

y
* $\dfrac{n}{2}+1=\dfrac{6}{2}+1=4$

| No de calificación | Valor de calificación |
|--------------------|-----------------------|
| 1                  | 6                     |
| 2                  | 7                     |
| 3                  | 8                     |
| 4                  | 8                     |
| 5                  | 8                     |
| 6                  | 9                     |

Entonces obtenemos el promedio de los dos datos en esas posiciones:

$$\tilde{C}=\dfrac{8+8}{2}=8$$

### Moda, $\rm{Mo}$

 Valor del dato observado con mayor frecuencia.

* ***Ejemplo:*** Calificaciones redondeadas de seis materias de estudiante de ENP

| No de calificación | Valor de calificación |
|--------------------|-----------------------|
| 1                  | 6                     |
| 2                  | 7                     |
| 3                  | 8                     |
| 4                  | 8                     |
| 5                  | 8                     |
| 6                  | 9                     |
| 7                  | 10                    |

$C_1=8$, $C_2=6$, $C_3=9$, $C_4=7$, $C_5=8$, $C_6=8$, $C_7=10$

El dato que más se repite es

$$ \rm{Mo}=8$$

## Situación. Un problema de salud pública

En la asignatura de Educación para la Salud, el grupo 501, debe investigar un problema de salud pública de su entorno. Ana decidió analizar el problema de sobrepeso y obesidad en los alumnos de quinto año de su Plantel (ENP 10). Ellos organizaron un plan para realizar su investigación.

En primer lugar, se preguntaron qué variables serían interesantes para su estudio.

**1. Es una variable cualitativa nominal**

A) Alcaldía en la que vive un estudiante (Coyoacán, BJ,...)

B) Edad de un estudiante (16, 17, 18,...)
 
C) Índice de masa muscular (4.8, 3.7, 2.6)

D) Talla de ropa que usa (P, M o G) (28, 30, 32)

**Solución:** A)

**2. Los valores de la variable "frecuencia con la que toma refresco un estudiante" son: con mucha frecuencia, algunas veces, nunca. ¿Qué tipo de variable es?**

A) Cualitativa nominal

B) Cualitativa ordinal

C) Cuantitativa discreta

D) Cuantitativa continua

**Solución:** 

**3. Es una variable numérica discreta**

A) Cualitativa nominal

B) Cualitativa ordinal

C) Cuantitativa discreta

D) Cuantitativa continua

**Solución:** 

**4. La variable IMC (índice de masa corporal) es de tipo**

A) Cualitativa nominal

B) Cualitativa ordinal

C) Cuantitativa discreta

D) Cuantitativa continua

**Solución:** 