# Estadística para interpretar grandes cantidades de datos

# Clase 1

##  Población y muestra

La *población* es el conjunto de individuos que son objeto de estudio. Si la población es muy grande se selecciona al azar un grupo menos numeroso llamado *muestra*. El propósito de la estadística es describir características importantes sobre esta muestra.

## Tipos de variables estadísticas

Llamamos *variable estadística* a cualquier característica que varíe entre los distintos individuos de una población.

### Variables cuantitativas (cantidad, números)

Son las que se describen por números. Pueden ser *continuas* o *discretas*:

#### Variable cuantitativa continua

Es aquella que puede tomar cualquier valor dentro de un intervalo de números reales.

* ***Ejemplo:*** 
    * El peso de un objeto (0.007 g, 0.90 g, 500 g, 1 tonelada)
    * El volumen de un líquido (30 L, 1.15 L, 600 mL)
    * Temperatura ($100^\circ C$, $-4^\circ C$, $36.5^\circ C$)

$$ \circledast $$

#### Variable cuantitativa discreta

Es aquella relacionada con el conteo y por lo general toma valores enteros.

* ***Ejemplo:*** 
    * Número de días de la semana en la que alguien come carne
    * Cánicas que tienen infantes de 10 años para abajo en la ciudad de México.
    * Cantidad de hijos que tienen las familias en Querétaro

### Variables cualitativas

Son las que se describen mediante nombres o cualidades no numéricas. Pueden ser *ordinales* o *nominales*: 

#### Variable cualitativa ordinal (orden)

Es aquella en la cual podemos establecer un **orden** entre las etiquetas.

* ***Ejemplo:*** 
    * Turno en la fila de las tortillas (primero, segundo, tercero)
    * Qué tanto nos gusta el mole ("nada", "poco", "más o menos", "mucho", "es lo que más me gusta")

#### Variable cualitativa nominal (nombre)

Es aquella en la cual **NO** podemos/queremos establecer un orden entre las etiquetas (nombres).

* ***Ejemplo:*** 
    * Colores que se ven en el cielo
    * Tipos de cerveza

### Periodo

Tiempo que pasa para que una cosa se repita. 

### Frecuencia

Cantidad que nos dice qué tan repetitivo es algo. 

### Censo

Consiste en obtener mediciones de una población mediante diversas técnicas de recuento y se realiza cada determinado periodo.

### Muestreo

Consiste en obtener mediciones de una muestra (significativa) de la población y se puede extender las conclusiones.

## (Notación de suma) Sumatoria, $\sum$

Cuando tenemos muchos datos y, por alguna razón, quiero sumar todos mis datos, puedo usar la sumatoria para escribir la suma de una manera más concisa.

Imagínense que tenemos muchos datos y la suma la expresaré de la siguiente manera:

$$ \sum_{i=1}^nx_i=x_1+x_2+x_3+x_4+\cdots $$

Mis datos son $x_i$. El número que se encuentra debajo del símbolo $\sum$ me dice en cuál de los datos empiezo a sumar. El número que se encuentra encima del símbolo $\sum$ me dice en cuál dato termino.

* ***Ejemplo:*** Tenemos 100 datos ($x_i$). Si yo quisiera obtener la suma de todos estos datos escribiría

$$ x_1+x_2+x_3+\cdots+x_{99}+x_{100}=\sum_{i=1}^{100} x_i $$

* ***Ejemplo:*** Tenemos las calificaciones redondeadas de una estudiante de la ENP:

In [4]:
rand(6:1:10,7)

7-element Array{Int64,1}:
 8
 9
 7
 9
 9
 8
 9

$C_1=8$, $C_2=9$, $C_3=7$, $C_4=9$, $C_5=9$, $C_6=8$, $C_7=9$

Para expresar la suma de sus calificaciones lo escribimos con la sumatoria como

$$ \sum_{i=1}^7C_i=59 $$

## Medidas de tendencia central

Son valores numéricos que representan o resumen el conjunto total de los datos y se ubican en la parte central de la distribución de frecuencia.

### Media aritmética o media (promedio), $\bar{x}$

Es el promedio del conjunto de datos observados. Si tenemos $n$ datos se puede obtener mediante

$$ \bar{x}=\dfrac{x_1+x_2+x_3+\dots+x_n}{n}=\dfrac{\sum_{i=1}^nx_i}{n} $$

Se puede usar para variables cuantitativas discretas o continuas.

* ***Ejemplo:*** Tenemos las calificaciones redondeadas de una estudiante de la ENP:

$C_1=8$, $C_2=9$, $C_3=7$, $C_4=9$, $C_5=9$, $C_6=8$, $C_7=9$

Para obtener la media aritmética de la calificación tenemos (número de calificaciones $n=7$)

$$ \bar{C}=\dfrac{\sum_{i=1}^7C_i}{7}=\dfrac{59}{7}=8.42 $$

### Mediana, $\tilde{x}$

Es el dato que se encuentra en medio de los datos ordenados. 

* Si tenemos un número impar de datos la mediana $\tilde{x}$ se encuentra en la posición $\dfrac{n+1}{2}$.
* Si tenemos un número par de datos la mediana $\tilde{x}$ es el promedio de los dos datos que se encuentren en las posiciones $\dfrac{n}{2}$ y $\dfrac{n}{2}+1$ (el promedio de los dos datos que se encuentran en medio).


* **Nota:**
    * Un número impar se refiere a una cifra que termina en 1, 3, 5, 7, ó 9.
    * Un número par se refiere a una cifra que termina en 2, 4, 6, 8, ó 0.

Se puede usar para variables cuantitativas discretas o continuas, también cualitativo ordinal.

* ***Ejemplo:*** Tenemos las calificaciones redondeadas de una estudiante de la ENP:

$C_1=8$, $C_2=9$, $C_3=7$, $C_4=9$, $C_5=9$, $C_6=8$, $C_7=9$

Para obtener la mediana de la calificación (número de calificaciones $n=7$), primero acomodamos las calificaciones de menor a mayor.

Me fijo en la posición $\dfrac{n+1}{2}=\dfrac{7+1}{2}=4$

| No de calificación | Valor de calificación |
|--------------------|-----------------------|
| 1                  | 7                     |
| 2                  | 8                     |
| 3                  | 8                     |
| 4                  | 9                     |
| 5                  | 9                     |
| 6                  | 9                     |
| 7                  | 9                     |

La mediana es $\tilde{C}=9$.

* ***Ejemplo:*** Tenemos las calificaciones redondeadas de un estudiante de CCH:

$C_1=8$, $C_2=9$, $C_3=7$, $C_4=9$, $C_5=9$, $C_6=8$

Para obtener la mediana de la calificación (número de calificaciones $n=6$), primero acomodamos las calificaciones de menor a mayor.

Me fijo en las posiciones:
* $\dfrac{n}{2}=\dfrac{6}{2}=3$
* $\dfrac{n}{2}+1=\dfrac{6}{2}+1=4$

| No de calificación | Valor de calificación |
|--------------------|-----------------------|
| 1                  | 7                     |
| 2                  | 8                     |
| 3                  | 8                     |
| 4                  | 9                     |
| 5                  | 9                     |
| 6                  | 9                     |


Entonces, los datos que se encuentra en esas posiciones (en medio) son 8 y 9, su promedio es

$$ \dfrac{8+9}{2}=\dfrac{17}{2}=8.5 $$

La mediana es $\tilde{C}=8.5$.

### Moda, $\rm{Mo}$

 Valor del dato observado con mayor frecuencia.

Si hay más de una moda, específicamente dos modas se comportan como una *distribución bimodal*, y en caso de que haya más de dos modas, decimos que tiene una *distribibución multimodal*.

Se puede usar para cualquiera de las variables.

* ***Ejemplo:*** Tenemos las calificaciones redondeadas de una estudiante de la ENP:

$C_1=8$, $C_2=9$, $C_3=7$, $C_4=9$, $C_5=9$, $C_6=8$, $C_7=9$

| No de calificación | Valor de calificación |
|--------------------|-----------------------|
| 1                  | 7                     |
| 2                  | 8                     |
| 3                  | 8                     |
| 4                  | 9                     |
| 5                  | 9                     |
| 6                  | 9                     |
| 7                  | 9                     |

La moda es

$$ \rm{Mo}=9 $$

## Situación. Un problema de salud pública

En la asignatura de Educación para la Salud, el grupo 501, debe investigar un problema de salud pública de su entorno. Ana decidió analizar el problema de sobrepeso y obesidad en los alumnos de quinto año de su Plantel (ENP 10). Ellos organizaron un plan para realizar su investigación.

En primer lugar, se preguntaron qué variables serían interesantes para su estudio.

**1. Es una variable cualitativa nominal**

A) Alcaldía en la que vive un estudiante

B) Edad de un estudiante
 
C) Índice de masa muscular

D) Talla de ropa que usa

**Solución:** 

**2. Los valores de la variable "frecuencia con la que toma refresco un estudiante" son: con mucha frecuencia, algunas veces, nunca. ¿Qué tipo de variable es?**

A) Cualitativa nominal

B) Cualitativa ordinal

C) Cuantitativa discreta

D) Cuantitativa continua

**Solución:** 

**3. Es una variable numérica discreta**

A) Cualitativa nominal

B) Cualitativa ordinal

C) Cuantitativa discreta

D) Cuantitativa continua

**Solución:** 

**4. La variable IMC (índice de masa corporal) es de tipo**

A) Cualitativa nominal

B) Cualitativa ordinal

C) Cuantitativa discreta

D) Cuantitativa continua

**Solución:** 

## Situación: Población y muestra

Las variables elegidas por Ana y su equipo fueron: sexo, edad, estatura y masa, con
los dos últimos datos calcularían además el índice de masa corporal (IMC). La siguiente decisión que tomaron los estudiantes fue determinar la muestra de la cual obtendrían los datos, por lo que eligieron al azar a 10 estudiantes de su grupo.

**1. La población del estudio de Ana y su equipo es:**

A) Los estudiantes de quinto año del bachillerato de la Ciudad de México

B) Los estudiantes de quinto año de la Escuela Nacional Preparatoria

C) Los estudiantes de quinto año del Plantel 10 de la Escuela Nacional
Preparatoria

D) Los estudiantes del grupo 501 del Plantel 10 de la Escuela Nacional
Preparatoria

**Solución:** 

**2. La muestra del estudio de Ana y su equipo es:**

A) Los estudiantes de quinto año del grupo 501 del Plantel 10 de la Escuela Nacional Preparatoria

B) Los 10 estudiantes del grupo 501 del Plantel 10 de la Escuela Nacional Preparatoria

C) El conjunto de datos de sexo, edad, estatura, masa e índice de masa corporal de los estudiantes del grupo 501 del Plantel 10 de la Escuela Nacional Preparatoria

D) El conjunto de datos de sexo, edad, estatura, masa e índice de masa corporal de los 10 estudiantes del grupo 501 del Plantel 10 de la Escuela Nacional Preparatoria que Ana y su equipo eligieron al azar

**Solución:** 