# 1.1 Conceptos básicos de estadística

## Conceptos básicos de estadística

### Definición
La estadística es la ciencia que se encarga de **recopilar, organizar, analizar, interpretar y presentar datos** con el fin de describir fenómenos, identificar patrones y facilitar la toma de decisiones fundamentadas. Es una herramienta esencial en diversas disciplinas, como la economía, la medicina, la psicología, la ingeniería, la biología, entre muchas otras.

### Teoría de decisión

La **teoría de decisión** es una rama de la estadística y las matemáticas aplicadas que estudia cómo tomar las mejores decisiones bajo incertidumbre. Utiliza herramientas y conceptos como la **probabilidad** y la **utilidad** para analizar opciones, evaluar riesgos y determinar estrategias óptimas. 

### Población

La **población** se refiere al conjunto completo de individuos, objetos o mediciones que son de interés para un estudio. Representa el grupo total al que se desea realizar inferencias o del cual se pretende obtener información.

### Muestra aleatoria

La **muestra aleatoria** es un subconjunto de la población seleccionado de manera que cada elemento de la población tenga la misma probabilidad de ser elegido. Este método garantiza que la muestra sea representativa y elimina sesgos sistemáticos en el proceso de selección.

### Parámetros aleatorios

Los **parámetros aleatorios** son características numéricas de la población que se desconocen y que se deben estimar a partir de la información obtenida de una muestra. Representan valores clave que describen propiedades de una población, como la media, la varianza o la proporción.

---

# 1.2 Descripcion de datos

### Parámetros aleatorios

Los **parámetros aleatorios** son características numéricas de la población que se desconocen y que se deben estimar a partir de la información obtenida de una muestra. Representan valores clave que describen propiedades de una población, como la media, la varianza o la proporción.

### Datos agrupados y no agrupados

**Datos agrupados**

Los **datos agrupados** son aquellos que han sido organizados en intervalos o categorías, lo que facilita su análisis cuando se trabaja con conjuntos de datos grandes. Este enfoque ayuda a identificar patrones y tendencias.

#### Características:
- Resumen los datos en intervalos o clases.
- Permiten calcular frecuencias, porcentajes y representar los datos gráficamente.
- Son ideales para grandes volúmenes de datos.

#### Ejemplo:
Organización de las calificaciones en intervalos:  

| Intervalo de calificaciones | Frecuencia |
|-----------------------------|------------|
| 75-80                      | 2          |
| 81-85                      | 2          |
| 86-90                      | 3          |
| 91-95                      | 3          |

---

**Datos no agrupados**

Los **datos no agrupados** son aquellos que se presentan de forma individual, tal como fueron recolectados, sin estar organizados en intervalos o categorías. Representan los datos en su forma original y cruda.

#### Características:
- No están organizados ni resumidos.
- Muestran cada valor de manera individual.
- Útiles para análisis detallado de cada observación.

#### Ejemplo:
Las calificaciones de 10 estudiantes:  
`85, 90, 78, 92, 88, 76, 95, 89, 84, 91`

---

### Frecuencia de clase

La **frecuencia de clase** se refiere al número de observaciones que caen dentro de cada intervalo o categoría de un conjunto de datos agrupados. Este concepto es fundamental cuando se organizan datos en clases o intervalos, ya que permite conocer la distribución de los datos dentro de esos rangos.

### Frecuencia relativa

La **frecuencia relativa** es la proporción o porcentaje de observaciones que caen dentro de cada clase o intervalo de un conjunto de datos agrupados. Es útil para comparar la distribución de los datos en diferentes intervalos, independientemente del tamaño total de la muestra.

### Punto medio

El **punto medio** de un intervalo de clase es el valor que se encuentra en el centro del intervalo. Es una medida representativa del intervalo, utilizada comúnmente para realizar cálculos como la media ponderada cuando los datos están agrupados en clases.

#### Cálculo del punto medio
El **punto medio** de un intervalo de clase se calcula sumando los límites inferior y superior del intervalo y dividiendo el resultado entre 2.

### Límites de la clase

Los **límites de la clase** son los valores que definen los extremos de cada intervalo o categoría en un conjunto de datos agrupados. Estos límites se utilizan para identificar la extensión de cada clase en una distribución de frecuencias, y permiten organizar los datos en intervalos específicos.

#### Tipos de límites
1. **Límite inferior:** Es el valor más bajo de un intervalo de clase. Indica el inicio del intervalo.
2. **Límite superior:** Es el valor más alto de un intervalo de clase. Marca el final del intervalo.

#### Cálculo de los límites
Los límites se determinan al agrupar los datos en intervalos. Los límites inferiores y superiores se establecen según el rango de datos y el número de intervalos deseado.

#### Ejemplo:
Supongamos que tenemos los siguientes intervalos de calificaciones:

| Intervalo de calificación | Límite inferior | Límite superior | Punto medio |
|---------------------------|-----------------|-----------------|-------------|
| 75-80                     | 75              | 80              | 77.5        |
| 80-85                     | 80              | 85              | 82.5        |
| 85-90                     | 85              | 90              | 87.5        |
| 90-95                     | 90              | 95              | 92.5        |

- El **límite inferior** de la clase `75-80` es 75.
- El **límite superior** de la clase `75-80` es 80.
- El **punto medio** de la clase `75-80` es 77.5.
---


# 1.3 Medidas de tendencia central

## Media aritmética


La **media aritmética** es una medida de tendencia central que se calcula sumando todos los valores de un conjunto de datos y dividiendo el resultado entre el número total de datos. Es uno de los métodos más comunes para obtener un valor representativo de un conjunto de datos.

### Cálculo de la media aritmética
La fórmula para calcular la **media aritmética** es:

$
\text{Media aritmética} = \frac{\sum x_i}{n}
$

Donde:

- $ \sum x_i $ es la suma de todos los valores del conjunto de datos.
- $ n $ es el número total de observaciones o elementos en el conjunto de datos.

## Media geométrica

La **media geométrica** es una medida de tendencia central que se calcula multiplicando todos los valores de un conjunto de datos y luego extrayendo la raíz n-ésima, donde \( n \) es el número total de datos. A diferencia de la media aritmética, la media geométrica es útil cuando los datos son multiplicativos o cuando varían en órdenes de magnitud.

### Cálculo de la media geométrica
La fórmula para calcular la **media geométrica** es:

$
\text{Media geométrica} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}
$

Donde:
- $ x_i $ son los valores individuales del conjunto de datos.
- $ n $ es el número total de observaciones o elementos en el conjunto de datos.
- $ \prod_{i=1}^{n} x_i $ es el producto de todos los valores del conjunto de datos.



## Media ponderada

La **media ponderada** es una medida de tendencia central que se calcula multiplicando cada valor por un factor de ponderación (peso) y luego dividiendo la suma de estos productos por la suma de los pesos. Es útil cuando algunos valores de un conjunto de datos tienen más importancia o relevancia que otros.

### Cálculo de la media ponderada
La fórmula para calcular la **media ponderada** es:

$
\text{Media ponderada} = \frac{\sum_{i=1}^{n} x_i w_i}{\sum_{i=1}^{n} w_i}
$

Donde:
- $ x_i $ son los valores del conjunto de datos.
- $ w_i $ son los pesos o factores de ponderación asociados a cada valor.
- $ n $ es el número total de observaciones.

## Mediana

La **mediana** es una medida de tendencia central que representa el valor central de un conjunto de datos ordenados. A diferencia de la media, la mediana no se ve afectada por valores extremos o atípicos, lo que la convierte en una opción útil cuando los datos están sesgados.

### Cálculo de la mediana
La mediana se calcula ordenando los datos de menor a mayor y luego determinando el valor central. El cálculo varía dependiendo de si el número de observaciones es impar o par.

#### 1. Si el número de observaciones es impar:
La mediana será el valor que se encuentra en el medio del conjunto de datos ordenado.

#### 2. Si el número de observaciones es par:
La mediana se calcula como el promedio de los dos valores centrales.

## Moda

La **moda** es una medida de tendencia central que representa el valor que aparece con mayor frecuencia en un conjunto de datos. A diferencia de la media y la mediana, la moda se basa únicamente en la frecuencia de los valores y no tiene en cuenta el valor de los datos en sí.

### Cálculo de la moda
Para calcular la moda, simplemente se identifican los valores que ocurren con mayor frecuencia en el conjunto de datos. Si un valor se repite más veces que los demás, ese será la moda.


## Medidas de dispersión

Las **medidas de dispersión** son estadísticas que cuantifican qué tan dispersos o alejados están los datos de la medida de tendencia central (como la media, mediana o moda). Estas medidas ayudan a entender la variabilidad o la extensión de los datos, proporcionando información adicional sobre su distribución.

### Tipos de medidas de dispersión
Existen varias medidas de dispersión comunes, cada una con su propio enfoque para describir la variabilidad de los datos:

#### 1. **Rango**
El **rango** es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos. Es una medida simple de dispersión, pero no es muy robusta frente a valores extremos o atípicos.

##### Fórmula:
$
\text{Rango} = X_{\text{max}} - X_{\text{min}}
$


#### 2. **Desviación estándar**
La **desviación estándar** es una medida más sofisticada que muestra cuánto se dispersan los datos con respecto a la media. Una desviación estándar baja indica que los datos están cercanos a la media, mientras que una desviación estándar alta indica que los datos están más dispersos.

##### Fórmula para la desviación estándar de una muestra:
$
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
$

Donde:
- $ x_i $ son los valores del conjunto de datos.
- $ \bar{x} $ es la media de los datos.
- $ n $ es el número de datos.

#### 3. **Varianza**
La **varianza** es el cuadrado de la desviación estándar y también mide la dispersión de los datos. Aunque la varianza es útil en muchos contextos, es más difícil de interpretar que la desviación estándar debido a que está en unidades al cuadrado.

##### Fórmula para la varianza de una muestra:
$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$

#### 4. **Coeficiente de variación**
El **coeficiente de variación** es la relación entre la desviación estándar y la media. Es útil para comparar la dispersión de diferentes conjuntos de datos con diferentes unidades o escalas.

##### Fórmula:
$
CV = \frac{s}{\bar{x}} \times 100
$

Donde:
- $ s $ es la desviación estándar.
- $ \bar{x} $ es la media.




## Varianza

La **varianza** es una medida de dispersión que indica cuánto se dispersan los datos con respecto a la media. A diferencia de la desviación estándar, que se expresa en las mismas unidades que los datos originales, la varianza se expresa en unidades al cuadrado.

### Cálculo de la varianza

La **varianza** se calcula tomando la media de los cuadrados de las diferencias entre cada valor de los datos y la media. En términos matemáticos, la fórmula para la varianza de una muestra es la siguiente:

$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$

Donde:
- $ x_i $ son los valores del conjunto de datos.
- $ \bar{x} $ es la media de los datos.
- $ n $ es el número de datos.

### Cálculo de la Varianza Muestral

Si se desea calcular la **varianza de la muestra** o **varianza muestral**, entonces se utiliza la siguiente fórmula:

$
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
$

Donde:

- $ s^2 $ es la **varianza muestral**.
- $ x_i $ es el valor $ i $-ésimo del conjunto de datos.
- $ \bar{x} $ es la **media muestral**.
- $ n $ es el **tamaño de la muestra** (el número de observaciones).

## Desviación estándar

La **desviación estándar** es una medida de dispersión que indica cuánto se dispersan los datos con respecto a la media de un conjunto de datos. Es la raíz cuadrada positiva de la **varianza** y se utiliza comúnmente debido a que está en las mismas unidades que los datos originales, lo que la hace más fácil de interpretar.

### Cálculo de la desviación estándar

La **desviación estándar** se calcula tomando la raíz cuadrada de la varianza. La fórmula para la desviación estándar de una muestra es:

$
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
$

Donde:
- $ x_i $ son los valores del conjunto de datos.
- $ \bar{x} $ es la media de los datos.
- $ n $ es el número de datos.

### Cálculo de la Desviación Estándar Muestral

Si se desea calcular la **desviación estándar de la muestra** o **desviación estándar muestral**, se utiliza la siguiente fórmula:

$
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}
$

Donde:

- $ s $ es la **desviación estándar muestral**.
- $ x_i $ es el valor $ i $-ésimo del conjunto de datos.
- $ \bar{x} $ es la **media muestral**.
- $ n $ es el **tamaño de la muestra** (el número de observaciones).


## Desviación media

La **desviación media** es una medida de dispersión que se calcula como el promedio de las diferencias absolutas entre cada valor de un conjunto de datos y la **media**. A diferencia de la desviación estándar, que involucra los cuadrados de las diferencias, la desviación media no da más peso a los valores extremos, lo que la hace menos sensible a outliers.

### Cálculo de la desviación media

La **desviación media** se calcula de la siguiente manera:$$

$
DM = \frac{1}{n} \sum_{i=1}^{n} |x_i - \bar{x}|
$

Donde:
- $ x_i $ son los valores del conjunto de datos.
- $ \bar{x} $ es la media de los datos.
- $ n $ es el número de datos.

## Desviación mediana

La **desviación mediana** es una medida de dispersión que se calcula como el promedio de las diferencias absolutas entre cada valor de un conjunto de datos y la **mediana**. A diferencia de la desviación media, que usa la media como referencia, la desviación mediana utiliza la mediana, lo que la hace más robusta frente a los valores extremos o **outliers**.

### Cálculo de la desviación mediana

La **desviación mediana** se calcula de la siguiente manera: $x_2$

$
DMd = \frac{1}{n} \sum_{i=1}^{n} |x_i - \tilde{x}|
$
Donde:
- $ x_i $ son los valores del conjunto de datos.
- $ \tilde{x} $ es la mediana de los datos.
- $ n $ es el número de datos.


# Rango

El **rango** es una medida de dispersión que se define como la diferencia entre el **valor máximo** y el **valor mínimo** de un conjunto de datos. Es una de las medidas de dispersión más simples y proporciona una idea rápida de la amplitud de los datos, pero no tiene en cuenta la distribución interna de los valores.

## Cálculo del rango

El **rango** se calcula con la siguiente fórmula:

$
R = X_{\text{max}} - X_{\text{min}}
$

Donde:
- $ X_{\text{max}} $ es el valor máximo del conjunto de datos.
- $ X_{\text{min}} $ es el valor mínimo del conjunto de datos.

---

# 1.4 Parámetros para datos agrupados

## Parámetros para datos agrupados

Cuando los datos están agrupados en intervalos o clases, es necesario utilizar ciertos parámetros para calcular y describir las características de la distribución de los datos. Estos parámetros incluyen la **frecuencia de clase**, el **punto medio**, la **media**, la **mediana**, la **moda**, y otras medidas de tendencia central y dispersión. A continuación, se explican algunos de estos parámetros.


### 1. Agrupación de datos por intervalos

Una de las técnicas más comunes es **agrupar los datos en intervalos**. Esta técnica es utilizada cuando los datos son continuos y no es práctico manejar cada valor individualmente. Los datos se agrupan en intervalos o clases de igual tamaño, y cada intervalo contiene los valores que caen dentro de su rango.

 **jemplo**:
Si tenemos los siguientes datos:

5, 12, 15, 18, 22, 28, 30, 35, 40, 45, 50

Podemos agruparlos en intervalos de 10 unidades:

| Intervalo de clase | Frecuencia (f) |
|--------------------|----------------|
| 0-10               | 1              |
| 11-20              | 3              |
| 21-30              | 3              |
| 31-40              | 2              |
| 41-50              | 2              |

Esta técnica simplifica el análisis de datos al agruparlos en rangos significativos.

---

### 2. Agrupación de datos por clases de frecuencia

Otra técnica es la **agrupación por clases de frecuencia**. Esta técnica implica clasificar los datos según su frecuencia de aparición. Se pueden utilizar categorías predeterminadas o establecer un número específico de clases en función de la cantidad de datos disponibles. Este enfoque es útil cuando se desea observar la distribución de los datos y ver cómo se agrupan según las frecuencias.

**Ejemplo**:
Considerando un conjunto de datos que contiene una gran cantidad de valores repetidos, podemos agruparlos según la frecuencia de aparición:

| Valor | Frecuencia |
|-------|------------|
| 5     | 5          |
| 7     | 3          |
| 10    | 2          |
| 15    | 1          |
| 20    | 1          |

En este caso, se agrupan los valores según su frecuencia y se muestran las clases en función de su ocurrencia.

---

### 3. Agrupación de datos por rango o deciles

Cuando se busca agrupar los datos de acuerdo con su posición relativa en el conjunto total de observaciones, se puede emplear la técnica de **agrupación por rangos o deciles**. Esta técnica es útil cuando se desea dividir los datos en segmentos que representen diferentes percentiles o rangos de distribución.

Por ejemplo:
- **Deciles**: Dividen los datos en diez partes iguales.
- **Cuartiles**: Dividen los datos en cuatro partes iguales.

**Ejemplo con cuartiles**:

Si tenemos el siguiente conjunto de datos ordenados:

1, 3, 4, 6, 7, 8, 9, 10, 15

Los **cuartiles** se pueden calcular de la siguiente manera:
1. **Primer cuartil (Q1)**: El valor que marca el 25% de los datos (en este caso sería 4).
2. **Mediana (Q2)**: El valor que marca el 50% de los datos (en este caso sería 7).
3. **Tercer cuartil (Q3)**: El valor que marca el 75% de los datos (en este caso sería 9).

Estos cuartiles dividen el conjunto de datos en cuatro partes iguales, lo que permite observar cómo se distribuyen los datos a través de diferentes segmentos.

---
### 4. Agrupación jerárquica

La **agrupación jerárquica** es una técnica utilizada en **análisis multivariante** y se aplica cuando los datos contienen varias variables o características. En lugar de agrupar los datos en función de una sola variable, se crean grupos jerárquicos que se basan en la similitud o distancia entre las observaciones. Este tipo de agrupación es común en el análisis de **clústeres**.

#### Tipos de agrupación jerárquica:
- **Agrupación aglomerativa**: Los grupos comienzan como elementos individuales y se van fusionando hasta formar un solo grupo.
- **Agrupación divisiva**: Comienza con un solo grupo y lo va dividiendo en subgrupos.

**Ejemplo**:
Si tenemos datos sobre diferentes especies de plantas y sus características, como la altura y el tipo de hojas, podemos aplicar agrupación jerárquica para encontrar qué especies tienen características similares.

---
### 5. Agrupación de datos por clase de distribución normal

En algunos casos, los datos siguen una **distribución normal**. La **agrupación por clase de distribución normal** es una técnica que implica dividir los datos en clases de acuerdo con los intervalos de una distribución normal estándar. Este tipo de agrupación es útil cuando se sabe que los datos siguen una distribución conocida, como la distribución **normal** o **gaussiana**.

**Ejemplo**:
Supongamos que tenemos datos sobre las alturas de un grupo de personas y sabemos que estas siguen una distribución normal. Podemos agrupar los datos en clases basadas en las desviaciones estándar de la distribución normal.

---


# 1.5 Distribución de frecuencias

## Distribución de frecuencias

Una **distribución de frecuencias** es una tabla que muestra la cantidad de veces que se repite cada valor o intervalo de valores en un conjunto de datos. Es una forma de organizar los datos de manera que se pueda ver la frecuencia con la que ocurren ciertos eventos o rangos de valores. Las distribuciones de frecuencias son una herramienta fundamental en estadística descriptiva.

### Tipos de distribución de frecuencias

Existen dos tipos principales de distribuciones de frecuencias: **distribuciones de frecuencias para datos no agrupados** y **distribuciones de frecuencias para datos agrupados**.

#### 1. Distribución de frecuencias para datos no agrupados

En una **distribución de frecuencias para datos no agrupados**, cada valor individual de los datos se cuenta y se organiza en una tabla. Esta tabla muestra las frecuencias de cada valor.

#### 2. Distribución de frecuencias para datos agrupados

En una **distribución de frecuencias para datos agrupados**, los datos se agrupan en intervalos o clases. La tabla resultante muestra cuántos valores caen dentro de cada intervalo. Para este tipo de distribución, se necesitan algunos parámetros adicionales, como el **punto medio**, las **frecuencias acumuladas**, y las **frecuencias relativas**.

---


# 1.6 Técnicas de agrupación de datos.

## Técnicas de agrupación de datos

La **agrupación de datos** es un proceso que consiste en organizar un conjunto de datos en categorías o clases para facilitar su análisis. Las técnicas de agrupación permiten resumir grandes cantidades de información y permiten identificar patrones y tendencias en los datos. Existen diversas técnicas para agrupar datos, y la elección de la técnica adecuada depende de la naturaleza de los datos y el propósito del análisis.

### 1. Agrupación de datos por intervalos

Una de las técnicas más comunes es **agrupar los datos en intervalos**. Esta técnica es utilizada cuando los datos son continuos y no es práctico manejar cada valor individualmente. Los datos se agrupan en intervalos o clases de igual tamaño, y cada intervalo contiene los valores que caen dentro de su rango.

### 2. Agrupación de datos por clases de frecuencia

Otra técnica es la **agrupación por clases de frecuencia**. Esta técnica implica clasificar los datos según su frecuencia de aparición. Se pueden utilizar categorías predeterminadas o establecer un número específico de clases en función de la cantidad de datos disponibles. Este enfoque es útil cuando se desea observar la distribución de los datos y ver cómo se agrupan según las frecuencias.

### 3. Agrupación de datos por rango o deciles

Cuando se busca agrupar los datos de acuerdo con su posición relativa en el conjunto total de observaciones, se puede emplear la técnica de **agrupación por rangos o deciles**. Esta técnica es útil cuando se desea dividir los datos en segmentos que representen diferentes percentiles o rangos de distribución.

### 4. Agrupación jerárquica

La **agrupación jerárquica** es una técnica utilizada en **análisis multivariante** y se aplica cuando los datos contienen varias variables o características. En lugar de agrupar los datos en función de una sola variable, se crean grupos jerárquicos que se basan en la similitud o distancia entre las observaciones. Este tipo de agrupación es común en el análisis de **clústeres**.

### 5. Agrupación de datos por clase de distribución normal

En algunos casos, los datos siguen una **distribución normal**. La **agrupación por clase de distribución normal** es una técnica que implica dividir los datos en clases de acuerdo con los intervalos de una distribución normal estándar. Este tipo de agrupación es útil cuando se sabe que los datos siguen una distribución conocida, como la distribución **normal** o **gaussiana**.


---


# 1.7 Técnicas de muestreo.

## Técnicas de muestreo

El **muestreo** es el proceso de seleccionar una muestra representativa de una población para realizar estudios y análisis estadísticos sin necesidad de recolectar datos de toda la población. Existen varias **técnicas de muestreo** que se pueden aplicar dependiendo del tipo de población y del objetivo del estudio.

### Tipos de técnicas de muestreo

Existen dos grandes categorías en el muestreo: **muestreo probabilístico** y **muestreo no probabilístico**. 

**Muestra no probabilística**: los elementos se eligen sin tener en cuenta su probabilidad de ocurrencia, es decir, sin tener en cuenta que suceda cierto resultado. Por

**ejemplo** 

una muestra obtenida mediante una red social, en la cual sólo intervienen
las personas que usan ese medio. Este tipo de muestras son convenientes porque resultan rápidas y de bajo costo, pero existe una falta de precisión en las estimaciones.

**Muestra probabilística**: los elementos que la componen se eligen de acuerdo con las probabilidades de ocurrencia, esto es, existe un trabajo estadístico previo a la selección de la muestra.

---
**Muestreo aleatorio simple**


El muestreo aleatorio simple es la técnica de muestreo más elemental, al punto que
constituye la base de otras técnicas. La muestra obtenida con este método resulta de
una selección hecha de manera tal que cada elemento de la población tiene la misma
oportunidad (probabilidad) de resultar seleccionado, como se advierte en el ejemplo.

**ejemplo**

En una empresa se realizará una encuesta sobre el clima organizacional para conocer si los
2500 empleados que la forman tienen un ambiente agradable de trabajo. Por cuestiones de
tiempo y costos no es posible censar a los 2500 trabajadores. ¿Cómo se usaría la técnica del
muestreo aleatorio simple para obtener una muestra?

**Solución**

Se decide tomar una muestra de 125 personas y hacer una encuesta con ellas. Para asegurar
que todas las personas tengan la misma probabilidad de ser elegidas sin importar el puesto que
tengan en la empresa, se pide que cada una escriba su nombre en una pequeña hoja de papel y
la deposite en una urna. Se revuelven y se extraen estos “papelitos” hasta completar el tamaño
de la muestra de 125. A ellos se aplica el cuestionario sobre clima organizacional y el resultado
se extiende a toda la población.

---
**Muestreo aleatorio sistemático**


De acuerdo con este método, para obtener la muestra requerida primero se divide el

tamaño de la población $(N)$ entre el tamaño de muestra $(n)$ deseado y el resultado obte-
nido $(k)$ se redondea al entero más cercano. Luego, para seleccionar la muestra se elige al azar el primer elemento y los subsiguientes se escogen cada $k$ elementos.

Cabe precisar que el muestreo sistemático tiene un pequeño inconveniente: si existe algún patrón (comportamiento u ordenamiento bajo algún criterio, como orden alfabético o por fecha de nacimiento) en la lista de la población, existirán errores de selección que afectarán los resultados.

**Ejemplo**

El gerente de producción de una fábrica desea saber si sus productos cumplen los estándares de
calidad que se tienen establecidos. Como resulta muy costoso revisar artículo por artículo, decide tomar una muestra de 100 productos. ¿Cómo puede obtenerla? Considera que la producción
diaria es de 2000 artículos y se opta por emplear el muestreo sistemático.

**Solución**

En este caso:

$
k = \frac{N}{n}
$

Donde:

- $ N $ es el tamaño de la población.
- $ n $ es el tamaño de la muestra requerida.
- $ k $ es el intervalo de selección.

**Cálculo del intervalo ($ k $)**:

$
k = \frac{2000}{100} = 20
$

Se sustituyen los valores:

$
k = 20
$

Ahora, en la selección del primer artículo se utiliza el muestreo aleatorio simple: se elige un
artículo de los primeros 20, por ejemplo, el 16. Entonces, se comienza por el artículo 16, y cada
20 artículos después se seleccionará uno para la muestra (16, 36, 56, 76, ...).

---

**Muestreo aleatorio estratificado**

Esta técnica se utiliza cuando una población está dividida en grupos, llamados estratos,
formados con base en cierta característica, pues así se garantiza que cada miembro de
la población esté en un y solamente un estrato.
Después se toma una muestra de cada estrato y se hacen comparaciones entre ellas.

Merece la pena indicar que para que este tipo de muestreo ofrezca una buena precisión es necesaria la homogeneidad de los elementos en cada estrato, así como la heterogeneidad entre los estratos.

**Ejemplo**

Retomemos el ejemplo del muestreo aleatorio simple (ejemplo 6). Los directivos desean conocer con mayor detalle el clima organizacional que prevalece en la empresa, por tanto, deciden tomar muestras por departamento, es decir, considerar cada departamento como un estrato. De esta manera, las opiniones dentro de cada estrato serán homogéneas (los empleados de cada
departamento se enfrentan a los mismos problemas), y serán heterogéneas para cada estrato, (los empleados pueden tener distinta percepción del clima organizacional, según si están en ventas, mercadotecnia, etcétera).

---

**Muestreo por conglomerados**

El muestreo por conglomerados consiste en dividir una población en grupos o conglomerados usando cierto tipo de límite, por ejemplo, geográfico. Posteriormente, se seleccionan conglomerados al azar y se recolecta una muestra eligiendo en forma aleatoria elementos de cada uno de ellos.

El muestreo por conglomerados resulta de gran utilidad para reducir el costo del
muestreo cuando la población está dispersa en una zona geográfica extensa.

**ejemplo**

Supón que se desea estimar el índice de criminalidad en México. ¿Cómo podrías hacerlo?    

**Solución**

Lo ideal sería realizar un censo, pero como esto resultaría muy costoso e implicaría mucho tiempo, se puede utilizar el muestreo por conglomerados utilizando los municipios (o las delegaciones, en el caso del Distrito Federal) como conglomerados y, enseguida, elegir los municipios según su número de habitantes, es decir, seleccionarlos proporcionalmente a su tamaño.

---

# 1.8 Histograma

## Histograma

Un **histograma** es una representación gráfica de la distribución de un conjunto de datos. Es un tipo de gráfico de barras que muestra la frecuencia con la que ocurren ciertos rangos de valores, conocidos como **intervalos o clases**. Los histogramas son muy útiles para observar la forma de la distribución de los datos y detectar patrones como la simetría, la concentración de datos y la existencia de valores atípicos.

### Características de un histograma:

1. **Eje X**: Representa los intervalos o clases de los datos. Cada barra en el histograma corresponde a un intervalo.
2. **Eje Y**: Representa la frecuencia o el número de observaciones que caen dentro de cada intervalo.
3. **Barras**: Cada barra representa la frecuencia de un intervalo específico. La altura de cada barra indica la cantidad de datos dentro de ese intervalo.
4. **Intervalos (Clases)**: Los datos se agrupan en intervalos (o clases) y cada intervalo tiene un rango de valores. Estos intervalos deben ser mutuamente excluyentes y deben cubrir toda la gama de datos.


# Problemas

**Sólo para practicar.** En la muestra siguiente obtén las medidas de tendencia central y de dispersión y di si presenta sesgo:

| 10 | 4 | -3 | -1 | 9 | 5 | -5 | 0 | -5 | 7 | 1 | -9 | -1 | 0 | 1 |
|----|----|----|----|---|---|----|---|----|---|---|----|----|---|---|

---


In [9]:
import numpy as np
import statistics
from scipy.stats import skew

# Datos
data = [10, 4, -3, -1, 9, 5, -5, 0, -5, 7, 1, -9, -1, 0, 1]

# Cálculo de la media
media = statistics.mean(data)
print(f"Media: {media:.2f}")

# Cálculo de la moda
moda = statistics.mode(data)
print(f"Moda: {moda}")

# Cálculo de la mediana
mediana = statistics.median(data)
print(f"Mediana: {mediana}")

# Cálculo del rango
rango = max(data) - min(data)
print(f"Rango: {rango}")

# Cálculo de la varianza
varianza = statistics.variance(data)
print(f"Varianza: {varianza:.2f}")

# Cálculo de la desviación estándar
desviacion_estandar = statistics.stdev(data)
print(f"Desviación estándar: {desviacion_estandar:.2f}")

# Cálculo del sesgo
sesgo = skew(data)
print(f"Sesgo: {sesgo:.2f}")

# Determinación de sesgo
if sesgo > 0:
    tipo_sesgo = 'Positivo'
elif sesgo < 0:
    tipo_sesgo = 'Negativo'
else:
    tipo_sesgo = 'Ninguno'

print(f"Tipo de sesgo: {tipo_sesgo}")

ModuleNotFoundError: No module named 'scipy'

**Sólo para practicar.** De acuerdo con la distribución de frecuencias que sigue, calcula las medidas
de tendencia central y de dispersión y di si la muestra presenta sesgo:

| Clase |  Marca de clase | fa |
|-------|-----------------|----|
|2 | 13.5 | 7.8 3|
|13.5| 25.0| 19.3 6|
|25.0| 36.5| 30.8 7|
|36.5| 48.1| 42.3 5|
|48.1| 59.6| 53.8 2|

---

In [8]:
import numpy as np
import statistics
from scipy.stats import skew

# Datos: Clase, Marca de clase (x), y frecuencia (fa)
marcas_de_clase = [13.5, 25.0, 36.5, 48.1, 59.6]
frecuencias = [7.8, 19.3, 30.8, 42.3, 53.8]

# Calcular la frecuencia total
n = sum(frecuencias)

# Calcular la media
media = sum(marca * frecuencia for marca, frecuencia in zip(marcas_de_clase, frecuencias)) / n
print(f"Media: {media:.2f}")

# Calcular la varianza
varianza = sum(frecuencia * (marca - media)**2 for marca, frecuencia in zip(marcas_de_clase, frecuencias)) / n
print(f"Varianza: {varianza:.2f}")

# Calcular la desviación estándar
desviacion_estandar = np.sqrt(varianza)
print(f"Desviación estándar: {desviacion_estandar:.2f}")

# Cálculo del sesgo
# Para el sesgo, se puede utilizar la fórmula de sesgo muestral
# Convertir frecuencias en enteros (redondeando)
frecuencias_int = [int(round(f)) for f in frecuencias]
sesgo = skew(np.repeat(marcas_de_clase, frecuencias_int))
print(f"Sesgo: {sesgo:.2f}")

# Determinación de sesgo
if sesgo > 0:
    tipo_sesgo = 'Positivo'
elif sesgo < 0:
    tipo_sesgo = 'Negativo'
else:
    tipo_sesgo = 'Ninguno'

print(f"Tipo de sesgo: {tipo_sesgo}")

ModuleNotFoundError: No module named 'scipy'

**Transporte.** Los habitantes de la Ciudad de México destinan mucho tiempo a desplazarse de
su casa a su lugar de trabajo. Una persona registró durante 13 días el tiempo (en minutos) que
hacía en auto de la zona de Cuemanco a Santa Fe, si salía a las 6:15 am. Los resultados son los
siguientes:

|33 | 140 | 83 | 55 | 70 |
| --- | --- | --- | --- | --- |
|45| 43| 90| 65| 72|
|50| 75| 105|   |  |


a) Determina las medidas de tendencia central y de dispersión, considerando que es una muestra. Interprétalas.

b) ¿Cómo es la forma de la distribución de los datos?

---

In [7]:
import numpy as np
import statistics
from scipy.stats import skew

# Datos
tiempos = [33, 140, 83, 55, 70, 45, 43, 90, 65, 72, 50, 75, 105]

# Cálculo de la media
media = statistics.mean(tiempos)
print(f"Media: {media:.2f}")

# Cálculo de la moda
try:
    moda = statistics.mode(tiempos)
except statistics.StatisticsError:
    moda = "No hay moda única"

print(f"Moda: {moda}")

# Cálculo de la mediana
mediana = statistics.median(tiempos)
print(f"Mediana: {mediana:.2f}")

# Cálculo del rango
rango = max(tiempos) - min(tiempos)
print(f"Rango: {rango}")

# Cálculo de la varianza
varianza = statistics.variance(tiempos)
print(f"Varianza: {varianza:.2f}")

# Cálculo de la desviación estándar
desviacion_estandar = statistics.stdev(tiempos)
print(f"Desviación estándar: {desviacion_estandar:.2f}")

# Cálculo del sesgo
sesgo = skew(tiempos)
print(f"Sesgo: {sesgo:.2f}")

# Determinación de sesgo
if sesgo > 0:
    tipo_sesgo = 'Positivo'
elif sesgo < 0:
    tipo_sesgo = 'Negativo'
else:
    tipo_sesgo = 'Ninguno'

print(f"Tipo de sesgo: {tipo_sesgo}")

ModuleNotFoundError: No module named 'scipy'

**Deportes.** A la Fórmula 1 (F1) se le conoce como la reina del deporte motor. En la competencia
no sólo interviene la preparación física y mental del piloto, sino que es también un “juego” de
estrategia. Las escuderías invierten millones de dólares en el desarrollo de los monoplazas (autos). En la temporada 2010 de F1, se determinó que en cada carrera se otorgara puntos a los diez
primeros pilotos, de esta manera:

|Posición| 1| 2| 3| 4| 5| 6| 7| 8| 9| 10|
|--------|--|--|--|--|--|--|--|--|--|---| 
|Puntos| 25| 18| 15| 12| 10| 8| 6| 4| 2| 1|

A continuación se presentan las posiciones obtenidas por dos de los mejores pilotos: Fernando Alonso
(campeón de 2005 y 2006) y Sebastian Vettel (campeón de 2010 y 2011):

| Piloto            | Escudería  | Baréin | Australia | Malasia | China | España | Mónaco | Turquía | Canadá | Europa | Gran Bretaña | Alemania | Hungría | Bélgica | Italia | Singapur | Japón | Corea | Brasil | Abu Dabi |
|-------------------|------------|--------|-----------|---------|-------|--------|--------|---------|--------|--------|--------------|----------|---------|---------|--------|----------|-------|-------|--------|----------|
| Fernando Alonso   | Ferrari    | 1      | 4         | 13      | 4     | 2      | 6      | 8       | 3      | 8      | 14           | 1        | 2       | Ret*    | 1      | 1        | 3     | 1     | 3      | 7        |
| Sebastián Vettel  | Red Bull   | 4      | Ret       | 1       | 6     | 3      | 2      | Ret*    | 4      | 1      | 7            | 3        | 3       | Ret*    | 4      | 2        | 1     | Ret   | 1      | 1        |
###### Ret: retiro, no suma puntos.

a) Determina la media, la mediana y la moda del puntaje obtenido por cada piloto. Interpreta
los resultados.

b) Calcula la desviación estándar y la forma de la distribución de los puntos durante la temporada de 2010. Interpreta este resultado.

----


In [10]:
import statistics
import numpy as np
from scipy.stats import skew

# Puntos por posición
puntos_por_posicion = {
    1: 25,
    2: 18,
    3: 15,
    4: 12,
    5: 10,
    6: 8,
    7: 6,
    8: 4,
    9: 2,
    10: 1
}

# Posiciones obtenidas
posiciones_alonso = [1, 4, 13, 4, 2, 6, 8, 3, 8, 14, 1, 2, 0, 1, 1, 3, 1, 3, 7]
posiciones_vettel = [4, 0, 1, 6, 3, 2, 0, 4, 1, 7, 3, 3, 0, 4, 2, 1, 0, 1, 1]

# Cálculo de puntos
def calcular_puntos(posiciones):
    return [puntos_por_posicion.get(pos, 0) for pos in posiciones]

puntos_alonso = calcular_puntos(posiciones_alonso)
puntos_vettel = calcular_puntos(posiciones_vettel)

# Medidas de tendencia central
def calcular_medidas(puntos):
    media = statistics.mean(puntos)
    mediana = statistics.median(puntos)
    try:
        moda = statistics.mode(puntos)
    except statistics.StatisticsError:
        moda = "No hay moda única"
        
    return media, mediana, moda

media_alonso, mediana_alonso, moda_alonso = calcular_medidas(puntos_alonso)
media_vettel, mediana_vettel, moda_vettel = calcular_medidas(puntos_vettel)

# Cálculo de la desviación estándar
def calcular_desviacion(puntos):
    return statistics.stdev(puntos)

desviacion_alonso = calcular_desviacion(puntos_alonso)
desviacion_vettel = calcular_desviacion(puntos_vettel)

# Cálculo del sesgo
sesgo_alonso = skew(puntos_alonso)
sesgo_vettel = skew(puntos_vettel)

# Resultados
print(f"Fernando Alonso - Media: {media_alonso:.2f}, Mediana: {mediana_alonso:.2f}, Moda: {moda_alonso}")
print(f"Sebastián Vettel - Media: {media_vettel:.2f}, Mediana: {mediana_vettel:.2f}, Moda: {moda_vettel}")
print(f"Fernando Alonso - Desviación estándar: {desviacion_alonso:.2f}, Sesgo: {sesgo_alonso:.2f}")
print(f"Sebastián Vettel - Desviación estándar: {desviacion_vettel:.2f}, Sesgo: {sesgo_vettel:.2f}")

ModuleNotFoundError: No module named 'scipy'

Geofísica. Un sismo o temblor es un movimiento vibratorio que se origina en el interior de la
Tierra y se propaga en todas direcciones en forma de ondas. México es un país donde frecuentemente ocurren sismos y, como ejemplo, en la distribución de frecuencias siguiente se muestran
los movimientos telúricos ocurridos del 1o. al 21 de diciembre de 2010 en el país:
|Clase|   | Marca de clase| $f_a$|
| --- | --- | --- | --- |
|3.0| 3.5| 3.3| 2|
|3.5| 4.0| 3.8| 18|
|4.0| 4.5| 4.3| 103|
|4.5| 5.0| 4.8| 34|
|5.0| 5.5| 5.3| 3|
|6.0| 6.5| 6.3| 1|
|7.0| 7.5| 7.3| 0|
|7.5| 8.0| 7.8| 0|
|8.0| 8.5| 8.3| 0|
|8.5| 9.0| 8.8| 0|
|9.0| 9.5| 9.3| |
| |  |Total| 161|


# histograma

a) A partir de esta información, calcula las medidas de tendencia central aproximadas e interprétalas.

b) Determina y analiza las medidas de dispersión aproximadas.

---

In [5]:
import numpy as np
import statistics

# Datos de frecuencias y marcas de clase
marcas_clase = [3.3, 3.8, 4.3, 4.8, 5.3, 6.3, 7.3, 7.8, 8.3, 8.8, 9.3]
frecuencias = [2, 18, 103, 34, 3, 1, 0, 0, 0, 0, 0]

# Total de frecuencias
N = sum(frecuencias)

# Cálculo de la media
media = sum(f * x for f, x in zip(frecuencias, marcas_clase)) / N

# Cálculo de la mediana
frecuencia_acumulada = np.cumsum(frecuencias)
mediana_clase_index = np.searchsorted(frecuencia_acumulada, N / 2)  # Encuentra la clase de la mediana

# Cálculo de la moda
moda_clase_index = frecuencias.index(max(frecuencias))

# Cálculo de la varianza
varianza = sum(f * (x - media) ** 2 for f, x in zip(frecuencias, marcas_clase)) / N

# Cálculo de la desviación estándar
desviacion_estandar = np.sqrt(varianza)

# Resultados
print(f"Media: {media:.2f}")
print(f"Mediana (marca de clase): {marcas_clase[mediana_clase_index]:.2f}")
print(f"Moda (marca de clase): {marcas_clase[moda_clase_index]:.2f}")
print(f"Varianza: {varianza:.2f}")
print(f"Desviación estándar: {desviacion_estandar:.2f}")

Media: 4.37
Mediana (marca de clase): 4.30
Moda (marca de clase): 4.30
Varianza: 0.13
Desviación estándar: 0.36


Demografía. A continuación se presenta la distribución de frecuencias del número de nacimientos en México por entidad federativa durante 2008:

|Clase | |Marca de clase| $f_a$|
| --- | --- | --- | --- | 
|12 723.00| 78 744.40| 45 733.70| 1|
|78 744.40| 144 765.80| 111 755.10| 19|
|144 765.80| 210 787.20| 177 776.50| 6|
|210 787.20| 276 808.60| 243 797.90| 5|
|276 808.60| 210 787.20| 243 797.90| 0|
|210 787.20| 276 808.60| 243 797.90| 1|


# HISTOGRAMA

![image.png](attachment:image.png)


a) Determina los principales estadísticos que describen la distribución de nacimientos y luego
interprétalos.

b) ¿Crees que las campañas de planificación familiar han dado buenos resultados en el control
de la natalidad? Explica oralmente por qué.

---

In [3]:
import numpy as np
import statistics

# Datos
marcas_de_clase = [45733.70, 111755.10, 177776.50, 243797.90, 311000.00, 378000.00]
frecuencias = [1, 19, 6, 5, 0, 1]

# Total de frecuencias
N = sum(frecuencias)

# Cálculo de la media
media = sum(f * x for f, x in zip(frecuencias, marcas_de_clase)) / N

# Cálculo de la varianza
varianza = sum(f * (x - media) ** 2 for f, x in zip(frecuencias, marcas_de_clase)) / N

# Cálculo de la desviación estándar
desviacion_estandar = np.sqrt(varianza)

# Resultados
print(f"Media: {media:.2f}")
print(f"Varianza: {varianza:.2f}")
print(f"Desviación estándar: {desviacion_estandar:.2f}")

Media: 151022.78
Varianza: 4351006111.98
Desviación estándar: 65962.16


**Música.** Durante 2010, los diez artistas o grupos que más dinero obtuvieron por concepto de
conciertos fueron los siguientes:

|Artista|Ingreso (millones de dólares)|
|---------|---------|
|AC/DC| 177|
|Bon Jovi| 201.1|
|Lady Gaga| 133.6|
|Metallica| 110.1|
|Michael Bublé| 104.2|
|Paul McCartney| 93|
|Roger Waters| 89.5|
|The Eagles| 92.3|
|U2| 160.9|
|Walking with dinosaurs| 104.1|

a) ¿La información se considera una muestra o una población? ¿Por qué?

b) Determina los principales estadísticos que describen la distribución de los ingresos y luego
interprétalos.

---


In [2]:
import statistics
import numpy as np

# Ingresos de los artistas
ingresos = [177, 201.1, 133.6, 110.1, 104.2, 93, 89.5, 92.3, 160.9, 104.1]

# Cálculo de medidas de tendencia central
media = statistics.mean(ingresos)
mediana = statistics.median(ingresos)
try:
    moda = statistics.mode(ingresos)
except statistics.StatisticsError:
    moda = "No hay moda única"

# Cálculo de medidas de dispersión
varianza = statistics.variance(ingresos)
desviacion_estandar = statistics.stdev(ingresos)

# Resultados
print(f"Media: {media:.2f} millones de dólares")
print(f"Mediana: {mediana:.2f} millones de dólares")
print(f"Moda: {moda}")
print(f"Varianza: {varianza:.2f} millones de dólares al cuadrado")
print(f"Desviación estándar: {desviacion_estandar:.2f} millones de dólares")

Media: 126.58 millones de dólares
Mediana: 107.15 millones de dólares
Moda: 177
Varianza: 1586.45 millones de dólares al cuadrado
Desviación estándar: 39.83 millones de dólares
