# Taller lentejas
### Miguel Ángel Vélez - Diego Jiménez - Alejandro García

In [8]:
import scipy.stats as ss
import numpy as np

## Toma de los datos

In [54]:
# Tamaño de la muestra de lentejas
n_lentejas = 35 

# Medida del ancho de las lentejas en centímetros (cm)
medida_lentejas = [0.7, 0.63, 0.64, 0.62, 0.60, 0.69, 0.67, 0.66, 0.65, 0.65, 0.61, 0.67, 0.66, 0.69, 0.61, 0.68, 0.62, 0.61,
                  0.63, 0.67, 0.60, 0.61, 0.60, 0.59, 0.70, 0.61, 0.67, 0.55, 0.60, 0.71, 0.61, 0.7, 0.62, 0.62, 0.63]

# Medida del peso de las lentejas en gramos (g)
peso_lentejas = [0.073, 0.0692, 0.0635, 0.0616, 0.0620, 0.0747, 0.0723, 0.0716, 0.0641, 0.0553, 0.0603, 0.0771, 0.0724, 0.0725,
                0.0637, 0.0616, 0.0698, 0.0669, 0.0569, 0.0640, 0.0688, 0.0698, 0.0688, 0.0650, 0.0623, 0.0648, 0.0722, 0.0706,
                0.0758, 0.0640, 0.0684, 0.0711, 0.0783, 0.0601, 0.0603]

## Medidas de tendencia central

In [21]:
# Promedio muestral de la medida del ancho de las lentejas en centímetros (cm)
x__medida_lentejas = sum(medida_lentejas) / n_lentejas 

# Promedio muestral de la medida del peso de las lentejas en gramos (g)
x__peso_lentejas = sum(peso_lentejas) / n_lentejas

# Desviación estándar de la medida del ancho de las lentejas en centímetros (cm)
s_medida_lentejas = (np.var(medida_lentejas))**0.5

# Desviación estándar de la medida del peso de las lentejas en gramos (g)
s_peso_lentejas = (np.var(peso_lentejas))**0.5

In [90]:
print("Promedio muestral de la medida del ancho de las lentejas: {} cm".format(x__medida_lentejas))
print("Promedio muestral de la medida del peso de las lentejas: {} g".format(x__peso_lentejas))
print("Desviación estándar de la medida del ancho de las lentejas: {} cm".format(s_medida_lentejas))
print("Desviación estándar de la medida del peso de las lentejas: {} g".format(s_peso_lentejas))

Promedio muestral de la medida del ancho de las lentejas: 0.6394285714285715 cm
Promedio muestral de la medida del peso de las lentejas: 0.06722285714285714 g
Desviación estándar de la medida del ancho de las lentejas: 0.038243046586862006 cm
Desviación estándar de la medida del peso de las lentejas: 0.005695165153219789 g


<hr/>
<hr/>

## 1. Determine el tamaño de la muestra

La profesora Luisa, nos pide, como profesora de Estadística aplicada, que estimemos el peso promedio de una lenteja. Nos advierte que debe mantener el error dentro de 0.003 gramos, y mantener un nivel de confianza del 95%.
¿Cuántas lentejas debemos pesar si la desviación estándar es 0.0056 gramos?

In [83]:
alpha_lentejas_n = 0.95
s_lentejas_n = 0.0056
error_lentejas_n = 0.003

In [84]:
def n_avg(alpha, s, error):
        """
        """
        z_value = ss.norm.interval(alpha)[1]
        n = ((z_value**2)*(s**2)) / (error**2)
        
        return round(n)

In [85]:
n_avg(alpha_lentejas_n, s_lentejas_n, error_lentejas_n)

13.0

**R/** Deberíamos tomar una muestra de **13** lentejas, para que de esta manera podamos estimar el peso promedio de las lentejas con un nivel de confianza del 95% y teniendo en cuenta un error menor de 0.003 gramos.

<hr/>
<hr/>

## 2. Hipótesis 1 población muestra grande, 1% significancia
Jose Jiménez, CEO de Lentejas S.A le afirma a sus inversionistas que las lentejas de su compañía pesan en promedio 0.07 gramos, los inversionistas sacan una muestra de 35 lentejas con una media de 0.06722285714285714 gramos, y una desviación estándar de 0.005695165153219789. Con un nivel de signifancia del 1%, ¿Se puede respaldar la afirmación de José Jimenez?.

In [47]:
mu_lentejas_h = 0.07
n_lentejas_h = 35
x__lentejas_h = 0.06722285714285714
s_lentejas_h = 0.005695165153219789
alpha_lentejas_h = 0.01

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** μ = 0.07                   

**Ha:** μ ≠ 0.07

<u> **Paso 2**</u>: Nivel de significancia

In [48]:
alpha_lentejas_h

0.01

<u> **Paso 3**</u>: Valores críticos

In [50]:
def crit_val_norm(sign, tail):
        """
        """
        if tail == 'two':
            alpha = 1 - (sign/2)
            crit_val = ss.norm.ppf(1 - alpha), ss.norm.ppf(alpha)
            return crit_val
        
        if tail == 'left':
            alpha = 1 - sign
            crit_val = ss.norm.ppf(1 - alpha)
            return crit_val
        
        if tail == 'right':
            alpha = 1 - sign
            crit_val = ss.norm.ppf(alpha)
            return crit_val
        
        print("You must input a valid tail ('two', 'left' or 'right')")

In [51]:
crit_lentejas_h = crit_val_norm(alpha_lentejas_h, 'two')
crit_lentejas_h

(-2.5758293035489004, 2.5758293035489004)

<u> **Paso 4**</u>: Estadístico de prueba (Z)

In [52]:
def get_z(x, mu, sd, **kwargs):
        """
        """
        if not kwargs:
            z = ((x - mu) / sd)
            return z
        else:
            n = kwargs.get('n', None)
            if (n <= 30):
                print("The sample size must be greater than 30.")
            else:
                z = ((x - mu) / (sd / n**0.5))
                return z

In [53]:
z_lentejas_h = get_z(x__lentejas_h, mu_lentejas_h, s_lentejas_h, n=n_lentejas_h)
z_lentejas_h

-2.884867825586016

<u> **Paso 5**</u>: Decisión

**SI RECHAZAMOS LA HIPÓTESIS NULA**, pues el estadístico de prueba *-2.884867825586016* es menor o mayor que los valores críticos obtenidos *-2.5758293035489004, 2.5758293035489004*

<u>**Paso 6**</u>: Conclusión

Con un nivel de significancia del 1%, se puede concluir que el valor promedio de las lentejas es **diferente** a 0.07 gramos.

Por lo tanto, no hay evidencias suficientes para respaldar la afirmación de José Jiménez.

<hr/>
<hr/>

## 3. Intervalo 2 poblaciones muestras grandes, 95% confianza
Los inversionistas de Lentejas S.A, darán un apoyo especial al sembrado que produzca las lentejas de menor medida, para que de esta manera produzcan lentejas de mayor calidad. De las dos plantaciones existentes, se tomaron los siguientes datos: de la primera se midieron 35 lentejas, con una media de 0.6394285714285715, y una desviación estándar de 0.038243046586862006. De la segunda plantación se midieron 34 lentejas, con una media de 0.64, y una desviación estándar de 0.037. Determine un intervalo de confianza del 95% para la diferencia en la medida promedio de las lentejas en estas 2 plantaciones.

In [62]:
n_lentejas_i1 = 35
x__lentejas_i1 = 0.6394285714285715
s_lentejas_i1 = 0.038243046586862006

n_lentejas_i2 = 34
x__lentejas_i2 = 0.64
s_lentejas_i2 = 0.037

alpha_lentejas_i = 0.95

In [65]:
def norm_2p(n1, n2, x_1, x_2, sd1, sd2, alpha):
        """
        """
        if (n1 <= 30 or n2 <= 30):
            print("The sample sizes must be greater than 30.")
        else:
            sd_error = ((sd1**2 / n1) + (sd2**2 / n2))**0.5
            z_value = ss.norm.interval(alpha)[1]
            
            minimum = (x_1 - x_2) - (z_value * sd_error)
            maximum = (x_1 - x_2) + (z_value * sd_error)
            
            return minimum, maximum

In [66]:
lentejas_i = norm_2p(n_lentejas_i1, n_lentejas_i2, x__lentejas_i1, x__lentejas_i2, s_lentejas_i1, s_lentejas_i2, alpha_lentejas_i)
lentejas_i

1.959963984540054


(-0.018325207610630334, 0.017182350467773222)

**R/** Con un nivel de confianza del 95%, podemos observar que la diferencia entre las medidas promedio de las plantaciones está entre **-0.018325207610630334, 0.017182350467773222** centímetros.

Entonces, como en el intervalo está incluído el valor de **cero**, podemos concluir que las medidas de las lentejas de las 2 plantaciones no tienen una diferencia significativa, por lo tanto no hay suficientes evidencias para demostrar que una plantación sea peor que la otra. Los inversionistas no deberían invertir en apoyo para ninguna de las 2 plantaciones en especial.