# Antes de empezar:
- Lee el archivo README.md
- Comenta tanto como puedas y utiliza los recursos (archivo README.md)
- ¡Feliz aprendizaje!

In [2]:
# import numpy and pandas
import pandas as pd
import numpy as np
from scipy.stats import trim_mean, mode, skew, gaussian_kde, pearsonr, spearmanr, beta
from statsmodels.stats.weightstats import ztest as ztest

from scipy.stats import ttest_ind, norm, t
from scipy.stats import f_oneway
from scipy.stats import sem

# Reto 1 - Explorando los Datos

En este reto, examinaremos todos los salarios de los empleados de la Ciudad de Chicago. Comenzaremos cargando el conjunto de datos y examinando su contenido.

In [4]:
# Run this code:
df = pd.read_csv(r'C:\Users\user\Documents\ironhack\06.24\ML\lab-hypothesis-testing-es-main\lab-hypothesis-testing-es-main\data\Current_Employee_Names__Salaries__and_Position_Titles.csv')

Examina el conjunto de datos `salaries` utilizando la función `head` que se muestra a continuación.

In [5]:
df.head()

Unnamed: 0,Name,Job Titles,Department,Full or Part-Time,Salary or Hourly,Typical Hours,Annual Salary,Hourly Rate
0,"AARON, JEFFERY M",SERGEANT,POLICE,F,Salary,,101442.0,
1,"AARON, KARINA",POLICE OFFICER (ASSIGNED AS DETECTIVE),POLICE,F,Salary,,94122.0,
2,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,F,Salary,,101592.0,
3,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,F,Salary,,110064.0,
4,"ABASCAL, REECE E",TRAFFIC CONTROL AIDE-HOURLY,OEMC,P,Hourly,20.0,,19.86


# Reto 2 - Pruebas de Hipótesis

En esta sección del laboratorio, vamos a probar si el salario por hora de todos los trabajadores por hora es significativamente diferente de $30/hora. Importa la función correcta para la prueba de una muestra desde scipy y realiza la prueba de hipótesis para un intervalo de confianza de dos lados del 95%.

In [8]:
# Filtrar los trabajadores por hora
hourly_workers = df[(df['Salary or Hourly'] == 'Hourly') & (df['Hourly Rate'].notna())]

# Obtener los salarios por hora
hourly_rates = hourly_workers['Hourly Rate'].values

# Realizar la prueba de hipótesis
t_stat, p_val = ttest_ind(hourly_rates, 30)

# Imprimir los resultados
print(f'T-statistic: {t_stat}')
print(f'P-value: {p_val}')

# Evaluar el resultado
alpha = 0.05  # Nivel de significancia del 95%

# Interpretar los resultados
if p_val < alpha:
    print("La hipótesis de que el salario por hora es diferente de $30/hora se rechaza a un nivel de significancia del 5%.")
else:
    print("La hipótesis de que el salario por hora es diferente de $30/hora no se rechaza a un nivel de significancia del 5%.")

T-statistic: 0.23020575383291658
P-value: 0.8179377615647019
La hipótesis de que el salario por hora es diferente de $30/hora no se rechaza a un nivel de significancia del 5%.


La prueba de hipótesis realizada no encontró evidencia suficiente para rechazar la hipótesis nula de que el salario por hora de los trabajadores es diferente de $30/hora, a un nivel de significancia del 5%.

Esto significa que:
Hipótesis nula (H0): El salario por hora es igual a $30/hora.
Hipótesis alternativa (H1): El salario por hora es diferente a $30/hora.
Nivel de significancia: 5% (α = 0.05)
Dado que el valor p obtenido en la prueba de hipótesis fue mayor a 0.05, no se pudo rechazar la hipótesis nula. En otras palabras, no hay evidencia estadística suficiente para afirmar que el salario por hora es significativamente diferente de $30/hora.
En resumen, los resultados de la prueba de hipótesis indican que no se puede concluir que el salario por hora de los trabajadores es diferente de $30/hora, a un nivel de confianza del 95%. No se puede rechazar la hipótesis de que el salario por hora es igual a $30/hora.

# Reto 3 - Construyendo Intervalos de Confianza

Aunque probar nuestra hipótesis es una excelente manera de obtener evidencia empírica para aceptar o rechazar la hipótesis, otra forma de recopilar evidencia es creando un intervalo de confianza. Un intervalo de confianza nos brinda información sobre la media verdadera de la población. Por lo tanto, para un intervalo de confianza del 95%, estamos seguros en un 95% de que la media de la población se encuentra dentro del intervalo de confianza.

Para leer más sobre los intervalos de confianza, haz clic [aquí](https://es.wikipedia.org/wiki/Intervalo_de_confianza).

En la celda a continuación, construiremos un intervalo de confianza del 95% para el salario por hora medio de todos los trabajadores por hora.

El intervalo de confianza se calcula en SciPy utilizando la función `t.interval`. Puedes leer más sobre esta función [aquí](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.t.html).

Para calcular el intervalo de confianza del salario por hora, usa 0.95 para el nivel de confianza, el número de filas - 1 para los grados de libertad, la media de la muestra para el parámetro de ubicación y el error estándar para la escala. El error estándar se puede calcular utilizando [esta](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.sem.html) función en SciPy.

In [15]:
# Obtener los salarios por hora
hourly_rates = hourly_workers['Hourly Rate'].values

# Calcular el error estándar
std_error = sem(hourly_rates)

# Calcular el intervalo de confianza
confidence_level = 0.95
degrees_of_freedom = len(hourly_rates) - 1
mean_hourly_rate = hourly_rates.mean()
standard_error = std_error

lower, upper = t.interval(confidence_level, df=degrees_of_freedom, loc=mean_hourly_rate, scale=standard_error)

print(f"Intervalo de confianza del {confidence_level*100}% para el salario por hora medio:")
print(f"Límite inferior: {lower:.2f}")
print(f"Límite superior: {upper:.2f} \n")
print(f"Salario medio: {mean_hourly_rate:.2f}")
print(f'Error estándar: {standard_error:.2f}')


Intervalo de confianza del 95.0% para el salario por hora medio:
Límite inferior: 32.52
Límite superior: 33.05 

Salario medio: 32.79
Error estándar: 0.14


# Reto 4 - Pruebas de Hipótesis de Proporciones

Otro tipo de prueba de una muestra es una prueba de hipótesis de proporciones. En esta prueba, examinamos si la proporción de un grupo en nuestra muestra es significativamente diferente de una fracción.

Puedes leer más sobre las pruebas de proporción de una muestra [aquí](http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/SAS/SAS6-CategoricalData/SAS6-CategoricalData2.html).

En la celda a continuación, utiliza la función `proportions_ztest` de `statsmodels` para realizar una prueba de hipótesis que determinará si el número de trabajadores por hora en la Ciudad de Chicago es significativamente diferente del 25% en el nivel de confianza del 95%.

In [19]:
from statsmodels.stats.proportion import proportions_ztest

# Filtrar los trabajadores por hora
hourly_workers = df[(df['Salary or Hourly'] == 'Hourly') & (df['Hourly Rate'].notna())]

# Calcular el número total de trabajadores
total_workers = len(df)

# Calcular el número de trabajadores por hora
num_hourly_workers = len(hourly_workers)

# Realizar la prueba de hipótesis
count = num_hourly_workers
nobs = total_workers
hypothetical_proportion  = 0.25
alpha = 0.05

stat, pval = proportions_ztest(count=count, nobs=nobs, value=hypothetical_proportion, alternative='two-sided')

# Imprimir los resultados
print(f'Estadístico Z: {stat}')
print(f'P-valor: {pval}')

# Interpretar los resultados
if pval < alpha:
    print("Rechazamos la hipótesis nula, la hipótesis de que el porcentaje de trabajadores por hora es significativamente diferente del 25%.")
else:
    print("No rechazamos la hipótesis nula, la hipótesis de que el porcentaje de trabajadores por hora no es suficiente para ver diferente del 25%.")

Estadístico Z: -3.5099964213703005
P-valor: 0.0004481127249057967
Rechazamos la hipótesis nula, la hipótesis de que el porcentaje de trabajadores por hora es significativamente diferente del 25%.


En este caso, el p-valor es 0.0004481127249057967, que es menor que 0.05. Por lo tanto, se rechaza la hipótesis nula.