# Before your start:
- Read the README.md file
- Comment as much as you can and use the resources (README.md file)
- Happy learning!

In [92]:
# import numpy and pandas

import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

import numpy as np
import scipy.stats as stats


# Challenge 1 - Exploring the Data

In this challenge, we will examine all salaries of employees of the City of Chicago. We will start by loading the dataset and examining its contents

In [2]:
# Run this code:

salaries = pd.read_csv('../Current_Employee_Names__Salaries__and_Position_Titles.csv')

Examine the `salaries` dataset using the `head` function below.

In [3]:
# Your code here:
salaries.head()


Unnamed: 0,Name,Job Titles,Department,Full or Part-Time,Salary or Hourly,Typical Hours,Annual Salary,Hourly Rate
0,"AARON, JEFFERY M",SERGEANT,POLICE,F,Salary,,101442.0,
1,"AARON, KARINA",POLICE OFFICER (ASSIGNED AS DETECTIVE),POLICE,F,Salary,,94122.0,
2,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,F,Salary,,101592.0,
3,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,F,Salary,,110064.0,
4,"ABASCAL, REECE E",TRAFFIC CONTROL AIDE-HOURLY,OEMC,P,Hourly,20.0,,19.86


We see from looking at the `head` function that there is quite a bit of missing data. Let's examine how much missing data is in each column. Produce this output in the cell below

In [7]:
# Your code here:

valoresperdidos = salaries.isnull().sum()
valoresperdidos[valoresperdidos>0]


Typical Hours    25161
Annual Salary     8022
Hourly Rate      25161
dtype: int64

Let's also look at the count of hourly vs. salaried employees. Write the code in the cell below

In [24]:
# Your code here:

porhora = salaries["Salary or Hourly"].value_counts()["Hourly"]
porhora


8022

In [23]:
porsalario = salaries["Salary or Hourly"].value_counts()["Salary"]
porsalario

25161

What this information indicates is that the table contains information about two types of employees - salaried and hourly. Some columns apply only to one type of employee while other columns only apply to another kind. This is why there are so many missing values. Therefore, we will not do anything to handle the missing values.

There are different departments in the city. List all departments and the count of employees in each department.

In [75]:
len(salaries['Name'])

33183

In [26]:
# Your code here:
numeroempleados = salaries.groupby('Department').size().reset_index(name='Numero_empleados')
numeroempleados


Unnamed: 0,Department,Numero_empleados
0,ADMIN HEARNG,39
1,ANIMAL CONTRL,81
2,AVIATION,1629
3,BOARD OF ELECTION,107
4,BOARD OF ETHICS,8
5,BUDGET & MGMT,46
6,BUILDINGS,269
7,BUSINESS AFFAIRS,171
8,CITY CLERK,84
9,CITY COUNCIL,411


In [72]:
numeroempleados.groupby("Department")["Numero_empleados"].sum()



Department
ADMIN HEARNG                39
ANIMAL CONTRL               81
AVIATION                  1629
BOARD OF ELECTION          107
BOARD OF ETHICS              8
BUDGET & MGMT               46
BUILDINGS                  269
BUSINESS AFFAIRS           171
CITY CLERK                  84
CITY COUNCIL               411
COMMUNITY DEVELOPMENT      207
COPA                       116
CULTURAL AFFAIRS            65
DISABILITIES                28
DoIT                        99
FAMILY & SUPPORT           615
FINANCE                    560
FIRE                      4641
GENERAL SERVICES           980
HEALTH                     488
HUMAN RELATIONS             16
HUMAN RESOURCES             79
INSPECTOR GEN               87
LAW                        407
LICENSE APPL COMM            1
MAYOR'S OFFICE              85
OEMC                      2102
POLICE                   13414
POLICE BOARD                 2
PROCUREMENT                 92
PUBLIC LIBRARY            1015
STREETS & SAN             21

# Challenge 2 - Hypothesis Tests

In this section of the lab, we will test whether the hourly wage of all hourly workers is significantly different from $30/hr. Import the correct one sample test function from scipy and perform the hypothesis test for a 95% two sided confidence interval.

- H0
Hipótesis nula. (H0). H0 es el status quo, el mainstream, la hipótesis a vencer por el investigador.
- H1
Hipótesis alternativa. (H1). H1 es la nueva hipótesis, la del investigador.

In [27]:
# Your code here:
from scipy.stats import ttest_1samp


In [34]:
from scipy.stats import shapiro

In [59]:
# Definimos el nivel de confianza
nivel_confianza = 0.95

# Obtener los datos de salario por hora

hourly_rate = salaries["Hourly Rate"].dropna()

# Realizar la prueba de hipótesis

t_statistic, p_value = ttest_1samp(hourly_rate, 30)

In [52]:
p_value # al ser tan baja no podemos coger la hipotesis.

4.3230240486229894e-92

Probamos a ver si es normal la muestra

In [35]:
shapiro(hourly_rate)



ShapiroResult(statistic=0.930728554725647, pvalue=0.0)

In [46]:
from scipy.stats import anderson

# Obtener los datos de salario por hora
hourly_rate = salaries["Hourly Rate"].dropna()

# Realizar la prueba de normalidad de Anderson-Darling
result = anderson(hourly_rate)

# Imprimir los resultados
print("Prueba de normalidad de Anderson-Darling en el salario por hora")
print("Estadístico de prueba:", result.statistic)
print("Valores críticos:", result.critical_values)
print("Niveles de significancia correspondientes:", result.significance_level)

Prueba de normalidad de Anderson-Darling en el salario por hora
Estadístico de prueba: 226.04611900352393
Valores críticos: [0.576 0.656 0.787 0.918 1.091]
Niveles de significancia correspondientes: [15.  10.   5.   2.5  1. ]


 Si el estadístico de prueba es mayor que los valores críticos para un nivel de significancia específico, se rechaza la hipótesis nula de que los datos siguen una distribución normal. Si el estadístico de prueba es menor que los valores críticos, no se rechaza la hipótesis nula y se concluye que los datos pueden considerarse normalmente distribuidos.

Un valor p tan pequeño indica que hay una evidencia muy fuerte en contra de la hipótesis nula de que los datos se distribuyen normalmente. En otras palabras, se rechaza la hipótesis nula y se concluye que los datos no siguen una distribución normal.

Observamos que la muestra no es normal, por lo que procedemos a normalizar la muestra

In [49]:
# normalizando (standarizacion) a mano

normalhourlyrate = (hourly_rate - hourly_rate.mean())/(hourly_rate.std()/np.sqrt(len(hourly_rate)))

# N(0, 1) normal media=0 std=1                               

normalhourlyrate[:10]

4     -95.599366
6      98.430580
7      20.789024
10   -222.857574
18   -111.719232
19     98.430580
21    -83.990105
24     20.789024
26    -56.852532
33    -94.564145
Name: Hourly Rate, dtype: float64

In [77]:

# Realizar la prueba de hipótesis (una muestra)
t_statistic, p_value = ttest_1samp(normalhourlyrate, popmean=0)

# Calcular el intervalo de confianza
confidence_interval = (normalhourlyrate.mean() - t_statistic * normalhourlyrate.std() / np.sqrt(len(normalhourlyrate)),
                       normalhourlyrate.mean() + t_statistic * normalhourlyrate.std() / np.sqrt(len(normalhourlyrate)))

# Verificar si la hipótesis nula es rechazada o no
if p_value < (1 - nivel_confianza):
    hypothesis_result = "Se rechaza la hipótesis nula"
else:
    hypothesis_result = "No se rechaza la hipótesis nula"

# Imprimir los resultados
print("Prueba de hipótesis de una muestra para el salario por hora")
print("Nivel de confianza:", nivel_confianza * 100, "%")
print("Estadístico de prueba (t-statistic):", t_statistic)
print("Valor p (p-value):", p_value)
print("Intervalo de confianza:", confidence_interval)
print("Resultado de la hipótesis:", hypothesis_result)

Prueba de hipótesis de una muestra para el salario por hora
Nivel de confianza: 95.0 %
Estadístico de prueba (t-statistic): -5.759452860890649e-14
Valor p (p-value): 0.999999999999954
Intervalo de confianza: (-1.2116903504194741e-27, -1.151890572178117e-13)
Resultado de la hipótesis: No se rechaza la hipótesis nula


We are also curious about salaries in the police force. The chief of police in Chicago claimed in a press briefing that salaries this year are higher than last year's mean of $86000/year a year for all salaried employees. Test this one sided hypothesis using a 95% confidence interval.

Hint: A one tailed test has a p-value that is half of the two tailed p-value. If our hypothesis is greater than, then to reject, the test statistic must also be positive.

1. Obtén una muestra de salarios del departamento de policía para el año actual.
2. Calcula la media de la muestra (media_muestra) y la desviación estándar de la muestra (desviacion_estandar_muestra) de los salarios.
4. Define las hipótesis nula y alternativa:
  - Hipótesis nula (H0): Los salarios actuales en el departamento de policía son menores o iguale 86,000/año.
  - Hipótesis alternativa (Ha): Los salarios actuales en el departamento de policía son mayores a 86,000/año.
5. Decide el nivel de significancia (alfa) para la prueba. En este caso, utilizaremos un nivel de confianza del 95%, por lo que alfa = 0.05.

6. Calcula el valor t utilizando la fórmula: valor_t = (media_muestra - media_hipotetica) / (desviacion_estandar_muestra / sqrt(tamaño_muestra)), donde media_hipotetica es 86,000/año y tamaño_muestra es el tamaño de la muestra.

7. Calcula el valor p para la prueba unidireccional utilizando la distribución t con tamaño_muestra - 1 grados de libertad: valor_p = 1 - stats.t.cdf(valor_t, df=tamaño_muestra-1).

8. Compara el valor p con alfa y toma una decisión. Si el valor p es menor que alfa, rechazamos la hipótesis nula; de lo contrario, no podemos rechazar la hipótesis nula.


In [81]:
#1 
police_salaries = salaries[(salaries['Department'] == 'POLICE') & (salaries['Salary or Hourly'] == 'Salary')]['Annual Salary']
police_salaries.head()

0     101442.0
1      94122.0
9      93354.0
11     84054.0
12     87006.0
Name: Annual Salary, dtype: float64

In [85]:
#2
sample_mean = police_salaries.mean()
sample_std = police_salaries.std()


In [86]:
#3
hypothesized_mean = 86000

In [88]:
#4
sample_size = len(police_salaries)
sample_size

13404

In [90]:
#5
t_score = (sample_mean - hypothesized_mean) / (sample_std / np.sqrt(sample_size))
t_score

3.08199700571315

In [94]:
#6
p_value = 1 - stats.t.cdf(t_score, df=sample_size-1)
p_value

0.0010301701775476957

In [99]:
#7
nivel_confianza = 0.95
confidence_interval = stats.t.interval(nivel_confianza, df=sample_size-1, loc=sample_mean, scale=sample_std/np.sqrt(sample_size))
confidence_interval

(86177.05631531785, 86795.77269094893)

In [96]:
#8
if p_value < (1 - nivel_confianza):
    hypothesis_result = "Se rechaza la hipótesis nula"
else:
    hypothesis_result = "No se rechaza la hipótesis nula"

In [98]:
# Your code here:

print("Prueba de hipótesis: Salarios en el departamento de policía")
print("Nivel de confianza:", nivel_confianza * 100, "%")
print("Estadístico de prueba (t-score):", t_score)
print("Valor p (p-value):", p_value)
print("Intervalo de confianza:", confidence_interval)
print("Resultado de la hipótesis:", hypothesis_result)

Prueba de hipótesis: Salarios en el departamento de policía
Nivel de confianza: 95.0 %
Estadístico de prueba (t-score): 3.08199700571315
Valor p (p-value): 0.0010301701775476957
Intervalo de confianza: (86177.05631531785, 86795.77269094893)
Resultado de la hipótesis: Se rechaza la hipótesis nula


Basado en la prueba de hipótesis con un nivel de confianza del 95%, se rechaza la hipótesis nula de que los salarios en el departamento de policía sean menores o iguales a 86,000/año. El valor p obtenido es 0.00103, lo cual es menor que el nivel de significancia establecido (0.05), lo que indica que hay suficiente evidencia para concluir que los salarios en el departamento de policía son mayores a la media del año pasado de 86,000/año.

Además, el intervalo de confianza calculado para la media de los salarios en el departamento de policía se encuentra entre 86,177 y 86,796, lo cual respalda la conclusión de que los salarios actuales son mayores que la media del año pasado.

Es importante tener en cuenta que estos resultados se basan en la muestra proporcionada y que los cálculos pueden variar si se utiliza una muestra diferente o se considera un conjunto más amplio de datos.

Using the `crosstab` function, find the department that has the most hourly workers. 

In [110]:
# Your code here:

# tabla de cruce
cross_table = pd.crosstab(salaries['Department'], salaries['Salary or Hourly'])

# Filtrar las filas donde la columna 'Salary or Hourly' sea la más alta

department_with_most_hourly_workers = cross_table[cross_table['Hourly'] == cross_table['Hourly'].max()]

department_with_most_hourly_workers

Salary or Hourly,Hourly,Salary
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
STREETS & SAN,1862,336


In [122]:
cross_table.head()

Salary or Hourly,Hourly,Salary
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
ADMIN HEARNG,0,39
ANIMAL CONTRL,19,62
AVIATION,1082,547
BOARD OF ELECTION,0,107
BOARD OF ETHICS,0,8


The workers from the department with the most hourly workers have complained that their hourly wage is less than $35/hour. Using a one sample t-test, test this one-sided hypothesis at the 95% confidence level.

1. Definimos la hipótesis nula (H0) y la hipótesis alternativa (H1):

- Hipótesis nula (H0): El salario por hora promedio de los trabajadores del departamento con la mayor cantidad de trabajadores por hora es de 35/hora o mayor.

- Hipótesis alternativa (H1): El salario por hora promedio de los trabajadores del departamento con la mayor cantidad de trabajadores por hora es menor a 35/hora.

2. Selecciona el nivel de significancia (α) para la prueba. En este caso, el nivel de confianza es del 95%, por lo que alpha = 0.05.

4. Extrae los salarios por hora de los trabajadores del departamento con la mayor cantidad de trabajadores por hora.

5. Realiza la prueba t de una muestra

6. Compara el valor p con el nivel de significancia


In [124]:
departamento_mayoria_trabajadores_hora = 'STREETS & SAN' # Reemplazar con el nombre correcto del departamento
hourly_wages = salaries[(salaries['Department'] == departamento_mayoria_trabajadores_hora) & (salaries['Salary or Hourly'] == 'Hourly')]['Hourly Rate']
hourly_wages.head()

7     35.60
21    21.43
24    35.60
36    36.21
39    35.60
Name: Hourly Rate, dtype: float64

In [128]:
# Hipótesis nula (H0)trabajadores 35/hora o mayor
# Realizar la prueba t de una muestra

null_mean = 35  # Media nula para la hipótesis
alpha = 0.05  # Nivel de significancia

t_statistic, p_value = stats.ttest_1samp(hourly_wages, null_mean, alternative='less')

# Comparar el valor p con el nivel de significancia
if p_value < alpha:
    conclusion = "Rechazar la hipótesis nula. Hay evidencia para respaldar la afirmación de que el salario por hora promedio es menor a $35/hora."
else:
    conclusion = "No se puede rechazar la hipótesis nula. No hay suficiente evidencia para respaldar la afirmación de que el salario por hora promedio es menor a $35/hora."

print("Estadístico de prueba:", t_statistic)
print("Valor p:", p_value)
print("Conclusión:", conclusion)

Estadístico de prueba: -9.567447887848152
Valor p: 1.6689265282353859e-21
Conclusión: Rechazar la hipótesis nula. Hay evidencia para respaldar la afirmación de que el salario por hora promedio es menor a $35/hora.


# Challenge 3 - Constructing Confidence Intervals

While testing our hypothesis is a great way to gather empirical evidence for accepting or rejecting the hypothesis, another way to gather evidence is by creating a confidence interval. A confidence interval gives us information about the true mean of the population. So for a 95% confidence interval, we are 95% sure that the mean of the population is within the confidence interval. 
).

To read more about confidence intervals, click [here](https://en.wikipedia.org/wiki/Confidence_interval).


In the cell below, we will construct a 95% confidence interval for the mean hourly wage of all hourly workers. 

The confidence interval is computed in SciPy using the `t.interval` function. You can read more about this function [here](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.t.html).

To compute the confidence interval of the hourly wage, use the 0.95 for the confidence level, number of rows - 1 for degrees of freedom, the mean of the sample for the location parameter and the standard error for the scale. The standard error can be computed using [this](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.sem.html) function in SciPy.

El intervalo de confianza se calcula en SciPY utilizando la función T. Interval. Puede leer más sobre esta función aquí.
Para calcular el intervalo de confianza del salario por hora, use el 0.95 para el nivel de confianza, el número de filas - 1 para grados de libertad, la media de la muestra para el parámetro de ubicación y el error estándar para la escala.


Now construct the 95% confidence interval for all salaried employeed in the police in the cell below.

In [131]:

# Calcular la media y el error estándar
mean = police_salaries.mean()
std_error = stats.sem(police_salaries, nan_policy='omit')

std_error

157.82445675052244

In [132]:

# Calcular los límites inferior y superior del intervalo de confianza
n = police_salaries.count()
dof = n - 1
confidence_level = 0.95
critical_value = stats.t.ppf((1 + confidence_level) / 2, dof)
margin_of_error = critical_value * std_error
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

# Imprimir el intervalo de confianza
print("Intervalo de Confianza para los Salarios en el Departamento de Policía (nivel de confianza del 95%):")
print("Límite inferior:", lower_bound)
print("Límite superior:", upper_bound)

Intervalo de Confianza para los Salarios en el Departamento de Policía (nivel de confianza del 95%):
Límite inferior: 86177.05631531784
Límite superior: 86795.77269094894


# Challenge 4 - Hypothesis Tests of Proportions

Another type of one sample test is a hypothesis test of proportions. In this test, we examine whether the proportion of a group in our sample is significantly different than a fraction. 

You can read more about one sample proportion tests [here](http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/SAS/SAS6-CategoricalData/SAS6-CategoricalData2.html).

In the cell below, use the `proportions_ztest` function from `statsmodels` to perform a hypothesis test that will determine whether the number of hourly workers in the City of Chicago is significantly different from 25% at the 95% confidence level.

Proporciones:
    
1. Definimos la hipótesis nula (H0) y la hipótesis alternativa (H1):

- Hipótesis nula (H0): 0.25

- Hipótesis alternativa (H1): Muy distante a 0.25

2. Selecciona el nivel de significancia (α) para la prueba. En este caso, el nivel de confianza es del 95%, por lo que alpha = 0.05.

4. Extrae número de trabajadores por horas y el número total de trabajadores.

5. Realiza la prueba t de una muestra

6. Compara el valor p con el nivel de significancia

In [133]:
# Your code here:
from statsmodels.stats.proportion import proportions_ztest


In [136]:
# número de trabajadores por horas y el número total de trabajadores
hourly_count = salaries[salaries['Salary or Hourly'] == 'Hourly'].shape[0]
total_count = salaries.shape[0]
total_count

33183

In [137]:
# proporción nula de la hipótesis y el nivel de significancia
null_hypothesis_proportion = 0.25  # 25%
confidence_level = 0.95

In [141]:
# Realizar la prueba de hipótesis
statistic, p_value = proportions_ztest(hourly_count, total_count, 
                                       value=null_hypothesis_proportion, alternative='two-sided')
print(p_value)
print(statistic)

0.0004481127249057967
-3.5099964213703005


In [142]:
# Comparar el valor p con el nivel de significancia
if p_value < 1-confidence_level:
    conclusion = "Rechazar la hipótesis nula. El número de trabajadores por horas es significativamente diferente del 25%."
else:
    conclusion = "No se puede rechazar la hipótesis nula. El número de trabajadores por horas no es significativamente diferente del 25%."

# Imprimir los resultados
print("Resultados de la Prueba de Hipótesis:")
print("Estadístico:", statistic)
print("valor p:", p_value)
print("Conclusión:", conclusion)

Resultados de la Prueba de Hipótesis:
Estadístico: -3.5099964213703005
valor p: 0.0004481127249057967
Conclusión: Rechazar la hipótesis nula. El número de trabajadores por horas es significativamente diferente del 25%.
