# Guía para Dummies: Pruebas de Hipótesis en Python (con Salarios Tech) 🐍

¡Hola, futuro analista de datos! 👋 En este notebook, vamos a aprender sobre **pruebas de hipótesis**, una herramienta súper importante para tomar decisiones basadas en datos.  Usaremos un conjunto de datos *real* sobre salarios en la industria tecnológica (**`global_tech_salary.csv`**). ¡No te preocupes si suena complicado, lo explicaremos paso a paso y con ejemplos divertidos! 🚀


## 1. ¿Qué es una Prueba de Hipótesis? 🤔

Imagina que eres un detective 🕵️‍♀️🕵️‍♂️ y quieres probar si una sospecha que tienes sobre algo es *realmente* cierta.  Las pruebas de hipótesis son como tu **kit de herramientas de detective** para analizar datos y llegar a conclusiones.

Por ejemplo, con este dataset, podríamos preguntarnos:

*   ¿Los científicos de datos *realmente* ganan más que los analistas de datos? 💰
*   ¿Los empleados remotos tienen salarios *diferentes* a los que trabajan en la oficina? 🏢
*   ¿El nivel de experiencia *influye* en el salario? 💪

Las pruebas de hipótesis nos ayudan a responder estas preguntas usando *datos* y un poco de *estadística*.


## 2. Las Dos Hipótesis: Nula y Alternativa ✌️

En cada prueba de hipótesis, tenemos dos "equipos" enfrentados:

### 2.1 Hipótesis Nula ($H_0$)

Es el equipo "aburrido" que dice: **"Aquí no pasa nada especial"**.  Es lo que *asumimos como cierto* a menos que tengamos pruebas muy fuertes de lo contrario. 😴

**Características clave de $H_0$:**

*   Siempre incluye un signo de igualdad (=, ≤, ≥).
*   Representa el *status quo* o la creencia actual.
*   Es lo que queremos *desacreditar*.

**Ejemplos (aplicados a nuestro dataset):**

*   "Los científicos de datos y los analistas de datos *ganan lo mismo* en promedio".
*   "El trabajo remoto *no afecta* el salario promedio".
*   "El nivel de experiencia *no influye* en el salario promedio".

### 2.2 Hipótesis Alternativa ($H_1$ o $H_a$)

Es el equipo "emocionante" que dice: **"¡Sí, hay algo interesante aquí!"**. Es la *sospecha* que queremos *probar*. ✨

**Características clave de $H_1$:**

*   Siempre incluye un signo de desigualdad (≠, >, <).
*   Es lo *opuesto* a la hipótesis nula.
*   Es lo que *sospechamos* que podría ser cierto.

**Ejemplos (aplicados a nuestro dataset):**

*   "Los científicos de datos *ganan más* que los analistas de datos en promedio".
*   "El trabajo remoto *sí afecta* el salario promedio" (podría ser mayor o menor).
*   "El nivel de experiencia *sí influye* en el salario promedio".

**¡Importante!**  La hipótesis nula y la alternativa siempre deben ser *opuestas* y cubrir *todas* las posibilidades.


### Ejercicios: Formula las Hipótesis

Para cada situación (usando el dataset `global_tech_salary.csv`), escribe la hipótesis nula (H_0) y la hipótesis alternativa (H_1):

**Ejercicio A:** Un analista cree que el salario promedio en USD de los *Data Scientist* es *superior* a 120000.

*   H_0:  El salario promedio en USD de los Data Scientist es menor o igual a 120000 (μ ≤ 120000)
*   H_1:  El salario promedio en USD de los Data Scientist es mayor a 120000 (μ > 120000)

**Ejercicio B:** Queremos saber si el salario promedio en USD es *diferente* para los niveles de experiencia 'EN' (Entry-level) y 'EX' (Executive-level).

*   H_0: El salario promedio en USD es igual para los niveles de experiencia 'EN' y 'EX'  (μ_EN = μ_EX)
*   H_1: El salario promedio en USD es diferente para los niveles de experiencia 'EN' y 'EX' (μ_EN ≠ μ_EX)

**Ejercicio C:** Se piensa que los empleados que trabajan de forma remota al 100% ganan *menos* en promedio que los que trabajan de forma presencial o híbrida.

*   H_0: El salario promedio en USD de los empleados remotos al 100% es mayor o igual al de los empleados no remotos (μ_remoto ≥ μ_no_remoto)
*   H_1: El salario promedio en USD de los empleados remotos al 100% es menor al de los empleados no remotos (μ_remoto < μ_no_remoto)

**Ejercicio D:** ¿Existe una *diferencia* en el salario promedio en USD según el tamaño de la empresa ('S', 'M', 'L')?

*   H_0: El salario promedio en USD es igual para todos los tamaños de empresa (μ_S = μ_M = μ_L)
*   H_1: El salario promedio en USD es diferente para al menos uno de los tamaños de empresa (No todas las medias son iguales)

**Ejercicio E:** Un estudio afirma que el salario promedio en USD para *todos* los roles en tecnología en Estados Unidos es *de al menos* 140000.

*   H_0: El salario promedio en USD en Estados Unidos es mayor o igual a 140000 (μ ≥ 140000)
*   H_1: El salario promedio en USD en Estados Unidos es menor a 140000 (μ < 140000)

**Ejercicio F:** Queremos investigar si *existe una asociacion* entre el tipo de empleo ('FT','PT','CT','FL') y el nivel de experiencia ('EN','MI','SE','EX')
* H_0: No existe asociacion entre el tipo de empleo y el nivel de experiencia
* H_1: Existe asociacion entre el tipo de empleo y el nivel de experiencia


## 3. El Valor p (p-value) y Alfa (α): Nuestros Ayudantes

Para decidir qué hipótesis es más probable, usamos dos herramientas:

### 3.1 El Valor p (p-value)
![image.png](attachment:image.png)

Imagina que el valor p es un **medidor de sorpresa**. 😲  Nos dice qué tan *sorprendentes* serían nuestros datos si la hipótesis nula fuera *verdadera*.  Es como la probabilidad de que un mago 🧙‍♂️ saque un conejo 🐇 de un sombrero *vacío*.

*   **Valor p BAJO (cerca de 0):**  ¡Wow, esto es muy raro! 🤯 Es *muy poco probable* que hayamos observado estos datos si la hipótesis nula fuera cierta.  Es como ver al mago sacar un elefante 🐘 de un sombrero diminuto.  Nos hace dudar de la hipótesis nula.
*   **Valor p ALTO (cerca de 1):**  Esto es bastante normal.  No es sorprendente ver estos datos, incluso si la hipótesis nula es cierta. Es como ver al mago sacar un pañuelo 🧣 de su bolsillo. La hipótesis nula *podría* ser cierta.

### 3.2 Alfa (α)
![image-2.png](attachment:image-2.png)

Alfa es como nuestra **línea roja** ➖, nuestro **límite de sorpresa**. Es el nivel de sorpresa que consideramos *suficiente* para decir: "¡Ya no creo en la hipótesis nula!".

*   Normalmente, usamos un alfa de **0.05 (o 5%)**.  Es como decir: "Si la probabilidad de ver estos datos (o datos más extremos) es menor al 5% *asumiendo que la hipótesis nula es verdadera*, entonces rechazo la hipótesis nula".
*   Un alfa más pequeño (como 0.01 o 1%) significa que necesitamos *más evidencia* (un valor p aún más pequeño) para rechazar la hipótesis nula. Somos más estrictos.


### 3.3 La Decisión: ¿Rechazamos la Hipótesis Nula o No?
![image.png](attachment:image.png)

Comparamos el valor p con alfa (α) para tomar una decisión:

*   **Si valor p ≤ α:**  ¡RECHAZAMOS la hipótesis nula! 🎉 Tenemos suficiente evidencia para decir que la hipótesis nula es probablemente falsa.  Es como tener pruebas suficientes para condenar al sospechoso. ⚖️
*   **Si valor p > α:**  NO rechazamos la hipótesis nula. 😔 No tenemos suficiente evidencia para decir que la hipótesis nula es falsa.  Es como *no* tener pruebas suficientes para condenar al sospechoso... ¡pero tampoco significa que sea inocente! Simplemente, *no lo sabemos* con certeza. 🤷‍♀️🤷‍♂️

**¡MUY IMPORTANTE!**

*   Nunca "aceptamos" la hipótesis nula. Solo decimos que "no la rechazamos".
*   Un valor p alto *no* prueba que la hipótesis nula sea verdadera. Solo significa que no tenemos suficiente evidencia para rechazarla.


## 4. La Zona de Rechazo y el Z-score (Una Ayuda Visual) 👀

Imagina una **campana** 🔔 (una distribución normal).  Esta campana representa *todos los posibles resultados* que podríamos obtener si la hipótesis nula fuera cierta.
!![image.png](attachment:image.png)

*   **El centro de la campana (μ):**  Representa el resultado *más probable* si la hipótesis nula es cierta.
*   **Las colas de la campana:** Representan los resultados *menos probables* si la hipótesis nula es cierta.  Estas son las **zonas de rechazo**.
*   **Z-score:**  Es como una regla 📏 que mide a cuántas "desviaciones estándar" de distancia está un dato del centro de la campana (la media).
    *   Un Z-score de 0 está justo en el centro.
    *   Un Z-score de +2 está dos desviaciones estándar a la *derecha* del centro.
    *   Un Z-score de -1 está una desviación estándar a la *izquierda* del centro.
*   **Alfa (α) y las zonas de rechazo:**  Cuando elegimos un alfa de 0.05, estamos diciendo que las zonas de rechazo (las colitas rojas de la campana) representan el 5% *menos probable* de los resultados si la hipótesis nula fuera cierta (2.5% en cada cola).  Los Z-scores que delimitan estas zonas son aproximadamente -1.96 y +1.96.

**¿Cómo se relaciona esto con el valor p?**

*   Si nuestro Z-score calculado a partir de los datos cae *dentro* de la zona de rechazo (es decir, es más extremo que -1.96 o +1.96), entonces el valor p será *menor* que 0.05, y rechazaremos la hipótesis nula.
*   Si nuestro Z-score cae *fuera* de la zona de rechazo, el valor p será *mayor* que 0.05, y no rechazaremos la hipótesis nula.


## 5. Tipos de Pruebas Estadísticas (¡Las Herramientas del Detective!)

Hay diferentes tipos de pruebas de hipótesis, cada una diseñada para un tipo de datos y pregunta específicos.  Aquí te presento algunas de las más comunes:

### 5.1 Prueba t de Student (t-test)
![image-7.png](attachment:image-7.png)
*   **¿Para qué sirve?** Para comparar las *medias* de uno o dos grupos.  Es como preguntarse: "¿Son estos dos grupos *realmente* diferentes en promedio, o la diferencia que veo es solo por casualidad?".
*   **¿Cuándo usarla?**  Cuando tienes datos numéricos (como altura, peso, puntajes de exámenes) y quieres comparar:
    *   La media de un grupo con un valor específico (prueba t de *una muestra*).
    *   Las medias de dos grupos *independientes* (prueba t de *dos muestras independientes*).
    *   Las medias de dos grupos *relacionados* (prueba t de *muestras pareadas*), por ejemplo, las mediciones de un mismo grupo *antes* y *después* de un tratamiento.
*   **Ejemplo (una muestra):**  Queremos saber si la altura promedio de los estudiantes de *nuestra clase* es diferente de 170 cm.
*   **Ejemplo (dos muestras independientes):** Queremos saber si los hombres y las mujeres tienen *diferentes* alturas promedio.
*   **Ejemplo (muestras pareadas):** Queremos saber si un programa de ejercicios *cambia* el peso promedio de las personas (medimos el peso *antes* y *después* del programa).

### 5.2 Prueba Z

![image-4.png](attachment:image-4.png)

![image-5.png](attachment:image-5.png)
*   **¿Para qué sirve?** Similar a la prueba t, pero se usa cuando conoces la desviación estándar de la *población* (no solo de la muestra) y tienes un tamaño de muestra grande (generalmente, más de 30).
*   **¿Cuándo usarla?**  Es menos común en la práctica porque rara vez conocemos la desviación estándar de la población.

### 5.3 Prueba de Chi-cuadrado (χ²)

![image-2.png](attachment:image-2.png)
*   **¿Para qué sirve?** Para analizar datos *categóricos* (como género, color favorito, tipo de transporte).  Nos ayuda a responder preguntas como:
    *   ¿Hay *relación* entre dos variables categóricas? (Prueba de independencia).
    *   ¿Se ajustan nuestros datos observados a una distribución *esperada*? (Prueba de bondad de ajuste).
*   **Ejemplo (independencia):** Queremos saber si hay relación entre el género de una persona y su preferencia de color (azul, rojo, verde).
*   **Ejemplo (bondad de ajuste):** Queremos saber si un dado está *trucado* (es decir, si cada número sale con la misma frecuencia que esperaríamos de un dado justo).

### 5.4 ANOVA (Análisis de Varianza)

![image.png](attachment:image.png)
* **¿Para qué sirve?** Para comparar las *medias* de *tres o más* grupos.  Es como una prueba t, pero para más grupos.  Nos ayuda a responder preguntas como: "¿Hay alguna diferencia en el promedio entre estos grupos, o son todos esencialmente iguales?".
*   **¿Cuándo usarla?** Cuando tienes una variable numérica (como el salario) y quieres compararla entre tres o más grupos definidos por una variable categórica (como el nivel de experiencia, el tipo de empleo, o la ubicación de la empresa).
* **Ejemplo:** Queremos saber si existe una diferencia significativa en el salario promedio entre los diferentes niveles de experiencia ('EN', 'MI', 'SE', 'EX').

### Pruebas No Paramétricas
Cuando nuestros datos no cumplen con los supuestos de las pruebas paramétricas (como la normalidad), utilizamos pruebas no paramétricas. Estas pruebas no asumen una distribución específica para los datos.
*   **Prueba de Mann-Whitney U:** Es una alternativa no paramétrica a la prueba t de dos muestras independientes.  Se usa para comparar dos grupos independientes cuando los datos no son normales.
    *   **Ejemplo:**  Comparar los salarios de dos grupos de empleados (por ejemplo, programadores y diseñadores), cuando los salarios no siguen una distribución normal.
*   **Prueba de Wilcoxon:** Es una alternativa no paramétrica a la prueba t de muestras pareadas. Se usa para comparar dos grupos relacionados cuando los datos no son normales.
    *   **Ejemplo:** Comparar el rendimiento de los empleados antes y después de un programa de capacitación, cuando el rendimiento no se distribuye normalmente.
* **Kruskal-Wallis:** Es una alternativa no parametrica al ANOVA. Se usa para comparar mas de dos grupos independientes.
    * **Ejemplo:** Comparar diferentes grupos de empleados, por ejemplo los de distintas areas, Finanzas, Marketing, IT, etc


| **Categoría**              | **Prueba Estadística**             | **Descripción** | **Función en Python** | **Cuándo Usarlo** |
|----------------------------|-----------------------------------|----------------|-----------------------|-------------------|
| 📌 **Pruebas de Normalidad** | **Shapiro-Wilk** | Evalúa si los datos siguen una distribución normal | `shapiro(data)` | Antes de aplicar pruebas paramétricas |
|                            | **Kolmogorov-Smirnov** | Compara la distribución de los datos con una distribución teórica | `kstest(data, 'norm')` | Cuando se tiene una distribución esperada |
|                            | **Anderson-Darling** | Verifica la normalidad de los datos | `anderson(data, dist='norm')` | Similar a Shapiro, útil para distintos tipos de distribuciones |
| 🔢 **Pruebas Paramétricas** | **t-test de una muestra** | Compara la media de una muestra con un valor específico | `ttest_1samp(sample, popmean)` | Cuando queremos verificar si una muestra proviene de una población con media conocida |
|                            | **t-test (Independiente)** | Compara las medias de dos grupos independientes | `ttest_ind(sample1, sample2, equal_var=True)` | Comparar dos grupos cuando los datos son normales |
|                            | **t-test (Pareado)** | Compara las medias de dos grupos relacionados | `ttest_rel(sample1, sample2)` | Comparar antes y después de una intervención |
|                            | **ANOVA (Análisis de Varianza)** | Compara medias de más de dos grupos | `f_oneway(sample1, sample2, sample3)` | Comparar más de dos grupos cuando los datos son normales |
|                            | **ANOVA de Medidas Repetidas** | Compara más de dos grupos en datos pareados | `rm_anova(data, subject, within)` *(usando statsmodels)* | Comparar efectos en los mismos sujetos a lo largo del tiempo |
| 🔀 **Pruebas No Paramétricas** | **Mann-Whitney U** | Compara dos grupos independientes | `mannwhitneyu(sample1, sample2)` | Alternativa no paramétrica al _t-test independiente_ |
|                            | **Wilcoxon Signed-Rank** | Compara dos grupos relacionados | `wilcoxon(sample1, sample2)` | Alternativa no paramétrica al _t-test pareado_ |
|                            | **Kruskal-Wallis** | Compara más de dos grupos | `kruskal(sample1, sample2, sample3)` | Alternativa no paramétrica a ANOVA |
|                            | **Friedman Test** | Compara más de dos grupos en datos pareados | `friedmanchisquare(sample1, sample2, sample3)` | Alternativa no paramétrica a ANOVA de medidas repetidas |
| 🔗 **Pruebas de Asociación** | **Chi-Cuadrado** | Evalúa la independencia entre dos variables categóricas | `chi2_contingency(contingency_table)` | Para analizar relaciones entre variables categóricas |
|                            | **Test de Fisher** | Evalúa la independencia en tablas pequeñas | `fisher_exact(table)` | Cuando las frecuencias esperadas son bajas |
|                            | **Correlación de Pearson** | Mide relación lineal entre dos variables numéricas | `pearsonr(x, y)` | Si los datos son normales y queremos ver correlación |
|                            | **Correlación de Spearman** | Mide relación monótona entre dos variables | `spearmanr(x, y)` | Si los datos no son normales o hay outliers |
|                            | **Correlación de Kendall** | Mide asociación entre variables ordinales | `kendalltau(x, y)` | Para datos ordinales o con pocos valores únicos |
| 📈 **Pruebas de Homogeneidad de Varianza** | **Levene** | Prueba si dos o más grupos tienen varianzas iguales | `levene(sample1, sample2, center='mean')` | Antes de ANOVA o _t-test_, si la varianza es importante |
|                            | **Bartlett** | Similar a Levene, pero más sensible a datos normales | `bartlett(sample1, sample2, sample3)` | Si los datos son normales y queremos probar homogeneidad |

---

### 🚀 Resumen:
- **Si los datos son normales** → usar **t-test, ANOVA, Pearson**.  
- **Si los datos no son normales** → usar **Mann-Whitney, Kruskal-Wallis, Spearman**.  
- **Si los datos son categóricos** → usar **Chi-cuadrado, Test de Fisher**.  
- **Si comparamos varianzas** → usar **Levene o Bartlett**.  



## 6. ¡A Practicar con el Dataset de Salarios! 🚕

Ahora, vamos a aplicar lo que hemos aprendido a un conjunto de datos real: el dataset `global_tech_salary.csv`. Este dataset contiene información sobre salarios en la industria tecnológica.

**Primero, importaremos las librerías necesarias y cargaremos el dataset:**

In [43]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_1samp, ttest_ind, chi2_contingency, mannwhitneyu, wilcoxon, kruskal, f_oneway
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset (asegúrate de tener el archivo 'global_tech_salary.csv' en el mismo directorio)
df = pd.read_csv('data/global_tech_salary.csv')
#Si no se tiene el archivo, se puede crear un DataFrame de ejemplo:
# df = pd.DataFrame({
#    'work_year': [...],
#    'experience_level': [...],
#     ...
# })
df.head() #Visualizar las primeras filas

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,MI,FT,Data Analyst,165000,USD,165000,AU,0,AU,M
1,2023,MI,FT,Data Analyst,70000,USD,70000,US,100,US,M
2,2024,MI,FT,Machine Learning Engineer,85000,EUR,94444,IE,100,IE,M
3,2024,SE,FT,Data Scientist,92700,USD,92700,US,0,US,M
4,2023,MI,FT,Research Engineer,150000,USD,150000,US,0,US,M


**Ejercicio 7:**

Un analista de recursos humanos afirma que el salario promedio en USD para *todos los puestos* en la industria tecnológica es de al menos \$120,000.  Queremos comprobar si los datos apoyan esta afirmación.

**Instrucciones:**

1.  **Formula las hipótesis:**
    *   $H_0$: ?
    *   $H_1$: ?
2.  **Realiza una prueba t de una muestra (`ttest_1samp`)** para comparar el salario promedio en USD del dataset con \$120,000.  Usa `alternative='less'` si tu hipótesis alternativa es que la media es *menor* que \$120,000, o `alternative='greater'` si crees que es *mayor*. Si quieres probar si es *diferente*, no uses el argumento `alternative`.
3.  **Interpreta el valor p** y decide si rechazas o no la hipótesis nula. Usa un nivel de significación (α) de 0.05.

**Escribe tu código y tu interpretación a continuación:**

--Escribe aquí tu interpretación del ejercicio 7--

In [44]:
#Paso 1:
#Hipotesis:

# H0 >= 120.000
# H1 < 120.000

# Paso 2: Realizar la prueba de hipótesis (Validar que no tenga valores nulos)

t_statistic, p_value = ttest_1samp(df["salary_in_usd"].dropna(), 120000, alternative='less')
print(f"Estadistico t: {t_statistic:.4f}")
print(f"Valor p: {p_value:.4f}")

# Paso 3: Interpretar los resultados:
alpha = 0.05
if p_value <= 0.05:
    print("Se rechaza h0, la hipotesis nula es falsa. El salario promedio es menor a 120.000")
else:
    print("No se rechaza h0, la hipotesis nula es verdadera. No hay suficiente evidencia para decir que el salario promedio es menor a 120.000")

Estadistico t: 30.5326
Valor p: 1.0000
No se rechaza h0, la hipotesis nula es verdadera. No hay suficiente evidencia para decir que el salario promedio es menor a 120.000


**Ejercicio 8:**

Queremos saber si existe una *diferencia* en el salario promedio en USD (`salary_in_usd`) entre los empleados que trabajan de forma remota (`remote_ratio` = 100) y los que no trabajan de forma remota (o tienen un `remote_ratio` menor a 100).

**Instrucciones:**

1.  **Formula las hipótesis:**
    *   $H_0$:?
    *   $H_1$:?
2.  **Separa los datos** en dos grupos: uno para los empleados remotos y otro para los no remotos.
3.  **Realiza una prueba t de *dos muestras independientes* (`ttest_ind`)** para comparar los salarios promedio de los dos grupos.
4.  **Importante:** Antes de la prueba, verifica si las dos muestras tienen *varianzas similares* usando `np.var()`. Si las varianzas son *muy* diferentes (por ejemplo, una es más del doble que la otra), usa el argumento `equal_var=False` en `ttest_ind`.
5.  **Interpreta el valor p** y decide si rechazas o no la hipótesis nula. Usa un nivel de significación (α) de 0.05.

**Escribe tu código y tu interpretación a continuación:**

In [45]:
from scipy.stats import ttest_ind
import numpy as np

# -- Escribe aquí tu código para el Ejercicio 8 --
#Paso 1:
#H0 = mu_remoto = 100
#H1 = mu_remoto < 100

#Paso 2: Separar los datos
salario_remoto = df.query("remote_ratio == 100")["remote_ratio"]

salario_no_remoto = df.query("remote_ratio < 100")["remote_ratio"]

#Paso 3: Verificar la varianza
print(f"Varianza del salario remoto: {np.var(salario_remoto):.4f}")
print(f"Varianza del salario no remoto: {np.var(salario_no_remoto):.4f}")

#Paso 4: Realizar la prueba de t
t_statistic, p_value = ttest_ind(salario_remoto, salario_no_remoto, equal_var=False, alternative='less')

print(f"El valor de t es: {t_statistic:.4f}")
print(f"El valor de p es_: {p_value:.4f}")


alpha = 0.05

if p_value <= alpha:
    print("Se rechaza la hipotesis nula. Sí existe diferencia")
else:
    print("No se rechaza la hipotesis nula. No hay suficiente evidencia para decir que existe diferencia entre el salario remoto y no remoto")  

Varianza del salario remoto: 0.0000
Varianza del salario no remoto: 61.5829
El valor de t es: 733.8621
El valor de p es_: 1.0000
No se rechaza la hipotesis nula. No hay suficiente evidencia para decir que existe diferencia entre el salario remoto y no remoto


  res = hypotest_fun_out(*samples, **kwds)


#-- Escribe aquí tu interpretación del Ejercicio 8 --

**Ejercicio 9 (Desafío):**

Queremos saber si hay una *asociación* entre el *nivel de experiencia* (`experience_level`) y el *tamaño de la compañía* (`company_size`).  Es decir, ¿ciertos niveles de experiencia son más comunes en ciertos tamaños de empresa?

**Instrucciones:**

1.  **Formula las hipótesis:**
   *   $H_0$: ?
    *    $H_1$: ?
2.  **Crea una tabla de contingencia** que muestre la frecuencia de cada combinación de nivel de experiencia y tamaño de compañía. Usa `pd.crosstab()`.
3.  **Realiza una prueba de Chi-cuadrado (`chi2_contingency`)** sobre la tabla de contingencia.
4.  **Interpreta el valor p** y decide si rechazas o no la hipótesis nula. Usa un nivel de significación (α) de 0.05.

**Escribe tu código y tu interpretación a continuación:**

In [46]:
df[["experience_level", "company_size"]].head() #Visualizar las primeras filas

Unnamed: 0,experience_level,company_size
0,MI,M
1,MI,M
2,MI,M
3,SE,M
4,MI,M


In [47]:
from scipy.stats import chi2_contingency
import pandas as pd

# Paso 1 crear las hipotesis
#H0 = No hay asociacion entre el nivel de experiencia y el tamaño de la compañía
#H1 = Hay asociacion entre el nivel de experiencia y el tamaño de la compañía

# Paso 2: Crear la tabla de contingencia (cross tab)
tabla_contingencia = pd.crosstab(df["work_year"], df["experience_level"])
display(tabla_contingencia) 

# Paso 3: Realizar la prueba de chi2
chi2, p_value, _, _  = chi2_contingency(tabla_contingencia)

print(f"Estadistico chi-cuadrado: {chi2:.4f}")
print(f"Valor p: {p_value:.4f}")

# Paso 4: Interpretar los resultados
if p_value <= 0.05:
    print("Se rechaza la hipotesis nula. Existe asociacion entre el nivel de experiencia y el tamaño de la compañía")
else:
    print("No se rechaza la hipotesis nula. No hay asociacion entre el nivel de experiencia y el tamaño de la compañía")

experience_level,EN,EX,MI,SE
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020,6,1,12,6
2021,14,2,34,29
2022,38,13,113,366
2023,162,90,593,2076
2024,155,56,463,771


Estadistico chi-cuadrado: 196.5611
Valor p: 0.0000
Se rechaza la hipotesis nula. Existe asociacion entre el nivel de experiencia y el tamaño de la compañía


-- Escribe aquí tu interpretación del Ejercicio 9 --

**Ejercicio 10 (Desafío extra):**

Queremos comparar los salarios promedios en USD para *más de dos* grupos. Por ejemplo, queremos saber si hay una diferencia significativa en el salario promedio (`salary_in_usd`) entre los diferentes *tipos de empleo* (`employment_type`).

**Instrucciones:**

1.  **Formula las hipótesis**
 *  $H_0$: ?
*  $H_1$: ?
2.  **Prepara los datos:**
    *   Agrupa los datos por `employment_type` y obtén los salarios en USD para cada grupo (FT, PT, CT, FL). Guarda cada grupo en una variable separada (ej. `salarios_ft`, `salarios_pt`, etc.).
    *   Elimina los posibles valores NaN en cada grupo (¡importante para que funcione ANOVA!).
3.  **Realiza un test de ANOVA** de una vía.  La función en `scipy.stats` se llama `f_oneway`.
4.  **Interpreta el valor p** y decide si rechazas o no la hipótesis nula.  Usa un nivel de significación (α) de 0.05.

**Escribe tu código y tu interpretación a continuación:**

In [52]:
from scipy.stats import f_oneway

# Paso 1: Crear las hipotesis
#H0: No hay diferencia entre el salario promedio de los diferentes tpipos de empleo
#H1: Hay diferencia entre el salario promedio de los diferentes tpipos de empleo

#Paso 2: Agrupar los datos
salarios_ft = df.query("employment_type == 'FT'")["salary_in_usd"].dropna() #dropna si no sabemos si hay valores nulos

salarios_pt = df.query("employment_type == 'PT'")["salary_in_usd"]

salarios_ct = df.query("employment_type == 'CT'")["salary_in_usd"]

salarios_fl = df.query("employment_type == 'FL'")["salary_in_usd"]

#Paso 3: Realizar la prueba de ANOVA
f_statistic, p_value = f_oneway(salarios_ft, salarios_pt, salarios_ct, salarios_fl)

print(f"Estadistico F: {f_statistic:.4f}")
print(f"Valor p: {p_value:.4f}")

#Paso 4: Interpretar los resultados
if p_value <= 0.05:
    print("Se rechaza la hipotesis nula. Existe relación significativa entre al menos 1 variable")
else:
    print("No se rechaza la hipotesis nula. No existe relación significativa entre las variables")

Estadistico F: 10.3788
Valor p: 0.0000
Se rechaza la hipotesis nula. Existe relación significativa entre al menos 1 variable


-- Escribe aquí tu interpretación del Ejercicio 10 --

## ¡Excelente trabajo! 🌟

Has completado esta guía para dummies sobre pruebas de hipótesis, y ahora tienes las herramientas para investigar preguntas interesantes usando datos reales. ¡Sigue practicando y explorando! 🚀