<a href="https://colab.research.google.com/github/financieras/dataframe/blob/main/2024/task3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Task 3
Ahora nos toca un poco de estad√≠stica.

A Winston Churchill (¬øqui√©n era Winston Churchill?), se le atribuye la sentencia que √©l solo se f√≠a de las estad√≠sticas que el mismo ha trucado. Nosotros desde luego no hemos falsificado nada, pero la verdad es que siempre hay muchas formas de crear estad√≠sticas, y por esto es importante echar un vistazo a los datos que utilizamos, y pensar si el promedio es el m√©todo adecuado, o si preferimos aplicar la mediana.

En realidad, nos hemos saltado unos pasos importantes en la exploraci√≥n de los datos. Siempre hay que comprobar si los datos son completos (en nuestro caso lo son) y si hay valores at√≠picos que cambian los resultados, sobre todo cuando trabajamos con el promedio.

Os doy un ejemplo:

Queremos saber cu√°l es el pa√≠s m√°s rico, el pa√≠s A o el pa√≠s B. Lo primero que hacemos es fijarnos en el PIB (¬øqu√© es el PIB?). Entonces, el pa√≠s B es el m√°s rico. No obstante, si tomamos en cuenta que el pa√≠s B es mucho m√°s grande, esto cambia. Si dividimos el PiB por el n√∫mero de habitantes, resulta que el pa√≠s A sale mucho mejor parado. Esto significa que los habitantes del pa√≠s A son m√°s ricos?

Depende: en el pa√≠s A hay una persona muy rica, y el resto es bastante pobre. Esto hace que casi todo el mundo dispone de mucho menos que la renta media, es decir el valor at√≠pico (la persona rica) afecta mucho el promedio. Entonces aplicamos la mediana en vez del promedio, y vemos que el valor mediano en el pa√≠s A es mucho m√°s bajo que en el pa√≠s B, mientras el promedio es m√°s alto en A que en B.

### Ejemplo

| Indicador   | Pa√≠s A        | Pa√≠s B        |
|-------------|--------------|---------------|
| PIB         | 1000         | 2000          |
| Habitantes  | 10           | 40            |
| Media       | 100/hab.     | 50/hab.       |
| H1          | 700          | 200           |
| H2          | 100          | 100           |
| H3-H8       | 30           | 50            |
| H9-H10      | 10           | -             |
| H31-H40     | -            | 10            |
| Mediana     | 30           | 50            |


#### Notaci√≥n de la tabla
La notaci√≥n H1, H2, ..., H40 representa magnitudes asociadas a la distribuci√≥n de la renta, donde cada H indica un grupo o individuo dentro una muestra ordenada por ingresos (por ejemplo, H1 ser√≠a el que m√°s renta tiene, H40 el de menor renta en una muestra de 40 habitantes). Esto se utiliza en tablas que resumen c√≥mo est√° repartido el PIB entre los distintos habitantes o grupos del pa√≠s, indicando cu√°nto recibe cada uno.

- H1: Puede representar el individuo o grupo con mayor ingreso o renta dentro del pa√≠s, seg√∫n la distribuci√≥n ordenada del PIB per c√°pita.
- H40: Ser√≠a el individuo o grupo de menor renta si se tienen 40 habitantes y se han ordenado de mayor a menor seg√∫n ingresos.

Esta notaci√≥n suele usarse cuando se analiza desigualdad econ√≥mica, por ejemplo mostrando la concentraci√≥n de riqueza en los primeros (H1, H2) frente al resto (H3-H40), y permite calcular indicadores como la mediana, la media y visualizar la distribuci√≥n de la renta de manera sencilla.

Resulta que con el promedio gana el pa√≠s A porque hay un habitante con una renta muy alta, y con la mediana el  pa√≠s B, porque en el c√°lculo de la mediana el habitante superrico del pa√≠s A ya no tiene tanto peso. Al final y al cabo, tenemos que decidir si utilizamos el PIB, el promedio de la renta per c√°pita, o el valor mediano de renta per c√°pita, para sacar nuestras conclusiones.

## Introducci√≥n a la Task 3.1
> A ver qu√© pasa si utilizamos la mediana en vez del promedio.

**A√±adir a la tabla de la Task 2.2. una columna con la mediana de candidatos, y crea el scatterplot de task 2.3 basado en el valor mediano de candidatos.**

Ahora, nos toca investigar si en el caso de los candidatos queremos aplicar el promedio (tal y como lo hemos hecho) o la mediana. Es interesante ver que, en algunas tecnolog√≠as, el valor promedio y mediano var√≠a bastante. Juega con la nueva tabla, orden√°ndola seg√∫n el promedio, y la mediana, y compara el scatterplot con el promedio con el scatterplot con la mediana.

# Preguntas Task 3.1.
¬øCu√°les de las siguientes tecnolog√≠as (Git, Java, Python y Windows) mejora su posici√≥n con respecto al resto si se aplica la mediana en vez del promedio?

Esta es la pregunta tal y como aparece en el test:

¬øCu√°les de las siguientes tecnolog√≠as mejoran su posici√≥n con respecto al resto si se aplica la mediana en vez del promedio?
Select one or more:

- ‚òê Linux
- ‚òê Python
- ‚òê SQL
- ‚òê Java

In [8]:
!git clone https://github.com/financieras/dataframe.git

fatal: destination path 'dataframe' already exists and is not an empty directory.


In [11]:
# C√≥digo completo para la Task 3.1, sin depender de seaborn
import pandas as pd
import matplotlib.pyplot as plt
import ast

# Cargar el dataset
df = pd.read_csv('/content/dataframe/2024/dataset_Modul0_2024.csv')

# ---
# Paso 1: Crear una columna 'skill_list' de forma segura y consistente.
# ---
def safe_literal_eval(x):
    try:
        return ast.literal_eval(x)
    except (ValueError, SyntaxError):
        return []  # En caso de error, devolvemos una lista vac√≠a

# Parsear y normalizar las habilidades
df['skill_list'] = df['Skills'].apply(safe_literal_eval)
df['skill_list'] = df['skill_list'].apply(lambda lst: [s.strip().lower() for s in lst])

# ---
# Paso 2: Explotar la lista de habilidades y quedarnos con las top 50.
# ---
skills_exploded = df.explode('skill_list')
top_skills = skills_exploded['skill_list'].value_counts().head(50).index

# Filtramos el dataframe explotado para solo las top 50 tecnolog√≠as.
df_top50 = skills_exploded[skills_exploded['skill_list'].isin(top_skills)]

# ---
# Paso 3: Calcular la media y la mediana de candidatos para cada tecnolog√≠a.
# ---
df_stats = df_top50.groupby('skill_list').agg(
    Count=('skill_list', 'size'),
    Cand_mean=('Candidates', 'mean'),
    Cand_median=('Candidates', 'median')
).reset_index()

# Redondeamos para facilitar la lectura.
df_stats['Cand_mean'] = df_stats['Cand_mean'].round(1)
df_stats['Cand_median'] = df_stats['Cand_median'].round(1)

# ---
# Paso 4: Responder a la pregunta de la Task 3.1.
# Comparamos la media y la mediana para las tecnolog√≠as dadas.
# Una tecnolog√≠a "mejora su posici√≥n" si su mediana es menor que su media.
# ---
tecnologias_pregunta = ['linux', 'python', 'sql', 'java']

print("An√°lisis para la Task 3.1:")
print("Una tecnolog√≠a mejora su posici√≥n si su mediana de candidatos es menor que su media.\n")

mejoran = []
for tech in tecnologias_pregunta:
    if tech in df_stats['skill_list'].values:
        row = df_stats[df_stats['skill_list'] == tech].iloc[0]
        mejora = row['Cand_median'] < row['Cand_mean']
        if mejora:
            mejoran.append(tech.capitalize())

        print(f"- {tech.capitalize()}:")
        print(f"    Media de candidatos: {row['Cand_mean']}")
        print(f"    Mediana de candidatos: {row['Cand_median']}")
        print(f"    ¬øMejora con la mediana en t√©rminos absolutos? {'S√≠' if mejora else 'No'}")
        print()
    else:
        print(f"- {tech.capitalize()}: No est√° en el top 50 de tecnolog√≠as.\n")


An√°lisis para la Task 3.1:
Una tecnolog√≠a mejora su posici√≥n si su mediana de candidatos es menor que su media.

- Linux:
    Media de candidatos: 43.5
    Mediana de candidatos: 17.0
    ¬øMejora con la mediana en t√©rminos absolutos? S√≠

- Python:
    Media de candidatos: 36.4
    Mediana de candidatos: 14.0
    ¬øMejora con la mediana en t√©rminos absolutos? S√≠

- Sql:
    Media de candidatos: 29.4
    Mediana de candidatos: 15.0
    ¬øMejora con la mediana en t√©rminos absolutos? S√≠

- Java:
    Media de candidatos: 52.8
    Mediana de candidatos: 16.0
    ¬øMejora con la mediana en t√©rminos absolutos? S√≠



La pregunta que nos haces nos piden identificar las tecnolog√≠as que mejoran en t√©rminos relativos, justo cuando dicen "con respecto al resto".

Por lo tanto, tenemos que crear un RANKING.

In [12]:
import pandas as pd
import ast

# Cargar datos
df = pd.read_csv('/content/dataframe/2024/dataset_Modul0_2024.csv')

# Parsear y normalizar habilidades
def safe_literal_eval(x):
    try:
        return ast.literal_eval(x)
    except:
        return []

df['skill_list'] = df['Skills'].apply(safe_literal_eval)
df['skill_list'] = df['skill_list'].apply(lambda lst: [s.strip().lower() for s in lst])

# Explotar y tomar top 50
skills_exploded = df.explode('skill_list')
top_skills = skills_exploded['skill_list'].value_counts().head(50).index
df_top50 = skills_exploded[skills_exploded['skill_list'].isin(top_skills)]

# Agregar estad√≠sticas
df_stats = df_top50.groupby('skill_list').agg(
    Count=('skill_list', 'size'),
    Cand_mean=('Candidates', 'mean'),
    Cand_median=('Candidates', 'median')
).reset_index()

# Crear rankings (1 = mejor, valor m√°s bajo de candidatos)
df_stats = df_stats.sort_values('Cand_mean').reset_index(drop=True)
df_stats['rank_mean'] = df_stats.index + 1

df_stats = df_stats.sort_values('Cand_median').reset_index(drop=True)
df_stats['rank_median'] = df_stats.index + 1

# Ahora, para cada tecnolog√≠a, ver si mejora su ranking
tecnologias = ['linux', 'python', 'sql', 'java']
print("Task 3.1: ¬øMejora la posici√≥n relativa al usar mediana en vez de media?\n")

mejoran = []
for tech in tecnologias:
    if tech in df_stats['skill_list'].values:
        row = df_stats[df_stats['skill_list'] == tech].iloc[0]
        rank_mean = row['rank_mean']
        rank_median = row['rank_median']
        mejora = rank_median < rank_mean  # sube en el ranking (n√∫mero m√°s bajo)
        if mejora:
            mejoran.append(tech.capitalize())

        print(f"- {tech.capitalize()}:")
        print(f"    Ranking con media: {rank_mean}")
        print(f"    Ranking con mediana: {rank_median}")
        print(f"    ¬øMejora posici√≥n relativa? {'S√≠' if mejora else 'No'}")
        print()
    else:
        print(f"- {tech.capitalize()}: No est√° en el top 50.\n")

print("=== RESPUESTA FINAL ===")
print("Tecnolog√≠as que mejoran su posici√≥n *con respecto al resto*:")
for t in mejoran:
    print(f"‚òëÔ∏è  {t}")

Task 3.1: ¬øMejora la posici√≥n relativa al usar mediana en vez de media?

- Linux:
    Ranking con media: 35
    Ranking con mediana: 34
    ¬øMejora posici√≥n relativa? S√≠

- Python:
    Ranking con media: 26
    Ranking con mediana: 21
    ¬øMejora posici√≥n relativa? S√≠

- Sql:
    Ranking con media: 21
    Ranking con mediana: 23
    ¬øMejora posici√≥n relativa? No

- Java:
    Ranking con media: 39
    Ranking con mediana: 27
    ¬øMejora posici√≥n relativa? S√≠

=== RESPUESTA FINAL ===
Tecnolog√≠as que mejoran su posici√≥n *con respecto al resto*:
‚òëÔ∏è  Linux
‚òëÔ∏è  Python
‚òëÔ∏è  Java


la interpretaci√≥n correcta de la pregunta es la relativa (ranking), no la absoluta (media vs mediana).

Vamos a desglosar por qu√© **SQL no mejora su posici√≥n *con respecto al resto***, a pesar de que su mediana sea mucho menor que su media.

---

### üìä Tus resultados para SQL:

- **Media**: 29.4  
- **Mediana**: 15.0  
- **Ranking con media**: 21.¬∫  
- **Ranking con mediana**: 23.¬∫  

‚úÖ **S√≠, su mediana < media** ‚Üí esto significa que **en t√©rminos absolutos**, usar la mediana hace que SQL parezca **menos saturado** (solo 15 candidatos t√≠picos en lugar de 29.4 en promedio).  
‚ùå **Pero su ranking empeora**: pasa de la **posici√≥n 21** a la **23**.

---

### ‚ùì ¬øC√≥mo es posible que empeore el ranking si la mediana es m√°s baja?

Porque **el ranking depende de c√≥mo se mueven *todas las dem√°s tecnolog√≠as***.

Cuando cambias de **media ‚Üí mediana**, **no solo cambia el valor de SQL**, sino **el de las otras 49 tecnolog√≠as del top 50**.

#### Escenario probable:
- Tecnolog√≠as como **Python** y **Java** tienen **outliers mucho m√°s extremos** que SQL.
  - Ej: Python tiene algunas ofertas con **miles** de candidatos, lo que infla su media a, digamos, 100, pero su mediana es 20.
  - Al pasar a mediana, **Python "cae" mucho m√°s en valor absoluto** que SQL (de 100 ‚Üí 20, una ca√≠da de 80 puntos).
- Mientras tanto, SQL solo cae de 29.4 ‚Üí 15.0 (ca√≠da de ~14 puntos).
- Pero **otras tecnolog√≠as** (quiz√° m√°s especializadas o con distribuciones m√°s sim√©tricas) **cambian poco**.
- Entonces, al reordenar **todas juntas**, **algunas tecnolog√≠as que antes estaban por debajo de SQL (peor ranking) ahora tienen valores de mediana a√∫n m√°s bajos que los 15.0 de SQL**, y **la adelantan**.

#### Ejemplo ilustrativo:
Sup√≥n que antes (con media):
- Tecnolog√≠a X: media = 30 ‚Üí **posici√≥n 22**
- **SQL**: media = 29.4 ‚Üí **posici√≥n 21**
- Tecnolog√≠a Y: media = 29 ‚Üí **posici√≥n 20**

Despu√©s (con mediana):
- Tecnolog√≠a X: mediana = **14** ‚Üí ahora est√° **por delante** de SQL
- **SQL**: mediana = 15 ‚Üí **posici√≥n 23**
- Tecnolog√≠a Y: mediana = **14.5** ‚Üí tambi√©n por delante

‚Üí Aunque SQL mejor√≥ en valor absoluto (29.4 ‚Üí 15), **mejoraron *m√°s* otras tecnolog√≠as**, as√≠ que **SQL pierde posiciones relativas**.

---

### ‚úÖ Conclusi√≥n:

- **"Mejora con la mediana" (absoluto)**: solo mira si `mediana < media` para esa tecnolog√≠a.  
  ‚Üí **SQL s√≠ mejora** en este sentido.

- **"Mejora su posici√≥n con respecto al resto" (relativo)**: mira si **sube en el ranking comparado con las dem√°s**.  
  ‚Üí **SQL no mejora**, porque **otras tecnolog√≠as se benefician *m√°s*** del cambio a mediana (especialmente Python y Java, que suben mucho: Python de 26 ‚Üí 21, Java de 39 ‚Üí 27).

---

### üéØ Por tanto, la respuesta correcta a la **Task 3.1** es:

> **‚òëÔ∏è Linux**  
> **‚òëÔ∏è Python**  
> **‚òê SQL**  
> **‚òëÔ∏è Java**