<a href="https://colab.research.google.com/github/fernandolievano/ProyectoFinal_PP1/blob/entrega-final%2Fparcial-2/ProyectoFinal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 # 1. Introducci√≥n

In [None]:
# @title
from urllib.request import urlopen
from IPython.display import HTML

RAW_URL = "https://raw.githubusercontent.com/fernandolievano/ProyectoFinal_PP1/main/assets/doc.html"
with urlopen(RAW_URL) as f:
    html = f.read().decode("utf-8", errors="replace")
HTML(html)

# 2. Configuraci√≥n del entorno

### 2.1 Instalaci√≥n de Librer√≠as

In [None]:
%pip install pandas numpy plotly

### 2.2 Importaci√≥n de M√≥dulos

In [None]:
import pandas as pd
import plotly.express as px

### 2.3 Carga del Dataset

In [None]:
dataset_url = "https://raw.githubusercontent.com/fernandolievano/ProyectoFinal_PP1/main/data/stack-overflow-developer-survey-2025.csv.gz"
df = pd.read_csv(dataset_url, compression='gzip')

print("‚úÖ DataSet cargado con √©xto")

### 2.4 Funciones y Variables Utilitarias

In [None]:
# Funciones Reutilizables
def contar_valores_explodidos(dataframe, columna, separador):
    """
    Cuenta las incidencias de valores en una columna que contiene strings
    separados por un delimitador.
    :param dataframe:
    :param columna:
    :param separador:
    :return:
        Una Serie de pandas
    """
    if columna not in dataframe.columns:
        raise ValueError(f"Columna {columna} no encontrada")

    return (dataframe[columna]
            .str.split(separador)
            .explode()  # cada elemento de la lista se vuelve una fila
            .value_counts())


# Variables Reutilizables
n_encuestados = len(df)

# 3. Exploraci√≥n Inicial del Dataset

### 3.1 Estructura y Dimensiones

In [None]:
print(f"Dimensiones del Dataset: {df.shape}")
print(f"N√∫mero de filas: {df.shape[0]}")
print(f"N√∫mero de columnas: {df.shape[1]}")

### 3.2 Informaci√≥n general del Dataset

In [None]:
df.info()

### 3.3 Head y Tail para muestras

In [None]:
df.head()

In [None]:
df.tail()

### 3.4 Estad√≠sticas descriptivas

In [None]:
df.describe().T

# 4. An√°lisis Exploratorio de Datos (EDA)
Llevaremos a cabo un an√°lisis exploratorio de datos utilizando visualizaciones interactivas y estad√≠sticas descriptivas, con el objetivo de comprender mejor los resultados de la encuesta hecha por Stack Overflow en 2025. Mediante este proceso podremos responder preguntas sobre lenguajes de programaci√≥n m√°s usados, tecnolog√≠as en tendencias, roles comunes y niveles salariales.

### 4.1 Verificaci√≥n de nulos

In [None]:
pd.set_option('display.max_rows', None)  # Activo display.max_rows para poder ver todos mis columnas nulas

tiene_nulos = df.isnull().sum() > 0  # M√°scara para mostrar solo resultados con valores nulos
nulos = df.isnull().sum()[tiene_nulos]
nulos_cantidad = len(nulos)
nulos_porcentaje = (nulos / n_encuestados) * 100

print(f"‚ùó Encontramos {nulos_cantidad} columnas con datos nulos")

nulos_resumen = pd.DataFrame({
    'Tipo de Dato': df.dtypes[tiene_nulos],
    'Valores Nulos': nulos,
    '% Nulos': nulos_porcentaje
})

nulos_resumen

In [None]:
pd.reset_option('display.max_rows', None)  # Desactivo de nuevo display.max_rows

### 4.2 Variables con Alto Porcentaje de Nulos

En este gr√°fico se muestran las variables con mayor porcentaje de valores faltantes.
Dado que superan ampliamente el 80% de nulos, pueden considerarse prescindibles para el an√°lisis, ya que su nivel de completitud es insuficiente para obtener insights confiables.

In [None]:
sobre_80_porciento = nulos_porcentaje > 80  # M√°scara obtener resultados mayores a 80%
nulos_altos = nulos_porcentaje[sobre_80_porciento].sort_values(ascending=False)

# Gr√°fico
fig_altos_nulos = px.bar(
    nulos_altos,
    color='value',
    orientation='h',
    title='‚ö†Ô∏è Variables con m√°s del 80% de valores nulos',
    labels={'value': 'Porcentaje de Nulos', 'index': 'Variable'},
    color_continuous_scale='Reds'
)
fig_altos_nulos.update_layout(
    height=40 * len(nulos_altos),
    font=dict(
        size=14,
        color='#fff',
    ),
    title=dict(
        xanchor='center',
        x=0.5
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
)
fig_altos_nulos.show()

### 4.3 Variables Clave y su Completitud
Se muestran variables fundamentales del an√°lisis (como pa√≠s, educaci√≥n y a√±os de experiencia) que presentan un bajo porcentaje de valores faltantes, lo que permite tratarlos sin afectar la calidad de los resultados.

In [None]:
variables_clave = ['Country', 'Employment', 'EdLevel', 'WorkExp', 'YearsCode', 'ConvertedCompYearly']
nulos_claves = nulos[variables_clave].sort_values(ascending=False)

# Gr√°fico
fig_nulos_clave = px.bar(
    nulos_claves,
    title='üîë Cantidad de nulos en variables clave',
    labels={'value': 'Cantidad de Nulos', 'index': 'Variable'},
    color='value',
    color_continuous_scale='sunsetdark'
)
fig_nulos_clave.update_layout(
    font=dict(
        size=14,
        color='#fff',
    ),
    title=dict(
        xanchor='center',
        x=0.5
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
)
fig_nulos_clave.show()

### 4.4 Estad√≠sticas Descriptivas

4.4.1 Res√∫menes num√©ricos de variables continuas

In [None]:
print("üìä ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS")
variables_numericas = ['ConvertedCompYearly', 'WorkExp', 'YearsCode']
df_numericas = df[variables_numericas].dropna()

print(df_numericas.describe())

4.4.2 An√°lisis de Correlacionales

In [None]:
matriz_de_correlacionales = df_numericas.corr()

fig_corr = px.imshow(
    matriz_de_correlacionales,
    title='Matriz de Correlaci√≥n entre Variables Num√©ricas',
    color_continuous_scale='RdBu_r',
    aspect='auto'
)
fig_corr.update_layout(
    paper_bgcolor='black',
    font=dict(color='white', size=14)
)
fig_corr.show()

 # An√°lisis de hip√≥tesis
 En esta secci√≥n se abordan las preguntas planteadas al inicio del proyecto, utilizando gr√°ficos interactivos y res√∫menes num√©ricos para explorarlas en detalle.

## 1. ¬øQu√© lenguajes de programaci√≥n est√°n en auge?

In [None]:
# Usamos la funci√≥n "contar_valores_explodidos" para dividir los valores
# de la columna 'LanguageHaveWorkedWith' (separados por ';') y obtener
# un conteo de los lenguajes m√°s utilizados.
lenguajes_usados_exploded = contar_valores_explodidos(dataframe=df, columna='LanguageHaveWorkedWith', separador=';')
lenguajes_usados_exploded = lenguajes_usados_exploded.sort_values(ascending=True)

fig_lenguajes_usados = px.bar(
    lenguajes_usados_exploded,
    title='üë®‚Äçüíª Lenguajes de programaci√≥n m√°s utilizados en 2025',
    color='value',
    color_continuous_scale='pinkyl',
    orientation='h',
    labels={'value': 'Uso', 'LanguageHaveWorkedWith': 'Lenguaje de Programaci√≥n'},
)
fig_lenguajes_usados.update_layout(
    font=dict(
        size=14,
        color='#fff',
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
    height=36 * len(lenguajes_usados_exploded),
    title=dict(
        xanchor='center',
        x=0.5
    ),
)

fig_lenguajes_usados.show()

> üîç **El ecosistema web domina el uso**. JavaScript, HTML/CSS y SQL lideran con Python muy cerca. Adem√°s, TypeScript se posiciona por encima de Java/C#, evidenciando la consolidaci√≥n del front-end ‚Äúprofesional‚Äù.

In [None]:
# === Expectativas de Lenguajes (auge) ===
# Gap (pp) = % que desea usar ‚àí % que usa hoy, ambos sobre el total de encuestados.

# 1) Conteos de "deseo"
lenguajes_deseados = contar_valores_explodidos(
    dataframe=df,
    columna='LanguageWantToWorkWith',
    separador=';'
)

# 2) Normalizaci√≥n a % del total de encuestados
lenguajes_deseados_pct = (lenguajes_deseados / n_encuestados) * 100
lenguajes_usados_pct   = (lenguajes_usados_exploded / n_encuestados) * 100

# 3) Alineaci√≥n por √≠ndice (si un lenguaje aparece en una lista y no en la otra, tomar 0)
todos = lenguajes_deseados_pct.index.union(lenguajes_usados_pct.index)
deseo_pp = lenguajes_deseados_pct.reindex(todos, fill_value=0.0)
uso_pp   = lenguajes_usados_pct.reindex(todos, fill_value=0.0)

# 4) Gap de auge (pp) y filtro de positivos
lenguajes_auge = (deseo_pp - uso_pp)
lenguajes_auge = lenguajes_auge[lenguajes_auge > 0].sort_values(ascending=True)

# 5) Gr√°fico
import plotly.express as px

fig_lenguajes_auge = px.bar(
    lenguajes_auge,
    title="üìà Lenguajes de Programaci√≥n en Auge en 2025",
    color="value",
    color_continuous_scale="tempo",
    orientation="h",
    labels={"index": "Lenguajes de Programaci√≥n", "value": "% auge (pp)"},
)

# Escala de color consistente (desde 0 hasta el m√°ximo) y t√≠tulo del colorbar
fig_lenguajes_auge.update_coloraxes(
    cmin=0,
    cmax=float(lenguajes_auge.max()),
    colorbar_title="% auge (pp)",
)

# Hover claro
fig_lenguajes_auge.update_traces(
    hovertemplate="Lenguaje: %{y}<br>Auge: %{x:.2f} pp<extra></extra>"
)

# Estilo general y altura con tope
fig_lenguajes_auge.update_layout(
    font=dict(size=14, color="#fff"),
    paper_bgcolor="black",
    plot_bgcolor="black",
    margin=dict(l=220, r=40, t=80, b=40),
    height=min(36 * len(lenguajes_auge), 1200),
    title=dict(
        xanchor="center",
        x=0.5,
        text=(
            "üìà Lenguajes de Programaci√≥n en Auge en 2025"
            f"<br><sup>Gap = deseo ‚àí uso (pp) sobre el total de encuestados, n = {n_encuestados}</sup>"
        ),
    ),
)

fig_lenguajes_auge.show()


> üß† El gr√°fico muestra los lenguajes con gap positivo (deseo ‚àí uso, en puntos porcentuales sobre el total de encuestados), es decir, aquellos que hoy son m√°s deseados que utilizados. Este patr√≥n sugiere potencial de adopci√≥n en el corto/mediano plazo: lenguajes emergentes tienden a liderar por inter√©s futuro elevado pese a una base actual peque√±a. En t√©rminos pr√°cticos, estos resultados apuntan a oportunidades de formaci√≥n y a una posible reorientaci√≥n de stack hacia tecnolog√≠as con mayor tracci√≥n aspiracional.

***Nota***: la lectura debe considerar el tama√±o de muestra por lenguaje (los de base reducida son m√°s vol√°tiles) y que este indicador refleja intenci√≥n declarada, no adopci√≥n efectiva.

## 2. ¬øQu√© tecnolog√≠as muestran menor inter√©s futuro?

In [None]:
# === Tecnolog√≠as que pierden inter√©s (gap negativo) ===
# Gap (pp) = % que desea usar ‚àí % que usa hoy, ambos sobre el total de encuestados.
lenguajes_retroceso = (lenguajes_deseados_pct - lenguajes_usados_pct)

# Filtramos s√≥lo retroceso (< 0) y ordenamos de m√°s negativo (mayor retroceso) a menos negativo.
lenguajes_retroceso = lenguajes_retroceso[lenguajes_retroceso < 0].sort_values(ascending=True)

# Gr√°fico de barras horizontal (Series -> usa 'index' y 'value')
import plotly.express as px

fig_lenguajes_retroceso = px.bar(
    lenguajes_retroceso,
    title="üìâ Tecnolog√≠as que pierden inter√©s en 2025",
    color='value',                       # escala por magnitud del retroceso
    color_continuous_scale='pinkyl_r',
    orientation='h',
    labels={'index': 'Lenguajes de Programaci√≥n', 'value': '% retroceso (pp)'}
)

# Escala de color consistente (m√°ximo en 0) y t√≠tulo del colorbar
fig_lenguajes_retroceso.update_coloraxes(
    cmin=lenguajes_retroceso.min(),
    cmax=0,
    colorbar_title="% retroceso (pp)"
)

# Hover claro
fig_lenguajes_retroceso.update_traces(
    hovertemplate="Lenguaje: %{y}<br>Retroceso: %{x:.2f} pp<extra></extra>"
)

# Estilo general
fig_lenguajes_retroceso.update_layout(
    font=dict(size=14, color="#fff"),
    paper_bgcolor="black",
    plot_bgcolor="black",
    margin=dict(l=220, r=40, t=80, b=40),
    height=min(36 * len(lenguajes_retroceso), 1200),
    title=dict(
        xanchor="center",
        x=0.5,
        text=f"üìâ Tecnolog√≠as que pierden inter√©s en 2025"
             f"<br><sup>Gap = deseo ‚àí uso (pp) sobre el total de encuestados, n = {n_encuestados}</sup>"
    ),
)

fig_lenguajes_retroceso.show()


> üß† El gr√°fico presenta las tecnolog√≠as con gap negativo. La diferencia entre quienes desean usarlas y quienes las usan hoy, en puntos porcentuales sobre el total de encuestados, lo que indica desinter√©s relativo o p√©rdida de relevancia a futuro. En varias tecnolog√≠as masivas (p. ej., JS/HTML-CSS/SQL) el retroceso sugiere saturaci√≥n/estabilidad m√°s que abandono: mantienen alta adopci√≥n, pero una proporci√≥n menor planea seguir eligi√©ndolas. Estos resultados invitan a diversificar habilidades hacia opciones con mayor tracci√≥n aspiracional, sin sobrerreaccionar: la lectura debe considerar el tama√±o de muestra por lenguaje y que la m√©trica refleja intenci√≥n declarada, no adopci√≥n efectiva.