<a href="https://colab.research.google.com/github/fernandolievano/ProyectoFinal_PP1/blob/main/ProyectoFinal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [17]:
from urllib.request import urlopen
from IPython.display import HTML

RAW_URL = "https://raw.githubusercontent.com/fernandolievano/ProyectoFinal_PP1/main/assets/doc.html"
with urlopen(RAW_URL) as f:
    html = f.read().decode("utf-8", errors="replace")
HTML(html)

# Preparaci√≥n del entorno y dataset

In [18]:
%pip install pandas numpy plotly



In [19]:
# importaci√≥n de librer√≠as a utilizar
import pandas as pd
import plotly.express as px

In [20]:
# importaci√≥n de dataset
dataset_url = "https://raw.githubusercontent.com/fernandolievano/ProyectoFinal_PP1/main/data/stack-overflow-developer-survey-2025.csv.gz"
df = pd.read_csv(dataset_url, compression='gzip')  # especifico que estoy usando un archivo .gz

print("‚úÖ DataSet cargado con √©xto")
print(f"‚ÑπÔ∏è Forma del DataSet: {df.shape}")
print("‚ÑπÔ∏è Informaci√≥n del DataSet")
df.info()

‚úÖ DataSet cargado con √©xto
‚ÑπÔ∏è Forma del DataSet: (49123, 170)
‚ÑπÔ∏è Informaci√≥n del DataSet
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49123 entries, 0 to 49122
Columns: 170 entries, ResponseId to JobSat
dtypes: float64(50), int64(1), object(119)
memory usage: 63.7+ MB


### Utils

In [21]:
# Funciones Reutilizables

def contar_valores_explodidos(dataframe, columna, separador):
    """
    Cuenta las incidencias de valores en una columna que contiene strings
    separados por un delimitador.
    :param dataframe:
    :param columna:
    :param separador:
    :return:
        Una Serie de pandas
    """
    if columna not in dataframe.columns:
        raise ValueError(f"Columna {columna} no encontrada")

    return (dataframe[columna]
            .str.split(separador)
            .explode()  # cada elemento de la lista se vuelve una fila
            .value_counts())


# An√°lisis Exploratorio de Datos
Llevaremos a cabo un an√°lisis exploratorio de datos utilizando visualizaciones interactivas y estad√≠sticas descriptivas, con el objetivo de comprender mejor los resultados de la encuesta hecha por Stack Overflow en 2025. Mediante este proceso podremos responder preguntas sobre lenguajes de programaci√≥n m√°s usados, tecnolog√≠as en tendencias, roles comunes y niveles salariales.

## Verificaci√≥n de nulos

In [22]:
pd.set_option('display.max_rows', None)  # Activo display.max_rows para poder ver todos mis campos nulos

tiene_nulos = df.isnull().sum() > 0  # M√°scara para mostrar solo resultados con valores nulos
nulos = df.isnull().sum()[tiene_nulos].sort_values(ascending=False)
nulos_cantidad = len(nulos)
nulos_porcentaje = (nulos / df.shape[0]) * 100

print(f"‚ùó Encontramos {nulos_cantidad} campos con datos nulos")
print("‚ÑπÔ∏è Porcentaje de valores nulos encontrados por campo:")

print(nulos_porcentaje.sort_values(ascending=False).to_frame(name="Porcentaje"))

pd.reset_option('display.max_rows', None)  # Desactivo de nuevo display.max_rows

‚ùó Encontramos 167 campos con datos nulos
‚ÑπÔ∏è Porcentaje de valores nulos encontrados por campo:
                                          Porcentaje
AIAgentObsWrite                            99.462574
SOTagsWant Entry                           99.124646
SOTagsHaveEntry                            99.069682
AIModelsWantEntry                          99.035075
AIAgentOrchWrite                           99.028968
JobSatPoints_15_TEXT                       98.648291
AIAgentKnowWrite                           98.442685
AIModelsHaveEntry                          98.422328
SO_Actions_15_TEXT                         98.324614
AIAgentExtWrite                            98.253364
CommPlatformWantEntr                       97.591759
CommPlatformHaveEntr                       96.997333
DatabaseWantEntry                          96.889441
OfficeStackWantEntry                       96.708263
TechOppose_15_TEXT                         96.651263
TechEndorse_13_TEXT                        95.91230

### Altos nulos
En este gr√°fico se muestran las variables con mayor porcentaje de valores faltantes.
Dado que superan ampliamente el 80% de nulos, pueden considerarse prescindibles para el an√°lisis, ya que su nivel de completitud es insuficiente para obtener insights confiables.

In [23]:
sobre_80_porciento = nulos_porcentaje > 80  # M√°scara obtener resultados mayores a 80%
nulos_altos = nulos_porcentaje[sobre_80_porciento].sort_values(ascending=False)

# Gr√°fico
fig_altos_nulos = px.bar(
    nulos_altos,
    color='value',
    orientation='h',
    title='‚ö†Ô∏è Variables con m√°s del 80% de valores nulos',
    labels={'value': 'Porcentaje de Nulos', 'index': 'Variable'},
    color_continuous_scale='Reds'
)
fig_altos_nulos.update_layout(
    height=40 * len(nulos_altos),
    font=dict(
        size=14,
        color='#fff',
    ),
    title=dict(
        xanchor='center',
        x=0.5
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
)
fig_altos_nulos.show()

### Nulos en variables clave
Se muestran variables fundamentales del an√°lisis (como pa√≠s, educaci√≥n y a√±os de experiencia) que presentan un bajo porcentaje de valores faltantes, lo que permite tratarlos sin afectar la calidad de los resultados.

In [24]:
variables_clave = ['Country', 'Employment', 'EdLevel', 'WorkExp', 'YearsCode', 'ConvertedCompYearly']
nulos_claves = nulos[variables_clave].sort_values(ascending=False)

# Gr√°fico
fig_nulos_clave = px.bar(
    nulos_claves,
    title='üîë Cantidad de nulos en variables clave',
    labels={'value': 'Cantidad de Nulos', 'index': 'Variable'},
    color='value',
    color_continuous_scale='sunsetdark'
)
fig_nulos_clave.update_layout(
    font=dict(
        size=14,
        color='#fff',
    ),
    title=dict(
        xanchor='center',
        x=0.5
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
)
fig_nulos_clave.show()

 # An√°lisis de hip√≥tesis
 En esta secci√≥n se abordan las preguntas planteadas al inicio del proyecto, utilizando gr√°ficos interactivos y res√∫menes num√©ricos para explorarlas en detalle.

## 1. ¬øQu√© lenguajes de programaci√≥n est√°n en auge?

In [25]:
# Usamos la funci√≥n "contar_valores_explodidos" para dividir los valores
# de la columna 'LanguageHaveWorkedWith' (separados por ';') y obtener
# un conteo de los lenguajes m√°s utilizados.
lenguajes_usados_exploded = contar_valores_explodidos(dataframe=df, columna='LanguageHaveWorkedWith', separador=';')
lenguajes_usados_exploded = lenguajes_usados_exploded.sort_values(ascending=True)

fig_lenguajes_usados = px.bar(
    lenguajes_usados_exploded,
    title='üë®‚Äçüíª Lenguajes de programaci√≥n m√°s utilizados en 2025',
    color='value',
    color_continuous_scale='pinkyl',
    orientation='h',
    labels={'value': 'Uso', 'LanguageHaveWorkedWith': 'Lenguaje de Programaci√≥n'},
)
fig_lenguajes_usados.update_layout(
    font=dict(
        size=14,
        color='#fff',
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
    height=36 * len(lenguajes_usados_exploded),
    title=dict(
        xanchor='center',
        x=0.5
    ),
)

fig_lenguajes_usados.show()

In [26]:
# Contamos cu√°ntos desarrolladores indicaron que desean trabajar con cada lenguaje.
lenguajes_deseados = contar_valores_explodidos(
    dataframe=df,
    columna='LanguageWantToWorkWith',
    separador=';'
)

# Calculamos el n√∫mero total de encuestados (denominador com√∫n para normalizar).
n_encuestados = len(df)

# Convertimos los conteos a porcentajes sobre el total de encuestados.
lenguajes_deseados_pct = (lenguajes_deseados / n_encuestados) * 100
lenguajes_usados_pct = (lenguajes_usados_exploded / n_encuestados) * 100

# Calculamos el "auge" como la diferencia entre deseo y uso (% de encuestados).
#  > 0  ‚Üí m√°s deseado que usado (auge)
#  = 0  ‚Üí estable
#  < 0  ‚Üí m√°s usado que deseado (retroceso)
lenguajes_auge = lenguajes_deseados_pct - lenguajes_usados_pct
lenguajes_auge = lenguajes_auge[lenguajes_auge > 0]
lenguajes_auge = lenguajes_auge.sort_values(ascending=True)


# Graficamos
fig_lenguajes_auge = px.bar(
    lenguajes_auge,
    title='üìà Lenguajes de Programaci√≥n en Auge en 2025',
    color='value',
    color_continuous_scale='tempo',
    orientation='h',
    labels={'index': 'Lenguajes de Programaci√≥n', 'value': '% Auge'}
)
fig_lenguajes_auge.update_layout(
    font=dict(
        size=14,
        color='#fff',
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
    height=36 * len(lenguajes_auge),
    title=dict(
        xanchor='center',
        x=0.5
    ),
)


## 2. ¬øQu√© tecnolog√≠as muestran menor inter√©s futuro?

In [27]:
# Calculamos la diferencia entre el porcentaje de deseo y el porcentaje de uso.
# Un valor negativo indica que la tecnolog√≠a es utilizada por m√°s desarrolladores
# de los que manifiestan querer usarla en el futuro ‚Üí "m√°s usada que deseada".
lenguajes_retroceso = lenguajes_deseados_pct - lenguajes_usados_pct
lenguajes_retroceso = lenguajes_retroceso[lenguajes_retroceso < 0].sort_values(ascending=False)

# Graficamos estas tecnolog√≠as ordenadas, para visualizar aquellas que muestran
# menor inter√©s futuro en comparaci√≥n con su nivel de uso actual.
fig_lenguajes_retroceso = px.bar(
    lenguajes_retroceso,
    title="üìâ Tecnolog√≠as que pierden inter√©s en 2025",
    color='value',
    color_continuous_scale='pinkyl_r',
    orientation='h',
    labels={'index': 'Lenguajes de Programaci√≥n', 'value': '% Retroceso'}
)
fig_lenguajes_retroceso.update_layout(
    font=dict(size=14, color="#fff"),
    paper_bgcolor="black",
    plot_bgcolor="black",
    height=36 * len(lenguajes_retroceso),
    title=dict(xanchor="center", x=0.5),
)

fig_lenguajes_retroceso.show()

> ‚ö†Ô∏è Un valor negativo significa que un lenguaje es m√°s usado que deseado, lo cual no siempre significa que un lenguaje est√© "muriendo", sino que en muchos casos refleja tecnolog√≠as muy **consolidadas**.