In [3]:
from IPython.display import HTML

HTML(open('assets/doc.html', 'r', encoding='utf-8').read())

## Análisis Exploratorio de Datos
Llevaremos a cabo un análisis exploratorio de datos utilizando visualizaciones interactivas y estadísticas descriptivas, con el objetivo de comprender mejor los resultados de la encuesta hecha por Stack Overflow en 2025. Mediante este proceso podremos responder preguntas sobre lenguajes de programación más usados, tecnologías en tendencias, roles comunes y niveles salariales.

### Instalación e Importación de librerías necesarias y DataSet

In [None]:
%pip install pandas numpy plotly

In [5]:
# importación de librerías a utilizar
import pandas as pd
import plotly.express as px

In [8]:
# importación de dataset
dataset_url = "https://raw.githubusercontent.com/fernandolievano/ProyectoFinal_PP1/main/data/stack-overflow-developer-survey-2025.csv.gz"
df = pd.read_csv(dataset_url, compression='gzip')  # especifico que estoy usando un archivo .gz

print("✅ DataSet cargado con éxto")
print(f"ℹ️ Forma del DataSet: {df.shape}")
print("ℹ️ Información del DataSet")
df.info()


✅ DataSet cargado con éxto
ℹ️ Forma del DataSet: (49123, 170)
ℹ️ Información del DataSet
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49123 entries, 0 to 49122
Columns: 170 entries, ResponseId to JobSat
dtypes: float64(50), int64(1), object(119)
memory usage: 63.7+ MB


### Verificación de nulos

In [20]:
pd.set_option('display.max_rows', None)  # Activo display.max_rows para poder ver todos mis campos nulos

tiene_nulos = df.isnull().sum() > 0  # Máscara para mostrar solo resultados con valores nulos
nulos = df.isnull().sum()[tiene_nulos].sort_values(ascending=False)
nulos_cantidad = len(nulos)
nulos_porcentaje = (nulos / df.shape[0]) * 100

print(f"❗ Encontramos {nulos_cantidad} campos con datos nulos")
print("ℹ️ Porcentaje de valores nulos encontrados por campo:")

print(nulos_porcentaje.sort_values(ascending=False).to_frame(name="Porcentaje"))

pd.reset_option('display.max_rows', None)  # Desactivo de nuevo display.max_rows

❗ Encontramos 167 campos con datos nulos
ℹ️ Porcentaje de valores nulos encontrados por campo:
                                          Porcentaje
AIAgentObsWrite                            99.462574
SOTagsWant Entry                           99.124646
SOTagsHaveEntry                            99.069682
AIModelsWantEntry                          99.035075
AIAgentOrchWrite                           99.028968
JobSatPoints_15_TEXT                       98.648291
AIAgentKnowWrite                           98.442685
AIModelsHaveEntry                          98.422328
SO_Actions_15_TEXT                         98.324614
AIAgentExtWrite                            98.253364
CommPlatformWantEntr                       97.591759
CommPlatformHaveEntr                       96.997333
DatabaseWantEntry                          96.889441
OfficeStackWantEntry                       96.708263
TechOppose_15_TEXT                         96.651263
TechEndorse_13_TEXT                        95.912302
DevE

### Altos nulos
En este gráfico se muestran las variables con mayor porcentaje de valores faltantes.
Dado que superan ampliamente el 80% de nulos, pueden considerarse prescindibles para el análisis, ya que su nivel de completitud es insuficiente para obtener insights confiables.

In [48]:
sobre_80_porciento = nulos_porcentaje > 80  # Máscara obtener resultados mayores a 80%
nulos_altos = nulos_porcentaje[sobre_80_porciento].sort_values(ascending=False)

# Gráfico
fig_altos_nulos = px.bar(
    nulos_altos,
    color='value',
    orientation='h',
    title='⚠️ Variables con más del 80% de valores nulos',
    labels={'value': 'Porcentaje de Nulos', 'index': 'Variable'},
    color_continuous_scale='Reds'
)
fig_altos_nulos.update_layout(
    height=40 * len(nulos_altos),
    font=dict(
        size=14,
        color='#fff',
    ),
    title=dict(
        xanchor='center',
        x=0.5
    ),
    paper_bgcolor='black',
    plot_bgcolor='black',
)
fig_altos_nulos.show()