## Estudio de Tendencias
Estudio para verificar tendencias con datos de encuestas de stack overflow de los años 2022, 2023 y 2024

### Librerias y paths

In [16]:
import pandas as pd

# Recargar los archivos debido al reinicio del entorno
files = {
    "2022": {
        "data": "../app/data/surveys/survey_results_public_2022.csv",
        "schema": "../app/data/surveys/survey_results_schema_2022.csv"
    },
    "2023": {
        "data": "../app/data/surveys/survey_results_public_2023.csv",
        "schema": "../app/data/surveys/survey_results_schema_2023.csv"
    },
    "2024": {
        "data": "../app/data/surveys/survey_results_public_2024.csv",
        "schema": "../app/data/surveys/survey_results_schema_2024.csv"
    }
}

In [17]:
# Cargar los datos y los esquemas
dataframes = {}
schemas = {}

for year, paths in files.items():
    dataframes[year] = pd.read_csv(paths["data"])
    schemas[year] = pd.read_csv(paths["schema"])

# Verificar estructura de datos y columnas clave
info_2022 = dataframes["2022"].info(), schemas["2022"].head()
info_2023 = dataframes["2023"].info(), schemas["2023"].head()
info_2024 = dataframes["2024"].info(), schemas["2024"].head()

info_2022, info_2023, info_2024


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73268 entries, 0 to 73267
Data columns (total 79 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   ResponseId                      73268 non-null  int64  
 1   MainBranch                      73268 non-null  object 
 2   Employment                      71709 non-null  object 
 3   RemoteWork                      58958 non-null  object 
 4   CodingActivities                58899 non-null  object 
 5   EdLevel                         71571 non-null  object 
 6   LearnCode                       71580 non-null  object 
 7   LearnCodeOnline                 50685 non-null  object 
 8   LearnCodeCoursesCert            29389 non-null  object 
 9   YearsCode                       71331 non-null  object 
 10  YearsCodePro                    51833 non-null  object 
 11  DevType                         61302 non-null  object 
 12  OrgSize                         

((None,
        qid       qname                                           question  \
  0   QID16          S0  <div><span style="font-size:19px;"><strong>Hel...   
  1   QID12    MetaInfo                                  Browser Meta Info   
  2    QID1          S1  <span style="font-size:22px; font-family: aria...   
  3    QID2  MainBranch  Which of the following options best describes ...   
  4  QID296  Employment  Which of the following best describes your cur...   
  
    force_resp  type selector  
  0      False    DB       TB  
  1      False  Meta  Browser  
  2      False    DB       TB  
  3       True    MC     SAVR  
  4      False    MC     MAVR  ),
 (None,
        qid     qname                                           question  \
  0   QID16        S0  <div><span style="font-size:19px;"><strong>Hel...   
  1   QID12  MetaInfo                                  Browser Meta Info   
  2  QID310      Q310  <div><span style="font-size:19px;"><strong>You...   
  3  QID312    

Podemos observar que comparten muchas columnas relevantes para identificar tendencias tecnológicas.
Columnas clave para el análisis
Las siguientes columnas son las más relevantes y están disponibles en los tres datasets:

LanguageHaveWorkedWith: Lenguajes utilizados actualmente.
LanguageWantToWorkWith: Lenguajes deseados el próximo año.
DevType: Roles de desarrolladores (frontend, backend, DevOps, etc.).
LearnCode y LearnCodeOnline: Métodos de aprendizaje preferidos.

- Extraeremos los datos de las columnas clave de cada año.
- Unificaremos los datos en un único DataFrame para analizar las tendencias entre 2022, 2023 y 2024.

In [18]:
# Seleccionar columnas clave y consolidar los datasets de 2022, 2023 y 2024
columns_of_interest = [
    "LanguageHaveWorkedWith",
    "LanguageWantToWorkWith",
    "DevType",
    "LearnCode",
    "LearnCodeOnline"
]

# Crear un DataFrame combinado con los años como una columna adicional
combined_data = pd.DataFrame()

for year, df in dataframes.items():
    if all(col in df.columns for col in columns_of_interest):
        temp_df = df[columns_of_interest].copy()
        temp_df["Year"] = int(year)
        combined_data = pd.concat([combined_data, temp_df], ignore_index=True)

# Mostrar la estructura del DataFrame consolidado
combined_data.info(), combined_data.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227889 entries, 0 to 227888
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   LanguageHaveWorkedWith  217860 non-null  object
 1   LanguageWantToWorkWith  203488 non-null  object
 2   DevType                 197619 non-null  object
 3   LearnCode               219731 non-null  object
 4   LearnCodeOnline         170006 non-null  object
 5   Year                    227889 non-null  int64 
dtypes: int64(1), object(5)
memory usage: 10.4+ MB


(None,
                         LanguageHaveWorkedWith  \
 0                                          NaN   
 1                        JavaScript;TypeScript   
 2            C#;C++;HTML/CSS;JavaScript;Python   
 3                 C#;JavaScript;SQL;TypeScript   
 4  C#;HTML/CSS;JavaScript;SQL;Swift;TypeScript   
 
                        LanguageWantToWorkWith  \
 0                                         NaN   
 1                             Rust;TypeScript   
 2       C#;C++;HTML/CSS;JavaScript;TypeScript   
 3                           C#;SQL;TypeScript   
 4  C#;Elixir;F#;Go;JavaScript;Rust;TypeScript   
 
                                              DevType  \
 0                                                NaN   
 1                                                NaN   
 2  Data scientist or machine learning specialist;...   
 3                              Developer, full-stack   
 4  Developer, front-end;Developer, full-stack;Dev...   
 
                                       

El DataFrame consolidado tiene 227,889 registros combinados de los años 2022, 2023 y 2024. Contiene las columnas clave:

LanguageHaveWorkedWith: Lenguajes trabajados actualmente (217,860 registros no nulos).
LanguageWantToWorkWith: Lenguajes deseados (203,488 registros no nulos).
DevType: Roles de desarrolladores (197,619 registros no nulos).
LearnCode y LearnCodeOnline: Métodos de aprendizaje (algunos valores nulos, pero suficientes datos para analizar).
Year: Año correspondiente (agregado para análisis de tendencias).

Vamos a separar los lenguajes en listas para facilitar el análisis y contar frecuencias de lenguajes por año.

In [38]:
# Función para procesar columnas de lenguajes y contar frecuencias
def count_language_frequencies(data, column, year):
    """
    Cuenta la frecuencia de lenguajes en una columna específica para un año dado.

    :param data: DataFrame consolidado.
    :param column: Nombre de la columna a procesar.
    :param year: Año para filtrar los datos.
    :return: DataFrame con lenguajes y sus frecuencias.
    """
    filtered_data = data[data["Year"] == year][column].dropna()
    # Separar lenguajes en listas individuales
    languages = filtered_data.str.split(";").explode()
    # Contar frecuencias
    result = languages.value_counts().reset_index()
    result.columns = ["Language", "Frequency"]  # Renombrar columnas explícitamente
    return result

language_usage = {}
language_desired = {}

for year in [2022, 2023, 2024]:
    language_usage[year] = count_language_frequencies(combined_data, "LanguageHaveWorkedWith", year)
    language_desired[year] = count_language_frequencies(combined_data, "LanguageWantToWorkWith", year)



# Mostrar las frecuencias de 2024 como ejemplo
language_usage[2024].head(), language_desired[2024].head()


(     Language  Frequency
 0  JavaScript      37492
 1    HTML/CSS      31816
 2      Python      30719
 3         SQL      30682
 4  TypeScript      23150,
      Language  Frequency
 0      Python      25047
 1  JavaScript      23774
 2         SQL      22400
 3    HTML/CSS      20721
 4  TypeScript      20239)

### Lenguajes más trabajados y más deseados en 2024
- Lenguajes más trabajados en 2024 (LanguageHaveWorkedWith):

1. JavaScript (37,492 menciones)
2. HTML/CSS (31,816 menciones)
3. Python (30,719 menciones)
4. SQL (30,682 menciones)
5. TypeScript (23,150 menciones)

- Lenguajes más deseados en 2024 (LanguageWantToWorkWith):

1. Python (25,047 menciones)
2. JavaScript (23,774 menciones)
3. SQL (22,400 menciones)
4. HTML/CSS (20,721 menciones)
5. TypeScript (20,239 menciones)

### Comparar tendencias
Vamos a calcular el crecimiento relativo de cada lenguaje (deseado - utilizado), identificar los lenguajes con mayor crecimiento y aquellos en declive y mostrar los resultados como tablas o listas.

In [40]:
# Función para calcular tendencias de crecimiento entre lenguajes trabajados y deseados
def calculate_language_trends(usage, desired):
    """
    Calcula las diferencias entre frecuencias de lenguajes trabajados y deseados.

    :param usage: DataFrame de lenguajes trabajados con sus frecuencias.
    :param desired: DataFrame de lenguajes deseados con sus frecuencias.
    :return: DataFrame con tendencias de crecimiento o declive.
    """
    trends = pd.merge(usage, desired, on="Language", how="outer", suffixes=("_Used", "_Desired")).fillna(0)
    trends["Growth"] = trends["Frequency_Desired"] - trends["Frequency_Used"]
    return trends.sort_values(by="Growth", ascending=False)

# Calcular tendencias para 2024 como ejemplo
trends_2024 = calculate_language_trends(language_usage[2024], language_desired[2024])

# Mostrar lenguajes con mayor crecimiento y declive
top_growth = trends_2024.head(5)  # Lenguajes con mayor crecimiento
top_decline = trends_2024.tail(5)  # Lenguajes en declive
top_growth, top_decline


(   Language  Frequency_Used  Frequency_Desired  Growth
 39     Rust            7559              17232    9673
 17       Go            8103              13837    5734
 48      Zig             667               3688    3021
 24   Kotlin            5665               7379    1714
 12   Elixir            1243               2895    1652,
                    Language  Frequency_Used  Frequency_Desired  Growth
 3   Bash/Shell (all shells)           20412              13744   -6668
 21                     Java           18239              10668   -7571
 40                      SQL           30682              22400   -8282
 19                 HTML/CSS           31816              20721  -11095
 22               JavaScript           37492              23774  -13718)

### Lenguajes con mayor crecimiento (2024)
1. Rust: +9,673 menciones.
2. Go: +5,734 menciones.
3. Zig: +3,021 menciones.
4. Kotlin: +1,714 menciones.
5. Elixir: +1,652 menciones.

Estos lenguajes están ganando popularidad, probablemente debido a su aplicación en sistemas modernos, escalabilidad, y adopción

### Lenguajes en declive (2024)
1. JavaScript: -13,718 menciones.
2. HTML/CSS: -11,095 menciones.
3. SQL: -8,282 menciones.
4. Java: -7,571 menciones.
5. Bash/Shell (all shells): -6,668 menciones.

Aunque estos lenguajes son fundamentales, están perdiendo interés como opciones prioritarias para aprender, posiblemente por saturación del mercado

### Análisis de roles
Contunuamos, vamos a:
Relacionar los roles (DevType) con los lenguajes trabajados y deseados.
Identificar roles emergentes y sus habilidades clave.
Mostrar las asociaciones más relevantes.

In [23]:
# Función para analizar roles y asociarlos a lenguajes trabajados y deseados
def analyze_roles(data, year):
    """
    Analiza la frecuencia de roles y las habilidades asociadas (lenguajes trabajados y deseados).

    :param data: DataFrame consolidado.
    :param year: Año para filtrar los datos.
    :return: DataFrame con roles, lenguajes y frecuencias.
    """
    filtered_data = data[data["Year"] == year][["DevType", "LanguageHaveWorkedWith", "LanguageWantToWorkWith"]].dropna()
    filtered_data["DevType"] = filtered_data["DevType"].str.split(";").explode()

    # Asociar roles con lenguajes trabajados
    role_language_worked = filtered_data[["DevType", "LanguageHaveWorkedWith"]].dropna()
    role_language_worked = role_language_worked.assign(Language=role_language_worked["LanguageHaveWorkedWith"].str.split(";")).explode("Language")
    role_language_worked = role_language_worked.groupby(["DevType", "Language"]).size().reset_index(name="WorkedFrequency")

    # Asociar roles con lenguajes deseados
    role_language_desired = filtered_data[["DevType", "LanguageWantToWorkWith"]].dropna()
    role_language_desired = role_language_desired.assign(Language=role_language_desired["LanguageWantToWorkWith"].str.split(";")).explode("Language")
    role_language_desired = role_language_desired.groupby(["DevType", "Language"]).size().reset_index(name="DesiredFrequency")

    # Combinar ambos
    role_language_trends = pd.merge(role_language_worked, role_language_desired, on=["DevType", "Language"], how="outer").fillna(0)
    role_language_trends["Growth"] = role_language_trends["DesiredFrequency"] - role_language_trends["WorkedFrequency"]

    return role_language_trends.sort_values(by=["DevType", "Growth"], ascending=[True, False])

# Analizar roles y lenguajes para 2024
roles_2024 = analyze_roles(combined_data, 2024)

# Mostrar los resultados para los 5 roles más comunes
roles_2024.head(20)  # Primeros resultados por DevType y Growth


Unnamed: 0,DevType,Language,WorkedFrequency,DesiredFrequency,Growth
39,Academic researcher,Rust,199.0,389.0,190.0
23,Academic researcher,Julia,128.0,212.0,84.0
48,Academic researcher,Zig,19.0,83.0,64.0
17,Academic researcher,Go,89.0,146.0,57.0
24,Academic researcher,Kotlin,64.0,89.0,25.0
43,Academic researcher,Swift,23.0,48.0,25.0
12,Academic researcher,Elixir,16.0,40.0,24.0
20,Academic researcher,Haskell,60.0,84.0,24.0
7,Academic researcher,Clojure,14.0,26.0,12.0
30,Academic researcher,OCaml,32.0,44.0,12.0


### Ejemplo: Rol de "Academic Researcher"
Este rol tiene un crecimiento notable en lenguajes modernos y especializados:

1. Rust: +190 menciones.
2. Julia: +84 menciones.
3. Zig: +64 menciones.
4. Go: +57 menciones.
5. Kotlin: +25 menciones.
Lo que sugiere que investigadores académicos están adoptando lenguajes como Rust y Julia, probablemente debido a su eficiencia en computación científica y sistemas de alto rendimiento.

### Métodos de aprendizaje
Ahora vamos a analizar las columnas LearnCode y LearnCodeOnline para identificar los métodos de aprendizaje más utilizados y populares. Esto complementará las tendencias al proporcionar insights sobre cómo prefieren aprender los usuarios.

In [24]:
# Función para analizar métodos de aprendizaje preferidos
def analyze_learning_methods(data, year):
    """
    Analiza las preferencias de aprendizaje (métodos offline y online) para un año específico.

    :param data: DataFrame consolidado.
    :param year: Año para filtrar los datos.
    :return: DataFrame con métodos de aprendizaje y sus frecuencias.
    """
    filtered_data = data[data["Year"] == year]

    # Métodos offline (LearnCode)
    offline_methods = filtered_data["LearnCode"].dropna().str.split(";").explode()
    offline_frequencies = offline_methods.value_counts().reset_index()
    offline_frequencies.columns = ["Method", "OfflineFrequency"]

    # Métodos online (LearnCodeOnline)
    online_methods = filtered_data["LearnCodeOnline"].dropna().str.split(";").explode()
    online_frequencies = online_methods.value_counts().reset_index()
    online_frequencies.columns = ["Method", "OnlineFrequency"]

    # Combinar ambos
    learning_methods = pd.merge(offline_frequencies, online_frequencies, on="Method", how="outer").fillna(0)
    learning_methods["TotalFrequency"] = learning_methods["OfflineFrequency"] + learning_methods["OnlineFrequency"]

    return learning_methods.sort_values(by="TotalFrequency", ascending=False)

# Analizar métodos de aprendizaje para 2024
learning_methods_2024 = analyze_learning_methods(combined_data, 2024)

# Mostrar los métodos más populares
learning_methods_2024.head(10)


Unnamed: 0,Method,OfflineFrequency,OnlineFrequency,TotalFrequency
17,"Other online resources (e.g., videos, blogs, f...",49654.0,0.0,49654.0
22,Technical documentation,0.0,41267.0,41267.0
21,Stack Overflow,0.0,39492.0,39492.0
24,Written Tutorials,0.0,33664.0,33664.0
4,Books / Physical media,30392.0,0.0,30392.0
13,Online Courses or Certification,30271.0,0.0,30271.0
2,Blogs,0.0,30208.0,30208.0
19,"School (i.e., University, College, etc)",29722.0,0.0,29722.0
12,On the job training,27244.0,0.0,27244.0
10,How-to videos,0.0,26668.0,26668.0


#### Métodos más utilizados
1. Otros recursos en línea (videos, blogs, foros): 49,654 menciones.
2. Documentación técnica: 41,267 menciones (exclusivo para métodos en línea).
3. Stack Overflow: 39,492 menciones (también en línea).
4. Libros o materiales físicos: 30,392 menciones.
5. Cursos en línea o certificaciones: 30,271 menciones.
Poidemos observar que los desarrolladores prefieren combinar recursos en línea como blogs, foros, y plataformas especializadasy que las certificaciones y cursos en línea siguen siendo relevantes, reflejando una gran oportunidad para plataformas de aprendizaje.

Pasamos esto a un script para su integracion en la app, path: app/components/tendencies.py