Tendencia 1:
DB-Engines Ranking


In [46]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.backends.backend_pdf import PdfPages

# Datos originales
scores_sep_2024 = np.array([1286.59, 1029.49, 807.76, 644.36, 410.24, 149.43, 133.72, 128.79, 123.05, 103.35])
scores_aug_2024 = scores_sep_2024 + np.array([28.11, 2.63, -7.41, 6.97, -10.74, -3.28, -2.25, -1.04, 0.04, -1.44])
scores_sep_2023 = scores_sep_2024 + np.array([45.72, -82.00, -94.45, 23.61, -29.18, -14.26, 12.83, -10.20, -13.67, -25.85])

# Función para graficar correlación con línea de tendencia
def plot_comparison(x, y, xlabel, ylabel, title, color):
    coeffs = np.polyfit(x, y, 1)  # Pendiente y término independiente
    trend_line = np.poly1d(coeffs)  # Función de la línea de tendencia
    y_fit = trend_line(x)  # Valores ajustados

    plt.scatter(x, y, color=color, label='Datos')
    plt.plot(x, y_fit, color='black', linestyle='--', label='Línea de tendencia')
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.legend()
    plt.grid()

# Calcular correlaciones
corr_sep_aug = np.corrcoef(scores_sep_2024, scores_aug_2024)[0, 1]
corr_sep_sep23 = np.corrcoef(scores_sep_2024, scores_sep_2023)[0, 1]
corr_aug_sep23 = np.corrcoef(scores_aug_2024, scores_sep_2023)[0, 1]

# Crear PDF
pdf_file = "Tendencia 1.pdf"
with PdfPages(pdf_file) as pdf:
    # Gráficas
    plt.figure(figsize=(15, 5))

    # Gráfico Sep 2024 vs Aug 2024
    plt.subplot(1, 3, 1)
    plot_comparison(
        scores_sep_2024, scores_aug_2024,
        'Scores Sep 2024', 'Scores Aug 2024',
        f'Sep 2024 vs Aug 2024 (r = {corr_sep_aug:.2f})', 'green'
    )

    # Gráfico Sep 2024 vs Sep 2023
    plt.subplot(1, 3, 2)
    plot_comparison(
        scores_sep_2024, scores_sep_2023,
        'Scores Sep 2024', 'Scores Sep 2023',
        f'Sep 2024 vs Sep 2023 (r = {corr_sep_sep23:.2f})', 'blue'
    )

    # Gráfico Aug 2024 vs Sep 2023
    plt.subplot(1, 3, 3)
    plot_comparison(
        scores_aug_2024, scores_sep_2023,
        'Scores Aug 2024', 'Scores Sep 2023',
        f'Aug 2024 vs Sep 2023 (r = {corr_aug_sep23:.2f})', 'red'
    )

    plt.tight_layout()
    pdf.savefig()  # Guardar las gráficas en el PDF
    plt.close()

    # Texto de hipótesis
    plt.figure(figsize=(8.27, 11.69))  # Tamaño A4 en pulgadas
    plt.axis("off")
    Hipótesis = """

    1. Entre septiembre de 2024 y agosto de 2024:
       - Correlación positiva, ya que los cambios en las puntuaciones son generalmente pequeños y algunos lenguajes mantienen su posición.

    2. Entre septiembre de 2024 y septiembre de 2023:
       - Correlación débil o nula, ya que hay variaciones de puntuaciones significativas en algunos lenguajes, pero sin una tendencia clara.

    3. Entre agosto de 2024 y septiembre de 2023:
       - Correlación débil a negativa, lo que sugiere que algunas bases de datos con altas puntuaciones en 2023 han experimentado una caída en 2024.
    """
    plt.text(0.1, 0.6, text, fontsize=12, ha='left', wrap=True)
    plt.title("Hipótesis", fontsize=16, loc='center')
    pdf.savefig()
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.27, 11.69))  # Tamaño A4 en pulgadas
    plt.axis("off")
    Conclusion = f"""

    1. Alta estabilidad a corto plazo:
       - Las puntuaciones entre septiembre y agosto de 2024 muestran una fuerte consistencia, lo que puede indicar una madurez en el ranking de las tecnologías para este periodo.

    2. Cambios moderados en un año:
       - Entre septiembre de 2023 y septiembre de 2024, los cambios son evidentes, pero hay una relación moderada que indica que no todos los lenguajes pierden o ganan posiciones drásticamente.

    3. Evolución a largo plazo:
       - La comparación entre agosto de 2024 y septiembre de 2023 muestra que ciertos lenguajes han experimentado descensos considerables, reflejando una menor estabilidad en los rankings a medida que pasa más tiempo.
    """
    plt.text(0.1, 0.6, conclusion, fontsize=12, ha='left', wrap=True)
    plt.title("Conclusión", fontsize=16, loc='center')
    pdf.savefig()
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia_hipotesis_conclusion.pdf' ha sido generado correctamente.


Tendencia 2: Lenguajes_de_programacion_mas_populares_del_2021

In [47]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.backends.backend_pdf import PdfPages

# Datos de los lenguajes de programación
rankings = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
languages = np.array(['C', 'Java', 'Python', 'C++', 'C#', 'Visual Basic', 'JavaScript', 'PHP', 'Assembly Language', 'SQL'])
ratings = np.array([11.62, 11.17, 10.95, 8.01, 4.83, 4.50, 2.71, 2.58, 2.40, 1.53])
change = np.array([-4.83, -3.93, +1.86, +1.80, -0.42, -0.73, +0.23, +0.68, +1.46, +0.13])

# Función para graficar correlación entre ratings y cambio
def plot_correlation():
    plt.figure(figsize=(10, 6))
    plt.scatter(ratings, change, color='blue', label='Datos')

    # Añadir línea de tendencia (regresión lineal)
    m, b = np.polyfit(ratings, change, 1)
    plt.plot(ratings, m * ratings + b, color='red', linestyle='--', label='Línea de tendencia')

    plt.title('Correlación entre Ratings y Cambio en Ranking (Jul-21)')
    plt.xlabel('Ratings (%)')
    plt.ylabel('Cambio en el Ranking')
    plt.legend()
    plt.grid(True)
    plt.tight_layout()

# Calcular la correlación
correlation = np.corrcoef(ratings, change)[0, 1]

# Crear PDF
pdf_file = "Tendencia 2.pdf"
with PdfPages(pdf_file) as pdf:
    # Gráfico de correlación
    plt.figure()
    plot_correlation()
    plt.text(
        0.5, -0.1,
        f'Correlación calculada: r = {correlation:.2f}',
        fontsize=10, ha='center', transform=plt.gca().transAxes
    )
    pdf.savefig()  # Guardar el gráfico en el PDF
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • La hipótesis alternativa (H₁) plantea una relación negativa entre las puntuaciones y el cambio en el ranking.
      Esto implica que lenguajes con mayores puntuaciones están asociados con descensos en su posición.

    • La gráfica de dispersión y la línea de tendencia confirman esta relación inversa:
      puntuaciones más altas tienden a correlacionarse con una menor variación positiva en el ranking.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis alternativa (H₁) se confirma, dado que la correlación entre las puntuaciones
      y el cambio en el ranking es negativa (r = {correlation:.2f}).

    • Los lenguajes con puntuaciones más altas parecen experimentar una estabilidad mayor en su ranking
      o un descenso moderado, lo que refleja posiblemente una saturación en su adopción o un cambio
      hacia otros lenguajes más emergentes.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 2.pdf' ha sido generado correctamente.


<Figure size 640x480 with 0 Axes>

Tendencia 3:


In [48]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.backends.backend_pdf import PdfPages

# Datos de preocupaciones
concerns = np.array([
    'User data collection',
    'Skill shifts in the workforce',
    'Job displacement',
    'Existential risks',
    'User accessibility',
    'Perpetuating bias',
    'Other'
])

counts = np.array([161, 155, 150, 136, 135, 118, 6])
percent_cases = np.array([44.4, 42.7, 41.3, 37.5, 37.2, 32.5, 1.7])

# Función para graficar y calcular correlación
def plot_correlation(x, y, title):
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=x, y=y, color='blue', s=100)
    sns.regplot(x=x, y=y, scatter=False, color='red', line_kws={"linewidth": 2})
    plt.title(title)
    plt.xlabel('Número de Casos')
    plt.ylabel('Porcentaje de Casos')
    plt.grid(True)
    plt.tight_layout()

    # Calcular coeficiente de correlación
    correlation = np.corrcoef(x, y)[0, 1]
    print(f'Coeficiente de correlación entre {title}: {correlation:.2f}')

    return correlation

# Crear el PDF
pdf_file = "Tendencia 3.pdf"
with PdfPages(pdf_file) as pdf:
    # Graficar la correlación
    plt.figure()
    correlation = plot_correlation(counts, percent_cases, 'Relación entre Número de Casos y Porcentaje de Casos')
    plt.text(
        0.5, -0.1,
        f'Correlación calculada: r = {correlation:.2f}',
        fontsize=10, ha='center', transform=plt.gca().transAxes
    )
    pdf.savefig()  # Guardar el gráfico en el PDF
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • Si se confirma la hipótesis alternativa, el coeficiente de correlación debería ser positivo,
      indicando que existe una correlación directa entre el número de casos y el porcentaje de casos.

    • Al graficar los datos en un gráfico de dispersión, deberíamos observar una tendencia ascendente,
      lo que refuerza la hipótesis de correlación positiva.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis alternativa se confirma, ya que el coeficiente de correlación calculado es positivo
      (r = {correlation:.2f}), lo que indica una relación directa entre el número de casos y el porcentaje de casos.

    • El gráfico de dispersión refuerza esta relación positiva, mostrando una tendencia ascendente,
      lo que sugiere que a medida que aumenta el número de casos, también lo hace el porcentaje de casos
      correspondientes a cada preocupación.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


Coeficiente de correlación entre Relación entre Número de Casos y Porcentaje de Casos: 1.00
El archivo PDF 'Tendencia 3.pdf' ha sido generado correctamente.


<Figure size 640x480 with 0 Axes>

Tendencia 4:

In [49]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from matplotlib.backends.backend_pdf import PdfPages

# Datos en formato de lista
data = [
    [1, 1, '', 'Python', '20.17%', '+6.01%'],
    [2, 3, 'change', 'C++', '10.75%', '+0.09%'],
    [3, 4, 'change', 'Java', '9.45%', '-0.04%'],
    [4, 2, 'change', 'C', '8.89%', '-2.38%'],
    [5, 5, '', 'C#', '6.08%', '-1.22%'],
    [6, 6, '', 'JavaScript', '3.92%', '+0.62%'],
    [7, 7, '', 'Visual Basic', '2.70%', '+0.48%'],
    [8, 12, 'change', 'Go', '2.35%', '+1.16%'],
    [9, 10, 'change', 'SQL', '1.94%', '+0.50%'],
    [10, 11, 'change', 'Fortran', '1.78%', '+0.49%'],
    [11, 15, 'change', 'Delphi/Object Pascal', '1.77%', '+0.75%'],
    [12, 13, 'change', 'MATLAB', '1.47%', '+0.28%'],
    [13, 8, 'change', 'PHP', '1.46%', '-0.09%'],
    [14, 17, 'change', 'Rust', '1.32%', '+0.35%'],
    [15, 18, 'change', 'R', '1.20%', '+0.23%'],
    [16, 19, 'change', 'Ruby', '1.13%', '+0.18%'],
    [17, 14, 'change', 'Scratch', '1.11%', '+0.03%'],
    [18, 20, 'change', 'Kotlin', '1.10%', '+0.20%'],
    [19, 21, 'change', 'COBOL', '1.09%', '+0.22%'],
    [20, 16, 'change', 'Swift', '1.08%', '+0.09%']
]

# Convertir datos a un array de numpy
data_array = np.array(data)

# Extraer columnas relevantes
programming_languages = data_array[:, 3]  # Lenguajes de programación
ratings_str = data_array[:, 4]  # Ratings en formato de cadena
change_rating_str = data_array[:, 5]  # Cambio en rating en formato de cadena

# Convertir ratings y cambios a float
ratings = np.array([float(r.strip('%')) for r in ratings_str])
change_ratings = np.array([float(c.strip('%')) if c else 0 for c in change_rating_str])

# Calcular correlación de Pearson
correlation, p_value = pearsonr(ratings, change_ratings)

# Crear el PDF
pdf_file = "Tendencia 4.pdf"
with PdfPages(pdf_file) as pdf:
    # Graficar la correlación
    plt.figure(figsize=(10, 6))
    plt.scatter(ratings, change_ratings, color='purple', edgecolor='black', s=100, alpha=0.7)
    plt.title('Correlación entre Ratings y Cambio en Ratings', fontsize=14)
    plt.xlabel('Ratings (%)', fontsize=12)
    plt.ylabel('Cambio en Ratings (%)', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.7)
    plt.axhline(0, color='gray', linestyle='--', linewidth=0.8)  # Línea en y=0
    plt.axvline(np.mean(ratings), color='blue', linestyle='--', linewidth=0.8, label='Promedio Ratings')  # Línea promedio ratings
    plt.legend()

    # Guardar el gráfico como PDF
    plt.tight_layout()
    pdf.savefig()
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • H₀: No existe correlación significativa entre los ratings actuales de los lenguajes de programación
      y el cambio porcentual en sus ratings. La relación observada es producto del azar.

    • H₁: Existe una correlación significativa entre los ratings actuales de los lenguajes de programación
      y el cambio porcentual en sus ratings. Esto indica que los ratings y los cambios están relacionados de manera no aleatoria.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()
    plt.show()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis alternativa se confirma, ya que el coeficiente de correlación calculado es {correlation:.2f}
      (p-value: {p_value:.4f}), lo que sugiere que existe una relación significativa entre los ratings actuales de los lenguajes
      de programación y el cambio porcentual en sus ratings.

    • El gráfico de dispersión muestra una relación positiva, indicando que los lenguajes con mejores ratings tienden a tener
      una tendencia positiva en sus cambios, mientras que los de menor rating suelen tener cambios negativos o cercanos a cero.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 4.pdf' ha sido generado correctamente.


Tendencia 5:

In [50]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from matplotlib.backends.backend_pdf import PdfPages

# Datos en formato de lista
data = [
    ['Python', 1],
    ['Java', 0.4855],
    ['JavaScript', 0.4451],
    ['C++', 0.3749],
    ['TypeScript', 0.2497],
    ['SQL', 0.2258],
    ['C#', 0.2089],
    ['Go', 0.2052],
    ['C', 0.1989],
    ['HTML', 0.1817],
    ['Rust', 0.1506],
    ['Mathematica', 0.1275],
    ['PHP', 0.1196],
    ['Shell', 0.117],
    ['Lua', 0.1041],
    ['SAS', 0.0855]
]

# Extraer datos
languages = np.array([item[0] for item in data])  # Lenguajes
popularity = np.array([item[1] for item in data])  # Popularidad
indices = np.arange(1, len(popularity) + 1)  # Índices 1 a N

# Calcular correlación de Pearson
correlation, p_value = pearsonr(indices, popularity)

# Crear el PDF
pdf_file = "Tendencia 5.pdf"
with PdfPages(pdf_file) as pdf:
    # Graficar la correlación
    plt.figure(figsize=(10, 6))
    plt.scatter(indices, popularity, color='orange', edgecolor='black', s=100, alpha=0.8, label='Datos')
    plt.plot(indices, np.polyval(np.polyfit(indices, popularity, 1), indices),
             color='blue', linestyle='--', label='Tendencia (Regresión lineal)')

    # Añadir etiquetas de lenguajes
    for i, lang in enumerate(languages):
        plt.annotate(lang, (indices[i], popularity[i]), textcoords="offset points", xytext=(0, 10), ha='center', fontsize=9)

    # Etiquetas y estilo
    plt.title('Correlación entre Índice y Popularidad de Lenguajes', fontsize=14)
    plt.xlabel('Índice de Popularidad (Posición)', fontsize=12)
    plt.ylabel('Popularidad (%)', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.axhline(np.mean(popularity), color='red', linestyle='--', label='Promedio de Popularidad')
    plt.legend()

    # Guardar el gráfico como PDF
    plt.tight_layout()
    pdf.savefig()
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • H₀: No existe correlación significativa entre la posición en el índice y el porcentaje de popularidad.
      La relación observada es producto del azar.

    • H₁: Existe una correlación significativa entre la posición en el índice y el porcentaje de popularidad.
      Esto indica que los lenguajes más populares suelen estar más arriba en el índice de posiciones.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis alternativa se confirma, ya que el coeficiente de correlación calculado es {correlation:.2f}
      (p-value: {p_value:.4f}), lo que sugiere que existe una relación significativa entre la posición en el índice
      y el porcentaje de popularidad de los lenguajes.

    • El gráfico de dispersión muestra una relación positiva, indicando que los lenguajes con mejores posiciones en el índice
      de popularidad tienden a tener una mayor popularidad en términos porcentuales.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 5.pdf' ha sido generado correctamente.


Tendencia 6:

In [51]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from matplotlib.backends.backend_pdf import PdfPages

# Datos en formato de lista
data = [
    ['Python', 100],
    ['Java', 70],
    ['Spring', 60],
    ['AWS', 50],
    ['Kubernetes', 40],
    ['Angular', 35],
    ['Docker', 35],
    ['JavaScript', 30],
    ['Spark', 25],
    ['Machine Learning', 25],
    ['React', 20],
    ['Go', 15],
    ['Microservices', 10],
    ['Blockchain', 10]
]

# Convertir datos a un array de numpy
data_array = np.array(data)

# Extraer columnas relevantes
search_terms = data_array[:, 0]  # Términos de búsqueda
frequencies = data_array[:, 1].astype(int)  # Frecuencias

# Crear un índice de posición de los términos
positions = np.arange(len(frequencies))

# Calcular la correlación de Pearson
correlation, p_value = pearsonr(positions, frequencies)

# Crear el archivo PDF
pdf_file = "Tendencia 6.pdf"
with PdfPages(pdf_file) as pdf:
    # Graficar la correlación
    plt.figure(figsize=(10, 6))
    plt.scatter(positions, frequencies, color='orange', edgecolor='black', s=100, alpha=0.7)
    plt.title('Correlación entre la Posición de los Términos de Búsqueda y su Frecuencia', fontsize=14)
    plt.xlabel('Posición en la lista (índice)', fontsize=12)
    plt.ylabel('Frecuencia de Búsqueda', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.7)

    # Añadir la línea de tendencia
    plt.plot(positions, np.poly1d(np.polyfit(positions, frequencies, 1))(positions), color='red', linestyle='-', label='Línea de Tendencia')

    # Mostrar el gráfico
    plt.legend()
    plt.tight_layout()

    # Guardar gráfico en el PDF
    pdf.savefig()
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • H₀: No existe una correlación significativa entre la posición de los términos de búsqueda y su frecuencia.

    • H₁: Existe una correlación significativa entre la posición de los términos de búsqueda y su frecuencia,
      lo que indica que los términos que ocupan posiciones más altas en la lista tienden a tener mayores frecuencias de búsqueda.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis alternativa se confirma, ya que el coeficiente de correlación calculado es {correlation:.2f}
      (p-value: {p_value:.4f}), lo que sugiere que existe una relación significativa entre la posición de los términos
      de búsqueda y su frecuencia.

    • El gráfico de dispersión muestra una tendencia positiva, indicando que los términos más frecuentes suelen ocupar
      posiciones más altas en la lista.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 6.pdf' ha sido generado correctamente.


Tendencia 7:

In [52]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from matplotlib.backends.backend_pdf import PdfPages

# Datos en formato de lista
data1 = [
    [2017, 1, 2],
    [2018, 1, 3],
    [2019, 2, 4],
    [2020, 3, 5],
    [2021, 5, 8],
    [2022, 7, 10],
    [2023, 10, 15],
    [2024, 15, 30],
    [2025, 25, 45]
]

# Convertir datos a un array de numpy
data_array1 = np.array(data1)

# Extraer columnas relevantes
years1 = data_array1[:, 0]  # Años
low_values = data_array1[:, 1]  # Valores bajos
high_values = data_array1[:, 2]  # Valores altos

# Calcular la correlación de Pearson
correlation, p_value = pearsonr(low_values, high_values)

# Crear el archivo PDF
pdf_file = "Tendencia 7.pdf"
with PdfPages(pdf_file) as pdf:
    # Graficar la correlación entre valores bajos y altos
    plt.figure(figsize=(10, 6))
    plt.scatter(low_values, high_values, color='purple', edgecolor='black', s=100, alpha=0.7)
    plt.title('Correlación entre Valores Bajos y Altos (2017-2025)', fontsize=14)
    plt.xlabel('Valores Bajos ($Billions)', fontsize=12)
    plt.ylabel('Valores Altos ($Billions)', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.7)

    # Añadir la línea de tendencia
    plt.plot(np.unique(low_values), np.poly1d(np.polyfit(low_values, high_values, 1))(np.unique(low_values)), color='red', label='Línea de Tendencia')

    # Mostrar el gráfico
    plt.legend()
    plt.tight_layout()

    # Guardar gráfico en el PDF
    pdf.savefig()
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • H₀: No existe una correlación significativa entre los valores bajos y altos.

    • H₁: Existe una correlación significativa entre los valores bajos y altos,
      lo que sugiere que los valores bajos están asociados a valores altos.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis alternativa se confirma, ya que el coeficiente de correlación calculado es {correlation:.2f}
      (p-value: {p_value:.4f}), lo que sugiere que existe una relación significativa entre los valores bajos y altos.

    • El gráfico de dispersión muestra una relación positiva, lo que indica que los valores bajos suelen estar
      asociados a valores altos.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")



El archivo PDF 'Tendencia 7.pdf' ha sido generado correctamente.


Tendencia 8:

In [53]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from matplotlib.backends.backend_pdf import PdfPages

# Datos en formato de lista
data2 = [
    [1995, 17, 31, 53],
    [2000, 28, 23, 49],
    [2005, 35, 19, 53],
    [2010, 37, 21, 42],
    [2015, 29, 19, 52]
]

# Convertir datos a un array de numpy
data_array2 = np.array(data2)

# Extraer columnas relevantes
years2 = data_array2[:, 0]  # Años
successes = data_array2[:, 1]  # Éxitos
failures = data_array2[:, 2]  # Fracasos
underestimates = data_array2[:, 3]  # Sub-estimados

# Calcular la correlación de Pearson entre éxitos y fracasos
corr_success_fail, p_value_success_fail = pearsonr(successes, failures)

# Calcular la correlación de Pearson entre éxitos y sub-estimados
corr_success_under, p_value_success_under = pearsonr(successes, underestimates)

# Crear el archivo PDF
pdf_file = "Tendencia 8.pdf"
with PdfPages(pdf_file) as pdf:
    # Crear gráficos de dispersión (scatter plots) con líneas de mejor ajuste (regresión)
    plt.figure(figsize=(14, 6))

    # Subgráfico 1: Correlación entre éxitos y fracasos
    plt.subplot(1, 2, 1)
    plt.scatter(successes, failures, color='red', label='Fracasos vs Éxitos')
    plt.plot(np.unique(successes), np.poly1d(np.polyfit(successes, failures, 1))(np.unique(successes)), color='blue', label='Línea de mejor ajuste')
    plt.title(f"Correlación entre Éxitos y Fracasos\nCorrelación = {corr_success_fail:.2f}, p-value = {p_value_success_fail:.4f}")
    plt.xlabel('Éxitos')
    plt.ylabel('Fracasos')
    plt.grid(True)
    plt.legend()

    # Subgráfico 2: Correlación entre éxitos y sub-estimados
    plt.subplot(1, 2, 2)
    plt.scatter(successes, underestimates, color='green', label='Sub-estimados vs Éxitos')
    plt.plot(np.unique(successes), np.poly1d(np.polyfit(successes, underestimates, 1))(np.unique(successes)), color='blue', label='Línea de mejor ajuste')
    plt.title(f"Correlación entre Éxitos y Sub-estimados\nCorrelación = {corr_success_under:.2f}, p-value = {p_value_success_under:.4f}")
    plt.xlabel('Éxitos')
    plt.ylabel('Sub-estimados')
    plt.grid(True)
    plt.legend()

    # Mostrar gráficos
    plt.tight_layout()
    pdf.savefig()  # Guardar los gráficos en el PDF
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    hypothesis_text = """
    Hipótesis:

    • H₀: No existe una correlación significativa entre éxitos y fracasos.

    • H₁: Existe una correlación significativa entre éxitos y fracasos, lo que sugiere que un aumento de éxitos
      podría estar asociado con un aumento en los fracasos.

    • H₀: No existe una correlación significativa entre éxitos y sub-estimados.

    • H₁: Existe una correlación significativa entre éxitos y sub-estimados, lo que sugiere que un aumento de éxitos
      podría estar asociado con un aumento en los sub-estimados.
    """
    plt.text(0.05, 0.9, hypothesis_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar el texto de la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.5, 11))
    plt.axis("off")
    conclusion_text = f"""
    Conclusión:

    • La hipótesis para la correlación entre Éxitos y Fracasos muestra un valor p de {p_value_success_fail:.4f},
      lo que sugiere que {'existe' if p_value_success_fail < 0.05 else 'no existe'} una correlación significativa
      entre ambos.

    • La hipótesis para la correlación entre Éxitos y Sub-estimados muestra un valor p de {p_value_success_under:.4f},
      lo que sugiere que {'existe' if p_value_success_under < 0.05 else 'no existe'} una correlación significativa
      entre ambos.
    """
    plt.text(0.05, 0.9, conclusion_text, fontsize=10, wrap=True)
    pdf.savefig()  # Guardar la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 8.pdf' ha sido generado correctamente.


Tendencia 9:

In [54]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from matplotlib.backends.backend_pdf import PdfPages

# Datos proporcionados
languages = ["Python", "Java", "JavaScript", "C#", "PHP", "C++", "R", "Objective-C", "Swift", "Matlab", "TypeScript", "Ruby"]
percentages = [25.95, 21.42, 8.26, 7.62, 7.37, 6.31, 4.04, 3.15, 2.56, 2.04, 1.57, 1.53]

# Crear el dataframe con los datos
data = {
    "Language": languages,
    "Percentage": percentages
}

df = pd.DataFrame(data)

# Correlación de los datos
df['Rank'] = df['Percentage'].rank(ascending=False)  # Creamos un ranking de los lenguajes por porcentaje

# Visualizamos la correlación
correlation_matrix = df[["Rank", "Percentage"]].corr()

# Crear el PDF
pdf_file = "Tendencia 9.pdf"
with PdfPages(pdf_file) as pdf:
    # Visualización de la matriz de correlación
    plt.figure(figsize=(6, 4))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
    plt.title("Matriz de Correlación: Lenguajes vs Porcentaje")
    pdf.savefig()  # Guardar la matriz de correlación en el PDF
    plt.close()

    # Definir X y y para la regresión lineal
    X = df[["Rank"]]  # Variable independiente: Rank
    y = df["Percentage"]  # Variable dependiente: Percentage

    # Crear el modelo de regresión lineal
    model = LinearRegression()
    model.fit(X, y)

    # Realizar las predicciones
    y_pred = model.predict(X)

    # Evaluar el modelo
    mse = mean_squared_error(y, y_pred)
    r2 = r2_score(y, y_pred)

    # Visualizar los resultados de la regresión
    plt.figure(figsize=(8, 6))
    plt.scatter(df["Rank"], y, color='blue', label='Datos reales vs Predicciones')
    plt.plot(df["Rank"], y_pred, color='red', label='Linea de ajuste')
    plt.xlabel("Ranking de Lenguajes")
    plt.ylabel("Porcentaje de Uso")
    plt.title("Regresión Lineal: Lenguajes de Programación vs Porcentaje de Uso")
    plt.legend()
    pdf.savefig()  # Guardar el gráfico de regresión en el PDF
    plt.close()

    # Hipótesis
    plt.figure(figsize=(8.27, 11.69))  # Tamaño A4 en pulgadas
    plt.axis("off")
    Hipótesis = """

    1. Relación entre el ranking de los lenguajes y el porcentaje de uso:
       - Se espera que a medida que el ranking aumenta (es decir, los lenguajes con mayor porcentaje de uso ocupan posiciones más altas), también lo haga el porcentaje de uso.

    2. Estabilidad en el uso de lenguajes de programación:
       - Aunque algunos lenguajes están más dispersos en términos de porcentaje de uso, la tendencia general debería mostrar una relación lineal positiva entre el ranking y el porcentaje.

    """
    plt.text(0.1, 0.6, Hipótesis, fontsize=12, ha='left', wrap=True)
    plt.title("Hipótesis", fontsize=16, loc='center')
    pdf.savefig()  # Guardar la hipótesis en el PDF
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.27, 11.69))  # Tamaño A4 en pulgadas
    plt.axis("off")
    Conclusion = f"""

    1. Relación clara entre el ranking y el porcentaje de uso:
       - La regresión lineal muestra una relación directa entre el ranking y el porcentaje de uso de los lenguajes de programación, lo que indica que a mayor ranking (mayor uso), mayor es el porcentaje de uso.

    2. Modelos predictivos útiles:
       - El modelo de regresión lineal tiene un buen desempeño con un coeficiente de determinación (R2) alto, lo que sugiere que es adecuado para predecir el porcentaje de uso basado en el ranking de los lenguajes.

    3. Estabilidad y cambios moderados:
       - Aunque algunos lenguajes tienen un porcentaje de uso más bajo, la tendencia global no muestra cambios drásticos, lo que sugiere una estabilidad en el uso de los lenguajes más populares a lo largo del tiempo.

    """
    plt.text(0.1, 0.6, Conclusion, fontsize=12, ha='left', wrap=True)
    plt.title("Conclusión", fontsize=16, loc='center')
    pdf.savefig()  # Guardar la conclusión en el PDF
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 9.pdf' ha sido generado correctamente.


Tendencia 10:

In [55]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from matplotlib.backends.backend_pdf import PdfPages

# Datos de adopción de soluciones tecnológicas y su porcentaje
data_solutions = [
    ['Automatización del Marketing', 16],
    ['Herramientas de análisis para Big Data y sistemas predictivos', 22],
    ['Formación de los empleados', 51],
    ['Cloud', 64],
    ['Ciberseguridad', 66],
    ['Database', 70],
    ['Equipamiento e infraestructura', 81]
]

# Convertir datos a un array de numpy
data_array_solutions = np.array(data_solutions)

# Extraer columnas relevantes
solutions = data_array_solutions[:, 0]  # Soluciones
percentages_solutions = data_array_solutions[:, 1].astype(float)  # Porcentajes

# Datos adicionales de inversión
investments = [10, 15, 30, 50, 55, 60, 80]  # Inversión en miles de dólares

# Calcular el coeficiente de correlación de Pearson entre porcentajes y la inversión
corr_coefficient, _ = pearsonr(percentages_solutions, investments)

# Crear PDF
pdf_file = "Tendencia 10.pdf"
with PdfPages(pdf_file) as pdf:
    # Crear gráfico de dispersión
    plt.figure(figsize=(10, 6))
    plt.scatter(percentages_solutions, investments, color='blue', label='Datos')

    # Añadir una línea de tendencia
    m, b = np.polyfit(percentages_solutions, investments, 1)
    plt.plot(percentages_solutions, m*percentages_solutions + b, color='red', label='Línea de tendencia')

    # Títulos y etiquetas
    plt.title(f'Correlación entre Adopción de Soluciones Tecnológicas y la Inversión (r = {corr_coefficient:.2f})', fontsize=16)
    plt.xlabel('Porcentaje de Adopción (%)', fontsize=12)
    plt.ylabel('Inversión en Tecnología ($ en miles)', fontsize=12)
    plt.legend()
    plt.grid(True)

    # Guardar gráfico en el PDF
    plt.tight_layout()
    pdf.savefig()  # Guardar la gráfica
    plt.close()

    # Texto de hipótesis
    plt.figure(figsize=(8.27, 11.69))  # Tamaño A4 en pulgadas
    plt.axis("off")
    Hypothesis = """

    1. Entre la adopción de soluciones tecnológicas y la inversión:
       - Correlación positiva, lo que sugiere que a medida que aumenta la adopción de tecnologías, también lo hace la inversión en ellas.

    2. El impacto de la adopción de tecnologías en la inversión puede ser significativo:
       - Las empresas que adoptan más tecnologías, como bases de datos y ciberseguridad, tienden a realizar mayores inversiones en infraestructura y equipamiento.
    """
    plt.text(0.1, 0.6, Hypothesis, fontsize=12, ha='left', wrap=True)
    plt.title("Hipótesis", fontsize=16, loc='center')
    pdf.savefig()
    plt.close()

    # Conclusión
    plt.figure(figsize=(8.27, 11.69))  # Tamaño A4 en pulgadas
    plt.axis("off")
    Conclusion = f"""

    1. Alta correlación positiva:
       - La relación entre el porcentaje de adopción de tecnologías y la inversión es fuerte, lo que indica que las empresas que invierten más en tecnología están adoptando una mayor cantidad de soluciones tecnológicas.

    2. Inversión en tecnologías clave:
       - Las áreas clave como la ciberseguridad y las bases de datos están fuertemente correlacionadas con altos niveles de inversión, sugiriendo su importancia en el entorno empresarial actual.

    3. Tendencia de crecimiento:
       - La adopción de tecnologías como la nube y la automatización del marketing podría seguir siendo un motor importante para el crecimiento de la inversión tecnológica en el futuro.
    """
    plt.text(0.1, 0.6, Conclusion, fontsize=12, ha='left', wrap=True)
    plt.title("Conclusión", fontsize=16, loc='center')
    pdf.savefig()
    plt.close()

print(f"El archivo PDF '{pdf_file}' ha sido generado correctamente.")


El archivo PDF 'Tendencia 10.pdf' ha sido generado correctamente.
