In [2]:
import pandas as pd
import statistics
import numpy as np

import plotly.express as px

UNIDAD 3

TEORÍA DE LA ESTIMACIÓN

<blockquote>
Las cantidades numéricas se centran en los valores esperados, los resúmenes gráficos en los valores inesperados.<br/>
John Tukey.
</blockquote>

---


- Actividad 1

_Objetivo_: se trata de iniciar el análisis de forma gradual. Esto es, aprendiendo a utilizar tanto las medidas numéricas y gráficas aplicadas en un contexto donde la información sea mínima (por ejemplo: _n=5_) para luego así incrementar su volumen.

Es en ese movimiento gradual en donde entrenaremos la habilidad para estar sensibles al comportamiento de los estadísticos calculados y sus propiedades. O como nos anunciaba John Tukey, entrenaremos las habilidades necesarias para detectar valores o patrones inesperados.


- Ejercicio 1

Contexto: puntuaciones de un solo núcleo (Single-Core scores) de Cinebench R23.

Las puntuaciones de un solo núcleo (Single-Core scores) miden la capacidad de un procesador para manejar tareas usando solo un núcleo. Esta puntuación es relevante para aplicaciones que están ligeramente relacionadas, como la navegación web y el procesamiento de textos.

Cinebench es una herramienta creada por Maxon que evalúa el rendimiento de la CPU y GPU mediante tareas de renderizado 3D del mundo real.

El siguiente conjunto de datos muestra información para la variable _singleScore_ (puntuación de un solo núcleo) y _type_ o tipo (Desktop=Escritorio-, Laptop=Personal) para 5 CPUs.

1.a. Resume la información gráficamente mediante un Diagrama de Caja o Boxplot.

1.a.1. Comenta sobre su forma, centro y dispersión. Responde: ¿por qué la media y la mediana aparecen casi superpuestas?

1.a.2. Recorre de modo interactivo las etiquetas de los puntos prestando atención a _type_, ¿encuentras algún patrón? Si es así, realiza un breve comentario.

1.b. Resume la información numéricamente para la variable _singleScore_.

1.b.1. Interpreta la media y la mediana.

1.b.2 Revisa los valores para los cuartiles y verifica si gráficamente y numéricamente son iguales. Interpreta el 50% de los valores centrales.


In [4]:
data = [
        [1298, 'Desktop'], 
        [1367, 'Desktop'],
        [1440, 'Laptop'],
        [1504, 'Laptop'],
        [1598, 'Laptop'],
        ]
df_5_s = pd.DataFrame(
    data=data,
    columns=['singleScore', 'type'],
)

In [None]:
# Solución 1.a.

px.box(df_5_s,
            y='singleScore',
            points='all',
            width=500, 
            height=450,
            hover_data='type',
            color_discrete_sequence=['#292929'],
            ).update_traces(boxmean=True).update_layout(plot_bgcolor="#F7F7F7").update_traces(quartilemethod="inclusive").update_traces(marker=dict(size=10))

In [None]:
# Solución 1.b. 

df_5_s.describe()

- Ejercicio 2

Contexto: puntuaciones de un solo núcleo según _type_.

2.a. Visualiza los siguientes diagramas de caja que comparan dos conjuntos de datos para las puntuaciones de los CPUs -en Cinebench R23- según si son: _Desktop_ o _Laptop_.

2.b. Realiza un breve resumen que informe sobre la comparación entre _Desktop_ y _Laptop_. Recuerda: siempre que sea posible, intenta hacerlo de manera completa, es decir, comentando lo que sucede con el centro, forma y dispersión de ambas cajas.

2.c. Interactuando con el gráfico, extrae los valores correspondientes para ambas medias y comenta si la diferencia que observas te resulta considerable o no. Puedes ayudarte consultando en Internet sobre el contexto de esas medidas.

2.d. Encuentra el desvío estándar para ambos conjuntos. Calcula e interpreta por comparación ambos Coeficientes de Variación.


In [None]:
df_by_type = pd.read_csv('https://raw.githubusercontent.com/usebien/concurso/refs/heads/main/data/descriptiva/df_by_type_drop.csv')

In [None]:
# Solución 2.a.

px.box(df_by_type,
            y='singleScore',
            points= False, 
            color='type',
            width=500, 
            height=450,
            hover_data='cpuName',
            color_discrete_sequence=['#CDAA7D', '#292929'],
            ).update_traces(boxmean=True).update_layout(plot_bgcolor="#F7F7F7").update_traces(quartilemethod="inclusive").update_traces(marker=dict(size=8))

In [None]:
# Solución 2.d. 
df_by_type.groupby('type')['singleScore'].std()

- Ejercicio 3

Contexto: _turboClock_ o velocidad de impulso del CPU (medida en GHz).

A diferencia del _baseClock_ o -reloj base- que considera la velocidad máxima de reloj sostenida, la velocidad del turbo o _turboClock_ es una velocidad de impulso.

Interactúa con el gráfico para visualizar la información necesaria.

3.a. En base a la siguiente información (df_desktop) visualiza la variable _turboClock_ mediante un Histograma. Interactúa con el gráfico.

3.b. Contextualiza el comportamiento de la variable mediante un breve comentario sobre su forma. Sin aplicar cálculos, ¿qué valores posibles y aproximados podrían describir tanto la media como la mediana?

3.c. ¿Cuál es la velocidad _turboClock_ más frecuente?

3.d.1. ¿Qué porcentaje de CPUs tiene una velocidad de _turboClock_ de hasta 4.5 GHz?

3.d.2. ¿Qué cantidad de CPUs tiene una velocidad de _turboClock_ de 5 GHz o más?

3.d.3. ¿Qué porcentaje de CPUs tiene una velocidad de _turboClock_ de entre 4.4 y 4.9 GHz?


In [None]:
df_desktop = pd.read_csv('https://raw.githubusercontent.com/usebien/concurso/refs/heads/main/data/descriptiva/df_desktop.csv')

In [None]:
px.histogram(df_desktop, 
             x='turboClock',
             width=600, 
            height=400,
            #nbins=8,
            color_discrete_sequence=['#6B6B6B'],
             ).update_traces(marker=dict(line=dict(width=0.3,color="white"))).update_layout(plot_bgcolor="#F7F7F7")

- Ejercicio 4

Contexto: proporción de CPUs tipo _Laptop_.

De la siguiente información (muestra aleatoria: df*n_60) estudiaremos la proporción en relación a la variable categórica \_type*. Recordemos que hace referencia al _tipo de CPU_ (volver a ejercicio 1 para referencia de etiquetas).

4.a Interactúa con el gráfico para conocer la frecuencia correspondiente a cada modalidad.

4.b. ¿Qué porcentaje de CPUs son tipo _Laptop_? Expresa un breve comentario de opinión sobre ese porcentaje en relación al contexto de la información: ese porcentaje, ¿es adecuado a tu realidad cotidiana, o bien es insuficiente, o quizá te resulta exagerado? Con otras palabras: ¿te resulta adecuado en relación a tus compañeros estudiantes de la Facultad de Informática, te resulta adecuado para otras facultades, o incluso para grupos de facultades?

4.c ¿Qué otro gráfico se podría utilizar para comunicar información sobre una sola variable categórica? Enuncia ventajas y desventajas.

4.d. El valor 0.67 que informa sobre la proporción de CPUs de tipo _Laptop_, ¿es un estadístico o un parámetro? Realiza un breve comentario fundamentando por qué es uno u el otro. Indica además la notación.


In [None]:
# Información

df_n_60 = pd.read_csv('https://raw.githubusercontent.com/usebien/concurso/refs/heads/main/data/descriptiva/df_n_60.csv')

In [None]:
# 4.a. 

b = {'type': df_n_60['type'].unique(),
    'Frecuencia': df_n_60['type'].value_counts(),
     'Proporción':  round(df_n_60['type'].value_counts(normalize=True),2)}
b = pd.DataFrame(b)
b.insert(2, "dummy", ['A', 'A'], True)

px.bar(b, 
       x='dummy', 
       y='Proporción', 
       color='type',
       width=600, 
       height=400,
       text_auto=True,
       hover_data= {'Frecuencia': True,'type': True,'dummy': False, 'Proporción': False},
       color_discrete_sequence=['#292929', '#CDAA7D']).update_layout(bargap=0.8).update_xaxes(visible=False,showticklabels=False).update_yaxes(visible=True, showticklabels=True).update_traces(insidetextanchor="middle").update_layout( plot_bgcolor="#F7F7F7")