## Actividad: Análisis Estadístico y Probabilístico en Minería de Datos
### Objetivo de la actividad:
El objetivo de esta actividad es que los alumnos apliquen conceptos clave de estadística (media, moda, mediana, varianza, desviación estándar) y probabilidad (Teorema de Bayes, probabilidades condicionales) en escenarios prácticos de minería de datos. A través del uso de **Pandas** y **Matplotlib**, los estudiantes desarrollarán habilidades para analizar datos, identificar patrones y tomar decisiones informadas en contextos donde la variabilidad y la incertidumbre son factores cruciales. Esta actividad fomenta el pensamiento crítico y la comprensión de cómo las herramientas estadísticas pueden integrarse en la práctica real de la minería de datos.

### Instrucciones Generales para Desarrollar la Actividad:
1. Lea detenidamente cada ejercicio: Asegúrese de comprender los conceptos estadísticos y probabilísticos que se aplican en cada caso.
2. Implemente el código en Python: Use las bibliotecas **Pandas**, y **Matplotlib** para generar datos, realizar cálculos estadísticos y graficar resultados según las indicaciones de cada ejercicio.
3. Analice los resultados: Interprete los cálculos y gráficos generados para responder a las preguntas planteadas y extraer conclusiones relevantes.
4.  Documente su trabajo: Asegúrese de incluir comentarios en su código que expliquen los pasos seguidos y las decisiones tomadas.
5. Presente sus conclusiones: Al final de la actividad, resuma sus hallazgos, destacando los conceptos aplicados en el contexto de la minería de datos.

### Ejercicio 1: Análisis de Desempeño Académico

**Objetivo**: Analizar el rendimiento académico de un grupo de estudiantes con base en sus calificaciones, identificando patrones y haciendo predicciones.

**Actividades**:
1. Calcula la media, mediana, moda, desviación estándar y varianza de las calificaciones para cada materia.  
2. Identifica la materia y semestre en la que los estudiantes tienen el desempeño más bajo (menor media), y la materia y semestre en la que tienen el mejor desempeño (mayor media).  
3. Grafica las distribuciones de calificaciones por materia, ¿Qué grafico es el más adecuado para visualizar la distribuciones de las calificaciones?.  
4. Usa el Teorema de Bayes (investiga si no lo conoces o recuerdas) para calcular la probabilidad de que un estudiante tenga un promedio general superior a 8.5, dado que su calificación en **Desafios Eticos Contemporaneos** es superior a 9.0.  

**Pregunta a contestar**:
* ¿En qué materia los estudiantes tienen un desempeño consistentemente más bajo?
* ¿Cómo podrías interpretar las diferencias en las medias de calificaciones entre las materias?
* Basado en el cálculo usando el Teorema de Bayes, ¿qué tan significativo es el impacto de una alta calificación en **Desafios Eticos Contemporaneos** en el promedio general del estudiante?

### Ejercicio 2: Estudio de Demanda de Productos

**Objetivo**: Estudiar la demanda de diferentes productos en función del precio, identificando la relación entre variables e inferir la probabilidad de alta demanda con base en análisis de datos.

**Actividades**:
1. Calcula las medias, desviaciones estándar, modas y medianas de precios y demanda para cada producto.
2. Grafica la relación entre precio y demanda para cada producto, ¿Qué gráfico es el más adecuado para visualizar tal relación?.
3. Usa el Teorema de Bayes para calcular la probabilidad de que un producto tenga una alta demanda ($> 50$ unidades vendidas), dado que su precio es bajo ($< promedio).

**Preguntas a contestar**:
* ¿Qué conclusiones puedes extraer sobre la relación entre el precio y la demanda de cada producto?
* ¿Cómo afecta la variabilidad en los precios a la probabilidad de alta demanda según el análisis realizado?

# Ejercicio 1

In [1]:
from time import process_time

import pandas as pd
file = "calificaciones_estudiantes_n.csv"
df = pd.read_csv(file)
df.info

print(df.head(5))

   id_estudiante  Semestre  Comunicacion Oral y Escrita  \
0             11         1                          7.5   
1             12         2                          9.4   
2             13         3                         10.0   
3             14         4                          5.0   
4             15         5                          7.1   

   Etica, Identidad y Profesion  Desafios Eticos Contemporaneos  
0                           6.5                            10.0  
1                           5.0                             5.0  
2                           5.1                             5.0  
3                           7.8                             7.9  
4                           5.2                             9.4  


In [2]:
# Se calcula la media, mediana, moda, desviacion estandar y varianza de las calificaciones de cada materia

# Lista para nombres de materias

for m in df.columns[2:]:
    print('Materia: '+m)
    print('Mediana: '+ str(round(df[m].median(), 2)))
    print('Media: ' + str(round(df[m].mean(), 2)))
    print('Moda: ',str(df[m].mode().to_list()))
    print('Varianza: ',str(round(df[m].var(), 2)))
    print('Desviacion: ',str(round(df[m].std(), 2)))
    print('------------------------')

Materia: Comunicacion Oral y Escrita
Mediana: 8.0
Media: 7.81
Moda:  [10.0]
Varianza:  3.52
Desviacion:  1.88
------------------------
Materia: Etica, Identidad y Profesion
Mediana: 8.0
Media: 7.8
Moda:  [10.0]
Varianza:  3.53
Desviacion:  1.88
------------------------
Materia: Desafios Eticos Contemporaneos
Mediana: 8.0
Media: 7.8
Moda:  [10.0]
Varianza:  3.54
Desviacion:  1.88
------------------------


In [3]:
#  Identifica la materia y semestre en la que los estudiantes tienen el desempeño más bajo (menor media), y la materia y semestre en la que tienen el mejor desempeño (mayor media).

materias = df.columns[2:].values

medias = df.groupby('Semestre')[materias].mean()


min_mean = medias.min().min()
max_mean = medias.max().max()

min_idx = medias.min().idxmin()
max_idx = medias.max().idxmax()

print('Semestre y materia con menor desempeño: ' + str(round(min_mean, 2)) + ' en ' + str(min_idx))
print('Semestre y materia con mejor desempeño: ' + str(round(max_mean, 2)) + ' en ' + str(max_idx))


Semestre y materia con menor desempeño: 7.78 en Etica, Identidad y Profesion
Semestre y materia con mejor desempeño: 7.83 en Comunicacion Oral y Escrita


# Ejercicio 2

In [4]:
file = 'precios_ventas_amazon.json'
df = pd.read_json(file)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   producto  15 non-null     object 
 1   vendedor  15 non-null     object 
 2   precio    15 non-null     float64
 3   ventas    15 non-null     int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 612.0+ bytes
