<img src="https://udearroba.udea.edu.co/imagescourses/2022C343_alprog_V1/banner-colab.png">

# <font color='157699'> **Actividad evaluativa**

<p> A continuación, te presentamos una serie de ejercicios divididos por áreas de conocimiento que deberás resolver con lo aprendido en esta Unidad. Recuerda que solo debes realizar los ejercicios relacionados con tu área de formación. </p>
---

## **Ciencias sociales y humanas**


**Tema: evolución del hábito de lectura y su impacto en las habilidades verbales a lo largo del tiempo.**

**Contexto:** se desea investigar cómo el hábito de lectura de estudiantes universitarios (medido en horas de lectura por semana) evoluciona con el tiempo y cómo esta evolución podría influir en su habilidad verbal, medida a través de un test estandarizado aplicado al final de cada mes. Disponemos de un registro mensual de las horas de lectura y las puntuaciones en el test verbal durante un año.

---

**Correlaciones lineales y no-lineales**

- **Problema:** con el conjunto de datos mensual, calcula la correlación entre las horas de lectura promedio y las puntuaciones del test verbal. ¿Existe una relación lineal entre las dos variables?

```python
import numpy as np

# Datos ficticios
horas_lectura = np.array([2, 3, 2.5, 4, 4.5, 5, 4.5, 4, 3.5, 4, 4.5, 5])
puntuaciones_test = np.array([75, 78, 77, 80, 82, 84, 83, 82, 80, 82, 83, 85])

correlacion = np.corrcoef(horas_lectura, puntuaciones_test)[0, 1]
print("Correlación:", correlacion)
```

---

**Probabilidad condicional y conjunta**

- **Problema:** dado que un estudiante ha leído en promedio más de cuatro horas a la semana durante un mes, ¿cuál es la probabilidad de que su puntuación en el test verbal sea mayor de 82 al final de ese mes?

```python
total_estudiantes = len(horas_lectura)
estudiantes_mas_4_horas = sum(horas_lectura > 4)
estudiantes_mas_4_horas_y_mas_82_puntos = sum((horas_lectura > 4) & (puntuaciones_test > 82))

probabilidad_condicional = estudiantes_mas_4_horas_y_mas_82_puntos / estudiantes_mas_4_horas
print("Probabilidad condicional:", probabilidad_condicional)
```

---

**Correlación vs. causalidad**

- **Problema:** hemos observado una correlación entre el hábito de lectura y las puntuaciones del test verbal. ¿Podemos inferir que un aumento en las horas de lectura causa una mejora en las puntuaciones del test verbal?

*Respuesta:* no, la correlación no implica causalidad directa. Podría haber factores ocultos que afecten ambas variables. Sería esencial realizar experimentos controlados o utilizar herramientas estadísticas adicionales para establecer una relación causal.

- **Problema:** utilizando la serie temporal de horas de lectura y las puntuaciones del test verbal, ¿podemos inferir si las horas de lectura de meses anteriores tienen un impacto predictivo sobre las puntuaciones del test verbal en meses posteriores? Aplica el test de Granger para investigar esto.

```python
import statsmodels.api as sm
from statsmodels.tsa.stattools import grangercausalitytests

# Creamos un DataFrame
import pandas as pd
df = pd.DataFrame({'lectura': horas_lectura, 'puntuacion': puntuaciones_test})

# Aplicamos el Test de Granger con maxlag (por ejemplo, 3 meses)
resultado = grangercausalitytests(df, maxlag=3)
```

Con base en los resultados del test de Granger, podríamos identificar si las horas de lectura de meses anteriores tienen un impacto predictivo sobre las puntuaciones del test verbal de meses posteriores. Es esencial entender que este test, aunque indica predictibilidad, no establece causalidad directa en el sentido tradicional.


---

**Redes de correlación y causalidad**

- **Problema:** propón y esquematiza posibles variables ocultas que podrían influir tanto en las horas de lectura como en las puntuaciones del test verbal.

*Respuesta:* algunas variables ocultas podrían incluir:
- Nivel socioeconómico del estudiante.
- Calidad de la educación recibida con anterioridad.
- Otras actividades educativas realizadas.

---

**Métodos de codificación**

- **Problema:** codifica las puntuaciones del test verbal en tres categorías: Bajo (70-77), Medio (78-84) y Alto (85-100).

```python
def codificar_puntuacion(puntuacion):
    if puntuacion <= 77:
        return "Bajo"
    elif 78 <= puntuacion <= 84:
        return "Medio"
    else:
        return "Alto"

puntuaciones_codificadas = [codificar_puntuacion(p) for p in puntuaciones_test]
print(puntuaciones_codificadas)
```

---

**Métodos de imputación y filtrado**

- **Problema:** si en el conjunto de datos falta alguna puntuación del test verbal, imputa ese valor faltante con la mediana de las puntuaciones disponibles.

```python
# Suponiendo un valor NaN en puntuaciones_test
puntuaciones_test[2] = np.nan

# Imputación
mediana_puntuaciones = np.nanmedian(puntuaciones_test)
puntuaciones_test = np.where(np.isnan(puntuaciones_test), mediana_puntuaciones, puntuaciones_test)
print(puntuaciones_test)
```

---


## Ciencias exactas y naturales

---

**Tema: evolución de la exposición a la luz solar y su impacto en el crecimiento de plantas a lo largo del tiempo.**

**Contexto:** se desea investigar cómo la cantidad de luz solar (medida en horas diarias de exposición) que una planta recibe evoluciona con el tiempo y cómo esta exposición podría influir en su crecimiento (medido en centímetros al final de cada mes). Se ha llevado un registro mensual de la exposición a la luz solar y el crecimiento de las plantas durante un año.

---

**Correlaciones lineales y no lineales**

- **Problema:** con el conjunto de datos mensual, calcula la correlación entre las horas diarias de exposición al sol y el crecimiento mensual de las plantas. ¿Existe una relación lineal entre las dos variables?

```python
import numpy as np

# Datos ficticios
horas_sol = np.array([4, 5, 6, 7, 8, 9, 8.5, 8, 7.5, 7, 6.5, 6])
crecimiento_plantas = np.array([5, 6.5, 7, 8.5, 9, 10, 9.5, 9, 8.5, 8, 7.5, 7])

correlacion = np.corrcoef(horas_sol, crecimiento_plantas)[0, 1]
print("Correlación:", correlacion)
```

---

**Probabilidad condicional y conjunta**

- **Problema:** hay una planta que ha recibido más de 7 horas de sol diarias durante un mes, ¿cuál es la probabilidad de que haya crecido más de 8 cm en ese mes?

```python
total_plantas = len(horas_sol)
plantas_mas_7_horas = sum(horas_sol > 7)
plantas_mas_7_horas_y_mas_8_cm = sum((horas_sol > 7) & (crecimiento_plantas > 8))

probabilidad_condicional = plantas_mas_7_horas_y_mas_8_cm / plantas_mas_7_horas
print("Probabilidad condicional:", probabilidad_condicional)
```

---

**Correlación vs. causalidad**

- **Problema:** hemos observado una correlación entre las horas de exposición al sol y el crecimiento de las plantas. ¿Podemos inferir que un mayor tiempo de exposición al sol causa un mayor crecimiento en las plantas?

*Respuesta:* aunque es posible que la luz solar tenga un impacto directo en el crecimiento de las plantas debido a la fotosíntesis, la correlación no implica causalidad por sí sola. Se requieren experimentos controlados o técnicas estadísticas más avanzadas para establecer una relación causal.

- **Problema:** utilizando la serie temporal de horas de sol y el crecimiento de las plantas, ¿podemos inferir si la exposición a la luz solar de meses anteriores tiene un impacto predictivo sobre el crecimiento de las plantas en meses posteriores? Aplica el test de Granger para esta investigación.

```python
import statsmodels.api as sm
from statsmodels.tsa.stattools import grangercausalitytests

# Creamos un DataFrame
import pandas as pd
df = pd.DataFrame({'sol': horas_sol, 'crecimiento': crecimiento_plantas})

# Aplicamos el Test de Granger con maxlag (por ejemplo, 3 meses)
resultado = grangercausalitytests(df, maxlag=3)
```

A través de los resultados del test de Granger, podríamos determinar si la exposición a la luz solar de meses anteriores tiene un impacto predictivo sobre el crecimiento de las plantas en meses posteriores. Es esencial comprender que, aunque este test indica predictibilidad, no establece causalidad directa en el sentido tradicional.

---

---

**Redes de correlación y causalidad**

- **Problema:** propón y esquematiza posibles variables ocultas que podrían influir tanto en las horas de sol como en el crecimiento de las plantas.

*Respuesta:* algunas variables ocultas podrían ser:
- Cantidad de agua recibida.
- Calidad del suelo.
- Presencia de plagas o enfermedades.

---

**Métodos de codificación**

- **Problema:** codifica el crecimiento de las plantas en tres categorías: Bajo (0-4 cm), Medio (5-7 cm) y Alto (8-12 cm).

```python
def codificar_crecimiento(crecimiento):
    if crecimiento <= 4:
        return "Bajo"
    elif 5 <= crecimiento <= 7:
        return "Medio"
    else:
        return "Alto"

crecimiento_codificado = [codificar_crecimiento(c) for c in crecimiento_plantas]
print(crecimiento_codificado)
```

---

**Métodos de imputación y filtrado**

- **Problema:** si en el conjunto de datos falta alguna medida del crecimiento de las plantas, imputa ese valor faltante por medio de la mediana del crecimiento de las plantas registradas.

```python
# Suponiendo que hay un valor NaN en crecimiento_plantas
crecimiento_plantas[2] = np.nan

# Imputación
mediana_crecimiento = np.nanmedian(crecimiento_plantas)
crecimiento_plantas = np.where(np.isnan(crecimiento_plantas), mediana_crecimiento, crecimiento_plantas)
print(crecimiento_plantas)
```

---

## Ciencias de la salud
---

**Tema: influencia de diferentes tratamientos en la recuperación de pacientes con lesiones de rodilla.**

**Contexto:** durante 6 meses, un grupo de médicos ortopedistas experimentó con tratamientos (fisioterapia, medicamentos antiinflamatorios y una combinación de ambos) y registró el nivel de dolor reportado por los pacientes en una escala del 1 al 10 cada mes.

**Conjunto de datos ficticio**:

```python
import pandas as pd

data = {
    'patient_id': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'treatment': ['physiotherapy', 'medication', 'combined', 'physiotherapy', 'medication', 'combined', 'physiotherapy', 'medication', 'combined', 'physiotherapy'],
    'month_1_pain_level': [6, 7, 5, 7, 6, 5, 7, 6, 4, 6],
    'month_2_pain_level': [5, 6, 4, 6, 5, 4, 6, 5, 3, 5],
    'month_3_pain_level': [4, 5, 3, 5, 4, 3, 5, 4, 2, 5]
}

df = pd.DataFrame(data)
print(df)
```

---

**Correlaciones lineales y no-lineales**

- **Problema:** ¿existe una correlación entre el tratamiento combinado y una disminución en el nivel de dolor reportado a lo largo de los tres meses?

  **Solución propuesta:**
  
  ```python
  combined_treatment = df[df['treatment'] == 'combined']
  pain_reduction = combined_treatment['month_1_pain_level'] - combined_treatment['month_3_pain_level']
  correlation = pain_reduction.corr(combined_treatment['month_3_pain_level'])
  print(correlation)
  ```

---

**Probabilidad condicional y conjunta**

- **Problema:** un paciente fue tratado con medicamentos, ¿cuál es la probabilidad de que reporte un nivel de dolor inferior a 4 en el tercer mes?

  **Solución propuesta:**
  
  ```python
  medication_treatment = df[df['treatment'] == 'medication']
  prob = len(medication_treatment[medication_treatment['month_3_pain_level'] < 4]) / len(medication_treatment)
  print(prob)
  ```

---

**Correlación vs. causalidad**

- **Problema:** aunque observamos una correlación entre la fisioterapia y la disminución del dolor, ¿podemos concluir que la fisioterapia causa la reducción del dolor?

  **Solución propuesta:** no. Una correlación no implica causalidad directa. Para determinar la causalidad, sería necesario un diseño de investigación más controlado, como un ensayo clínico aleatorizado.

---

**Análisis de series temporales y causalidad con el test de Granger**

- **Problema:** ¿el tratamiento en los primeros 2 meses tiene un impacto predictivo sobre el nivel de dolor reportado en el tercer mes?

  **Solución propuesta:**
  
  ```python
  from statsmodels.tsa.stattools import grangercausalitytests
  
  maxlag = 2
  test = 'ssr_chi2test'
  
  df['treatment_encoded'] = df['treatment'].astype('category').cat.codes
  data_series = df[['treatment_encoded', 'month_3_pain_level']]
  results = grangercausalitytests(data_series, maxlag, test=test)
  ```
---

**Redes de correlación y causalidad**

- **Problema:** esquematiza posibles factores externos que puedan influir en la eficacia del tratamiento y en el nivel de dolor reportado.

  **Solución propuesta:** factores como el nivel de actividad física del paciente, la edad, el historial médico o la adherencia al tratamiento podrían influir. Se puede representar estas relaciones con "DAG" (Diagramas Acíclicos Dirigidos).

---

**5Métodos de codificación**

- **Problema:** Categoriza el nivel de dolor: Bajo (1-3), Medio (4-7), y Alto (8-10).

  **Solución propuesta:**
  
  ```python
  def categorize_pain_level(level):
      if level <= 3:
          return "Bajo"
      elif 4 <= level <= 7:
          return "Medio"
      else:
          return "Alto"
  
  df['pain_category'] = df['month_3_pain_level'].apply(categorize_pain_level)
  print(df['pain_category'])
  ```

---

**Métodos de imputación y filtrado**

- **Problema:** si algún paciente no reportó su nivel de dolor en algún mes, imputa ese valor usando la mediana del nivel de dolor de ese mes.

  **Solución propuesta:**
  
  ```python
  for column in ['month_1_pain_level', 'month_2_pain_level', 'month_3_pain_level']:
      median_pain = df[column].median()
      df[column].fillna(median_pain, inplace=True)
  ```

---

## **Ciencias de la educación**
---


**Tema: efectividad de técnicas pedagógicas en función del rendimiento académico de los estudiantes.**

**Contexto:** durante un año académico, un grupo de docentes experimentó con diferentes técnicas pedagógicas (aprendizaje basado en proyectos, clases invertidas, aprendizaje colaborativo) y registró las calificaciones de sus estudiantes al final de cada trimestre.

**Conjunto de datos ficticios**:

```python
import pandas as pd

data = {
    'student_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'teaching_method': ['project_based', 'flipped_class', 'collaborative', 'project_based', 'flipped_class', 'collaborative', 'project_based', 'flipped_class', 'collaborative', 'flipped_class'],
    'grade': [8, 7, 9, 6, 7, 8, 7, 8, 6, 7]
}

df = pd.DataFrame(data)
print(df)
```

---

**Correlaciones lineales y no-lineales**

- **Problema:** determina si existe una correlación entre la implementación de clases invertidas y las calificaciones de los estudiantes.

  **Solución propuesta:**
  
  ```python
  flipped_class = df['teaching_method'].apply(lambda x: 1 if x == 'flipped_class' else 0)
  correlation = flipped_class.corr(df['grade'])
  print(correlation)
  ```

---

**5.2 Probabilidad condicional y conjunta**

- **Problema:** si un estudiante estuvo expuesto al aprendizaje basado en proyectos, ¿cuál es la probabilidad de que haya obtenido una calificación superior a 8?

  **Solución propuesta:**
  
  ```python
  project_based = df[df['teaching_method'] == 'project_based']
  prob = len(project_based[project_based['grade'] > 8]) / len(project_based)
  print(prob)
  ```

---

**Correlación vs. causalidad**

- **Problema:** observamos una correlación entre el aprendizaje colaborativo y las calificaciones. ¿Podemos decir que el aprendizaje colaborativo mejora las calificaciones?

  **Solución propuesta:** una simple correlación no garantiza causalidad. Es necesario realizar pruebas más controladas o análisis más sofisticados, como modelos de regresión o ensayos aleatorizados.

---

- **Problema:** ¿la implementación de técnicas pedagógicas en trimestres anteriores tiene un impacto predictivo sobre las calificaciones en trimestres posteriores?

  **Solución propuesta:**
  
  ```python
  from statsmodels.tsa.stattools import grangercausalitytests
  
  maxlag = 3
  test = 'ssr_chi2test'
  
  df['teaching_method_encoded'] = df['teaching_method'].astype('category').cat.codes
  data_series = df[['teaching_method_encoded', 'grade']]
  results = grangercausalitytests(data_series, maxlag, test=test)
  ```

---

**Redes de correlación y causalidad**

- **Problema:** esquematiza posibles variables ocultas que puedan influir tanto en la técnica pedagógica aplicada como en las calificaciones de los estudiantes.

  **Solución propuesta:** variables como la participación en clase, asistencia, o actividades extracurriculares podrían influir. Se pueden usar "DAG" (Diagramas Acíclicos Dirigidos) para esquematizar estas relaciones.

---

**Métodos de codificación**

- **Problema:** convierte las calificaciones numéricas en categorías: Bajo (0-5), Medio (6-8) y Alto (9-10).

  **Solución propuesta:**
  
  ```python
  def categorize_grade(grade):
      if grade <= 5:
          return "Bajo"
      elif 6 <= grade <= 8:
          return "Medio"
      else:
          return "Alto"
  
  df['grade_category'] = df['grade'].apply(categorize_grade)
  print(df['grade_category'])
  ```

---

**Métodos de imputación y filtrado**

- **Problema:** si en los datos falta alguna calificación de un estudiante, imputa ese valor faltante con la mediana de las calificaciones.

  **Solución propuesta:**
  
  ```python
  median_grade = df['grade'].median()
  df['grade'].fillna(median_grade, inplace=True)
  ```

---

## **Ingenierías**
---

**Tema:** evaluación del rendimiento de diferentes materiales en un entorno controlado.

**Contexto:** un equipo de ingenieros realizó pruebas en diferentes tipos de materiales para evaluar su resistencia a la tracción y la compresión. Los materiales incluyen acero, aluminio, titanio y una aleación experimental. Se registra la resistencia de cada material en megapascales (MPa) cada semana durante 8 semanas.

**Conjunto de datos ficticio**:

```python
import pandas as pd

data = {
    'sample_id': list(range(1, 21)),
    'material': ['steel', 'aluminum', 'titanium', 'alloy', 'steel', 'aluminum', 'titanium', 'alloy', 'steel', 'aluminum', 'titanium', 'alloy', 'steel', 'aluminum', 'titanium', 'alloy', 'steel', 'aluminum', 'titanium', 'alloy'],
    'week_1_resistance': [400, 270, 450, 420, 395, 265, 445, 425, 410, 275, 435, 415, 400, 260, 460, 410, 390, 280, 430, 430],
    'week_2_resistance': [398, 268, 449, 418, 393, 263, 444, 423, 409, 273, 434, 412, 398, 258, 459, 408, 388, 278, 429, 428],
    # ... continue with data for 8 weeks
}

df = pd.DataFrame(data)
print(df)
```

---

**Correlaciones lineales y no-lineales**

- **Problema:** ¿existe alguna correlación entre el tipo de material y su resistencia a la tracción en la semana 8?

  **Solución propuesta:**
  
  ```python
  correlation_matrix = df.corr()
  material_resistance_corr = correlation_matrix.loc['material_encoded', 'week_8_resistance']
  print(f"Correlation between material and week 8 resistance: {material_resistance_corr:.2f}")
  ```

---

**Probabilidad condicional y conjunta**

- **Problema:** dado un material de aluminio, ¿cuál es la probabilidad de que su resistencia en la semana 8 sea mayor que 300 MPa?

  **Solución propuesta:**
  
  ```python
  aluminum_samples = df[df['material'] == 'aluminum']
  prob = len(aluminum_samples[aluminum_samples['week_8_resistance'] > 300]) / len(aluminum_samples)
  print(f"Probability of aluminum having resistance greater than 300 MPa in week 8: {prob:.2f}")
  ```

---

**Correlación vs. causalidad**

- **Problema:** hemos notado que el aluminio tiene menos resistencia con el tiempo. ¿Es la duración el factor causante del descenso en resistencia?

  **Solución propuesta:** No se puede determinar una relación causal directa solo a partir de una correlación. Se requieren pruebas más controladas o experimentos para inferir causalidad.

---

- **Problema:** ¿la resistencia reportada en las primeras 4 semanas predice de alguna manera la resistencia reportada en la semana 8?

  **Solución propuesta:**
  
  ```python
  from statsmodels.tsa.stattools import grangercausalitytests
  
  maxlag = 4
  test = 'ssr_chi2test'
  
  df['material_encoded'] = df['material'].astype('category').cat.codes
  data_series = df[['

material_encoded', 'week_8_resistance']]
  results = grangercausalitytests(data_series, maxlag, test=test)
  ```

---

**Redes de correlación y causalidad**

- **Problema:** representa las posibles causas de la disminución de la resistencia en el material a lo largo del tiempo.

  **Solución propuesta:** factores como la oxidación, el proceso de fabricación o la presencia de impurezas pueden ser factores. Se puede representar estas relaciones usando "DAG" (Diagramas Acíclicos Dirigidos).

---

**Métodos de codificación**

- **Problema:** categoriza la resistencia en la semana 8: Baja (menos de 250 MPa), Media (250-400 MPa) y Alta (más de 400 MPa).

  **Solución propuesta:**
  
  ```python
  def categorize_resistance(level):
      if level < 250:
          return "Baja"
      elif 250 <= level <= 400:
          return "Media"
      else:
          return "Alta"
  
  df['resistance_category'] = df['week_8_resistance'].apply(categorize_resistance)
  print(df['resistance_category'])
  ```

---

**Métodos de imputación y filtrado**

- **Problema:** si algún material no tiene datos de resistencia registrados para una semana, imputa esos valores usando la mediana de resistencia de ese material en general.

  **Solución propuesta:**
  
  ```python
  for material_type in df['material'].unique():
      median_resistance = df[df['material'] == material_type]['week_8_resistance'].median()
      df.loc[(df['material'] == material_type) & (df['week_8_resistance'].isna()), 'week_8_resistance'] = median_resistance
  ```

---


· Universidad de Antioquia · Ude@ Educación Virtual ·