# Tarea Final del Curso
**Introducción a la Ciencia de Datos con Python**

Fecha de entrega: Domingo 10 de agosto, 2025, 11:59pm

**Instrucciones Generales:**

- Esta es la entrega final y debe realizarse de manera grupal.
- Es importante consignar en el correo de entrega, tanto los nombres y codigo de los integrantes del grupo.
- Se considera un punto adicional a aquellos grupos que realizen la entrega por GITHUB, para ello deben ponerlo dentro de la carpeta Entregas_1, y nombre de archivo debe tener el formato: TrabajoFinal_GrupoX.ipynb
- Asegúrate de seguir las buenas prácticas para nombrar variables y comentar tu código.
- Utiliza las librerías vistas en clase: `numpy`, `pandas` y `matplotlib.pyplot`.
- Responde a las preguntas teóricas o de interpretación en las celdas de Markdown designadas.

## Sección 1: NumPy - Manipulación Avanzada de Arrays

**1.1.** Crea un array de NumPy llamado `vector_base` que contenga una secuencia de números desde 10 hasta 115 (inclusive), con un paso de 3 entre cada número.

In [12]:
%pip install numpy
# Importación de la librería NumPy para manejo eficiente de arreglos numéricos
import numpy as np
# 1.1 Creación del vector base
# Se utiliza np.arange para generar una secuencia numérica desde 10 hasta 115
# con paso de 3 unidades. El límite superior es inclusivo ya que se especifica 116.
# Esto produce un array unidimensional de enteros equiespaciados.
vector_base = np.arange(10, 116, 3)
print("vector_base:", vector_base, "\nTamaño:", vector_base.size)

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.
vector_base: [ 10  13  16  19  22  25  28  31  34  37  40  43  46  49  52  55  58  61
  64  67  70  73  76  79  82  85  88  91  94  97 100 103 106 109 112 115] 
Tamaño: 36



[notice] A new release of pip is available: 25.0.1 -> 25.2
[notice] To update, run: C:\Users\alere\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


**1.2.** A partir del `vector_base` anterior, crea una matriz de 5x7 llamada `matriz_A`.

In [13]:
# 1.2 Construcción de la matriz_A
# El reshape se aplica a los primeros 35 elementos del vector_base
# debido a que una matriz de 5x7 requiere exactamente 35 elementos.
# Se asegura la dimensionalidad solicitada para operaciones posteriores.
matriz_A = vector_base[:35].reshape(5, 7)
print("\nmatriz_A (5x7):\n", matriz_A)


matriz_A (5x7):
 [[ 10  13  16  19  22  25  28]
 [ 31  34  37  40  43  46  49]
 [ 52  55  58  61  64  67  70]
 [ 73  76  79  82  85  88  91]
 [ 94  97 100 103 106 109 112]]


**2.1.** Crea una segunda matriz de 5x7 llamada `matriz_B` que contenga números enteros aleatorios entre 1 y 10.

**2.2.** Realiza una multiplicación elemento por elemento (element-wise) entre `matriz_A` y `matriz_B` y almacena el resultado en `matriz_C`.

In [14]:
# 2.1 Se utiliza un generador aleatorio con semilla fija (42) para garantizar
# reproducibilidad de resultados. La matriz contiene enteros aleatorios
# en el rango [1, 10], con las mismas dimensiones que matriz_A (5x7).
rng = np.random.default_rng(42)  # semilla para reproducibilidad
matriz_B = rng.integers(1, 11, size=(5, 7))
print("\nmatriz_B (5x7):\n", matriz_B)

# 2.2 La operación '*' entre arrays de igual dimensión en NumPy realiza
# un producto elemento por elemento (Hadamard product).
# El resultado se almacena en matriz_C, preservando dimensiones (5x7).
matriz_C = matriz_A * matriz_B
print("\nmatriz_C = matriz_A * matriz_B:\n", matriz_C)


matriz_B (5x7):
 [[ 1  8  7  5  5  9  1]
 [ 7  3  1  6 10  8  8]
 [ 8  8  6  2  9  5  6]
 [ 4  2 10  8  7  5  9]
 [ 6  5  5  3  1  6  9]]

matriz_C = matriz_A * matriz_B:
 [[  10  104  112   95  110  225   28]
 [ 217  102   37  240  430  368  392]
 [ 416  440  348  122  576  335  420]
 [ 292  152  790  656  595  440  819]
 [ 564  485  500  309  106  654 1008]]


**3.1.** Utilizando slicing, selecciona una submatriz de 2x2 de la esquina inferior derecha de `matriz_C`.

**3.2.** Calcula el promedio de esta submatriz.

In [17]:
# 3.1 Se utiliza slicing negativo para seleccionar las dos últimas filas
# y las dos últimas columnas de matriz_C, obteniendo la esquina inferior derecha.
submatriz = matriz_C[-2:, -2:]
print("\nSubmatriz 2x2 (esquina inferior derecha):\n", submatriz)

# 3.2 Cálculo del promedio de la submatriz
# Se aplica el método .mean() de NumPy para obtener la media aritmética
# de todos los elementos de la submatriz extraída.
promedio_submatriz = submatriz.mean()
print("\nPromedio de la submatriz 2x2:", promedio_submatriz)


Submatriz 2x2 (esquina inferior derecha):
 [[ 440  819]
 [ 654 1008]]

Promedio de la submatriz 2x2: 730.25


## Sección 2: Pandas - Análisis Exploratorio de Datos

Para esta sección, trabajaremos con un conjunto de datos ficticio sobre el desarrollo humano. **Ejecuta la siguiente celda para crear el DataFrame.**

In [16]:
import pandas as pd
import numpy as np

data = {
    'Pais': ['Perú', 'Argentina', 'Chile', 'Colombia', 'Brasil', 'México', 'Uruguay', 'España', 'Canadá', 'Japón'],
    'Continente': ['Sudamérica', 'Sudamérica', 'Sudamérica', 'Sudamérica', 'Sudamérica', 'Norteamérica', 'Sudamérica', 'Europa', 'Norteamérica', 'Asia'],
    'Poblacion_millones': [33.0, 45.2, 19.5, 51.0, 212.6, 128.9, 3.5, 47.4, 38.0, 125.8],
    'PBI_per_capita': [7020, 9912, 15000, 6500, 8717, 9863, 16190, 29600, 46194, 40700],
    'Esperanza_de_vida': [76.5, 76.7, 80.5, 77.3, 75.9, 75.0, 77.9, 83.6, 82.3, 84.6],
    'Indice_Gini': [41.5, 42.9, 44.4, 51.3, 53.9, 45.4, 39.7, 34.7, 33.3, 32.9],
    'Tasa_Alfabetizacion': [94.4, 99.0, 99.4, 95.1, 93.2, 95.4, np.nan, 98.4, 99.0, 99.0],
    'Crecimiento_Anual_PBI': [1.1, -2.0, 2.5, 3.0, 1.4, 2.1, 2.0, 2.5, 1.9, 0.8]
}

df_desarrollo = pd.DataFrame(data)

ModuleNotFoundError: No module named 'pandas'

**4.1.** Muestra las primeras 5 filas del DataFrame `df_desarrollo`.

**4.2.** Muestra un resumen general del DataFrame utilizando `.info()`.

**5.** Hemos notado que hay un valor faltante (`NaN`) en la columna `Tasa_Alfabetizacion`. Imputa este valor faltante utilizando la **mediana** de esa misma columna.

**6.1.** Crea una nueva columna llamada `PBI_Total_billones` que sea el resultado de multiplicar `PBI_per_capita` por `Poblacion_millones` y dividirlo entre 1000.

**6.2.** Muestra el DataFrame con la nueva columna.

**7.** Crea una nueva columna condicional `Categoria_Desarrollo`. Clasifica a los países según las siguientes reglas:
- 'Alto': Si `Esperanza_de_vida` > 80 Y `PBI_per_capita` > 25000.
- 'Medio-Alto': Si `Esperanza_de_vida` > 76 Y `PBI_per_capita` > 8000.
- 'Medio': Para todos los demás casos.

**8.1.** Filtra el DataFrame para encontrar los países de 'Sudamérica' con un `Indice_Gini` menor a 45.

**8.2.** Ordena el resultado del filtro anterior por `PBI_per_capita` de forma descendente.

**9.** Utilizando `groupby()`, calcula para cada `Continente`:
- La **media** de `Esperanza_de_vida`.
- El **máximo** de `Indice_Gini`.
- El **conteo** de países.

## Sección 3: Visualización de Datos

**10.** Crea un gráfico de barras horizontales (`barh`) que muestre el `Indice_Gini` de cada país. Ordena los países de menor a mayor desigualdad (Gini) para una mejor visualización. Asegúrate de que el gráfico tenga un título y etiquetas adecuadas.

**11.1.** Genera un gráfico de dispersión (scatter plot) para explorar la relación entre el `PBI_per_capita` (eje X) y la `Esperanza_de_vida` (eje Y).

**11.2.** Modifica el gráfico anterior para que el color de cada punto represente su `Continente`. (Pista: puedes crear un diccionario que mapee continentes a colores, por ejemplo: `{'Sudamérica': 'blue', ...}`).

**11.3.** **Interpretación:** ¿Qué te dice este gráfico sobre la relación entre PBI y esperanza de vida? ¿Observas alguna agrupación por continentes?

*Escribe tu interpretación aquí...*

**12.** Crea un histograma de la `Tasa_Alfabetizacion`. Añade una línea vertical roja que represente la media de esta tasa.

## Sección 4: Estadística y Síntesis

**13.** Muestra un resumen estadístico completo de las columnas numéricas del DataFrame.

**14.1.** Calcula la matriz de correlación para las columnas numéricas del DataFrame.

**14.2.** **Interpretación:** Identifica el par de variables con la correlación positiva más fuerte y el par con la correlación negativa más fuerte (excluyendo la correlación de una variable consigo misma). ¿Tienen sentido estos resultados en el mundo real?

*Escribe tu interpretación aquí...*

**15.** Basado en los datos, calcula la probabilidad de que un país seleccionado al azar sea de 'Sudamérica' Y tenga una `Categoria_Desarrollo` de 'Medio-Alto'.