# Taller Práctico: Manipulación de Datos con NumPy y Pandas
## Actividad 1: Explorando el Poder de NumPy (Arrays)
### **Objetivo Específico**: Familiarizarse con la creación, atributos, indexación, slicing y operaciones fundamentales de los arrays de NumPy

**1. Creación y Atributos de Arrays**
- Crea un array 1D llamado mediciones_flujo a partir de la siguiente lista de Python, que simula mediciones de flujo sanguíneo (en ml/s): [12.5, 13.2, 11.9, 14.0, 13.5, 12.8, 15.1, 13.0].


In [1]:
#instalo e importo librerias
#%pip install numpy
#%pip install pandas
import numpy as np
import pandas as pd

In [2]:
#creo un array de numpy con los datos de flujo sanguíneo
mediciones_flujo_list = [12.5, 13.2, 11.9, 14.0, 13.5, 12.8, 15.1, 13.0]
mediciones_flujo = np.array(mediciones_flujo_list)
print("mediciones_flujo:", mediciones_flujo)

mediciones_flujo: [12.5 13.2 11.9 14.  13.5 12.8 15.1 13. ]


- Crea un array 2D (matriz) llamado datos_pacientes_basicos a partir de la
siguiente lista de listas, donde cada fila representa [Edad, NivelColesterol,
PresionSistolica]: [[55, 220, 140], [62, 250, 155], [48, 190, 130], [59, 235,
148]].

In [3]:
#creo una matriz con datos de pacientes a partir de listas
datos_pacientes_basicos_list = [[55, 220, 140], [62, 250, 155], [48, 190, 130], [59, 235, 148]]
datos_pacientes_basicos = np.array(datos_pacientes_basicos_list)
print("datos_pacientes_basicos:\n", datos_pacientes_basicos)

datos_pacientes_basicos:
 [[ 55 220 140]
 [ 62 250 155]
 [ 48 190 130]
 [ 59 235 148]]


- Utiliza np.arange() para crear un array llamado secuencia_tiempo que represente puntos de tiempo desde 0 hasta 10 segundos, con incrementos de 0.5 segundos.

In [4]:
#Crea un array con puntos de tiempo de 0 a 10 segundos
secuencia_tiempo = np.arange(0, 10.5, 0.5)
print("secuencia_tiempo:", secuencia_tiempo)

secuencia_tiempo: [ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5
  7.   7.5  8.   8.5  9.   9.5 10. ]


- Crea un array 1D llamado errores_simulados de 1000 elementos con valores aleatorios muestreados de una distribucion normal estandar (media 0, desviacion estandar 1) usando np.random.randn().

In [5]:
#Crea un array de 1000 elementos con valores aleatorios de una distribución normal con media 0 y desviación estándar 1
errores_simulados = np.random.randn(1000)
print("errores_simulados:", errores_simulados[:10])

errores_simulados: [ 0.84933208  0.11080818  0.66665059  0.64993108 -1.09366163 -0.40022402
  0.43473221  0.74091388  1.31423249  1.19822821]


- Para cada uno de los arrays creados (mediciones_flujo, datos_pacientes_basicos, secuencia_tiempo,errores_simulados), imprime su forma (.shape), numero de dimensiones (.ndim), tamaño total (.size) y tipo de dato (.dtype).


In [6]:
arrays_creados = {
    "mediciones_flujo": mediciones_flujo,
    "datos_pacientes_basicos": datos_pacientes_basicos,
    "secuencia_tiempo": secuencia_tiempo,
    "errores_simulados": errores_simulados
}

print("Atributos de los arrays:")
for name, arr in arrays_creados.items():
    print(f"\nArray: {name}")
    print(f"Forma (.shape): {arr.shape}")
    print(f"Número de dimensiones (.ndim): {arr.ndim}")
    print(f"Tamaño total (.size): {arr.size}")
    print(f"Tipo de dato (.dtype): {arr.dtype}")

Atributos de los arrays:

Array: mediciones_flujo
Forma (.shape): (8,)
Número de dimensiones (.ndim): 1
Tamaño total (.size): 8
Tipo de dato (.dtype): float64

Array: datos_pacientes_basicos
Forma (.shape): (4, 3)
Número de dimensiones (.ndim): 2
Tamaño total (.size): 12
Tipo de dato (.dtype): int64

Array: secuencia_tiempo
Forma (.shape): (21,)
Número de dimensiones (.ndim): 1
Tamaño total (.size): 21
Tipo de dato (.dtype): float64

Array: errores_simulados
Forma (.shape): (1000,)
Número de dimensiones (.ndim): 1
Tamaño total (.size): 1000
Tipo de dato (.dtype): float64


**2. Indexación y Slicing**

- Usando datos_pacientes_basicos:
    - Selecciona e imprime la edad del segundo paciente.
    - Selecciona e imprime todos los datos del tercer paciente (la fila completa).
    - Selecciona e imprime solo la columna de NivelColesterol para todos los pacientes.
    - Selecciona e imprime un subconjunto que contenga la Edad y NivelColesterol de los primeros dos pacientes.

In [7]:
#Selecciona e imprime la edad del segundo paciente
edad_segundo_paciente = datos_pacientes_basicos[1, 0]
print(f"Edad del segundo paciente: {edad_segundo_paciente}")

Edad del segundo paciente: 62


In [8]:
#Selecciona e imprime todos los datos del tercer paciente
datos_tercer_paciente = datos_pacientes_basicos[2, :]
print(f"Datos del tercer paciente: {datos_tercer_paciente}")

Datos del tercer paciente: [ 48 190 130]


In [9]:
#Selecciona e imprime solo la columna de NivelColesterol para todos los pacientes   
nivel_colesterol = datos_pacientes_basicos[:, 1]
print(f"Nivel de colesterol de todos los pacientes: {nivel_colesterol}")

Nivel de colesterol de todos los pacientes: [220 250 190 235]


In [10]:
#Selecciona  e imprime un subconjunto que contenga la edad y NivelColesterol de los primeros dos pacientes
subconjunto_pacientes = datos_pacientes_basicos[:2, [0, 1]]
print(f"Subconjunto de edad y colesterol de los primeros dos pacientes:\n{subconjunto_pacientes}")

Subconjunto de edad y colesterol de los primeros dos pacientes:
[[ 55 220]
 [ 62 250]]


- Usando errores_simulados
    - Selecciona e imprimer los primeros 10 valores
    - Crea un nuevo array llamado errores_positivos que contenga solo los valores de errore_simulados que son mayores que 0. Imprime la cantidad de errores positivos encontrados

In [11]:
#10 primeros valores de errores_simulados
print(f"Primeros 10 valores de errores_simulados:\n{errores_simulados[:10]}")

Primeros 10 valores de errores_simulados:
[ 0.84933208  0.11080818  0.66665059  0.64993108 -1.09366163 -0.40022402
  0.43473221  0.74091388  1.31423249  1.19822821]


In [12]:
#nuevo array con errores positivos y cantidad de errores positivos encontrados
errores_positivos = errores_simulados[errores_simulados > 0]
cantidad_errores_positivos = errores_positivos.size
print(f"Errores positivos:\n{errores_positivos[:10]}")
print(f"Cantidad de errores positivos encontrados: {cantidad_errores_positivos}")

Errores positivos:
[0.84933208 0.11080818 0.66665059 0.64993108 0.43473221 0.74091388
 1.31423249 1.19822821 0.33512017 1.34664958]
Cantidad de errores positivos encontrados: 497


**3. Operaciones y Estadísticas**
- Crea dos arrays 1D, vector_a = np.array([1, 5, 10, 15]) y vector_b = np.array([2, 4, 6, 8]). Realiza y muestra los resultados de:
    - Suma (vector_a + vector_b)
    - Multiplicacion elemento a elemento (vector_a * vector_b)
    - vector_a elevado al cuadrado.

In [13]:
#Creo los arrays de 1 dimension
vector_a = np.array([1, 5, 10, 15])
vector_b = np.array([2, 4, 6, 8])

In [14]:
#Suma de los vectores
suma_vectores = vector_a + vector_b
print(f"Suma de los vectores:\n{vector_a} + {vector_b} = {suma_vectores}")

Suma de los vectores:
[ 1  5 10 15] + [2 4 6 8] = [ 3  9 16 23]


In [15]:
#Multiplicación elemento a elemento
multiplicacion_vectores = vector_a * vector_b
print(f"Multiplicación elemento a elemento:\n{vector_a} * {vector_b} = {multiplicacion_vectores}")

Multiplicación elemento a elemento:
[ 1  5 10 15] * [2 4 6 8] = [  2  20  60 120]


In [16]:
#vector_a elevado al cuadrado
vector_a_cuadrado = vector_a ** 2
print(f"Vector_a elevado al cuadrado:\n{vector_a} ** 2 = {vector_a_cuadrado}")

Vector_a elevado al cuadrado:
[ 1  5 10 15] ** 2 = [  1  25 100 225]


- Toma la matriz datos_pacientes_basicos y suma un valor constante de 5 a la columna de PresionSistolica utilizando broadcasting (primero selecciona la columna, suma 5, y luego considera como reasignarla o crear una nueva matriz).


In [17]:
#Sumar un valor constante a la columna de PresionSistolica utilizando broadcasting
print("Matriz original datos_pacientes_basicos:")
print(datos_pacientes_basicos)

# Seleccionamos la columna y sumamos 5. NumPy maneja el broadcasting automáticamente.
datos_pacientes_basicos_modificado = datos_pacientes_basicos.copy()
datos_pacientes_basicos_modificado[1:, 2] += 5
print("datos_pacientes_basicos con 5 sumado a PresionSistolica:\n", datos_pacientes_basicos_modificado)

Matriz original datos_pacientes_basicos:
[[ 55 220 140]
 [ 62 250 155]
 [ 48 190 130]
 [ 59 235 148]]
datos_pacientes_basicos con 5 sumado a PresionSistolica:
 [[ 55 220 140]
 [ 62 250 160]
 [ 48 190 135]
 [ 59 235 153]]


- Para el array mediciones_flujo, calcula e imprime: la media, la mediana, la desviacion estandar, el valor mínimo y el máximo.


In [18]:
#estadísticos de mediciones_flujo
print("Estadísticos de mediciones_flujo:")
print(f"Media: {np.mean(mediciones_flujo)}")
print(f"Mediana: {np.median(mediciones_flujo)}")
print(f"Desviación estándar: {np.std(mediciones_flujo)}")
print(f"Valor mínimo: {np.min(mediciones_flujo)}")
print(f"Valor máximo: {np.max(mediciones_flujo)}")

Estadísticos de mediciones_flujo:
Media: 13.25
Mediana: 13.1
Desviación estándar: 0.9151502608861561
Valor mínimo: 11.9
Valor máximo: 15.1


- Para la matriz datos_pacientes_basicos, calcula e imprime la media de cada variable (cada columna) utilizando el parámetro axis.

In [19]:
#media de cada variable en datos_pacientes_basicos utilizando axis
print("Media de cada variable en datos_pacientes_basicos:")
media_por_columna = np.mean(datos_pacientes_basicos, axis=0)
print("(Orden: Edad, NivelColesterol, PresionSistolica)")
print(media_por_columna)


Media de cada variable en datos_pacientes_basicos:
(Orden: Edad, NivelColesterol, PresionSistolica)
[ 56.   223.75 143.25]


### **Comentario Actividad 1**
La actividad 1 ha permitido revisar conceptos estudiados en clase, con los que se pudo cubrir aspectos esenciales como: 
- Creación y manipulación de arrays: siendo unidimensionales y bidimensionales, así como el uso de funciones de numpy como arange, random, shape, ndim, size, dtype.
- Indexación y slicing: nos ha permitido familiarizarnos con la sintaxis de numpy para acceso y extracción de subconjuntos de datos.
- Operaciones y estadísticas: se ha podido revisar operaciones con vectores como: sumas, multiplicaciones y potencias. También la utilización del broadcasting para operaciones sobre subconjuntos de arrays y finalmente, el cálculo de estadísticos descriptivos básicos para obtener un resumen rápido de los datos.