# Taller Práctico: Manipulación de Datos con NumPy y Pandas
## Actividad 1: Explorando el Poder de NumPy (Arrays)
### **Objetivo Específico**: Familiarizarse con la creación, atributos, indexación, slicing y operaciones fundamentales de los arrays de NumPy

**1. Creación y Atributos de Arrays**
- Crea un array 1D llamado mediciones_flujo a partir de la siguiente lista de Python, que simula mediciones de flujo sanguíneo (en ml/s): [12.5, 13.2, 11.9, 14.0, 13.5, 12.8, 15.1, 13.0].


In [1]:
#instalo e importo librerias
#%pip install numpy
#%pip install pandas
import numpy as np
import pandas as pd

In [2]:
#creo un array de numpy con los datos de flujo sanguíneo
mediciones_flujo_list = [12.5, 13.2, 11.9, 14.0, 13.5, 12.8, 15.1, 13.0]
mediciones_flujo = np.array(mediciones_flujo_list)
print("mediciones_flujo:", mediciones_flujo)

mediciones_flujo: [12.5 13.2 11.9 14.  13.5 12.8 15.1 13. ]


- Crea un array 2D (matriz) llamado datos_pacientes_basicos a partir de la
siguiente lista de listas, donde cada fila representa [Edad, NivelColesterol,
PresionSistolica]: [[55, 220, 140], [62, 250, 155], [48, 190, 130], [59, 235,
148]].

In [3]:
#creo una matriz con datos de pacientes a partir de listas
datos_pacientes_basicos_list = [[55, 220, 140], [62, 250, 155], [48, 190, 130], [59, 235, 148]]
datos_pacientes_basicos = np.array(datos_pacientes_basicos_list)
print("datos_pacientes_basicos:\n", datos_pacientes_basicos)

datos_pacientes_basicos:
 [[ 55 220 140]
 [ 62 250 155]
 [ 48 190 130]
 [ 59 235 148]]


- Utiliza np.arange() para crear un array llamado secuencia_tiempo que represente puntos de tiempo desde 0 hasta 10 segundos, con incrementos de 0.5 segundos.

In [4]:
#Crea un array con puntos de tiempo de 0 a 10 segundos
secuencia_tiempo = np.arange(0, 10.5, 0.5)
print("secuencia_tiempo:", secuencia_tiempo)

secuencia_tiempo: [ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5
  7.   7.5  8.   8.5  9.   9.5 10. ]


- Crea un array 1D llamado errores_simulados de 1000 elementos con valores aleatorios muestreados de una distribucion normal estandar (media 0, desviacion estandar 1) usando np.random.randn().

In [5]:
#Crea un array de 1000 elementos con valores aleatorios de una distribución normal con media 0 y desviación estándar 1
errores_simulados = np.random.randn(1000)
print("errores_simulados:", errores_simulados[:10])

errores_simulados: [ 0.70972807 -1.33866684  1.34714645  0.92819022 -1.14407103  0.06068071
 -0.22303376  0.44738985  0.96099673 -0.31598051]


- Para cada uno de los arrays creados (mediciones_flujo, datos_pacientes_basicos, secuencia_tiempo,errores_simulados), imprime su forma (.shape), numero de dimensiones (.ndim), tamaño total (.size) y tipo de dato (.dtype).


In [6]:
arrays_creados = {
    "mediciones_flujo": mediciones_flujo,
    "datos_pacientes_basicos": datos_pacientes_basicos,
    "secuencia_tiempo": secuencia_tiempo,
    "errores_simulados": errores_simulados
}

print("Atributos de los arrays:")
for name, arr in arrays_creados.items():
    print(f"\nArray: {name}")
    print(f"Forma (.shape): {arr.shape}")
    print(f"Número de dimensiones (.ndim): {arr.ndim}")
    print(f"Tamaño total (.size): {arr.size}")
    print(f"Tipo de dato (.dtype): {arr.dtype}")

Atributos de los arrays:

Array: mediciones_flujo
Forma (.shape): (8,)
Número de dimensiones (.ndim): 1
Tamaño total (.size): 8
Tipo de dato (.dtype): float64

Array: datos_pacientes_basicos
Forma (.shape): (4, 3)
Número de dimensiones (.ndim): 2
Tamaño total (.size): 12
Tipo de dato (.dtype): int64

Array: secuencia_tiempo
Forma (.shape): (21,)
Número de dimensiones (.ndim): 1
Tamaño total (.size): 21
Tipo de dato (.dtype): float64

Array: errores_simulados
Forma (.shape): (1000,)
Número de dimensiones (.ndim): 1
Tamaño total (.size): 1000
Tipo de dato (.dtype): float64


**2. Indexación y Slicing**

- Usando datos_pacientes_basicos:
    - Selecciona e imprime la edad del segundo paciente.
    - Selecciona e imprime todos los datos del tercer paciente (la fila completa).
    - Selecciona e imprime solo la columna de NivelColesterol para todos los pacientes.
    - Selecciona e imprime un subconjunto que contenga la Edad y NivelColesterol de los primeros dos pacientes.

In [7]:
#Selecciona e imprime la edad del segundo paciente
edad_segundo_paciente = datos_pacientes_basicos[1, 0]
print(f"Edad del segundo paciente: {edad_segundo_paciente}")

Edad del segundo paciente: 62


In [8]:
#Selecciona e imprime todos los datos del tercer paciente
datos_tercer_paciente = datos_pacientes_basicos[2, :]
print(f"Datos del tercer paciente: {datos_tercer_paciente}")

Datos del tercer paciente: [ 48 190 130]


In [9]:
#Selecciona e imprime solo la columna de NivelColesterol para todos los pacientes   
nivel_colesterol = datos_pacientes_basicos[:, 1]
print(f"Nivel de colesterol de todos los pacientes: {nivel_colesterol}")

Nivel de colesterol de todos los pacientes: [220 250 190 235]


In [10]:
#Selecciona  e imprime un subconjunto que contenga la edad y NivelColesterol de los primeros dos pacientes
subconjunto_pacientes = datos_pacientes_basicos[:2, [0, 1]]
print(f"Subconjunto de edad y colesterol de los primeros dos pacientes:\n{subconjunto_pacientes}")

Subconjunto de edad y colesterol de los primeros dos pacientes:
[[ 55 220]
 [ 62 250]]


- Usando errores_simulados
    - Selecciona e imprimer los primeros 10 valores
    - Crea un nuevo array llamado errores_positivos que contenga solo los valores de errore_simulados que son mayores que 0. Imprime la cantidad de errores positivos encontrados

In [11]:
#10 primeros valores de errores_simulados
print(f"Primeros 10 valores de errores_simulados:\n{errores_simulados[:10]}")

Primeros 10 valores de errores_simulados:
[ 0.70972807 -1.33866684  1.34714645  0.92819022 -1.14407103  0.06068071
 -0.22303376  0.44738985  0.96099673 -0.31598051]


In [12]:
#nuevo array con errores positivos y cantidad de errores positivos encontrados
errores_positivos = errores_simulados[errores_simulados > 0]
cantidad_errores_positivos = errores_positivos.size
print(f"Errores positivos:\n{errores_positivos[:10]}")
print(f"Cantidad de errores positivos encontrados: {cantidad_errores_positivos}")

Errores positivos:
[0.70972807 1.34714645 0.92819022 0.06068071 0.44738985 0.96099673
 1.92293293 0.68382156 0.99661682 2.4154676 ]
Cantidad de errores positivos encontrados: 493


**3. Operaciones y Estadísticas**
- Crea dos arrays 1D, vector_a = np.array([1, 5, 10, 15]) y vector_b = np.array([2, 4, 6, 8]). Realiza y muestra los resultados de:
    - Suma (vector_a + vector_b)
    - Multiplicacion elemento a elemento (vector_a * vector_b)
    - vector_a elevado al cuadrado.

In [13]:
#Creo los arrays de 1 dimension
vector_a = np.array([1, 5, 10, 15])
vector_b = np.array([2, 4, 6, 8])

In [14]:
#Suma de los vectores
suma_vectores = vector_a + vector_b
print(f"Suma de los vectores:\n{vector_a} + {vector_b} = {suma_vectores}")

Suma de los vectores:
[ 1  5 10 15] + [2 4 6 8] = [ 3  9 16 23]


In [15]:
#Multiplicación elemento a elemento
multiplicacion_vectores = vector_a * vector_b
print(f"Multiplicación elemento a elemento:\n{vector_a} * {vector_b} = {multiplicacion_vectores}")

Multiplicación elemento a elemento:
[ 1  5 10 15] * [2 4 6 8] = [  2  20  60 120]


In [16]:
#vector_a elevado al cuadrado
vector_a_cuadrado = vector_a ** 2
print(f"Vector_a elevado al cuadrado:\n{vector_a} ** 2 = {vector_a_cuadrado}")

Vector_a elevado al cuadrado:
[ 1  5 10 15] ** 2 = [  1  25 100 225]


- Toma la matriz datos_pacientes_basicos y suma un valor constante de 5 a la columna de PresionSistolica utilizando broadcasting (primero selecciona la columna, suma 5, y luego considera como reasignarla o crear una nueva matriz).


In [17]:
#Sumar un valor constante a la columna de PresionSistolica utilizando broadcasting
print("Matriz original datos_pacientes_basicos:")
print(datos_pacientes_basicos)

# Seleccionamos la columna y sumamos 5. NumPy maneja el broadcasting automáticamente.
datos_pacientes_basicos_modificado = datos_pacientes_basicos.copy()
datos_pacientes_basicos_modificado[1:, 2] += 5
print("datos_pacientes_basicos con 5 sumado a PresionSistolica:\n", datos_pacientes_basicos_modificado)

Matriz original datos_pacientes_basicos:
[[ 55 220 140]
 [ 62 250 155]
 [ 48 190 130]
 [ 59 235 148]]
datos_pacientes_basicos con 5 sumado a PresionSistolica:
 [[ 55 220 140]
 [ 62 250 160]
 [ 48 190 135]
 [ 59 235 153]]


- Para el array mediciones_flujo, calcula e imprime: la media, la mediana, la desviacion estandar, el valor mínimo y el máximo.


In [18]:
#estadísticos de mediciones_flujo
print("Estadísticos de mediciones_flujo:")
print(f"Media: {np.mean(mediciones_flujo)}")
print(f"Mediana: {np.median(mediciones_flujo)}")
print(f"Desviación estándar: {np.std(mediciones_flujo)}")
print(f"Valor mínimo: {np.min(mediciones_flujo)}")
print(f"Valor máximo: {np.max(mediciones_flujo)}")

Estadísticos de mediciones_flujo:
Media: 13.25
Mediana: 13.1
Desviación estándar: 0.9151502608861561
Valor mínimo: 11.9
Valor máximo: 15.1


- Para la matriz datos_pacientes_basicos, calcula e imprime la media de cada variable (cada columna) utilizando el parámetro axis.

In [19]:
#media de cada variable en datos_pacientes_basicos utilizando axis
print("Media de cada variable en datos_pacientes_basicos:")
media_por_columna = np.mean(datos_pacientes_basicos, axis=0)
print("(Orden: Edad, NivelColesterol, PresionSistolica)")
print(media_por_columna)


Media de cada variable en datos_pacientes_basicos:
(Orden: Edad, NivelColesterol, PresionSistolica)
[ 56.   223.75 143.25]


### **Comentario Actividad 1**
La actividad 1 ha permitido revisar conceptos estudiados en clase, con los que se pudo cubrir aspectos esenciales como: 
- Creación y manipulación de arrays: siendo unidimensionales y bidimensionales, así como el uso de funciones de numpy como arange, random, shape, ndim, size, dtype.
- Indexación y slicing: nos ha permitido familiarizarnos con la sintaxis de numpy para acceso y extracción de subconjuntos de datos.
- Operaciones y estadísticas: se ha podido revisar operaciones con vectores como: sumas, multiplicaciones y potencias. También la utilización del broadcasting para operaciones sobre subconjuntos de arrays y finalmente, el cálculo de estadísticos descriptivos básicos para obtener un resumen rápido de los datos.

## Actividad 2: Fundamentos de Pandas: Series y DataFrames
### Objetivo Específico: Practicar la creacion, inspeccion, seleccion, filtrado y operaciones básicas con Series y DataFrames de Pandas.

**1. Trabajando con Series:**

In [20]:
#a. Crea una Serie de Pandas llamada puntuaciones_asignatura con las siguientes puntuaciones
puntuaciones_asignatura=pd.Series([7.5, 8.0, 9.5, 6.0, 7.0, 8.8],
    index=['Ana', 'Luis', 'Eva', 'Juan', 'Sara', 'Pedro'])

In [21]:
#b. Imprime la puntuacion de 'Eva'.
print("Puntuación de Eva:", puntuaciones_asignatura['Eva'])

Puntuación de Eva: 9.5


In [22]:
# c. Imprimir puntuaciones de 'Luis', 'Juan' y 'Pedro'
print("Puntuaciones de Luis, Juan y Pedro:")
puntuaciones_asignatura[['Luis', 'Juan', 'Pedro']]

Puntuaciones de Luis, Juan y Pedro:


Luis     8.0
Juan     6.0
Pedro    8.8
dtype: float64

In [23]:
# d. Puntuaciones mayores o iguales a 8.0
print("Puntuaciones >= 8.0:")
print(puntuaciones_asignatura[puntuaciones_asignatura >= 8.0])

Puntuaciones >= 8.0:
Luis     8.0
Eva      9.5
Pedro    8.8
dtype: float64


In [24]:
# e. Aumentar en 0.5 puntos todas las puntuaciones
puntuaciones_aumentadas = puntuaciones_asignatura + 0.5
print("Puntuaciones con +0.5:")
print(puntuaciones_aumentadas)

Puntuaciones con +0.5:
Ana       8.0
Luis      8.5
Eva      10.0
Juan      6.5
Sara      7.5
Pedro     9.3
dtype: float64


**2. Creación e Inspección de DataFrames:**

In [25]:
#a. Crea un DataFrame llamado df_estudiantes a partir del siguiente diccionario Python:
datos_estudiantes = {
    'ID_Estudiante': ['E001', 'E002', 'E003', 'E004', 'E005'],
    'Nombre': ['Carlos', 'Laura', 'Miguel', 'Sofia', 'David'],
    'Edad': [28, 32, 29, 35, 31],
    'Programa': ['Estadística', 'Ciencia de Datos', 'IA', 'Estadística', 'Ciencia de Datos'],
    'Semestre': [3, 2, 4, 3, 2]
}
df_estudiantes = pd.DataFrame(datos_estudiantes)

In [26]:
#b. Muestra las primeras 3 filas de df_estudiantes.
print("Primeras 3 filas:")
df_estudiantes.head(3)

Primeras 3 filas:


Unnamed: 0,ID_Estudiante,Nombre,Edad,Programa,Semestre
0,E001,Carlos,28,Estadística,3
1,E002,Laura,32,Ciencia de Datos,2
2,E003,Miguel,29,IA,4


In [27]:
# c. Muestra un resumen conciso de df_estudiantes usando .info().
print("Resumen con info():")
print(df_estudiantes.info())

Resumen con info():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID_Estudiante  5 non-null      object
 1   Nombre         5 non-null      object
 2   Edad           5 non-null      int64 
 3   Programa       5 non-null      object
 4   Semestre       5 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 332.0+ bytes
None


In [28]:
# d. Obten y muestra las estadísticas descriptivas para las columnas nume ricas de df_estudiantes usando .describe().
print("Estadísticas descriptivas:")
print(df_estudiantes.describe())

Estadísticas descriptivas:
            Edad  Semestre
count   5.000000   5.00000
mean   31.000000   2.80000
std     2.738613   0.83666
min    28.000000   2.00000
25%    29.000000   2.00000
50%    31.000000   3.00000
75%    32.000000   3.00000
max    35.000000   4.00000


In [29]:
# e. Imprime la forma (shape) y los tipos de datos (dtypes) del DataFrame.
print("Forma del DataFrame:", df_estudiantes.shape)
print("Tipos de datos:")
df_estudiantes.dtypes

Forma del DataFrame: (5, 5)
Tipos de datos:


ID_Estudiante    object
Nombre           object
Edad              int64
Programa         object
Semestre          int64
dtype: object

**3. Selección y Filtrado en DataFrames:**

In [30]:
#a. Selecciona e imprime solo la columna Nombre y Programa.
print("Columnas Nombre y Programa:")
df_estudiantes[['Nombre', 'Programa']]

Columnas Nombre y Programa:


Unnamed: 0,Nombre,Programa
0,Carlos,Estadística
1,Laura,Ciencia de Datos
2,Miguel,IA
3,Sofia,Estadística
4,David,Ciencia de Datos


In [31]:
# b. Selecciona e imprime los datos del estudiante con ID_Estudiante 'E003' utilizando .loc[]
df_estudiantes.set_index('ID_Estudiante', inplace=True)
print("Datos del estudiante con ID 'E003':")
print(df_estudiantes.loc['E003'])

Datos del estudiante con ID 'E003':
Nombre      Miguel
Edad            29
Programa        IA
Semestre         4
Name: E003, dtype: object


In [32]:
# c. Selecciona e imprime la segunda y tercera fila del DataFrame utilizando .iloc[]
print("Segunda y tercera fila:")
df_estudiantes.iloc[1:3]

Segunda y tercera fila:


Unnamed: 0_level_0,Nombre,Edad,Programa,Semestre
ID_Estudiante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
E002,Laura,32,Ciencia de Datos,2
E003,Miguel,29,IA,4


In [33]:
# d. Selecciona e imprime el Nombre y Edad de los estudiantes que estan en el Semestre 2.
print("Nombre y Edad de estudiantes en Semestre 2:")
df_estudiantes[df_estudiantes['Semestre'] == 2][['Nombre', 'Edad']]

Nombre y Edad de estudiantes en Semestre 2:


Unnamed: 0_level_0,Nombre,Edad
ID_Estudiante,Unnamed: 1_level_1,Unnamed: 2_level_1
E002,Laura,32
E005,David,31


In [34]:
# e. Filtra el DataFrame para mostrar solo los estudiantes que esta n en el programa de 'Ciencia de Datos' Y tienen una Edad mayor a 30 anos
print("Estudiantes en Ciencia de Datos con Edad > 30:")
df_estudiantes[
    (df_estudiantes['Programa'] == 'Ciencia de Datos') &
    (df_estudiantes['Edad'] > 30)
]

Estudiantes en Ciencia de Datos con Edad > 30:


Unnamed: 0_level_0,Nombre,Edad,Programa,Semestre
ID_Estudiante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
E002,Laura,32,Ciencia de Datos,2
E005,David,31,Ciencia de Datos,2


**4. Operaciones Básicas y Agregación Simple:**

In [35]:
#a. Anade una nueva columna al df_estudiantes llamada Edad_Meses que sea la Edad multiplicada por 12.
df_estudiantes['Edad_Meses'] = df_estudiantes['Edad'] * 12
print("DataFrame con Edad_Meses:")
df_estudiantes

DataFrame con Edad_Meses:


Unnamed: 0_level_0,Nombre,Edad,Programa,Semestre,Edad_Meses
ID_Estudiante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
E001,Carlos,28,Estadística,3,336
E002,Laura,32,Ciencia de Datos,2,384
E003,Miguel,29,IA,4,348
E004,Sofia,35,Estadística,3,420
E005,David,31,Ciencia de Datos,2,372


In [36]:
# b. Calcula e imprime la edad promedio de los estudiantes.
edad_promedio = df_estudiantes['Edad'].mean()
print("Edad promedio de estudiantes:", edad_promedio)

Edad promedio de estudiantes: 31.0


In [37]:
# c. Agrupa los datos por Programa y calcula la edad promedio y el semestre promedio para cada programa.
agrupado = df_estudiantes.groupby('Programa').agg({
    'Edad': 'mean',
    'Semestre': 'mean'
})
print("Promedios por Programa:")
agrupado

Promedios por Programa:


Unnamed: 0_level_0,Edad,Semestre
Programa,Unnamed: 1_level_1,Unnamed: 2_level_1
Ciencia de Datos,31.5,2.0
Estadística,31.5,3.0
IA,29.0,4.0


### Comentario actividad 2
En la segunda actividad, se manejaron estructuras fundamentales de pandas, comenzando por las Series, lo cual permitió comprender cómo se organizan los datos unidimensionales con etiquetas. Posteriormente, al trabajar con DataFrames, se llevó a la práctica la creación, visualización e inspección de tablas de datos, aplicando funciones útiles como **.info()**, **.describe()** y **.groupby()**.  

El ejercicio de filtrado y selección con **.loc[]** e **.iloc[]** contribuyó a entender cómo acceder de manera eficiente a subconjuntos de información. Asimismo, la creación de nuevas columnas y los cálculos agregados demostraron la capacidad de pandas para realizar análisis exploratorios básicos de forma rápida y efectiva.

## Limpieza de Datos con Pandas en Acción


**1. Carga e Inspección Inicial**

In [38]:
#a. Crea el DataFrame df_sucio a partir del diccionario proporcionado.
datos_sucios = {
    'ID_Registro': [1, 2, 3, 4, 5, 6, 2, 8, 9, 10, 11],
    'Fecha_Medicion': ['2025-01-15', '2025-01-16', None, '2025-01-18', '2025-01-19', '2025-01-20',
                       '2025-01-16', '2025-01-22', '2025-01-23', '2025-01-24', '2025-01-25'],
    'Variable_X': [10.5, 11.2, 10.9, None, 12.1, 11.8, 11.2, 10.7, 'Error', 11.5, 12.3],
    'Variable_Y': ['25.3', 26.1, 25.8, 26.5, 27.0, None, 26.1, 25.5, 26.3, 26.8, 27.1],
    'Categoria': ['A', 'B', 'A ', 'C', 'B', ' A', 'B', 'C', 'A', None, 'B']
}

df_sucio = pd.DataFrame(datos_sucios)

#b. Imprime las primeras 5 filas.
print("Primeras 5 filas del DataFrame original:")
print(df_sucio.head())

#c. Utiliza .info() para obtener una vision general de los tipos de datos y valores no nulos.
print("\nInformación general del DataFrame:")
print(df_sucio.info())

#d. Calcula y muestra el numero de valores faltantes (NaN) por cada columna.
print("\nValores faltantes por columna:")
print(df_sucio.isna().sum())


Primeras 5 filas del DataFrame original:
   ID_Registro Fecha_Medicion Variable_X Variable_Y Categoria
0            1     2025-01-15       10.5       25.3         A
1            2     2025-01-16       11.2       26.1         B
2            3           None       10.9       25.8        A 
3            4     2025-01-18       None       26.5         C
4            5     2025-01-19       12.1       27.0         B

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   ID_Registro     11 non-null     int64 
 1   Fecha_Medicion  10 non-null     object
 2   Variable_X      10 non-null     object
 3   Variable_Y      10 non-null     object
 4   Categoria       10 non-null     object
dtypes: int64(1), object(4)
memory usage: 572.0+ bytes
None

Valores faltantes por columna:
ID_Registro       0
Fecha_Medicion    1
Variable_

**2. Manejo de Valores Faltantes**

In [39]:
# a. Para la columna Fecha_Medicion, decide una estrategia para manejar los None
#(podría ser eliminar la fila o imputar con una fecha anterior/posterior si
#tuviera sentido, para este ejercicio, considera eliminar la fila si la fecha
#es crucial). Implementa tu decisión.

#Eliminar filas donde falta la Fecha_Medicion
df_sucio = df_sucio.dropna(subset=['Fecha_Medicion'])

# b. Para la columna Variable_X, considera imputar los valores None con la
#media de la columna (despue s de tratar los valores no nume ricos).

#Reemplazar 'Error' por NaN y convertir Variable_X a float
df_sucio['Variable_X'] = df_sucio['Variable_X'].replace('Error', np.nan)
df_sucio['Variable_X'] = pd.to_numeric(df_sucio['Variable_X'], errors='coerce')
media_X = df_sucio['Variable_X'].mean()
df_sucio['Variable_X'].fillna(media_X, inplace=True)

# c. Para la columna Variable_Y, si hay None, imputa con la mediana de la
#columna (despue s de asegurar que sea nume rica).

#Convertir Variable_Y a float y rellenar NaN con la mediana
df_sucio['Variable_Y'] = pd.to_numeric(df_sucio['Variable_Y'], errors='coerce')
mediana_Y = df_sucio['Variable_Y'].median()
df_sucio['Variable_Y'].fillna(mediana_Y, inplace=True)


# d. Para la columna Categoria, si hay None, imputa con el valor 'Desconocido'.
#Imputar valores faltantes en Categoria con 'Desconocido'
df_sucio['Categoria'].fillna('Desconocido', inplace=True)

  df_sucio['Variable_X'] = df_sucio['Variable_X'].replace('Error', np.nan)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_sucio['Variable_X'].fillna(media_X, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_sucio['Variable_Y'].fillna(mediana_Y, inplace=True)
The behavior will change in pandas 3.0. This inpl

**3. Manejo de duplicados**

In [40]:
# a. Identifica si hay filas completamente duplicadas en el DataFrame.

#Verificar duplicados
duplicados = df_sucio.duplicated()
print("\nFilas duplicadas:")
print(df_sucio[duplicados])


# b. Elimina las filas duplicadas, manteniendo la primera ocurrencia.
#Eliminar duplicados
df_sucio = df_sucio.drop_duplicates()



Filas duplicadas:
   ID_Registro Fecha_Medicion  Variable_X  Variable_Y Categoria
6            2     2025-01-16        11.2        26.1         B


**4. Corrección de Tipos de Datos y Valores**

In [41]:
# c. La columna Variable_X contiene un valor no nume rico ('Error'). Reemplaza
#este valor por np.nan para poder convertir la columna a nume rica. Luego,
#convierte Variable_X a tipo float. (Realiza este paso antes de la imputacio
#n de la media si no lo hiciste).

#Convertir Fecha_Medicion a datetime
df_sucio['Fecha_Medicion'] = pd.to_datetime(df_sucio['Fecha_Medicion'])

# d. La columna Categoria tiene espacios extra en algunos de sus valores
# (ej. 'A ', ' A'). Limpia estos espacios (usa .str.strip()).

#Limpiar espacios en Categoria
df_sucio['Categoria'] = df_sucio['Categoria'].str.strip()

**5. Verificación Final**

In [42]:
# a. Imprime .info() nuevamente para verificar los tipos de datos y los
#valores no nulos.

#Verificar los tipos de datos y los valores no nulos.
print("\nInformación después de la limpieza:")
print(df_sucio.info())

# b. Imprime el numero de valores faltantes por columna para confirmar que
#se han manejado.

#Numero de valores faltantes por columna
print("\nValores faltantes después de la limpieza:")
print(df_sucio.isna().sum())

# c. Muestra las primeras 5 filas del DataFrame limpio.

#5 filas del DataFrame limpio
print("\nPrimeras 5 filas del DataFrame limpio:")
print(df_sucio.head())

#d. Opcional) Imprime los valores u nicos de la columna Categoria para
#verificar la limpieza.

#Imprime los valores unicos de la columna Categoria
print("\nValores únicos en Categoria:")
print(df_sucio['Categoria'].unique())


Información después de la limpieza:
<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 0 to 10
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   ID_Registro     9 non-null      int64         
 1   Fecha_Medicion  9 non-null      datetime64[ns]
 2   Variable_X      9 non-null      float64       
 3   Variable_Y      9 non-null      float64       
 4   Categoria       9 non-null      object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(1)
memory usage: 432.0+ bytes
None

Valores faltantes después de la limpieza:
ID_Registro       0
Fecha_Medicion    0
Variable_X        0
Variable_Y        0
Categoria         0
dtype: int64

Primeras 5 filas del DataFrame limpio:
   ID_Registro Fecha_Medicion  Variable_X  Variable_Y Categoria
0            1     2025-01-15     10.5000        25.3         A
1            2     2025-01-16     11.2000        26.1         B
3            4     2025-

### Comentario Actividad 3
### **Procesamiento y Limpieza de Datos**  

Se identificaron valores faltantes en varias columnas, así como tipos de datos incorrectos (como la presencia de *'Error'* en *Variable_X*). Para manejar los datos faltantes, se utilizaron estrategias de imputación basadas en medidas estadísticas (media y mediana) cuando era viable, preservando así la estructura y distribución del dataset. Sin embargo, en casos donde los valores eran críticos y no podían imputarse de manera confiable (como fechas faltantes), se optó por eliminar las filas correspondientes, garantizando la consistencia del DataFrame.  

Además, se eliminaron registros duplicados para evitar sesgos en los análisis posteriores, mejorando la calidad y confiabilidad de los datos. Un dataset libre de duplicados facilita su interpretación y presentación en reportes o dashboards.  

Como parte del proceso, se corrigieron los tipos de datos de cada columna para asegurar su coherencia con la naturaleza de la información. Por ejemplo:  
- Fechas se convirtieron al formato **datetime**.  
- Valores numéricos se estandarizaron como **float**.  
- Se eliminaron espacios innecesarios en cadenas de texto.  

Estas correcciones son esenciales para realizar análisis estadísticos, aplicar filtros lógicos y agrupar datos eficientemente mediante métodos como **groupby()**.  

**Resultado final:** El DataFrame quedó depurado, con tipos de datos correctos, sin valores nulos ni duplicados, listo para análisis estadísticos, modelos predictivos o visualizaciones confiables.