# Ejercicio Extra-Clase: Limpieza de Datos Básica

**Objetivo:** Repasar y aplicar las técnicas fundamentales de limpieza de datos en un nuevo conjunto de datos. ¡Esta es tu oportunidad para practicar lo aprendido!

---

### Tu Misión

Imagina que trabajas en una veterinaria y te han entregado una pequeña lista de los pacientes registrados hoy. La lista está un poco desordenada. Tu tarea es limpiarla para que pueda ser usada en el sistema de la clínica.

Sigue los pasos a continuación. ¡Lee con atención las instrucciones y los comentarios en el código!

### Paso 1: Cargar los Datos

Primero, como siempre, cargamos nuestros datos en un DataFrame de Pandas.

In [6]:
import pandas as pd
import io

# Datos de la veterinaria
datos_pacientes = """
ID_Paciente,Nombre,Tipo_Animal,Edad,Vacunado
P01,Fido,perro,3,Si
P02,Misu,Gato,2,Si
P03,Nemo,Pez,1,No
P04,Rocky,Perro, ,Si
P05,Luna,gato,5,No
P02,Misu,Gato,2,Si
"""

# Carga los datos en un DataFrame llamado 'df'
df = pd.read_csv(io.StringIO(datos_pacientes))

print("---  Datos Originales de la Clínica ---")
display(df)

---  Datos Originales de la Clínica ---


Unnamed: 0,ID_Paciente,Nombre,Tipo_Animal,Edad,Vacunado
0,P01,Fido,perro,3.0,Si
1,P02,Misu,Gato,2.0,Si
2,P03,Nemo,Pez,1.0,No
3,P04,Rocky,Perro,,Si
4,P05,Luna,gato,5.0,No
5,P02,Misu,Gato,2.0,Si


### Paso 2: Inspeccionar los Datos

Usa `df.info()` para obtener un resumen de los datos. Busca pistas sobre qué problemas podrías tener.

**Pregúntate:**
- ¿Hay valores faltantes? (Mira la columna `Non-Null Count`)
- ¿Los tipos de datos (`Dtype`) son correctos?

In [7]:
# Escribe aquí el código para inspeccionar el DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID_Paciente  6 non-null      object
 1   Nombre       6 non-null      object
 2   Tipo_Animal  6 non-null      object
 3   Edad         6 non-null      object
 4   Vacunado     6 non-null      object
dtypes: object(5)
memory usage: 372.0+ bytes


### Paso 2.1: Covertir columna a tipo numerico
Usamos `pd.to_numeric()` para convertir la columna edad a un tipo númerico.

In [19]:
## La columna edad es de tipo object cuando deberia ser de tipo numerico ya que esta
## almacenando numeros como en este caso son las edades de las mascotas,
## para evitar problemas mas adelante en el codigo aqui mismo le cambiare a tipo númerico.
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Paciente  5 non-null      object 
 1   Nombre       5 non-null      object 
 2   Tipo_Animal  5 non-null      object 
 3   Edad         4 non-null      float64
 4   Vacunado     5 non-null      object 
dtypes: float64(1), object(4)
memory usage: 240.0+ bytes
None


### Paso 3: Limpiar los Datos (¡Tu Turno!)

Ahora, resuelve los problemas que encontraste. A continuación hay tres tareas. Escribe el código necesario en cada celda para completarlas.

In [10]:
print("--- Tarea 1: Eliminar Filas Duplicadas ---")

# Pista: Usa la función que elimina filas idénticas. No olvides `inplace=True`.

# TU CÓDIGO AQUÍ
print(f"Filas antes de eliminar duplicados: {len(df)}")
df.drop_duplicates(inplace=True)
print("Duplicados eliminados. El DataFrame ahora tiene", len(df), "filas.")
display(df)

--- Tarea 1: Eliminar Filas Duplicadas ---
Filas antes de eliminar duplicados: 5
Duplicados eliminados. El DataFrame ahora tiene 5 filas.


Unnamed: 0,ID_Paciente,Nombre,Tipo_Animal,Edad,Vacunado
0,P01,Fido,perro,3.0,Si
1,P02,Misu,Gato,2.0,Si
2,P03,Nemo,Pez,1.0,No
3,P04,Rocky,Perro,,Si
4,P05,Luna,gato,5.0,No


In [14]:
print("\n--- Tarea 2: Estandarizar la columna 'Tipo_Animal' ---")

# Pista: La columna tiene inconsistencias de mayúsculas y minúsculas (ej. 'perro', 'Perro').
# Usa el accesor '.str' y un método para convertir todo a minúsculas.

# TU CÓDIGO AQUÍ
df['Tipo_Animal'] = df['Tipo_Animal'].str.lower()
print("Valores únicos ahora son:", df['Tipo_Animal'].unique())
display(df)



--- Tarea 2: Estandarizar la columna 'Tipo_Animal' ---
Valores únicos ahora son: ['perro' 'gato' 'pez']


Unnamed: 0,ID_Paciente,Nombre,Tipo_Animal,Edad,Vacunado
0,P01,Fido,perro,3.0,Si
1,P02,Misu,gato,2.0,Si
2,P03,Nemo,pez,1.0,No
3,P04,Rocky,perro,,Si
4,P05,Luna,gato,5.0,No


In [23]:
print("\n--- Tarea 3: Rellenar la Edad Faltante ---")

# Pista: Vimos que falta la edad de 'Rocky'. La estrategia será rellenar el valor faltante con la edad promedio (media) de los otros animales.
# 1. Calcula la media de la columna 'Edad'.
# 2. Usa .fillna() para rellenar los valores nulos con la media que calculaste.

# TU CÓDIGO AQUÍ
media_edad = df['Edad'].mean()
df['Edad'].fillna(media_edad, inplace=True)

print("Valores nulos en 'Edad' después de rellenar:", df['Edad'].isnull().sum())
display(df)


--- Tarea 3: Rellenar la Edad Faltante ---
Valores nulos en 'Edad' después de rellenar: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Edad'].fillna(media_edad, inplace=True)


Unnamed: 0,ID_Paciente,Nombre,Tipo_Animal,Edad,Vacunado
0,P01,Fido,perro,3.0,Si
1,P02,Misu,gato,2.0,Si
2,P03,Nemo,pez,1.0,No
3,P04,Rocky,perro,2.75,Si
4,P05,Luna,gato,5.0,No


### Paso 4: Verificación Final

¡Excelente trabajo! Ahora, muestra el DataFrame limpio para ver el resultado final de tu trabajo.

In [24]:
print("---  DataFrame Limpio y Final ---")
display(df)

---  DataFrame Limpio y Final ---


Unnamed: 0,ID_Paciente,Nombre,Tipo_Animal,Edad,Vacunado
0,P01,Fido,perro,3.0,Si
1,P02,Misu,gato,2.0,Si
2,P03,Nemo,pez,1.0,No
3,P04,Rocky,perro,2.75,Si
4,P05,Luna,gato,5.0,No


---
##  Tips y Solución de Problemas Comunes

**1. Si obtienes un `AttributeError: Can only use .str accessor with string values!`:**
   - **Causa:** Estás intentando usar `.str` en una columna que no es de texto. Esto suele pasar si ejecutas una celda de limpieza más de una vez.
   - **Solución:** Ve al menú **Kernel > Restart & Clear Output** y ejecuta todas las celdas en orden desde el principio.

**2. Si no puedes cargar un archivo CSV externo y obtienes un `UnicodeDecodeError`:**
   - **Causa:** El archivo está guardado con una codificación de texto incompatible.
   - **Solución:** Añade el parámetro `encoding='latin1'` a tu función `pd.read_csv()`. Ejemplo: `pd.read_csv('mi_archivo.csv', encoding='latin1')`.

**3. Si `inplace=True` no parece funcionar:**
   - **Causa:** Algunas funciones de Pandas no devuelven nada cuando se usa `inplace=True`. No debes reasignar el resultado.
   - **Incorrecto:** `df = df.fillna(0, inplace=True)` (Esto hará que `df` sea `None`).
   - **Correcto:** `df.fillna(0, inplace=True)`.