# ¿Por qué es tan importante la limpieza de datos?

### La limpieza de datos es una habilidad crucial en el mundo real de la ciencia de datos. Los datos rara vez se presentan de forma perfecta; suelen estar desordenados, incompletos o contener errores. Tu capacidad para transformar estos datos caóticos en información clara y poderosa te distinguirá del 95% de las personas que no saben trabajar con datos reales.

## Objetivo del día: Dominando la limpieza de datos
### 📦 Hoy trabajaremos con un nuevo dataset encantado: "Criaturas mágicas con errores" para aprender:

1. Detectar errores y valores perdidos: Identificar dónde se encuentran las inconsistencias y los datos faltantes.

2. Corregir, eliminar o transformar datos incorrectos: Aplicar las téncicas adecuadas para subsanar o manejar los problemas encontrados.

3. Dejar el dataset limpio, ordenado y listo para cualquier análisis o modelo: Asegurar que los datos estén en óptimas condiciones para futuros usos.



### Comenzamos con un dataset con errores
A continuación creamos el dataset con el que trabajaremos.
Tambien importamos las librerias Esenciales que en este caso por ahora es Pandas, que es fundamental para la manipulación y análisis de datos.

In [1]:
import pandas as pd

# Dataset encantado con errores ocultos

datos = {
    'Nombre': ['Niffler', 'dragón galés verde', 'Fénix', None, 'Demiguise', 'Basilisco', 'Fénix', 'Niffler'],
    'Peso_kg': [12, 2500, None, 750, 45, '???', 700, 12],
    'Peligroso': [False, True, False, True, False, True, False, False],
    'Habitat': ['cuevas', 'montañas', 'cielos', 'cuevas', None, 'mazmorras', 'cielos', 'cuevas']
}
df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Peso_kg,Peligroso,Habitat
0,Niffler,12,False,cuevas
1,dragón galés verde,2500,True,montañas
2,Fénix,,False,cielos
3,,750,True,cuevas
4,Demiguise,45,False,
5,Basilisco,???,True,mazmorras
6,Fénix,700,False,cielos
7,Niffler,12,False,cuevas


## PASO 1: Exploración inicial del Dataset.
### Inspeccionar la informacion general del DataFrame

### El método `.info()` es invaluable para obtener un resumen conciso del DataFrame, incluyendo el número de entradas, la cantidad de columnas, los tipos de datos `(Dtype)` de cada columna y la presencia de valores no nulos. Esto te da una idea rápida de posibles problemas de datos y tipos incorrectos.

In [2]:
#Esto muestra: cuantas filas hay, si hay valores nulos y que tipo de dato es cada columna

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nombre     7 non-null      object
 1   Peso_kg    7 non-null      object
 2   Peligroso  8 non-null      bool  
 3   Habitat    7 non-null      object
dtypes: bool(1), object(3)
memory usage: 332.0+ bytes


### Vamos a explicar cada linea que nos ha devuelto el método `info()`

* `<class 'pandas.core.frame.DataFrame'>`
Esto te dice que df es un DataFrame, la estructura de datos de pandas con filas y columnas.

* `RangeIndex:` 8 entries, 0 to 7
Esto significa que tu tabla tiene:

  * 8 filas numeradas del 0 al 7 (índice por defecto).

* `Data columns` (total 4 columns):
Tu DataFrame tiene 4 columnas:

  1. Nombre

  2. Peso_kg

  3. Peligroso

  4. Habitat

#### Cómo sabemos que son 8 filas, nos hacemos una idea de que datos faltan pues cuando en la tabla dice: 	7 non-null, son 7 datos que existen, como tienen que ser 8 porque son 8 filas, pues de aqui deducimos que falta un dato y asi vamos por columna.

* ¿Qué es Non-Null Count?
Es cuántos valores válidos hay en esa columna. Si tienes menos de 8, significa que hay valores faltantes (NaN).

#### `**dtypes: bool(1), object(3).**` Esto te dice cuántas columnas hay de cada tipo:

* 1 columna es booleana (bool) → Peligroso

* 3 columnas son tipo object (texto o mixtas) → Nombre, Peso_kg, Habitat

**⚠️ ¡Atención! Peso_kg aparece como object, lo que sugiere que no es numérica todavía.**

* memory usage: 332.0+ bytes
Esto indica cuánto espacio de memoria ocupa el DataFrame.
No es importante ahora, pero cuando trabajes con millones de datos reales, la optimización de memoria te hará un/a dios/a del rendimiento ⚙️👑

#### En resumen
* Tu dataset tiene 8 filas y 4 columnas.

* Hay valores faltantes en Nombre, Peso_kg y Habitat.

* Peso_kg debería ser numérico, pero aún es texto.

### Detección y Manejo de Valores Faltantes (NaN)

### Identificar Valores Nulos en Cada Columna.

### Los valores NaN (Not a Number) representan datos faltantes. Es fundamental identificarlos, ya que pueden afectar tus análisis y modelos.

In [3]:
# Este método te dice directamente cuantos valores faltan en cada columna, sin rodeos.

df.isnull().sum()

Unnamed: 0,0
Nombre,1
Peso_kg,1
Peligroso,0
Habitat,1


### Ejercicio 1:

* ¿Qué columnas tienen valores faltantes?
¿En qué filas? Usa .isnull() para averiguarlo.

In [4]:
df[df.isnull().any(axis=1)]

Unnamed: 0,Nombre,Peso_kg,Peligroso,Habitat
2,Fénix,,False,cielos
3,,750.0,True,cuevas
4,Demiguise,45.0,False,


#### Cómo podemos ver, este metodo tal cual nos devuelve un dataframe con las filas que tienen los valores faltantes

Así que Nombre le falta un dato en la fila 3, peso en la fila 2, yhabitat en la fila 4

De modo que como hemos dicho, este metodo `(df[df.isnull().any(axis=1)])` Te devuelve solo las filas del DataFrame que tienen al menos un valor faltante (NaN).
Es decir, te dice:
 “Oye, muéstrame solo las criaturas que tengan alguna información perdida.”

#### `**df.isnull()**`
Esto crea un nuevo DataFrame igual al original, pero en vez de los datos reales, te muestra True si el dato está faltando (NaN) y False si está presente.
|Nombre	|Peso_kg	|Peligroso	|Habitat|
|-------|---------|-----------|-------|
|False	|False	  |False	    |False  |
|True	  |False	  |False	    |True   |
|False	|True	    |False	    |False  |

#### `**.any(axis=1)**`
Esto pregunta por fila (axis=1):

 “¿Hay algún True en esta fila?”

Así que da como resultado una serie booleana que te dice qué filas tienen algún valor faltante.

* [False, True, True, False, False, True, ...]

#### `**df[...]**`

Y al poner esa lista de True y False entre corchetes `(df[...])`, pandas te devuelve solo las filas que eran True.

O sea, las filas que tienen algún dato perdido.

#### En resumen:

* `df.isnull()`	Detecta valores faltantes (NaN) y devuelve True/False
* `.any(axis=1)`	Te dice si alguna columna está vacía en cada fila
* `df[...]`	Devuelve solo esas filas incompletas

## 🧼 PASO 2: Limpiar valores perdidos

### Eliminar Filas con Valores Nulos

#### Si una fila contiene muchos valores nulos o si la cantidad de datos es lo suficientemente grande como para no perder información crítica, puedes optar por eliminar las filas que contengan al menos un valor nulo.

In [5]:
# Opción A: Eliminar filas con valores nulos (si son pocas y no importantes):

df.dropna(inplace=True)

### Tambien se pueden rellenar los valores nulos con texto
#### En este caso en concreto, relleno con 'desconocido'

In [6]:
# Opción B: Rellenar valores nulos con texto:

df['Habitat'].fillna('desconocido', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Habitat'].fillna('desconocido', inplace=True)


### Una opción habitual en columnas numéricas es rellenar con la media

#### Si no faltan demaciados datos es una forma aceptable de rellenar valores faltantes

In [7]:
# Opción C: Rellenar valores nulos con media (si es numérico):

# media_peso = df['Peso_kg'].mean()
# df['Peso_kg'].fillna(media_peso, inplace=True)

### Si has sido observador, habras visto el `'???'` en la columna Peso_kg

#### Ese es un error de tipo texto. Hay que transformarlo antes de calcular medias.

In [8]:
# seleccionando la columna Peso, vemos que '???' no es un numero
df['Peso_kg']

Unnamed: 0,Peso_kg
0,12
1,2500
5,???
6,700
7,12


In [9]:
# Solución creativa que se puede hacer: Convertir todo a numérico y forzar errores a NaN

df['Peso_kg'] = pd.to_numeric(df['Peso_kg'], errors='coerce')

# de esta manera '???' se convierte en NaN, y puedes aplicar .fillna() o .dropna() como antes.

### Explicacion de lo que hace la anterior linea
#### Con esto se intenta Convertir la columna `'Peso_kg'` a números (floats o ints).
#### Pandas, al leer el archivo, puede haberla interpretado como texto porque hay datos raros como `'???'` o`vacíos`.
#### Este código corrige eso.

1. `pd.to_numeric(...)`
Es una función de pandas que convierte una serie (una columna) en valores numéricos.

  * Ejemplo:
    * pd.to_numeric(['12', '45', '???', '700'])

Sin ayuda, esto da error por el '???'.

2. `df['Peso_kg']`
* Esto selecciona la columna `'Peso_kg'` de tu DataFrame.
* Esa columna está todavía en formato object (texto), porque algunas celdas pueden tener:

  * '12' → que parece un número, pero es string

  * '???' → que claramente no es un número

  * None o vacío

3. `errors='coerce'`
Este es el truco especial del hechizo:
Le dice a pandas:

* "Si encuentras algo que no puedes convertir a número, no des error… conviértelo en NaN (valor faltante)."

  Ejemplo:

  * pd.to_numeric(['12', '45', '???', '700'], errors='coerce')

  🔮 Resultado:

  * [12.0, 45.0, NaN, 700.0]

4. df['Peso_kg'] = ...

Esta parte reemplaza la columna original con la versión corregida: ahora con números reales y NaN donde no se pudo convertir.

* En resumen

  * pd.to_numeric(...)	Convierte texto a número (float o int)
  * errors='coerce'	Sustituye errores con NaN en vez de romper el código
  * df['Peso_kg'] = ...	Guarda el resultado en la misma columna



 ### EJERCICIO 2:
### Corrige los errores en Peso_kg y rellena los valores perdidos con la media (una vez limpia).
#### Después imprime el dataset limpio.

In [10]:
df['Peso_kg'] = pd.to_numeric(df['Peso_kg'], errors='coerce')
media_peso = df['Peso_kg'].mean()
df['Peso_kg'] = df['Peso_kg'].fillna(media_peso)
df

Unnamed: 0,Nombre,Peso_kg,Peligroso,Habitat
0,Niffler,12.0,False,cuevas
1,dragón galés verde,2500.0,True,montañas
5,Basilisco,806.0,True,mazmorras
6,Fénix,700.0,False,cielos
7,Niffler,12.0,False,cuevas


### Otras formas de rellenar:
#### Es común encontrar inconsistencias en las columnas de texto. Por ejemplo, nombres con mayúsculas y minúsculas variadas. Convertir todo a minúsculas o mayúsculas asegura uniformidad.

In [11]:
# df['Nombre'] = df['Nombre'].str.lower()

#### Al igual que con los nombres, estandarizar los valores en la columna 'Especie' es vital para un análisis preciso.

In [12]:
#df['Especie'] = df['Especie'].str.lower()

#### Es posible que la columna 'Habitat' contenga espacios extra o caracteres no deseados. El método `.str.strip()` elimina espacios en blanco al principio y al final de las cadenas.

In [13]:
# df['Habitat'] = df['Habitat'].str.strip()

#### A veces, las columnas numéricas pueden contener valores no numéricos. Convertir la columna al tipo de dato numérico adecuado (float o int) asegura que puedas realizar operaciones matemáticas. errors='coerce' reemplazará cualquier valor que no pueda convertirse a número por NaN.

In [14]:
# df['Peso_kg'] = pd.to_numeric(df['Peso_kg'], errors='coerce')
# Despues de esto es cuando se usaria la media para rellenar

### PASO 4: Eliminar duplicados

#### Los registros duplicados pueden sesgar tus análisis. Es una buena práctica identificarlos y eliminarlos.

In [15]:
# Te dice si hay filas duplicadas
df.duplicated()

# Tambien se puede hacer con
# df.drop_duplicates(inplace=True)

Unnamed: 0,0
0,False
1,False
5,False
6,False
7,True


In [16]:
# Las filas duplicadas se eliminan de esta manera:

#df.drop_duplicates(inplace=True)

In [17]:
df

Unnamed: 0,Nombre,Peso_kg,Peligroso,Habitat
0,Niffler,12.0,False,cuevas
1,dragón galés verde,2500.0,True,montañas
5,Basilisco,806.0,True,mazmorras
6,Fénix,700.0,False,cielos
7,Niffler,12.0,False,cuevas


### Inspeccionar los Tipos de Datos (Dtypes)
#### Después de todas las operaciones de limpieza, verifica los tipos de datos finales para asegurarte de que cada columna tiene el tipo correcto para futuras operaciones.

In [18]:
df.dtypes

Unnamed: 0,0
Nombre,object
Peso_kg,float64
Peligroso,bool
Habitat,object


###  EJERCICIO 3:
* ¿Cuántas filas duplicadas había?
* ¿Cuántas quedaron?

#### Habia una fila duplicada, hay 7 filas en total y ahora quedan 6.
hay una que esta repetida pero solo a medias

### EJERCICIO 1: Criaturas livianas y valientes 🐭🛡️
### Objetivo: Filtrar y mostrar de forma clara.

#### Tienes un DataFrame con criaturas mágicas. Selecciona solo las criaturas que:

* pesan menos de 50 kg, y

* no son peligrosas (Peligroso == False).

📌 Muestra solo sus nombres y hábitats, y preséntalo con una frase como:

"Las criaturas livianas y valientes que puedes abrazar son: Demiguise (Selva), Fénix (Montañas), ..."

In [19]:
inofensivos = df[(df['Peso_kg'] < 50) & (df['Peligroso'] == False)]

nombres_habitats = inofensivos[['Nombre', 'Habitat']]

n1 = nombres_habitats['Nombre'].iloc[0]
h1 = nombres_habitats['Habitat'].iloc[0]

n2 = nombres_habitats['Nombre'].iloc[1]
h2 = nombres_habitats['Habitat'].iloc[1]

frase = f"Las criaturas livianas y valientes que puedes abrazar son: {n1} ({h1}), {n2} ({h2})."
print(frase)

Las criaturas livianas y valientes que puedes abrazar son: Niffler (cuevas), Niffler (cuevas).


## EJERCICIO 2: ¿Cuál pesa más, el dragón o el basilisco? 🐉🐍
### Objetivo: Comparar valores en el DataFrame.

1. Encuentra el peso del Dragón Galés Verde.

2. Encuentra el peso del Basilisco.

3. Imprime una frase que diga cuál es más pesado y por cuánto:

"El Dragón Galés Verde es más pesado que el Basilisco por 220 kg."

In [20]:
peso_dragon = df.loc[df['Nombre'] == 'dragón galés verde', 'Peso_kg'].iloc[0]
peso_basilisco = df.loc[df['Nombre'] == 'Basilisco', 'Peso_kg'].iloc[0]
print(f"El Dragón Galés Verde es más pesado que el Basilisco por {peso_dragon - peso_basilisco} kg")

El Dragón Galés Verde es más pesado que el Basilisco por 1694.0 kg


### Y esto ha sido por hoy, hemos aprendido la limpieza basica de datos en Pandas.