# Hoy aprenderás a:

* Seleccionar partes específicas de tus datos. Imagina que tienes un libro gigante (un DataFrame) y necesitas buscar capítulos, párrafos o frases exactas según lo que necesites. 🕵️‍♀️📖

* Limpiar datos reales que pueden estar desordenados, incompletos, mal escritos o con errores. Aprenderás a ver la verdad escondida en el caos. 🌪️📊


# Seleccion de datos en Pandas

## Comenzamos con las operaciones fundamentales para acceder a los datos en un DataFrame de Pandas.

###  1. Acceder a columnas

#### Para seleccionar una o varias columnas de un DataFrame, puedes usar corchetes [] con el nombre de la columna. Si el nombre de la columna no tiene espacios ni caracteres especiales, también puedes usar la notación de punto.

In [None]:
df["nombre_columna"]
df.nombre_columna # Solo si no tiene espacios ni caracteres raros

###  2. Acceder a filas por posición `(.iloc[ ])`

#### El método .iloc[] te permite seleccionar filas (y columnas) basándote en su posición numérica (índice entero), similar a cómo accedes a elementos en una lista de Python.

* Piensa en `.iloc[]` como una regla numérica. Usas posiciones (como índices de lista).


In [None]:
df.iloc[0] # Primera fila
df.iloc[3:6] # Filas de la 4 a la 6 (sin incluir la 6)

### 3. Acceder a filas por etiqueta `(.loc[ ])`

#### El método `.loc[]` se utiliza para seleccionar filas (y columnas) basándose en las etiquetas de su índice o en los nombres de las columnas.
* Piensa en `.loc[]` como un telescopio con etiquetas. Usas los nombres del índice o de las filas.

In [None]:
df.loc[3] # Fila cuyo índice sea 3
df.loc[3:5] # De la fila con índice 3 a la 5 (incluye ambas)

###  4. Selección de filas y columnas combinada

#### Puedes combinar la selección de filas y columnas utilizando ambos métodos. La sintaxis general es `df.loc[filas, columnas]` o `df.iloc[filas, columnas]`.

In [None]:
# df.loc[filas, columnas] # estilo [fila, columna]

#ejemplo:
df.loc[0:2, ["Nombre", "Edad"]]

## 🎨 Ejemplo Visual:

### Imagina que tienes una biblioteca encantada, y el DataFrame es como una estantería de libros, donde:

* Cada fila es un libro.

* Cada columna es un poder especial del libro (título, autor, año, magia, etc.).

* `.iloc[ ]` = usas la posición del libro.

* `.loc[ ]` = usas el nombre grabado en el lomo del libro.

* `df["columna"]` = sacas todos los poderes de un tipo.

## Dataset del Día: mini-mundo de criaturas mágicas

### En esta parte del temario trabajaremos con un dataset de animales fantásticos y mitólogicos para practicar la selección de datos


In [2]:
import pandas as pd

data = {
    "Nombre": ["Fénix", "Unicornio", "Dragón", "Sirena", "Pegaso"],
    "Color": ["Rojo", "Blanco", "Verde", "Azul", "Plateado"],
    "Poder": ["Renacer", "Curación", "Fuego", "Canto hipnótico", "Vuelo"],
    "Edad": [500, 300, 800, 200, 400]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Color,Poder,Edad
0,Fénix,Rojo,Renacer,500
1,Unicornio,Blanco,Curación,300
2,Dragón,Verde,Fuego,800
3,Sirena,Azul,Canto hipnótico,200
4,Pegaso,Plateado,Vuelo,400


## Ejercicios (nivel principiante)

### A continuación, se presentan ejercicios prácticos con el dataset de criaturas mágicas.

### 🧩 Ejercicio 1 – Obtener una columna:

* ¿Cómo sacar solo la columna "Nombre"?

* ¿Cómo sacar solo la columna "Poder"?

In [3]:
# Sacar solo la columna "Nombre"
df["Nombre"]

Unnamed: 0,Nombre
0,Fénix
1,Unicornio
2,Dragón
3,Sirena
4,Pegaso


In [4]:
# Sacar solo la columna "Poder"
df["Poder"]

Unnamed: 0,Poder
0,Renacer
1,Curación
2,Fuego
3,Canto hipnótico
4,Vuelo


### 🧩 Ejercicio 2 – Seleccionar una fila completa
* Usa .iloc[  ] para sacar la fila del Dragón.

* Usa .loc[  ] para sacar la fila del índice 2.

In [None]:
# Sacar la fila del dragón
# Como ya habiamos sacado la columna Nombre, sabemos en que fila esta Dragón asi que eso facilita las cosas
df.iloc[2]


Unnamed: 0,2
Nombre,Dragón
Color,Verde
Poder,Fuego
Edad,800


In [None]:
# Sacar la fila de indice 2 con loc[]
# .loc[] accede por etiqueta del índice (que normalmente coincide con el número de fila si no lo cambiaste).
df.loc[2]

Unnamed: 0,2
Nombre,Dragón
Color,Verde
Poder,Fuego
Edad,800


 ### 🧩 Ejercicio 3 – Seleccionar un grupo de filas
* Usa .iloc[  ] para sacar las 3 primeras filas.

* Usa .loc[  ] para sacar de la fila con índice 1 a la 3.

In [None]:
# Usa .iloc[ ] para sacar las 3 primeras filas.
df.iloc[:3]
# tambien puede ponerse: df.iloc[0:3]

Unnamed: 0,Nombre,Color,Poder,Edad
0,Fénix,Rojo,Renacer,500
1,Unicornio,Blanco,Curación,300
2,Dragón,Verde,Fuego,800


In [None]:
# Usa .loc[ ] para sacar de la fila con índice 1 a la 3.
# como dijimos .loc[] accede por etiqueta del índice (que normalmente coincide con el número de fila si no lo cambiaste).
df.loc[1:3]

Unnamed: 0,Nombre,Color,Poder,Edad
1,Unicornio,Blanco,Curación,300
2,Dragón,Verde,Fuego,800
3,Sirena,Azul,Canto hipnótico,200


### 🧩 Ejercicio 4 – Seleccionar columnas y filas a la vez
* Muestra las columnas "Nombre" y "Edad" de las primeras 3 criaturas.

* Muestra la columna "Poder" solo del "Unicornio" y la "Sirena".

In [None]:
# Muestra las columnas "Nombre" y "Edad" de las primeras 3 criaturas.
df.loc[:2, ["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Fénix,500
1,Unicornio,300
2,Dragón,800


In [None]:
# Muestra la columna "Poder" solo del "Unicornio" y la "Sirena".
# Sabemos que el unicornio es indice 1 y la sirena es indice 3
df.loc[[1, 3], "Poder"]
# los indices estan entre corchetes porque son una lista de indices y poder al ser solo 1 esta fuera

Unnamed: 0,Poder
1,Curación
3,Canto hipnótico


In [None]:
# en este ejemplo se ve que si seleccionamos mas de una columna, esta tambien debe ir entre corchetes
df.loc[[1, 3], ["Nombre", "Poder"]]

Unnamed: 0,Nombre,Poder
1,Unicornio,Curación
3,Sirena,Canto hipnótico


### 🎨 Ejercicio 5
#### Contesta estas preguntas:

* ¿Qué poder tiene la criatura más anciana?

* ¿Cuál es el color de la criatura más joven?

In [None]:
# Primero encontramos la criatura más anciana
anciana= df["Edad"].max() # obtienes el número máximo (por ejemplo, 800).
datos = df.loc[df["Edad"] == anciana, ['Nombre', 'Poder', 'Edad']] # filtra filas con esa edad y solo esas columnas
nombre = datos["Nombre"].iloc[0]
poder = datos["Poder"].iloc[0]
edad = datos["Edad"].iloc[0]
print(f'La criatura mas anciana es {nombre} con una edad de {edad} años y su poder es {poder}')

La criatura mas anciana es Dragón con una edad de 800 años y su poder es Fuego


In [None]:
# Seguimos con el color de la criatura mas joven

joven = df["Edad"].min() #obtenemos la edad de la criatura más joven

datos = df.loc[df["Edad"] == joven, ['Nombre', 'Edad', 'Color']] # filtramos filas con esa edad y solo las columnas que queremos
nombre = datos["Nombre"].iloc[0]
color = datos["Color"].iloc[0]
edad = datos["Edad"].iloc[0]
print(f'La criatura más joven es {nombre}, tiene una edad de {edad} años y su color es {color}')

La criatura más joven es Sirena, tiene una edad de 200 años y su color es Azul


## limpieza de datos reales

### ¡Hora de la parte emocionante! Vamos a aplicar lo aprendido a datos que se parecen más a los que encontrarás en el mundo real: con problemas.

### Usaremos otro dataset diferente de Criaturas mágicas registradas por aprendices desordenados

#### Es una tabla desordenada de seres mágicos y mitologicos, llena de errores, símbolos raros y valores faltantes.

In [5]:
import pandas as pd

datos_criaturas = {
    "Nombre": ["  Fénix", "UNicornio", "dragón ", "Sirena", "Pegaso", "Sirena", None],
    "Color": ["Rojo", "Blanco", "verde", "Azul", "Plateado", "Azul", "Dorado"],
    "Poder": ["Renacer", "Curación", None, "Canto hipnótico", "Vuelo", "Canto hipnótico", "Invisibilidad"],
    "Edad": [500, 300, 800, 200, "cuatrocientos", 200, None],
    "Peso": ["20kg", "15 KG", "35", "22 Kg", "500g", "22 kg", "n/a"]
}

df1 = pd.DataFrame(datos_criaturas)
df1


Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20kg
1,UNicornio,Blanco,Curación,300,15 KG
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22 Kg
4,Pegaso,Plateado,Vuelo,cuatrocientos,500g
5,Sirena,Azul,Canto hipnótico,200,22 kg
6,,Dorado,Invisibilidad,,


## Fase 1: Detección de caos
### 🧩 1. Valores faltantes (NaN)

In [6]:
df1.isnull() #devuelve true/false. donde true es faltante y false no no faltante
#detecta (NAN)

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,True,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,True,False,False,True,False


In [7]:
df1.isnull().sum()
# te dice cualtos valores faltan, directamente

Unnamed: 0,0
Nombre,1
Color,0
Poder,1
Edad,1
Peso,0


### 2. Duplicados

In [8]:
df1[df1.duplicated()] # busca duplicados pero no me devuelve nada porque lo que busca son filas exactamente iguales y aunque tengo duplicados, mis filas no son exactamente iguales

Unnamed: 0,Nombre,Color,Poder,Edad,Peso


In [9]:
df1[df1.duplicated()]
# no devuelve nada por lo mismo de antes

Unnamed: 0,Nombre,Color,Poder,Edad,Peso


### 3. Tipos de datos problemáticos

In [10]:
df1.dtypes
# podemos ver que las columnas problematicas a simples rasgos pueden ser edad y peso, aunque puede haber mas
# lee la explicacion abajo

Unnamed: 0,0
Nombre,object
Color,object
Poder,object
Edad,object
Peso,object


### Expliquemos un poco la anterior linea

#### En pandas, object generalmente significa:

**🔍 "Este dato es texto (string) o una mezcla de cosas raras que pandas no puede clasificar automáticamente."**

#### ¿Y por qué esto importa? Porque:
* "Edad" debería ser numérica, pero sale como object.
→ Significa que tiene algo que no es un número, como "cuatrocientos" o None.

* "Peso" también debería ser numérico, pero tiene "kg", "g", "n/a"...
→ Hay que limpiar y convertir esos valores.



## Fase 2: Tratar los valores nulos
### 🔧 Eliminar filas con valores faltantes:

In [11]:
df_limpio = df1.dropna()

### 🔧 Rellenar con un valor:

In [12]:
df1["Poder"].fillna("Desconocido")
# rellena los valores faltantes en la columna de poder con desconocido

Unnamed: 0,Poder
0,Renacer
1,Curación
2,Desconocido
3,Canto hipnótico
4,Vuelo
5,Canto hipnótico
6,Invisibilidad


In [13]:
# rellenamos edad con 0 en los valores faltantes
# abajo aclaro la viabilidad de esto
df1["Edad"].fillna(0)
df1

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20kg
1,UNicornio,Blanco,Curación,300,15 KG
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22 Kg
4,Pegaso,Plateado,Vuelo,cuatrocientos,500g
5,Sirena,Azul,Canto hipnótico,200,22 kg
6,,Dorado,Invisibilidad,,


### Lo que hace esta línea:

**df["Edad"].fillna(0, inplace=True)
Busca los valores faltantes (NaN) en la columna "Edad".**

#### Los rellena con el valor que le digas, en este caso 0.

Como usas inplace=True, modifica la columna directamente (aunque como vimos antes, es mejor no usar inplace).

### ¿Qué significa "rellenar con 0"?
**Donde antes no había dato, ahora habrá un cero.**

* Esto es útil cuando quieres que no haya valores vacíos y consideras que "0" es un valor lógico para tu análisis (por ejemplo, edad desconocida = 0).

### Alternativas para rellenar valores faltantes:
* Con un número fijo

* **df["Edad"] = df["Edad"].fillna(0)  # o con otro número que tenga sentido para ti
Con la media (promedio) de la columna**


* **media_edad = df["Edad"].mean()
df["Edad"] = df["Edad"].fillna(media_edad)
Con la mediana**


* **mediana_edad = df["Edad"].median()
df["Edad"] = df["Edad"].fillna(mediana_edad)
Con un valor personalizado o etiqueta (más común en columnas categóricas)**


* **df["Poder"] = df["Poder"].fillna("Desconocido")
¿Cuándo rellenar con 0 es buena idea?
Cuando el 0 tiene sentido en el contexto (ejemplo: "0 años", "0 peso", "0 veces").**
  * Si quieres evitar errores en operaciones matemáticas, y el 0 no distorsiona demasiado el análisis.

### ¿Es lógico rellenar con 0 en la columna Edad?
#### No siempre.
#### Poner 0 puede ser engañoso porque:

* 0 años puede significar un bebé recién nacido o un valor real.

#### Pero en muchos datasets, 0 solo indica “dato faltante” — y eso confunde los análisis estadísticos o modelos predictivos.

### ¿Qué hacen los expertos de élite?
#### Intentan entender por qué faltan datos:

* ¿Se perdió el dato por error?

* ¿Simplemente no se sabe la edad?

* ¿Se puede recuperar de otra columna o fuente?

#### Si no pueden recuperar el dato, eligen una estrategia apropiada:

* Rellenar con la mediana o media de la edad (para no sesgar mucho).

* Rellenar con un valor especial, como -1 o 9999, que el modelo puede aprender a interpretar como “desconocido”.

* Dejar el valor faltante (NaN) y usar técnicas que lo manejen directamente, como modelos que admiten valores faltantes.

* Crear una columna nueva binaria que indique “edad faltante” para que el modelo use esa info.

### Si se decide rellenar con la media hay que tener en cuenta:

* Ventajas de rellenar con la media:

  * Mantienes el dataset sin valores faltantes.

  * La media es un valor representativo, así que no distorsiona demasiado los datos.

  * Es simple y funciona bien para muchas situaciones.

* Desventajas:

  * Si hay muchos valores faltantes, rellenar con la media puede “suavizar” la variabilidad real.

  * No representa bien valores extremos o distribuciones sesgadas.

  * Pierdes información sobre que esos datos eran originalmente faltantes.



## Fase 3: Corregir tipos de datos
### 🧪 Convertir texto a número:

In [14]:
df1["Edad"] = pd.to_numeric(df1["Edad"], errors = "coerce")
df1

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500.0,20kg
1,UNicornio,Blanco,Curación,300.0,15 KG
2,dragón,verde,,800.0,35
3,Sirena,Azul,Canto hipnótico,200.0,22 Kg
4,Pegaso,Plateado,Vuelo,,500g
5,Sirena,Azul,Canto hipnótico,200.0,22 kg
6,,Dorado,Invisibilidad,,


### 🧪 Convertir texto a fecha (si tuvieras fechas):



In [15]:
# pd.to_datetime(df["fecha_columna"], errors="coerce")


## Fase 4: Limpieza de strings
### 🧼 Eliminar espacios raros, mayúsculas inconsistentes:

In [16]:
df1["Nombre"] = df1["Nombre"].str.strip().str.capitalize() # la primera en mayusculas
df1["Color"] = df1["Color"].str.strip().str.lower() # pone todas las strings en minusculas
df1

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,rojo,Renacer,500.0,20kg
1,Unicornio,blanco,Curación,300.0,15 KG
2,Dragón,verde,,800.0,35
3,Sirena,azul,Canto hipnótico,200.0,22 Kg
4,Pegaso,plateado,Vuelo,,500g
5,Sirena,azul,Canto hipnótico,200.0,22 kg
6,,dorado,Invisibilidad,,


### 🧼 Reemplazar símbolos raros:

In [17]:
# convertimos toda la columna peso a string
df1["Peso"] = df1["Peso"].astype(str)

# podemos ademas como extra eliminar los espacios para dejarlo mas pulido. esto se hace antes de los replace
df1["Peso"] = df1["Peso"].str.strip()

# aplicamos los reemplazos
df1["Peso"] = df1["Peso"].str.replace("kg", "", case=False)
df1["Peso"] = df1["Peso"].str.replace("g", "", case=False)
df1["Peso"] = df1["Peso"].str.replace("n/a", "0", case=False)
# convertimos a numerico
df1["Peso"] = pd.to_numeric(df1["Peso"], errors="coerce")
df1

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,rojo,Renacer,500.0,20
1,Unicornio,blanco,Curación,300.0,15
2,Dragón,verde,,800.0,35
3,Sirena,azul,Canto hipnótico,200.0,22
4,Pegaso,plateado,Vuelo,,500
5,Sirena,azul,Canto hipnótico,200.0,22
6,,dorado,Invisibilidad,,0


## ✨ Fase 5: Conjuros personalizados (apply() y funciones mágicas)
### 🔮 Función para categorizar por edad:

In [18]:
# con este arbol de condicionales, añadimos una columna nueva donde categorizamos por edad

def clasificar_edad(edad):
  if edad >= 600:
    return "Anciano"
  elif edad >= 300:
    return "Adulto"
  elif edad >= 100:
    return "Joven"
  else:
    return "Cachorro"
df1["Etapa"]= df1["Edad"].apply(clasificar_edad)
df1

Unnamed: 0,Nombre,Color,Poder,Edad,Peso,Etapa
0,Fénix,rojo,Renacer,500.0,20,Adulto
1,Unicornio,blanco,Curación,300.0,15,Adulto
2,Dragón,verde,,800.0,35,Anciano
3,Sirena,azul,Canto hipnótico,200.0,22,Joven
4,Pegaso,plateado,Vuelo,,500,Cachorro
5,Sirena,azul,Canto hipnótico,200.0,22,Joven
6,,dorado,Invisibilidad,,0,Cachorro


#🧪 EJERCICIOS PRÁCTICOS
## 🎯 Ejercicio 1:
### Detecta y cuenta los valores nulos. ¿Qué columnas tienen más caos?

In [19]:
# Como hice modificaciones en la tabla, para hacer los ejercicios la volvere a cargar y la llamare de otra manera
import pandas as pd

datos_criaturas = {
    "Nombre": ["  Fénix", "UNicornio", "dragón ", "Sirena", "Pegaso", "Sirena", None],
    "Color": ["Rojo", "Blanco", "verde", "Azul", "Plateado", "Azul", "Dorado"],
    "Poder": ["Renacer", "Curación", None, "Canto hipnótico", "Vuelo", "Canto hipnótico", "Invisibilidad"],
    "Edad": [500, 300, 800, 200, "cuatrocientos", 200, None],
    "Peso": ["20kg", "15 KG", "35", "22 Kg", "500g", "22 kg", "n/a"]
}

df2 = pd.DataFrame(datos_criaturas)
df2


Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20kg
1,UNicornio,Blanco,Curación,300,15 KG
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22 Kg
4,Pegaso,Plateado,Vuelo,cuatrocientos,500g
5,Sirena,Azul,Canto hipnótico,200,22 kg
6,,Dorado,Invisibilidad,,


In [20]:
'''
Vemos que las columnas con caos son nombre, poder y edad. todas tienen
el mismo numero de faltantes, 1 cada uno
'''
df2.isnull().sum()


Unnamed: 0,0
Nombre,1
Color,0
Poder,1
Edad,1
Peso,0


## 🎯 Ejercicio 2:
### Elimina o rellena los valores nulos como prefieras (inventa una regla mágica si quieres).

In [21]:
# como me deja elegir, usemos la logica
# hay una fila que no tiene el nombre pero ademas le faltan la edad y el peso y es la unica criatura que le falta el nombre, asi que la elimino
df2 = df2.drop(6)
df2

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20kg
1,UNicornio,Blanco,Curación,300,15 KG
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22 Kg
4,Pegaso,Plateado,Vuelo,cuatrocientos,500g
5,Sirena,Azul,Canto hipnótico,200,22 kg


In [22]:
# vemos que peso tiene letras, mezcla de mayusculas con minusculas, strings, asi que lo arreglo y lo paso todo a numero

# convertimos toda la columna peso a string
df2["Peso"] = df2["Peso"].astype(str)

# podemos ademas como extra eliminar los espacios para dejarlo mas pulido. esto se hace antes de los replace
df2["Peso"] = df2["Peso"].str.strip()

# aplicamos los reemplazos
df2["Peso"] = df2["Peso"].str.replace("kg", "", case=False)
df2["Peso"] = df2["Peso"].str.replace("g", "", case=False)
df2["Peso"] = df2["Peso"].str.replace("n/a", "0", case=False)
# convertimos a numerico
df2["Peso"] = pd.to_numeric(df2["Peso"], errors="coerce")
df2

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20
1,UNicornio,Blanco,Curación,300,15
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22
4,Pegaso,Plateado,Vuelo,cuatrocientos,500
5,Sirena,Azul,Canto hipnótico,200,22


In [23]:
# en edad veo un "cuatrocientos" y edad deberia ser todo numero asi que reemplazare ese "cuatrocientos" por 400
# lo siguiente, busca el texto exacto "cuatrocientos" y lo reemplaza por el número 400.
df2["Edad"] = df2["Edad"].replace("cuatrocientos", 400)
# inmediatamente despues hay que hacer lo siguiente
#pues le digo a pandas que Trata de ajustar los tipos de datos de forma inteligente, pero sin hacer una copia nueva.
df2["Edad"] = df2["Edad"].infer_objects(copy=False)
df2


  df2["Edad"] = df2["Edad"].replace("cuatrocientos", 400)


Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20
1,UNicornio,Blanco,Curación,300,15
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22
4,Pegaso,Plateado,Vuelo,400,500
5,Sirena,Azul,Canto hipnótico,200,22


In [24]:
# y ahora lo convertimos a tipo numerico por si acaso
df2["Edad"] = pd.to_numeric(df2["Edad"], errors="coerce")
df2


Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,Rojo,Renacer,500,20
1,UNicornio,Blanco,Curación,300,15
2,dragón,verde,,800,35
3,Sirena,Azul,Canto hipnótico,200,22
4,Pegaso,Plateado,Vuelo,400,500
5,Sirena,Azul,Canto hipnótico,200,22


In [25]:
# unificar mayusculas y minusculas para que no haya cosas raras
df2["Nombre"] = df2["Nombre"].str.strip().str.capitalize() # la primera en mayusculas
df2["Color"] = df2["Color"].str.strip().str.lower() # pone todas las strings en minusculas
df2

Unnamed: 0,Nombre,Color,Poder,Edad,Peso
0,Fénix,rojo,Renacer,500,20
1,Unicornio,blanco,Curación,300,15
2,Dragón,verde,,800,35
3,Sirena,azul,Canto hipnótico,200,22
4,Pegaso,plateado,Vuelo,400,500
5,Sirena,azul,Canto hipnótico,200,22


##🎯 Ejercicio 3:
### * Limpia las columnas "Nombre" y "Color":

### * Quita espacios.

### * Pon todo en minúsculas o mayúsculas consistentes.

### * Haz que todos los nombres estén bien escritos.

In [26]:
# Eso ya lo hice en el anterior asi que pasamos al siguiente ejercicio

## 🎯 Ejercicio 4:
### Convierte "Edad" en números. ¿Qué valor se convierte en NaN?

In [27]:
'''
eso tambien lo hice en el anterior, no en los ejercicios porque elimine esa fila
pero en las lecciones observe que al sustituir los nulos por 0 y pasarlo a numero
ahi el 0 se convertia en NAN
'''

'\neso tambien lo hice en el anterior, no en los ejercicios porque elimine esa fila\npero en las lecciones observe que al sustituir los nulos por 0 y pasarlo a numero\nahi el 0 se convertia en NAN\n'

## 🎯 Ejercicio 5:
### Limpia la columna "Peso" para dejar solo el número como float, sin "kg", "g", etc.

In [28]:
'''
Tambien lo hice en el paso de eliminar errores
'''

'\nTambien lo hice en el paso de eliminar errores\n'

## 🎯 Ejercicio 6:
### Agrega una nueva columna "Etapa" con apply() que clasifique a las criaturas como:

* "Anciano" si edad ≥ 600

* "Adulto" si ≥ 300

* "Joven" si ≥ 100

* "Cachorro" si < 100

In [29]:
# Esto es un arbol de condicionales para clasificar la edad
def clasificar_edad(edad):
    if edad >= 600:
        return "Anciano"
    elif edad >= 300:
        return "Adulto"
    elif edad >= 100:
        return "Joven"
    else:
        return "Cachorro"

  # en la siguiente linea lo que hacemos es aplicar las condicionales a la tabla como una columna más nueva

df2["Etapa"] = df2["Edad"].apply(clasificar_edad)
df2
# vemos que la nueva columna se ha formado


Unnamed: 0,Nombre,Color,Poder,Edad,Peso,Etapa
0,Fénix,rojo,Renacer,500,20,Adulto
1,Unicornio,blanco,Curación,300,15,Adulto
2,Dragón,verde,,800,35,Anciano
3,Sirena,azul,Canto hipnótico,200,22,Joven
4,Pegaso,plateado,Vuelo,400,500,Adulto
5,Sirena,azul,Canto hipnótico,200,22,Joven


## ¿Que hemos aprendido hoy?

### Hoy hemos aprendido a seleccionar filas y columnas completas con .iloc[ ] y hemos aprendido un poco más sobre la limpieza de datos y como limpiar más como un profecional.

#### Espero que estos apuntes te hayan servido igual que a mi y nos vemos en el Día 7 de nuestro estudio intensivo.