# Día 4: Exploración Creativa de Datos con Pandas.

## Objetivos del día

1. Entender cómo ver partes específicas de un dataset (filtrado y selección).

2. Aprender a entender mejor un dataset observando estadísticas básicas.

3. Practicar con un dataset interesante (vamos a usar uno de animales 🐾).

4. Crear un pequeño reto mágico para aplicar lo aprendido.

## 🐼 Recordatorio rápido: ¿qué es pandas?
### **pandas es una biblioteca de Python** que nos permite trabajar con datos como si fueran una hoja de cálculo mágica. Podemos mirar columnas, filas, hacer preguntas como “¿cuáles son los animales más grandes?” y mucho más.

## 🔮 Dataset del día: “Animales Fantásticos”
### Vamos a trabajar con un mini dataset que es parte del Ministerio de Criaturas Mitológicas y Fantásticas. Aquí tienes un ejemplo:

|nombre	| tipo	| peligroso	| peso_kg	| habitat  |
|:-----:|:-----:|:---------:|:-------:|:--------:|
|Niffler	|criatura mágica	|No	|12	|bosques     |
|Dragón |Galés Verde	dragón|	Sí|	2500|	montañas|
|Demiguise|	criatura mágica	|No	|45	|selvas  |
|Basilisco|	serpiente mágica|	Sí|	750|	cámaras |
|Fénix	| ave mágica	| No	|40	| desiertos  |

## 🧰 PASO 1: Crear el DataFrame e importar librerías

comenzamos importando Pandas y creando el DataFrame a partir de un diccionario

In [1]:
import pandas as pd

datos ={
    'Nombre': ['Niffler', 'Dragón Galés Verde', 'Demiguise', 'Basilisco', 'Fénix'],
    'Tipo': ['criatura mágica', 'dragón', 'criatura mágica', 'serpiente mágica','ave mágica'],
    'Peligroso': ['No', 'Sí', 'No', 'Sí', 'No'],
    'Peso_kg': [12, 2500, 45, 750, 40],
    'Habitat': ['bosques', 'montañas', 'selvas', 'cámaras', 'desiertos']

}

df = pd.DataFrame(datos)
df


Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
0,Niffler,criatura mágica,No,12,bosques
1,Dragón Galés Verde,dragón,Sí,2500,montañas
2,Demiguise,criatura mágica,No,45,selvas
3,Basilisco,serpiente mágica,Sí,750,cámaras
4,Fénix,ave mágica,No,40,desiertos


### Selección de Datos: Columnas Específicas

### Podemos seleccionar una o varias columnas de un DataFrame.

#### Seleccionar una columna:

In [2]:
# Esto te muestra solo los nombres de los animales

df['Nombre']

Unnamed: 0,Nombre
0,Niffler
1,Dragón Galés Verde
2,Demiguise
3,Basilisco
4,Fénix


#### Seleccionar múltiples columnas:

In [3]:
# Esto te muestra varias columnas

df[['Nombre', 'Tipo']]

Unnamed: 0,Nombre,Tipo
0,Niffler,criatura mágica
1,Dragón Galés Verde,dragón
2,Demiguise,criatura mágica
3,Basilisco,serpiente mágica
4,Fénix,ave mágica



## 🪄 EJERCICIOS CREATIVOS
1. Muestra solo la columna de peso_kg.

2. Muestra los nombre y habitat.

3. ¿Puedes crear un DataFrame solo con los nombres y si son peligrosos?



In [4]:
# columna de peso_kg

df['Peso_kg']

Unnamed: 0,Peso_kg
0,12
1,2500
2,45
3,750
4,40


In [5]:
# columnas de nombre y habitat

df[['Nombre', 'Habitat']]

Unnamed: 0,Nombre,Habitat
0,Niffler,bosques
1,Dragón Galés Verde,montañas
2,Demiguise,selvas
3,Basilisco,cámaras
4,Fénix,desiertos


In [6]:
# columnas de nombres de los monstruos y si son peligrosos

df[['Nombre', 'Peligroso']]

Unnamed: 0,Nombre,Peligroso
0,Niffler,No
1,Dragón Galés Verde,Sí
2,Demiguise,No
3,Basilisco,Sí
4,Fénix,No


## Filtrado de Datos: Encontrando lo que Buscamos
### El filtrado nos permite seleccionar filas que cumplen ciertas condiciones.

#### Filtrar por una condición:

In [7]:
# Esto te muestra solo los animales peligrosos

df[df['Peligroso'] == 'Sí']

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
1,Dragón Galés Verde,dragón,Sí,2500,montañas
3,Basilisco,serpiente mágica,Sí,750,cámaras


In [8]:
# Esto te da los animales que pesan más de 100kg

df[df['Peso_kg'] > 100]

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
1,Dragón Galés Verde,dragón,Sí,2500,montañas
3,Basilisco,serpiente mágica,Sí,750,cámaras


## 🐉 EJERCICIOS MÁGICOS
1. Filtra solo los animales no peligrosos.

2. Filtra los animales que vivan en bosques.

3. Filtra los animales que pesen menos de 50 kg.

In [9]:
# Filtrar sólo los animales no peligrosos

df[df['Peligroso'] == 'No']

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
0,Niffler,criatura mágica,No,12,bosques
2,Demiguise,criatura mágica,No,45,selvas
4,Fénix,ave mágica,No,40,desiertos


In [10]:
# Filtrar los animales que vivan en el bosque

df[df['Habitat'] == 'bosques']

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
0,Niffler,criatura mágica,No,12,bosques


In [11]:
# Animales que pesan menos de 50 kg

df[df['Peso_kg'] < 50]

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
0,Niffler,criatura mágica,No,12,bosques
2,Demiguise,criatura mágica,No,45,selvas
4,Fénix,ave mágica,No,40,desiertos


## 📈 PASO 4: Estadísticas básicas
#### ¿Quieres saber cuánto pesan en promedio las criaturas?

In [12]:
df['Peso_kg'].mean()

np.float64(669.4)

### En el código anterior nos esta diciendo que el promedio son 669.4
Pero lo esta diciendo de forma un poco más técnica, **float64 ** significa **"número decimal con 64 bits de precisión"**.

Es un tipo de dato usado por NumPy, que es una biblioteca matemática que pandas usa por dentro.

np.float64(669.4) no es distinto de 669.4 en la práctica, solo es una forma más técnica de decirlo.

### Si lo quisieramos como un número mas normal, seria:

In [13]:
# La salida de esto será lo mismo pero de forma más normal y menos técnica

float(df['Peso_kg'].mean())

669.4

In [14]:
# Esto dará lo mismo que los anteriores pero de forma aún más simple y redondeada

round(df['Peso_kg'].mean(), 2)  # El 2 especifica que se redondee a 2 decimales

np.float64(669.4)

In [15]:
# Tambien se puede hacer más bonito con un mensaje

promedio = df['Peso_kg'].mean()
print(f'El peso promedio de las criaturas mágicas es de {round(promedio, 2)} kg.')

El peso promedio de las criaturas mágicas es de 669.4 kg.


In [16]:
# De esta manera se pueden ver muchos datos a la vez:

df.describe()

Unnamed: 0,Peso_kg
count,5.0
mean,669.4
std,1069.554487
min,12.0
25%,40.0
50%,45.0
75%,750.0
max,2500.0


### El método describe() solo nos ha enseñado las estadisticas de la columna Peso_kg,
#### eso es ni mas ni menos porque es la única columna númerica de la tabla.
#### Si quisieramos hacer las estadisticas de las otras columnas ( teniendo en cuenta que no son númericas pero aún así queriendo hacerlas) seria una expresión un poco más complicada tipo asi:

In [17]:
df.describe(include = 'object')
# Se pone 'object' porque queremos las estadisticas de las columnas no numéricas

Unnamed: 0,Nombre,Tipo,Peligroso,Habitat
count,5,5,5,5
unique,5,4,2,5
top,Niffler,criatura mágica,No,bosques
freq,1,2,3,1


### Explicamos un poco el resultado visto
* **count:** total de valores (5 en cada columna
* **unique:** cuántos distintos hay
* **top:** cuál se repite más
* **freq:** cuántas veces se repite el valor más común

## Hagamos unos ejercicios

1. ¿Cuál es el animal más pesado?

2. ¿Cuál es el más liviano?

3. ¿Cuál es el peso promedio?

In [18]:
# Animal más pesado

df[df['Peso_kg'] == df['Peso_kg'].max()]

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
1,Dragón Galés Verde,dragón,Sí,2500,montañas


In [19]:
# Animal más liviano

df[df['Peso_kg'] == df['Peso_kg'].min()]

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
0,Niffler,criatura mágica,No,12,bosques


In [20]:
# Peso promedio
df['Peso_kg'].mean()

# Animales con peso menor que el promedio

menores = df[df['Peso_kg'] < df['Peso_kg'].mean()]

# Animales con peso mayor que el promedio

mayores = df[df['Peso_kg'] > df['Peso_kg'].mean()]

print(f'Las criaturas más pequeñas son: {menores["Nombre"]}')
print(f'Las criaturas más grandes son: {mayores["Nombre"]}')

Las criaturas más pequeñas son: 0      Niffler
2    Demiguise
4        Fénix
Name: Nombre, dtype: object
Las criaturas más grandes son: 1    Dragón Galés Verde
3             Basilisco
Name: Nombre, dtype: object


### El resultado queda asi de feo porque cuando imprimes una Serie o DataFrame directamente, Python muestra todo ese formato con índice, nombre de columna y tipo, que no queda muy "bonito" para mostrar a alguien.

#### Para que quede más limpio y fácil de leer, convierte esa Serie en una lista y luego en un texto amigable

In [21]:
# Una forma es mostrando una lista simple

print(f'Las criaturas más pequeñas son: {menores["Nombre"].tolist()}')
print(f'Las criaturas más grandes son: {mayores["Nombre"].tolist()}')

Las criaturas más pequeñas son: ['Niffler', 'Demiguise', 'Fénix']
Las criaturas más grandes son: ['Dragón Galés Verde', 'Basilisco']


In [22]:
# Otra forma es mostrar los nombres separados por comas sin corchetes

print(f'Las criaturas más pequeñas son: {",".join(menores["Nombre"].tolist())}')
print(f'Las criaturas más grandes son: {",".join(mayores["Nombre"].tolist())}')

Las criaturas más pequeñas son: Niffler,Demiguise,Fénix
Las criaturas más grandes son: Dragón Galés Verde,Basilisco


In [23]:
# Crea un nuevo DataFrame que tenga solo los animales no peligrosos y que pesen menos de 50 kg.

inofensivos = df[(df['Peligroso'] == 'No') & (df['Peso_kg'] < 50)]
print(f'Las criaturas que no son peligrosas y que pesan menos de 50 kg son: {inofensivos[["Nombre", "Habitat"]].to_string(index=False)}')

Las criaturas que no son peligrosas y que pesan menos de 50 kg son:    Nombre   Habitat
  Niffler   bosques
Demiguise    selvas
    Fénix desiertos


### 🌟 EXTRA (si te animas)
1. Agrega una nueva criatura al DataFrame original

In [24]:
nuevo = pd.DataFrame([{
    'Nombre': 'Bowtruckle',
    'Tipo': 'guardabosques vegetal',
    'Peligroso': 'No',
    'Peso_kg': 0.3,
    'Habitat': 'bosques'
}])

df = pd.concat([df, nuevo], ignore_index=True)
df

Unnamed: 0,Nombre,Tipo,Peligroso,Peso_kg,Habitat
0,Niffler,criatura mágica,No,12.0,bosques
1,Dragón Galés Verde,dragón,Sí,2500.0,montañas
2,Demiguise,criatura mágica,No,45.0,selvas
3,Basilisco,serpiente mágica,Sí,750.0,cámaras
4,Fénix,ave mágica,No,40.0,desiertos
5,Bowtruckle,guardabosques vegetal,No,0.3,bosques


#### Si al crear columnas nuevas, creas más de una columna por error, esto se arregla de la siguiente manera

In [25]:
# df.drop('Peigroso', axis=1)
# el axis=1 indica a Pandas que quiero eliminar columnas y no filas, no modifica el original, solo hace una copia
# si da error al ejecutarla seguramente es porque ya esta corregido, igual viene bien saberlo

In [26]:
# elminar y guardar el resultado (recuerda que el copia)
#df = df.drop('NombreDeLaColumna', axis=1)

In [27]:
# Con inplace=True, modificas df directamente, no necesitas volver a asignarlo.

# df.drop('NombreDeLaColumna', axis=1, inplace=True)


### Tip de seguridad
Antes de borrar algo definitivamente, a veces es mejor probarlo sin inplace=True y mirar el resultado. ¡No sea cosa que borres tu dragón favorito sin querer! 🐉

## ya terminada la leccion, hagamos unos ejercicios mas de estadistica para practicar un poco más

### 1. ¿Cuál es el peso total de todas las criaturas?

In [28]:
df['Peso_kg'].sum()

np.float64(3347.3)

In [29]:
# para mostrarlo mas claro era:
Suma = float(df['Peso_kg'].sum())
print(f'El peso total de todas las criaturas es de {Suma} kg.')

El peso total de todas las criaturas es de 3347.3 kg.


### 2. ¿Qué criatura es la más pesada y cuánto pesa?

In [30]:
maximo = df.loc[df['Peso_kg'] == df['Peso_kg'].max()]
nombre = maximo['Nombre'].iloc[0]
peso = maximo['Peso_kg'].iloc[0]
print(f"La criatura más pesada es {nombre}, con {peso} kg")

La criatura más pesada es Dragón Galés Verde, con 2500.0 kg


In [31]:
# Esto es otra forma de hacerlo, todo en una linea
print(f"La criatura más pesada es {df.loc[df['Peso_kg'] == df['Peso_kg'].max(), 'Nombre'].values[0]}, con {df['Peso_kg'].max()} kg.")


La criatura más pesada es Dragón Galés Verde, con 2500.0 kg.


### 3. ¿Qué criatura es la más liviana y cuánto pesa?

In [32]:
minimo = df.loc[df['Peso_kg'] == df['Peso_kg'].min()]
nombre = minimo['Nombre'].iloc[0]
peso = minimo['Peso_kg'].iloc[0]
print(f"La criatura más liviana es {nombre}, con un peso de {peso} kg")

La criatura más liviana es Bowtruckle, con un peso de 0.3 kg


### 4. ¿Cuántas criaturas pesan más que el promedio?

In [33]:
promedio = df['Peso_kg'].mean()
tabla = df[df['Peso_kg'] > promedio]
medida = tabla.shape[0]
print(medida)

2


## Conclusión del Día 4:

#### ¡Excelente trabajo! Hoy hemos aprendido:
 + seleccionar y filtrar datos en Pandas, lo que es fundamental para cualquier análisis.

 + Hemos practicado cómo extraer insights de un dataset haciendo preguntas y utilizando las funciones de Pandas.

 #### Sigue explorando y experimentando con diferentes datasets para fortalecer estas habilidades.