# Día 2: Exploración de Datos (EDA) - Desvelando los Secretos de un Dataset

### En este segundo día de tu camino para convertirte en una científica de datos de élite, nos sumergiremos en una de las fases más cruciales del proceso: la Exploración de Datos (EDA). Comprender tus datos es el primer paso para desvelar insights poderosos y tomar decisiones informadas.

##🧭 OBJETIVOS DEL DÍA

### Hoy se aprenderá:

* Cómo cargar un dataset real desde un archivo .csv

* Cómo explorar y entender un dataset paso a paso

* Cómo detectar cosas interesantes o raras en los datos

* Cómo empezar a filtrar y hacer preguntas simples al dataset

### Todo esto con un dataset de criaturas mágicas y mitológicas 🐉🦄🧚

### Vamos a crear el dataset para ir trabajando en base a él y asi poder aprender exploración de fórma más práctica sin mucha complicación

In [1]:
import pandas as pd

datos = {
    "Nombre": ["Fénix", "Dragón", "Unicornio", "Quimera", "Hada", "Basilisco", "Pegaso", "Kraken", "Gólem", "Leviatán"],
    "Elemento": ["Fuego", "Fuego", "Luz", "Fuego", "Aire", "Oscuridad", "Aire", "Agua", "Tierra", "Agua"],
    "Origen": ["Egipto", "China", "Europa", "Grecia", "Bosque", "Leyenda", "Grecia", "Mitología nórdica", "Cábala", "Biblia"],
    "Poder": [95, 100, 85, 92, 60, 97, 80, 99, 70, 98],
    "Amistoso": [True, False, True, False, True, False, True, False, False, False],
    "Extinto": [True, False, False, True, False, True, False, False, False, True]
}

criaturas = pd.DataFrame(datos)
criaturas  # esta última linea es la que permite que se imprima la tabla, pues en notebooks como Google Colab o Jupyter, la última línea de una celda se muestra automáticamente como salida si es una variable o una función que devuelve algo.


Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
0,Fénix,Fuego,Egipto,95,True,True
1,Dragón,Fuego,China,100,False,False
2,Unicornio,Luz,Europa,85,True,False
3,Quimera,Fuego,Grecia,92,False,True
4,Hada,Aire,Bosque,60,True,False
5,Basilisco,Oscuridad,Leyenda,97,False,True
6,Pegaso,Aire,Grecia,80,True,False
7,Kraken,Agua,Mitología nórdica,99,False,False
8,Gólem,Tierra,Cábala,70,False,False
9,Leviatán,Agua,Biblia,98,False,True


## Paso 1:
### Cargar el dataset (en nuestro caso lo hemos creado anteriormente)

#### El primer paso fundamental en cualquier proyecto de ciencia de datos es cargar el conjunto de datos. Utilizaremos pandas para esta tarea. La función pd.read_csv() nos permite importar datos directamente desde un archivo CSV. Para obtener una vista preliminar rápida de la estructura del dataset y las primeras filas, emplearemos el método .head().

Como ya habias hecho el dataset previamente, la carga no tiene mucho sentido aqui pero la pongo, aunque la tenga que comentar para que no de error, para asi aprender como se cargan directamente desde el PC

In [2]:
# Importante, no cargues esta celda, te dará error porque el dataset no existe, a menos que lo crees antes tu mismo.

import pandas as pd  #esto carga pandas y lo abrevio como pd

# carga del dataset como archivo CSV
# criaturas = pd.read_csv("creaturas_magicas.csv")  # cargo el dataset llamado creaturas_magicas

# ver las primeras filas

criaturas.head()  # esto te muestra las 5 primeras filas del dataset con sus columnas

Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
0,Fénix,Fuego,Egipto,95,True,True
1,Dragón,Fuego,China,100,False,False
2,Unicornio,Luz,Europa,85,True,False
3,Quimera,Fuego,Grecia,92,False,True
4,Hada,Aire,Bosque,60,True,False


#### "¡Ah, mira qué bien! Las primeras filas ya nos dan una idea de qué tipo de columnas tenemos: el Nombre de la criatura, su Elemento, Origen... y hasta si son Amistosas.

## Exploremos un poco como un detective de datos
## Conocer los tipos de datos

In [4]:
# Esto nos indica el numero de filas y columnas que tiene el dataset
# El primer número es el número de filas y el segundo es el número de columnas

criaturas.shape

# Si ejecutamos la celda, veremos que tiene 10 filas (empieza desde el 0) y 6 columnas

(10, 6)

In [5]:
# Vamos a ver ahora que columnas tiene el dataset
# Con la siguiente expresion vemos los nombres de las columnas que lo componen

criaturas.columns

Index(['Nombre', 'Elemento', 'Origen', 'Poder', 'Amistoso', 'Extinto'], dtype='object')

#### Una vez cargado el dataset, es crucial inspeccionar la información general de sus columnas. El método .info() nos proporciona una visión concisa sobre:

+ El número total de entradas (filas).
+ El número de columnas y sus nombres.
+ La cantidad de valores no nulos por columna (indicador de posibles nulos).
+ El tipo de dato (dtype) inferido para cada columna (ej. int64, object, float64).

#### Esta información es vital para identificar posibles problemas de calidad de datos y planificar futuras transformaciones.

In [7]:
criaturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Nombre    10 non-null     object
 1   Elemento  10 non-null     object
 2   Origen    10 non-null     object
 3   Poder     10 non-null     int64 
 4   Amistoso  10 non-null     bool  
 5   Extinto   10 non-null     bool  
dtypes: bool(2), int64(1), object(3)
memory usage: 472.0+ bytes


#### ¡Qué alivio! Parece que no tenemos valores nulos en ninguna de las columnas, y los tipos de datos (object para texto, int64 para números) parecen correctos a primera vista. ¡Un buen punto de partida!"

#### Para obtener un resumen estadístico rápido de las columnas numéricas (y, en algunos casos, categóricas con ciertos parámetros), utilizamos el método .describe(). Este método es invaluable para:

+ Entender la distribución central y la dispersión de los datos.
+ Identificar posibles valores atípicos (outliers).
+ Confirmar rangos de valores esperados.
+ Proporciona métricas clave como: conteo, media, desviación estándar, valor mínimo, cuartiles (25%, 50% -mediana-, 75%) y valor máximo."
+ La mención de outliers y distribución central añade un toque más de análisis.

### Los datos que proporciona cuando los valores son númericos son:

* **count:** cantidad total de valores (número de criaturas)
* **mean:** promedio (media) del poder de todas las criaturas
* **std:** desviacion estándar(qué tanto se alejan los datos del promedio)
* **min:** el valor más bajo de poder
* **25%:** primer cuartil ( el 25% de las criaturas tiene poder menor o igual a este valor
* **50%:** mediana ( el valor del medio, la mitad tienen poder mayor, la otra mitad menor)
* **75%:** tercer cuartil (el 75% de las criaturas tiene poder menor o igual a este valor)
* **max:** el valor más alto de poder

### Cómo se interpretarian estos números?

#### Piensa que estás observando una "distribución" de poderes:

* La mayoría de criaturas tienen poderes altos, porque la media es 87.6.

* El mínimo (60) es mucho menor que la media, pero los valores cercanos al máximo son bastante frecuentes (por eso el 75% de las criaturas tienen ≤ 97.75).

* La desviación estándar (13.70) te dice que algunos valores están bastante alejados de la media. No todas las criaturas tienen un poder muy parecido.

viendolo de otra manera seria:

* Cuántos seres hay con poder medible (count)

* Cuánta magia tienen en promedio (mean)

* Qué tan variados son (std)

* Cuáles son los más y menos poderosos (min / max)

* Qué poder tienen los del medio (50%)

* cómo se reparten los menos poderosos (25%) y los más poderosos (75%)



## Estadistica descriptiva

In [8]:
# Esto informa de la media, minimo, máximo, desviación... de las columnas númericas, en este caso de poder porque es la única númerica de este dataset

criaturas.describe()

Unnamed: 0,Poder
count,10.0
mean,87.6
std,13.704825
min,60.0
25%,81.25
50%,93.5
75%,97.75
max,100.0


#### Interesante... Vemos que el Nivel de Poder varía bastante, desde un mínimo de 60 hasta un máximo de 100. La media es 87.6, lo que indica que hay una mezcla de criaturas, algunas muy poderosas y otras más modestas. Esto ya nos da una idea del tipo de desafíos que podríamos encontrar.

## Filtrado de datos

### Una de las habilidades más poderosas en la exploración de datos es la capacidad de filtrar el dataset para examinar subconjuntos específicos que cumplen ciertas condiciones. Esto nos permite responder preguntas concretas sobre nuestros datos. Por ejemplo, si queremos investigar solo las criaturas cuyo elemento principal es 'Fuego', aplicaríamos la siguiente lógica de filtrado:

In [9]:
criaturas[criaturas['Elemento'] == 'Fuego']

Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
0,Fénix,Fuego,Egipto,95,True,True
1,Dragón,Fuego,China,100,False,False
3,Quimera,Fuego,Grecia,92,False,True


#### ¡Magia! Aquí tenemos solo a las criaturas de fuego. ¡Qué rápido podemos encontrar lo que buscamos! Esto es súper útil si solo queremos estudiar a un grupo específico de criaturas.

### ¿Cuáles criaturas son amistosas?

In [None]:
# Devuelve solo las criaturas que puedes abrazar sin morir

criaturas[criaturas["Amistoso"] == True]

Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
0,Fénix,Fuego,Egipto,95,True,True
2,Unicornio,Luz,Europa,85,True,False
4,Hada,Aire,Bosque,60,True,False
6,Pegaso,Aire,Grecia,80,True,False


### ¿Qué criaturas son más poderosas de lo normal?

In [None]:
# Muestra las criaturas que tienen un poder por encima del promedio.

criaturas[criaturas["Poder"] > criaturas["Poder"].mean()]

Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
0,Fénix,Fuego,Egipto,95,True,True
1,Dragón,Fuego,China,100,False,False
3,Quimera,Fuego,Grecia,92,False,True
5,Basilisco,Oscuridad,Leyenda,97,False,True
7,Kraken,Agua,Mitología nórdica,99,False,False
9,Leviatán,Agua,Biblia,98,False,True


### ¿Qué criaturas son de elemento "Agua"?

In [None]:
# Filtro por valor exacto en una columna.

criaturas[criaturas["Elemento"] == "Agua"]

Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
7,Kraken,Agua,Mitología nórdica,99,False,False
9,Leviatán,Agua,Biblia,98,False,True


## Ejercicios para practicar.
### Si estos apuntes llegaron a ti, te invito a que los resuelvas por tu cuenta antes de mirar el resultado. Todos estan resueltos porque al principio estos apuntes tenian la finalidad de que yo ( la creadora de los mismos), aprendiera pero si tu estas en ese camino de aprendizaje y quieres coger las riendas de tu aprendizaje, lee sólo el enunciado, intenta resolverlos tu y luego puedes mirar la solución. No tengo forma de impedir que lo mires antes pero deberias ser honesto con tu aprendizaje.

## 🎨 EJERCICIO 1: “La orden secreta del análisis mágico”

### Imagina que tú eres parte de una orden secreta de científicas que estudian criaturas mágicas.

### Tu misión:

1.  Carga el dataset. (como no se puede y no lo copiaremos otra vez, basta con ejecutar la celda del dataset)

2.  Haz una tabla con todas las criaturas amistosas y con poder mayor de 70.

3.  Escribe al lado (en celda de texto) un informe corto como si fueras una exploradora de campo:

* ¿Cuántas criaturas cumplen las condiciones?

* ¿Qué elementos dominan?

* ¿Cuál es la criatura más poderosa entre ellas?

In [None]:
criaturas[(criaturas["Amistoso"]) & (criaturas["Poder"]> 70)]

# 3 criaturas cumplen las condiciones
# Los elementos que dominan son fuego, luz y aire
# entre ellas, la criatura más poderosa es el fenix

Unnamed: 0,Nombre,Elemento,Origen,Poder,Amistoso,Extinto
0,Fénix,Fuego,Egipto,95,True,True
2,Unicornio,Luz,Europa,85,True,False
6,Pegaso,Aire,Grecia,80,True,False


### Lee esto solo cuando lo intentes resolver

si te ha pasado lo mismo que yo y has intentado resolver Haz una tabla con todas las criaturas amistosas y con poder mayor de 70.
asi: criaturas[criaturas["Amistoso"] & criaturas["Poder"]> 70]
te faltan parentesis y deberia ser asi:
criaturas[(criaturas["Amistoso"]) & (criaturas["Poder"]> 70)]

esto es porque en Python, el operador & tiene prioridad menor que == y >, así que sin paréntesis, pandas se confunde sobre qué operaciones estás tratando de combinar, y lanza un error.
sin el parentesis lo interpreta como:
True & criaturas["Poder"]
y eso no tiene sentido, por eso lanza el error.

### Siempre que combines condiciones en pandas con:
* & (AND)

* | (OR)

* ~ (NOT)
### ¡Pon cada condición entre paréntesis!

## 🪄 EJERCICIO 2: “Ficha mágica personalizada”
1. Elige una criatura del dataset (la que más te guste).

2. Crea una ficha mágica usando Markdown en Colab, con esta info:

## 🐉 Ficha Mágica: Nombre de la Criatura

- **Elemento**: ...
- **Origen**: ...
- **Nivel de poder**: ...
- **Amistoso**: Sí / No

> Esta criatura es conocida por...


In [None]:
# Para que no se complique 1º extraigo la fila que me interesa de la tabla y asi tengo acceso mas facilmente a los datos
#esto me da la 2ª fila porque iloc empieza a contar desde 0
# Me devuelve toda la fila como una Serie de pandas
criaturas.iloc[1]
# si lo hiciera asi: criaturas.iloc[[1]], me devuelve un dataframe de una fila y no una Serie como la otra.


Unnamed: 0,1
Nombre,Dragón
Elemento,Fuego
Origen,China
Poder,100
Amistoso,False
Extinto,False


#### ¡Aquí está nuestro majestuoso Dragón! Ver su información así, de arriba a abajo, es mucho más fácil. Un buen truco para cuando tienes muchas columnas y quieres ver una criatura en detalle.

In [None]:
# Si quiero conseguir la fila extrayendola por etiqueta de indice seria:

criaturas.loc[1]

# Este busca la fila cuyo indice es 1 (puede coincidir con .iloc[1] si no cambiaste el indice)

Unnamed: 0,1
Nombre,Dragón
Elemento,Fuego
Origen,China
Poder,100
Amistoso,False
Extinto,False


## 🐉 Ficha Mágica: Dragón

- **Elemento**: Fuego
- **Origen**: china
- **Nivel de poder**: 100
- **Amistoso**: No
- **Extinto**: No

> Esta criatura es conocida por ser como un rectil que vuela, los hay de muchos colores y formas y tamaños, pero suelen ser grandes, y escupir fuego. aunque tambien hay otras variantes.
muchas veces su color tambien denota su fiereza y la dificultad para atraparlo y domesticarlo (si se puede)


##✨ Reflexiones del Día 2: ¡Poder Mágico en los Datos!

  ### ¡Increíble! Hoy hemos dado pasos sólidos en la **Exploración de Datos**. Hemos aprendido a cargar nuestro dataset, entender sus tipos de datos, ver un resumen estadístico rápido y, lo más divertido, ¡a buscar criaturas específicas filtrando los datos!

  ### Esto es como aprender a leer el mapa y la brújula antes de emprender un gran viaje. Cada pequeña inspección nos da pistas valiosas.

  #### **¿Y ahora qué?** ¡Pues la aventura continúa! ¡Nos vemos en el próximo hechizo de datos!