# Bases de Datos III - Tarea Nº2 (20%)

## 1. DescripciónDataSet

### 1.1 Explicación del Dataset

El dataset proporcionado encapsula información detallada sobre Pokémon, criaturas ficticias de una popular franquicia que incluye videojuegos, animaciones, películas, entre otros. La meta principal en este contexto es emplear técnicas de aprendizaje automático, específicamente de clasificación, para predecir si un Pokémon es legendario o no, basándonos en una serie de características o variables proporcionadas. La clasificación en aprendizaje automático se refiere a un problema de modelado predictivo donde se busca predecir una etiqueta de clase para los datos de entrada, en este caso, la etiqueta es "Legendary".

### 1.2 Descripción de las Variables

1. **#**: Es el número de identificación único para cada Pokémon.
2. **Name**: El nombre del Pokémon.
3. **Type 1**: El tipo principal del Pokémon, que define algunas de sus fortalezas y debilidades en batallas.
4. **Type 2**: El tipo secundario del Pokémon, que también influye en sus fortalezas y debilidades. Algunos Pokémon pueden no tener un tipo secundario
5. **Total**: La suma de todas las estadísticas del Pokémon, proporcionando una medida general de su fuerza.
6. **HP (Hit Points)**: Los puntos de vida del Pokémon, que determinan cuánto daño puede recibir antes de ser derrotado.
7. **Attack**: La estadística de ataque del Pokémon, que influye en el daño que puede infligir con movimientos físicos.
8. **Defense**: La estadística de defensa del Pokémon, que influye en el daño que recibe de movimientos físicos.
9. **Sp. Atk (Special Attack)**: La estadística de ataque especial del Pokémon, que influye en el daño que puede infligir con movimientos especiales.
10. **Sp. Def (Special Defense)**: La estadística de defensa especial del Pokémon, que influye en el daño que recibe de movimientos especiales.
11. **Speed**: La velocidad del Pokémon, que determina qué tan rápido puede actuar en batallas.
12. **Generation**: La generación del videojuego a la que pertenece el Pokémon.
13. **Legendary**: Una etiqueta que indica si el Pokémon es legendario o no.


### 1.3 Información Adicional del Dataset

In [27]:
import pandas as pd

# Cargar CSV 
pokemon_df = pd.read_csv("./data/Pokemon.csv")

# Obtener información general sobre el dataset
info = pokemon_df.info()

# Obtener estadísticas descriptivas para las columnas numéricas
describe = pokemon_df.describe()

# Obtener el tamaño del dataset (número de filas y columnas)
shape = pokemon_df.shape

# Obtener la cantidad de valores únicos en cada columna
unique_counts = pokemon_df.nunique()

# Mostrar la información
print("Información General del Dataset:")
print(info)
print("\nEstadísticas Descriptivas:")
print(describe)
print(f"\nTamaño del Dataset: {shape[0]} filas, {shape[1]} columnas")
print(f"\nCantidad de Valores Únicos en cada Columna:\n{unique_counts}")


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1058 entries, 0 to 1057
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           1058 non-null   int64 
 1   Name        1058 non-null   object
 2   Type 1      1058 non-null   object
 3   Type 2      573 non-null    object
 4   Total       1058 non-null   int64 
 5   HP          1058 non-null   int64 
 6   Attack      1058 non-null   int64 
 7   Defense     1058 non-null   int64 
 8   Sp. Atk     1058 non-null   int64 
 9   Sp. Def     1058 non-null   int64 
 10  Speed       1058 non-null   int64 
 11  Generation  1058 non-null   int64 
 12  Legendary   1058 non-null   bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 100.3+ KB
Información General del Dataset:

Estadísticas Descriptivas:

Tamaño del Dataset: 1058 filas, 13 columnas

Cantidad de Valores Únicos en cada Columna:
#              905
Name          1055
Type 1          18
Type 2          18
Total

## 2. Carga del Dataset

### 2.1 Importacion del dataset

In [22]:
import pandas as pd

# Cargar CSV 
pokemon_df = pd.read_csv("./data/Pokemon.csv")
print("Primeros registros de Pokemon.csv")
pokemon_df.head()

Primeros registros de Pokemon.csv


Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


### 2.2 Tratamiento de las variables categóricas

In [23]:
import pandas as pd

# Para la columna 'Legendary', convertir False a 0 y True a 1
pokemon_df['Legendary'] = pokemon_df['Legendary'].astype(int)

# Aplicar la codificación One-Hot a las columnas 'Type 1' y 'Type 2'
# Esto creará nuevas columnas binarias para cada tipo en 'Type 1' y 'Type 2'
pokemon_df = pd.get_dummies(pokemon_df, columns=['Type 1', 'Type 2'], dtype=int)

# Mostrar el DataFrame transformado
pd.set_option('display.max_columns', None) 
pokemon_df.head()


Unnamed: 0,#,Name,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Type 1_Bug,Type 1_Dark,Type 1_Dragon,Type 1_Electric,Type 1_Fairy,Type 1_Fighting,Type 1_Fire,Type 1_Flying,Type 1_Ghost,Type 1_Grass,Type 1_Ground,Type 1_Ice,Type 1_Normal,Type 1_Poison,Type 1_Psychic,Type 1_Rock,Type 1_Steel,Type 1_Water,Type 2_Bug,Type 2_Dark,Type 2_Dragon,Type 2_Electric,Type 2_Fairy,Type 2_Fighting,Type 2_Fire,Type 2_Flying,Type 2_Ghost,Type 2_Grass,Type 2_Ground,Type 2_Ice,Type 2_Normal,Type 2_Poison,Type 2_Psychic,Type 2_Rock,Type 2_Steel,Type 2_Water
0,1,Bulbasaur,318,45,49,49,65,65,45,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
1,2,Ivysaur,405,60,62,63,80,80,60,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
2,3,Venusaur,525,80,82,83,100,100,80,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
3,3,VenusaurMega Venusaur,625,80,100,123,122,120,80,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
4,4,Charmander,309,39,52,43,60,50,65,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [4]:
# Identificar valores nulos
print(pokemon_df.isnull().sum())


#                  0
Name               0
Total              0
HP                 0
Attack             0
Defense            0
Sp. Atk            0
Sp. Def            0
Speed              0
Generation         0
Legendary          0
Type 1_Bug         0
Type 1_Dark        0
Type 1_Dragon      0
Type 1_Electric    0
Type 1_Fairy       0
Type 1_Fighting    0
Type 1_Fire        0
Type 1_Flying      0
Type 1_Ghost       0
Type 1_Grass       0
Type 1_Ground      0
Type 1_Ice         0
Type 1_Normal      0
Type 1_Poison      0
Type 1_Psychic     0
Type 1_Rock        0
Type 1_Steel       0
Type 1_Water       0
Type 2_Bug         0
Type 2_Dark        0
Type 2_Dragon      0
Type 2_Electric    0
Type 2_Fairy       0
Type 2_Fighting    0
Type 2_Fire        0
Type 2_Flying      0
Type 2_Ghost       0
Type 2_Grass       0
Type 2_Ground      0
Type 2_Ice         0
Type 2_Normal      0
Type 2_Poison      0
Type 2_Psychic     0
Type 2_Rock        0
Type 2_Steel       0
Type 2_Water       0
dtype: int64


## 3. Primer análisis de Clasificación

## 4. Segundo análisis de Clasificación

## 5. Tercer análisis de Clasificación

## 6. Conclusiones

## 7. Predicciones