# Descripcion del dataset

Para describir un dataset como **"Cat in the Dat"**, seguiría estos pasos:

---

### 1. **Descripción General del Dataset**
El dataset **"Cat in the Dat"** es un conjunto de datos categóricos diseñado para un problema de clasificación binaria. El objetivo es predecir una **variable objetivo binaria (`target`)** basada en múltiples características categóricas. Este dataset es útil para explorar técnicas de preprocesamiento y codificación de datos categóricos.

---

### 2. **Objetivo del Dataset**
El objetivo principal es construir un modelo que prediga el valor de la variable `target` (0 o 1) utilizando las características categóricas proporcionadas. Este problema es típico en tareas de clasificación supervisada.

---

### 3. **Atributos del Dataset**
El dataset contiene las siguientes columnas:

- **`id`**: Identificador único para cada fila. No tiene relevancia para el análisis.
- **`target`**: Variable objetivo binaria (0 o 1). Es el atributo clase que queremos predecir.
- **Características categóricas**:
  - **Ordinales**: Variables categóricas con un orden lógico (por ejemplo, niveles educativos).
  - **Nominales**: Variables categóricas sin un orden lógico (por ejemplo, colores o nombres).
  - **Cíclicas**: Variables categóricas que tienen un patrón cíclico (por ejemplo, meses o días de la semana).

---

### 4. **Significado de los Atributos**
El significado exacto de las columnas puede variar dependiendo de la descripción oficial del dataset (si está disponible). Sin embargo, en general, las columnas categóricas representan diferentes tipos de datos categóricos que deben ser preprocesados antes de usarse en un modelo.

Ejemplo de atributos categóricos:
- **`bin_0`, `bin_1`, ...`bin_n`**: Variables binarias (0 o 1).
- **`nom_0`, `nom_1`, ...`nom_n`**: Variables nominales con múltiples categorías.
- **`ord_0`, `ord_1`, ...`ord_n`**: Variables ordinales con un orden lógico.
- **`day`, `month`**: Variables cíclicas que representan días y meses.

---

### 5. **Atributo Clase**
El atributo clase es **`target`**, que toma valores binarios:
- **0**: Clase negativa.
- **1**: Clase positiva.

Este es el atributo que queremos predecir utilizando las demás columnas como características.

---

### 6. **Exploración Inicial**
Para entender mejor el dataset, realizaría un análisis exploratorio inicial:

```python
import pandas as pd

# Cargar el dataset
df = pd.read_csv("train.csv")

# Información general del dataset
print(df.info())

# Resumen estadístico
print(df.describe(include="all"))

# Verificar valores únicos por columna
for col in df.columns:
    print(f"{col}: {df[col].nunique()} valores únicos")

# Visualizar las primeras filas
print(df.head())
```

---

### 7. **Conclusión**
El dataset **"Cat in the Dat"** es un excelente ejemplo para trabajar con datos categóricos. Su objetivo es predecir una variable binaria (`target`) utilizando una variedad de características categóricas que requieren diferentes técnicas de preprocesamiento, como codificación y manejo de valores faltantes.

# Importacion del dataset test

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv("test.csv")


## Limpieza inicial

In [3]:
#Llenado de datos faltantes de tipo float64 con la mediana
for col in df.select_dtypes(include=['float64']).columns:
    df[col].fillna(df[col].median(), inplace=True)

#Llenado de datos faltantes de tipo str con la moda
for col in df.select_dtypes(include=['object']).columns:
    df[col].fillna(df[col].mode()[0], inplace=True)


#Datos faltantes
datos_faltantes =df.isnull().sum()
print(datos_faltantes)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values

id       0
bin_0    0
bin_1    0
bin_2    0
bin_3    0
bin_4    0
nom_0    0
nom_1    0
nom_2    0
nom_3    0
nom_4    0
nom_5    0
nom_6    0
nom_7    0
nom_8    0
nom_9    0
ord_0    0
ord_1    0
ord_2    0
ord_3    0
ord_4    0
ord_5    0
day      0
month    0
dtype: int64


## Codificacion para las variables binarias


In [None]:
#Codificacion para las variables binarios 

## Codificicacion Nominal (One-Hot Encoding) - Test

In [4]:
from sklearn.preprocessing import OneHotEncoder

# Seleccionar columnas nominales
columnas_nominales = ['nom_0', 'nom_1', 'nom_2', 'nom_3', 'nom_4', 'nom_5', 'nom_6', 'nom_7', 'nom_8', 'nom_9']  

# Aplicar One-Hot Encoding
encoder = OneHotEncoder(sparse_output=False)
X_nominal_encoded = encoder.fit_transform(df[columnas_nominales])

# Crear un DataFrame con los nombres de las columnas codificadas
feature_names = encoder.get_feature_names_out(columnas_nominales)
X_nominal_encoded_df = pd.DataFrame(X_nominal_encoded, columns=feature_names)

print("\nCodificación One-Hot para variables nominales:")
print(X_nominal_encoded_df.head())


Codificación One-Hot para variables nominales:
   nom_0_Blue  nom_0_Green  nom_0_Red  nom_1_Circle  nom_1_Polygon  \
0         1.0          0.0        0.0           0.0            1.0   
1         0.0          0.0        1.0           1.0            0.0   
2         1.0          0.0        0.0           1.0            0.0   
3         0.0          0.0        1.0           0.0            1.0   
4         0.0          0.0        1.0           1.0            0.0   

   nom_1_Square  nom_1_Star  nom_1_Trapezoid  nom_1_Triangle  nom_2_Axolotl  \
0           0.0         0.0              0.0             0.0            1.0   
1           0.0         0.0              0.0             0.0            0.0   
2           0.0         0.0              0.0             0.0            1.0   
3           0.0         0.0              0.0             0.0            1.0   
4           0.0         0.0              0.0             0.0            0.0   

   ...  nom_9_fe7e11d45  nom_9_fe7fa8831  nom_9_fe9bdeef

## Codificacion Ordinal (Ordinal Encoding)

In [5]:
from sklearn.preprocessing import OrdinalEncoder

# Seleccionar columnas ordinales
columnas_ordinales = ['ord_0', 'ord_1', 'ord_2', 'ord_3', 'ord_4', 'ord_5']  
# Definir el orden lógico de las categorías (si aplica)

     


ordinal_encoder = OrdinalEncoder()  # Sin especificar categorías
X_ordinal_encoded = ordinal_encoder.fit_transform(df[columnas_ordinales])

# Crear un DataFrame con las columnas codificadas
X_ordinal_encoded_df = pd.DataFrame(X_ordinal_encoded, columns=columnas_ordinales)

print("\nCodificación Ordinal para variables ordinales:")
print(X_ordinal_encoded_df.head())


Codificación Ordinal para variables ordinales:
   ord_0  ord_1  ord_2  ord_3  ord_4  ord_5
0    2.0    4.0    0.0    5.0   20.0  146.0
1    0.0    4.0    1.0   13.0   13.0   21.0
2    0.0    1.0    5.0    8.0   13.0   12.0
3    0.0    1.0    3.0   12.0    1.0    0.0
4    0.0    0.0    4.0   14.0    9.0   14.0


## Codificacion de variables ciclicas

In [6]:
import numpy as np

# Transformar variables cíclicas
df['day_sin'] = np.sin(2 * np.pi * df['day'] / 7)  # Día de la semana (7 días)
df['day_cos'] = np.cos(2 * np.pi * df['day'] / 7)

df['month_sin'] = np.sin(2 * np.pi * df['month'] / 12)  # Mes del año (12 meses)
df['month_cos'] = np.cos(2 * np.pi * df['month'] / 12)

print("\nTransformación cíclica para variables 'day' y 'month':")
print(df[['day_sin', 'day_cos', 'month_sin', 'month_cos']].head())


Transformación cíclica para variables 'day' y 'month':
    day_sin   day_cos     month_sin     month_cos
0  0.433884 -0.900969 -1.000000e+00 -1.836970e-16
1  0.974928 -0.222521 -8.660254e-01 -5.000000e-01
2  0.974928 -0.222521  1.224647e-16 -1.000000e+00
3  0.781831  0.623490  1.224647e-16 -1.000000e+00
4  0.433884 -0.900969  1.000000e+00  6.123234e-17


## Combinar las transformaciones

In [13]:
# Combinar todas las transformaciones
df_final = pd.concat([X_nominal_encoded_df, X_ordinal_encoded_df, df[['day_sin', 'day_cos', 'month_sin', 'month_cos']]], axis=1)

print("\nDataset final después de las transformaciones:")
print(df_final.head())
type(df_final)


Dataset final después de las transformaciones:
   nom_0_Blue  nom_0_Green  nom_0_Red  nom_1_Circle  nom_1_Polygon  \
0         1.0          0.0        0.0           0.0            1.0   
1         0.0          0.0        1.0           1.0            0.0   
2         1.0          0.0        0.0           1.0            0.0   
3         0.0          0.0        1.0           0.0            1.0   
4         0.0          0.0        1.0           1.0            0.0   

   nom_1_Square  nom_1_Star  nom_1_Trapezoid  nom_1_Triangle  nom_2_Axolotl  \
0           0.0         0.0              0.0             0.0            1.0   
1           0.0         0.0              0.0             0.0            0.0   
2           0.0         0.0              0.0             0.0            1.0   
3           0.0         0.0              0.0             0.0            1.0   
4           0.0         0.0              0.0             0.0            0.0   

   ...  ord_0  ord_1  ord_2  ord_3  ord_4  ord_5   day_s

pandas.core.frame.DataFrame