<a href="https://colab.research.google.com/github/JheanmarcoOscanoa/Laboratorio-N-03/blob/main/Laboratorio_N%C2%B03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ARQUITECTURA DE UN DATA WAREHOUSE. CARGA Y MANTENIMIENTO. CUBOS DE DATOS

 Integrantes:

 * OSCANOA VARGAS Jheanmarco Deivis  

 * TRUJILLO TELLO Fiorella Yanina

Evaluación de Autos

Este informe muestra el tratamiento de datos categóricos a partir de una base de datos del repositorio UCI Machine Learning Repository. El objetivo es realizar una exploración, limpieza, transformación y exportación de datos usando Python.

## 1. Importación de librerías necesarias
Importamos `pandas` para manipular los datos y `numpy` para operaciones sobre arreglos.

In [None]:
import pandas as pd
import numpy as np

## 2. Carga del conjunto de datos
Cargamos el archivo directamente desde el repositorio UCI. Definimos los nombres de las columnas según la descripción oficial del dataset.

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data'
columnas = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']
df = pd.read_csv(url, names=columnas)
df.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


## 3. Tipos de datos por atributo
Es importante conocer los tipos de datos de cada columna para aplicar correctamente transformaciones.

In [None]:
df.dtypes

buying      object
maint       object
doors       object
persons     object
lug_boot    object
safety      object
class       object
dtype: object

## 4. Valores únicos por atributo
Visualizamos las categorías únicas en cada atributo para identificar posibles errores o necesidades de limpieza.

In [None]:
for col in df.columns:
    print(f"{col}: {df[col].unique()}")

buying: ['vhigh' 'high' 'med' 'low']
maint: ['vhigh' 'high' 'med' 'low']
doors: ['2' '3' '4' '5more']
persons: ['2' '4' 'more']
lug_boot: ['small' 'med' 'big']
safety: ['low' 'med' 'high']
class: ['unacc' 'acc' 'vgood' 'good']


## 5. Conversión de tipo de dato
En este paso, convertimos explícitamente la columna 'doors' a tipo texto (string).

In [None]:
df['doors'] = df['doors'].astype(str)

## 6. Reemplazo de nombres en categorías
Reemplazamos las categorías de la columna `lug_boot` por valores más descriptivos en español usando `np.where`.

In [None]:
df['lug_boot'] = np.where(df['lug_boot'] == 'small', 'pequeño', df['lug_boot'])
df['lug_boot'] = np.where(df['lug_boot'] == 'med', 'mediano', df['lug_boot'])
df['lug_boot'] = np.where(df['lug_boot'] == 'big', 'grande', df['lug_boot'])
df['lug_boot'].unique()

array(['pequeño', 'mediano', 'grande'], dtype=object)

## 7. Frecuencia de clases
Contamos cuántas veces aparece cada categoría en la variable objetivo `class`.

In [None]:
df['class'].value_counts()

class
unacc    1210
acc       384
good       69
vgood      65
Name: count, dtype: int64

## 8. Renombrar columnas
Cambiamos el nombre de la columna `lug_boot` por `trunk` (maletera) para mayor claridad.

In [None]:
df.rename(columns={'lug_boot': 'trunk'}, inplace=True)
df.head()

Unnamed: 0,buying,maint,doors,persons,trunk,safety,class
0,vhigh,vhigh,2,2,pequeño,low,unacc
1,vhigh,vhigh,2,2,pequeño,med,unacc
2,vhigh,vhigh,2,2,pequeño,high,unacc
3,vhigh,vhigh,2,2,mediano,low,unacc
4,vhigh,vhigh,2,2,mediano,med,unacc


## 9. Dimensión del conjunto de datos
Mostramos el número de filas (registros) y columnas (atributos).

In [None]:
print('Shape:', df.shape)

Shape: (1728, 7)


## 10. Vista previa de datos
Visualizamos los primeros y últimos registros para verificar el contenido general del dataframe.

In [None]:
df.head()
df.tail()

Unnamed: 0,buying,maint,doors,persons,trunk,safety,class
1723,low,low,5more,more,mediano,med,good
1724,low,low,5more,more,mediano,high,vgood
1725,low,low,5more,more,grande,low,unacc
1726,low,low,5more,more,grande,med,good
1727,low,low,5more,more,grande,high,vgood


## 11. Extracción por índice con `iloc`
Seleccionamos un subconjunto de filas y columnas usando posiciones numéricas.

In [None]:
df.iloc[0:5, 0:3]

Unnamed: 0,buying,maint,doors
0,vhigh,vhigh,2
1,vhigh,vhigh,2
2,vhigh,vhigh,2
3,vhigh,vhigh,2
4,vhigh,vhigh,2


## 12. Filtros condicionales y selección de atributos
Aplicamos filtros usando condiciones lógicas y seleccionamos columnas específicas.

In [None]:
df[['buying', 'trunk']]
df[df['safety'] == 'high']

Unnamed: 0,buying,maint,doors,persons,trunk,safety,class
2,vhigh,vhigh,2,2,pequeño,high,unacc
5,vhigh,vhigh,2,2,mediano,high,unacc
8,vhigh,vhigh,2,2,grande,high,unacc
11,vhigh,vhigh,2,4,pequeño,high,unacc
14,vhigh,vhigh,2,4,mediano,high,unacc
...,...,...,...,...,...,...,...
1715,low,low,5more,4,mediano,high,vgood
1718,low,low,5more,4,grande,high,vgood
1721,low,low,5more,more,pequeño,high,good
1724,low,low,5more,more,mediano,high,vgood


## 13. Exportación a archivo CSV
Guardamos el dataframe procesado en un archivo llamado `car_data_modificado.csv`.

In [None]:
df.to_csv('car_data_modificado.csv', index=False)

## 15. Conclusiones
- Se aplicaron correctamente técnicas de limpieza y transformación de datos categóricos.
- Se exploraron valores únicos y frecuencias.
- Se realizaron renombramientos y exportación del conjunto procesado.
- Esta práctica refuerza el uso de `pandas` y `numpy` en tareas comunes de preprocesamiento en minería de datos.