<a href="https://colab.research.google.com/github/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/blob/aula-2/Regresion_construyendo_arboles_de_regresion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Regresión: Construyendo Árboles de Regresión**

## **Precificación en la entrega de esculturas**

![](https://github.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/blob/main/img/comparacion_3.png?raw=true)

# **Clase 1 - Trabajando con los datos**

In [1]:
url = 'https://raw.githubusercontent.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/refs/heads/main/entregas.csv'

url_prueba = 'https://raw.githubusercontent.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/refs/heads/main/prueba_entregas.csv'

In [2]:
import pandas as pd
import numpy as np

In [3]:
datos = pd.read_csv(url)
datos.head()

Unnamed: 0,id_cliente,nombre_artista,reputacion_artista,altura,ancho,peso,material,precio_escultura,precio_base_envio,internacional,envio_expreso,instalacion_incluida,transporte,fragil,pedido_extra_cliente,localizacion_remota,fecha_programada,fecha_entrega,costo
0,e9dff114-bc2b-47e9-9f5c-669e32ad9bbe,Billy Jenkins,0.26,5.1816,1.8288,1872.427776,Latón,73027.5,85.4175,Sí,Sí,No,Aéreo,No,Sí,No,07/06/19,03/06/19,1487.2725
1,ba3b707f-b123-4eec-93f4-1fbebfe72b68,Jean Bryant,0.28,0.9144,0.9144,27.669112,Latón,35857.5,78.75,No,No,No,Terrestre,No,Sí,No,06/03/21,05/03/21,839.79
2,c4212086-3e22-489e-bc2e-0d5092ef0526,Laura Miller,0.07,2.4384,1.524,107.501304,Arcilla,26040.0,111.195,No,No,No,Terrestre,Sí,Sí,Sí,09/03/19,08/03/19,810.0225
3,fec1bee9-44cf-498f-a849-5e5e2cab062b,Robert Chaires,0.12,2.7432,2.4384,1407.042384,Aluminio,30502.5,85.6275,No,No,No,No especificado,No,No,Sí,24/05/19,20/05/19,846.09
4,f9f2ed8c-7f56-4e69-a80e-cb01d0a711da,Rosalyn Krol,0.15,5.1816,1.8288,146.963808,Aluminio,16695.0,62.685,Sí,Sí,Sí,Aéreo,No,Sí,No,18/12/20,14/12/20,835.9575


Diccionario de datos:

| Nombre de la Columna     | Descripción                                                                 |
|--------------------------|------------------------------------------------------------------------------|
| id_cliente               | Representa el número de identificación único de los clientes                |
| nombre_artista           | Representa el nombre del artista                                            |
| reputacion_artista       | Representa la reputación de un artista en el mercado (cuanto mayor es el valor de la reputación, mayor es la reputación del artista en el mercado) |
| altura                   | Representa la altura de la escultura en metros                              |
| ancho                  | Representa la anchura de la escultura en metros                             |
| peso                     | Representa el peso de la escultura en kilogramos                            |
| material                 | Representa el material del que está hecha la escultura                      |
| precio_escultura         | Representa el precio de la escultura                                         |
| precio_base_envio        | Representa el precio base para el envío de una escultura                    |
| internacional            | Indica si el envío es internacional                                          |
| envio_expreso            | Indica si el envío fue en modalidad exprés (rápido)                         |
| instalacion_incluida     | Indica si la instalación estaba incluida en la compra de la escultura       |
| transporte               | Representa el modo de transporte del pedido                                  |
| fragil                   | Indica si el pedido es frágil                                                |
| pedido_extra_cliente     | Representa si el cliente dejó detalles adicionales para la entrega          |
| fecha_programada         | Representa la fecha prevista de entrega                                     |
| fecha_entrega            | Representa la fecha de entrega del pedido                                    |
| costo                    | Representa el costo del envío del pedido                                     |


In [4]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4462 entries, 0 to 4461
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            4462 non-null   object 
 1   nombre_artista        4462 non-null   object 
 2   reputacion_artista    4462 non-null   float64
 3   altura                4462 non-null   float64
 4   ancho                 4462 non-null   float64
 5   peso                  4462 non-null   float64
 6   material              4462 non-null   object 
 7   precio_escultura      4462 non-null   float64
 8   precio_base_envio     4462 non-null   float64
 9   internacional         4462 non-null   object 
 10  envio_expreso         4462 non-null   object 
 11  instalacion_incluida  4462 non-null   object 
 12  transporte            4462 non-null   object 
 13  fragil                4462 non-null   object 
 14  pedido_extra_cliente  4462 non-null   object 
 15  localizacion_remota  

**ENTENDIENDO LAS COLUMNAS**

**Dato numérico:**
- `'reputacion_artista'`, `'altura'`, `'ancho'`, `'peso'`, `'precio_escultura'`, `'precio_base_envio'`.

**Categóricas:**

- `'id_cliente'`, `'nombre_artista'`, `'material'`, `'internacional'`, `'envio_expreso'`, `'instalacion_incluida'`, `'transporte'`, `'fragil'`, `'pedido_extra_cliente'`, `localizacion_remota`.

**Fechas:**

- `'fecha_programada'`, `'fecha_entrega'`.

**Target:**
- `'costo'`.

In [5]:
df = datos.copy()

In [6]:
df['fecha_programada'] = pd.to_datetime(df['fecha_programada'],format='%d/%m/%y')
df['fecha_entrega'] = pd.to_datetime(df['fecha_entrega'],format='%d/%m/%y')

In [7]:
df['diferencia_dias_entrega'] = (df['fecha_entrega'] - df['fecha_programada']).dt.days

In [8]:
df['fecha_programada_dias'] = df['fecha_programada'].dt.day
df['fecha_programada_mes'] = df['fecha_programada'].dt.month
df['fecha_programada_ano'] = df['fecha_programada'].dt.year

In [9]:
df['fecha_entrega_dias'] = df['fecha_entrega'].dt.day
df['fecha_entrega_mes'] = df['fecha_entrega'].dt.month
df['fecha_entrega_ano'] = df['fecha_entrega'].dt.year

In [10]:
df.drop(['fecha_entrega','fecha_programada'],axis= 1, inplace= True)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4462 entries, 0 to 4461
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id_cliente               4462 non-null   object 
 1   nombre_artista           4462 non-null   object 
 2   reputacion_artista       4462 non-null   float64
 3   altura                   4462 non-null   float64
 4   ancho                    4462 non-null   float64
 5   peso                     4462 non-null   float64
 6   material                 4462 non-null   object 
 7   precio_escultura         4462 non-null   float64
 8   precio_base_envio        4462 non-null   float64
 9   internacional            4462 non-null   object 
 10  envio_expreso            4462 non-null   object 
 11  instalacion_incluida     4462 non-null   object 
 12  transporte               4462 non-null   object 
 13  fragil                   4462 non-null   object 
 14  pedido_extra_cliente    

In [12]:
columnas_categoricas = ['id_cliente', 'nombre_artista', 'material', 'internacional', 'envio_expreso', 'instalacion_incluida',
                       'transporte', 'fragil', 'pedido_extra_cliente','localizacion_remota']

for columna in columnas_categoricas:
    unique_values = df[columna].unique()
    print(f"Valores únicos en la columna '{columna}' \n {len(unique_values)} valores:")
    print(unique_values)
    print('=='*45)

Valores únicos en la columna 'id_cliente' 
 4462 valores:
['e9dff114-bc2b-47e9-9f5c-669e32ad9bbe'
 'ba3b707f-b123-4eec-93f4-1fbebfe72b68'
 'c4212086-3e22-489e-bc2e-0d5092ef0526' ...
 'e1004685-9047-4f34-9103-57d900716936'
 'a380ff88-2c96-4d70-919a-af0bc8caeed7'
 '26fea648-9cc1-4a2b-9458-0b2d35957803']
Valores únicos en la columna 'nombre_artista' 
 4441 valores:
['Billy Jenkins' 'Jean Bryant' 'Laura Miller' ... 'William Curry'
 'Karen Bayles' 'Denise Worth']
Valores únicos en la columna 'material' 
 8 valores:
['Latón' 'Arcilla' 'Aluminio' 'Madera' 'Bronce' 'Piedra' 'No especificado'
 'Mármol']
Valores únicos en la columna 'internacional' 
 2 valores:
['Sí' 'No']
Valores únicos en la columna 'envio_expreso' 
 2 valores:
['Sí' 'No']
Valores únicos en la columna 'instalacion_incluida' 
 2 valores:
['No' 'Sí']
Valores únicos en la columna 'transporte' 
 4 valores:
['Aéreo' 'Terrestre' 'No especificado' 'Acuático']
Valores únicos en la columna 'fragil' 
 2 valores:
['No' 'Sí']
Valores únic

**ENTENDIENDO LAS COLUMNAS TEXTUALES**

**Categóricas:**

- *Valores binários*: `'internacional'`, `'envio_expreso'`, `'instalacion_incluida'`,  `'fragil'`, `'pedido_extra_cliente'`, `'localizacion_remota'`.
- *Várias Categorias*:`'material'`, `'transporte'`
- *Valores únicos*: `'id_cliente'`, `'nombre_artista'`

In [13]:
categoricas = ['material', 'internacional', 'envio_expreso', 'instalacion_incluida',
              'transporte', 'fragil', 'pedido_extra_cliente','localizacion_remota']

df = pd.get_dummies(df , columns = categoricas, prefix = categoricas, drop_first=True)

In [14]:
df.drop(['id_cliente', 'nombre_artista'],axis= 1, inplace=True)

In [15]:
df

Unnamed: 0,reputacion_artista,altura,ancho,peso,precio_escultura,precio_base_envio,costo,diferencia_dias_entrega,fecha_programada_dias,fecha_programada_mes,...,material_Piedra,internacional_Sí,envio_expreso_Sí,instalacion_incluida_Sí,transporte_Aéreo,transporte_No especificado,transporte_Terrestre,fragil_Sí,pedido_extra_cliente_Sí,localizacion_remota_Sí
0,0.26000,5.1816,1.8288,1872.427776,73027.5,85.4175,1487.2725,-4,7,6,...,False,True,True,False,True,False,False,False,True,False
1,0.28000,0.9144,0.9144,27.669112,35857.5,78.7500,839.7900,-1,6,3,...,False,False,False,False,False,False,True,False,True,False
2,0.07000,2.4384,1.5240,107.501304,26040.0,111.1950,810.0225,-1,9,3,...,False,False,False,False,False,False,True,True,True,True
3,0.12000,2.7432,2.4384,1407.042384,30502.5,85.6275,846.0900,-4,24,5,...,False,False,False,False,False,True,False,False,False,True
4,0.15000,5.1816,1.8288,146.963808,16695.0,62.6850,835.9575,-4,18,12,...,False,True,True,True,True,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4457,0.93000,6.0960,2.4384,294.381208,25462.5,130.0950,3923.9550,4,23,3,...,False,True,False,True,False,False,False,False,True,False
4458,0.67000,3.9624,2.4384,215.456200,19162.5,67.8825,1546.7550,-1,28,10,...,False,True,False,True,False,False,True,False,True,False
4459,0.46185,3.9624,2.4384,69.853168,27982.5,68.2500,916.4925,0,16,3,...,False,False,True,False,True,False,False,False,False,False
4460,0.45000,6.0960,8.5344,4921.926792,161857.5,355.4250,5653.4625,2,19,4,...,False,False,False,True,False,False,True,False,True,False


# Clase 2 - Construyendo el Árbol de Regresión

# Clase 3 - Evitando el super ajuste con la optimización

![](https://github.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/blob/main/img/escultura_1.png?raw=true)

**VAMOS A COMPARAR**

![](https://github.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/blob/main/img/hiperparametros_dt.png?raw=true)

# Clase 4 - Implementando un Bosque Aleatorio

**VAMOS A COMPARAR**

![](https://github.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/blob/main/img/comparacion_1.png?raw=true)

# Aula 5 - Buscando a otimização da Floresta Aleatória

**VAMOS A COMPARAR**

![](https://github.com/ahcamachod/2266-regresion-construyendo-arboles-de-regresion/blob/main/img/comparacion_2.png?raw=true)