# Díagnostico de los datos

Los datos brindados inicialmente requieren de un tratamiento especifico para poder ser análizados, estudiados y procesados para un modelo de Aprendizaje automático.

En este notebook se presentan las principales observaciones sobre el diagnostico de los datos, así como algunas de las decisiones tomadas para filtrar la información a utilizar.

In [16]:
import pandas as pd

In [17]:
# Dirección del conjunto de datos originales
path = 'c:\\Users\\diego\\OneDrive - Universidad Técnica Federico Santa María\\(01)-University\\(10)_X_Semestre\\(05)-ProyectosEstadisticos\\CarpetaVSCode\\datos.xlsx'

# Cargamos los datos como dataframe
df = pd.read_excel(path, sheet_name='Datos', nrows=381)

In [18]:
# Observemos el dataframe
df

Unnamed: 0,Mes,Nombre Completo,Teléfono,Asset Code,Fecha Entrada,Fecha Salida,N° Noches,N° Pasajeros,Mascota,Canal de Venta,...,Precio USD,Precio CLP,Precio [$CLP] IVA Inc,Tax Booking,Clean Up,IVA 19%,Precio [$CLP] Neto,Año,Medio de Pago,Boleta/Factura
0,Enero,Patricio Morales,9.575026e+08,C1,2022-01-02,2022-01-03,1,5.0,No,Venta Directa,...,,70000.0,70000.0,0.000000,25000,11176.470588,58823.529412,2022,TEF,BOL
1,Enero,Javier Kopplin,9.444791e+08,C1,2022-01-04,2022-01-05,1,5.0,No,Airbnb,...,,75000.0,75000.0,2677.500000,25000,11974.789916,63025.210084,2022,TEF,BOL
2,Enero,Javier Kopplin,9.444791e+08,C1,2022-01-05,2022-01-06,1,5.0,No,Venta Directa,...,,75000.0,75000.0,0.000000,25000,11974.789916,63025.210084,2022,TEF,BOL
3,Enero,Jean Pierre Lodis,9.910367e+08,C1,2022-01-06,2022-01-07,1,6.0,No,Booking,...,121.38,,97104.0,13566.000000,25000,15504.000000,81600.000000,2022,TEF,BOL
4,Enero,Alejandra Arias,9.313381e+08,C1,2022-01-11,2022-01-12,1,5.0,No,Booking,...,115.31,,92248.0,12887.588235,25000,14728.672269,77519.327731,2022,TEF,BOL
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
376,Septiembre,Mark Johanson,9.982726e+08,C1,2024-09-13,2024-09-15,2,4.0,No,Booking,...,424.12,,402914.0,47401.647059,0,64330.806723,338583.193277,2024,Transbank,BOL
377,Septiembre,Paula Carreño,9.620666e+08,C2,2024-09-14,2024-09-17,3,7.0,No,Venta Directa,...,,450000.0,450000.0,0.000000,0,71848.739496,378151.260504,2024,Transbank,BOL
378,Septiembre,Chino,8.618223e+12,C2,2024-09-18,2024-09-19,1,4.0,No,Airbnb,...,,330000.0,330000.0,11781.000000,0,52689.075630,277310.924370,2024,Transbank,BOL
379,Septiembre,Martina Hinrichsen,9.963744e+08,C1,2024-09-18,2024-09-22,4,6.0,No,Booking,...,975.47,,926696.5,109023.117647,0,147959.945378,778736.554622,2024,Transbank,BOL


Veamos en especifico las columnas y su tipo:

In [19]:
df.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 381 entries, 0 to 380
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Mes                    381 non-null    object        
 1   Nombre Completo        381 non-null    object        
 2   Teléfono               333 non-null    float64       
 3   Asset Code             381 non-null    object        
 4   Fecha Entrada          381 non-null    datetime64[ns]
 5   Fecha Salida           381 non-null    datetime64[ns]
 6   N° Noches              381 non-null    int64         
 7   N° Pasajeros           380 non-null    float64       
 8   Mascota                377 non-null    object        
 9   Canal de Venta         381 non-null    object        
 10  Precio x Noche         381 non-null    float64       
 11  Precio USD             179 non-null    object        
 12  Precio CLP             203 non-null    float64       
 13  Preci

Podemos notar que tenemos un total de 381 observaciones y 20 columnas. Además se observa que existen datos faltantes en algunas de ellas. Realicemos una breve descripción de cada variable.

Descripción de algunas columnas:

0) **Mes**: Corresponde al mes en el cual se arrienda la cabaña.

3) **Asset Code**: Referencia del tipo de cabaña arrendada (C1 o C2).

8) **Mascota**: Indica si el huesped aloja con mascota.

9) **Canal de Venta**: Señala el medio por el cual se realiza la venta.

10) **Precio x Noche**: Valor en CLP a cancelar por noche de arriendo.

11) **Precio USD**: En caso de cancelar en USD, indica el valor cancelado, en otro caso, es nulo.

12) **Precio CLP**: Igual que el anterior pero en CLP

14) **Tax Booking**: Valor cobrado por utilizar la plataforma Booking.

15) **Clean Up**: Indica si se incluyó el servicio de limpieza con el valor cobrado.

17) **Precio [$CLP] Neto**: Cobro percibido en CLP luego de impuestos, transformación de monedas, etc.

19) **Medio de Pago**: Señala la forma en la cual se realiza la transacción de dinero.

Notemos que fuerte presencia de valores NaN se deben a las variables "Precio USD" y Precio CLP", por lo tanto creemos una variable auxiliar que identifique el tipo de moneda para poder simplificar el diagnóstico.

In [20]:
df['Pago en USD'] = df['Precio USD'].notna().astype(int)
df.drop(columns=['Precio USD', 'Precio CLP'], inplace=True)

De esta forma solo quedan menos valores faltantes, especificamente:

2) Teléfono: Se puede eliminar la columna ya que no posee valor para el análisis.

7) N° Pasajeros: Existe una sola observación sin valor.

8) Mascota: Cuatro observaciones sin valor.

In [21]:
df.drop(columns=['Nombre Completo', 'Teléfono'], inplace=True)

In [22]:
df

Unnamed: 0,Mes,Asset Code,Fecha Entrada,Fecha Salida,N° Noches,N° Pasajeros,Mascota,Canal de Venta,Precio x Noche,Precio [$CLP] IVA Inc,Tax Booking,Clean Up,IVA 19%,Precio [$CLP] Neto,Año,Medio de Pago,Boleta/Factura,Pago en USD
0,Enero,C1,2022-01-02,2022-01-03,1,5.0,No,Venta Directa,70000.000,70000.0,0.000000,25000,11176.470588,58823.529412,2022,TEF,BOL,0
1,Enero,C1,2022-01-04,2022-01-05,1,5.0,No,Airbnb,75000.000,75000.0,2677.500000,25000,11974.789916,63025.210084,2022,TEF,BOL,0
2,Enero,C1,2022-01-05,2022-01-06,1,5.0,No,Venta Directa,75000.000,75000.0,0.000000,25000,11974.789916,63025.210084,2022,TEF,BOL,0
3,Enero,C1,2022-01-06,2022-01-07,1,6.0,No,Booking,97104.000,97104.0,13566.000000,25000,15504.000000,81600.000000,2022,TEF,BOL,1
4,Enero,C1,2022-01-11,2022-01-12,1,5.0,No,Booking,92248.000,92248.0,12887.588235,25000,14728.672269,77519.327731,2022,TEF,BOL,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
376,Septiembre,C1,2024-09-13,2024-09-15,2,4.0,No,Booking,201457.000,402914.0,47401.647059,0,64330.806723,338583.193277,2024,Transbank,BOL,1
377,Septiembre,C2,2024-09-14,2024-09-17,3,7.0,No,Venta Directa,150000.000,450000.0,0.000000,0,71848.739496,378151.260504,2024,Transbank,BOL,0
378,Septiembre,C2,2024-09-18,2024-09-19,1,4.0,No,Airbnb,330000.000,330000.0,11781.000000,0,52689.075630,277310.924370,2024,Transbank,BOL,0
379,Septiembre,C1,2024-09-18,2024-09-22,4,6.0,No,Booking,231674.125,926696.5,109023.117647,0,147959.945378,778736.554622,2024,Transbank,BOL,1


Dado que tratar con datos faltantes es todo parte de un análisis, se descarta esta opción por el momento y se simplifica mediante eliminar estas cuatro observaciones con valores faltantes.

In [23]:
df[df.isna().any(axis=1)]

Unnamed: 0,Mes,Asset Code,Fecha Entrada,Fecha Salida,N° Noches,N° Pasajeros,Mascota,Canal de Venta,Precio x Noche,Precio [$CLP] IVA Inc,Tax Booking,Clean Up,IVA 19%,Precio [$CLP] Neto,Año,Medio de Pago,Boleta/Factura,Pago en USD
31,Febrero,C1,2022-02-25,2022-02-27,2,6.0,,Venta Directa,85000.0,170000.0,0.0,25000,27142.857143,142857.142857,2022,TEF,BOL,0
32,Febrero,C1,2022-02-27,2022-03-01,2,6.0,,Booking,97104.0,194208.0,27132.0,25000,31008.0,163200.0,2022,TEF,BOL,1
267,Febrero,C1,2024-02-24,2024-02-25,1,,,Venta Directa,80000.0,80000.0,0.0,0,12773.109244,67226.890756,2024,TEF,BOL,0
357,Julio,C2,2024-07-22,2024-07-23,1,9.0,,Venta Directa,212000.0,212000.0,0.0,0,33848.739496,178151.260504,2024,Transbank,BOL,0


In [24]:
df.dropna(inplace=True)

Observamos un pequeño problema en el almacenamiento de la variable Mascota:

In [25]:
df['Mascota'].unique()

array(['No', 'Sí', 'Si'], dtype=object)

Finalmente se obtiene un conjunto de datos que no posee valores faltantes:

In [26]:
df

Unnamed: 0,Mes,Asset Code,Fecha Entrada,Fecha Salida,N° Noches,N° Pasajeros,Mascota,Canal de Venta,Precio x Noche,Precio [$CLP] IVA Inc,Tax Booking,Clean Up,IVA 19%,Precio [$CLP] Neto,Año,Medio de Pago,Boleta/Factura,Pago en USD
0,Enero,C1,2022-01-02,2022-01-03,1,5.0,No,Venta Directa,70000.000,70000.0,0.000000,25000,11176.470588,58823.529412,2022,TEF,BOL,0
1,Enero,C1,2022-01-04,2022-01-05,1,5.0,No,Airbnb,75000.000,75000.0,2677.500000,25000,11974.789916,63025.210084,2022,TEF,BOL,0
2,Enero,C1,2022-01-05,2022-01-06,1,5.0,No,Venta Directa,75000.000,75000.0,0.000000,25000,11974.789916,63025.210084,2022,TEF,BOL,0
3,Enero,C1,2022-01-06,2022-01-07,1,6.0,No,Booking,97104.000,97104.0,13566.000000,25000,15504.000000,81600.000000,2022,TEF,BOL,1
4,Enero,C1,2022-01-11,2022-01-12,1,5.0,No,Booking,92248.000,92248.0,12887.588235,25000,14728.672269,77519.327731,2022,TEF,BOL,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
376,Septiembre,C1,2024-09-13,2024-09-15,2,4.0,No,Booking,201457.000,402914.0,47401.647059,0,64330.806723,338583.193277,2024,Transbank,BOL,1
377,Septiembre,C2,2024-09-14,2024-09-17,3,7.0,No,Venta Directa,150000.000,450000.0,0.000000,0,71848.739496,378151.260504,2024,Transbank,BOL,0
378,Septiembre,C2,2024-09-18,2024-09-19,1,4.0,No,Airbnb,330000.000,330000.0,11781.000000,0,52689.075630,277310.924370,2024,Transbank,BOL,0
379,Septiembre,C1,2024-09-18,2024-09-22,4,6.0,No,Booking,231674.125,926696.5,109023.117647,0,147959.945378,778736.554622,2024,Transbank,BOL,1


In [27]:
df.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
Index: 377 entries, 0 to 380
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Mes                    377 non-null    object        
 1   Asset Code             377 non-null    object        
 2   Fecha Entrada          377 non-null    datetime64[ns]
 3   Fecha Salida           377 non-null    datetime64[ns]
 4   N° Noches              377 non-null    int64         
 5   N° Pasajeros           377 non-null    float64       
 6   Mascota                377 non-null    object        
 7   Canal de Venta         377 non-null    object        
 8   Precio x Noche         377 non-null    float64       
 9   Precio [$CLP] IVA Inc  377 non-null    float64       
 10  Tax Booking            377 non-null    float64       
 11  Clean Up               377 non-null    int64         
 12  IVA 19%                377 non-null    float64       
 13  Precio [$C

Transformaciones adicionales se encuentran en el archivo 'create_csv.py', en el cual se hacen algunos cambios en virtud de obtener un conjunto de datos de tipo .csv listo para ser procesado para un proyecto.