# Data Understanding

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd '/content/drive/My Drive/Colab Notebooks/PlatziMaster/Proyecto Agencia de Viajes/datasets'
!ls

/content/drive/My Drive/Colab Notebooks/PlatziMaster/Proyecto Agencia de Viajes/datasets
DataAcomodacion.csv  funciones_auxiliares.ipynb  train_data.txt


## Dependencias

In [None]:
import pandas as pd
import numpy as np
import csv
pd.__version__

'1.1.5'

## Carga de Datos

In [None]:
%run funciones_auxiliares.ipynb

In [None]:
f = open("train_data.txt", "r")
data_acomodation = load_data(f)

In [None]:
data_acomodation.head()

Unnamed: 0,id_viaje,duracion_estadia,genero,edad,ninos,codigo_destino,tipo_acomodacion
0,1010286,7,F,40.0,0,COL,AirBnB
1,1000152,5,M,,0,,AirBnB
2,1009019,4,F,39.0,1,ES,Hotel
3,1007840,5,F,45.0,0,NL,Hotel
4,1006939,5,M,45.0,1,UK,Hotel


## Descripcion de los Datos 

### Cantidad de Datos

En la mayoría de técnicas de modelado, los tamaños de datos tienen un equilibrio relacionado. Los grandes conjuntos de datos pueden producir modelos más precisos, pero también pueden aumentar el tiempo de procesamiento. Considere utilizar un subconjunto de datos. Cuando tome notas para el informe final, asegúrese de incluir estadísticos de tamaños para todos los conjuntos de datos y recuerde tener en cuenta tanto el número de registros como los campos (atributos) cuando describa los datos.

In [None]:
#tamaño del dataset
data_acomodation.shape

(9868, 7)

Vemos que tenemos 9868 filas y 7 columnas

### Tipos de Valores

Los datos pueden incluir una variedad de formatos, como numérico, categórico (cadena) o Booleano (verdadero/falso). Si presta atención al tipo de valor puede evitar posteriores problemas durante la fase de modelado.

In [None]:
data_acomodation.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9868 entries, 0 to 9867
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   id_viaje          9868 non-null   int64   
 1   duracion_estadia  9868 non-null   int64   
 2   genero            9868 non-null   category
 3   edad              8874 non-null   object  
 4   ninos             8897 non-null   object  
 5   codigo_destino    8872 non-null   object  
 6   tipo_acomodacion  9868 non-null   object  
dtypes: category(1), int64(2), object(4)
memory usage: 549.4+ KB


In [None]:
data_acomodation['id_viaje'] = data_acomodation['id_viaje'].astype(int)
data_acomodation['duracion_estadia'] = data_acomodation['duracion_estadia'].astype(int)
data_acomodation['edad'] = data_acomodation['edad'].astype(int, errors='ignore')
data_acomodation['genero'] = data_acomodation['genero'].astype('category')
data_acomodation['ninos'] = data_acomodation['ninos'].astype(int, errors = 'ignore')

Inicialmente tenemos todas las variable de tipo `object`, de modo que realizamos la conversion mas adecuada para el analisis. 

### Esquemas de codificación

Con frecuencia, los valores de la base de datos son representaciones de características como género o tipo de producto. Por ejemplo, un conjunto de datos puede utilizar H y M para representar hombre y mujer, mientras que otro puede utilizar los valores numéricos 1 y 2. Observe cualquier esquema conflictivo en el informe de datos.

In [None]:
data_acomodation.nunique()

id_viaje            9868
duracion_estadia      13
genero                 2
edad                  37
ninos                  2
codigo_destino         8
tipo_acomodacion       2
dtype: int64

Del analisis podemos verificar que los tipos de datos que tenemos:
* `id_viaje`: es de tipo cuantitativo discreto
* `duracion_estadia`: es de tipo cuantitativo discreto
* `genero`: es de tipo cualitativo nominal
* `edad`: es de tipo cuantitativo discreto
* `ninos`: es de tipo cualitativo nominal (es un booleano)
* `codigo_destino`: es de tipo cualitativo nominal
* `tipo_acomodacion`: es de tipo cualitativo nominal



### Informe de descripción de datos

#### Cantidad de datos

* ¿Cuál es el formato de los datos?

RTA: El formato de origen es un archivo .txt

* Identifique el método utilizado para capturar los datos.

RTA: Mediante llenar los campos solicitados en un formulario.

* ¿Qué dimensiones tiene la base de datos (en números de filas y columnas)?

RTA: Filas: 9868. Columnas: 7


#### Calidad de datos

* ¿Incluyen los datos características relativas a la cuestión comercial?

RTA: Para las preguntas propuestas, existen las preguntas necesarias. Sin embargo es recomendado obtener variables adicionales.

* ¿Qué tipos de datos están presentes (simbólicos, numéricos, etc.)?

  * `id_viaje`: es de tipo cuantitativo discreto
  * `duracion_estadia`: es de tipo cuantitativo discreto
  * `genero`: es de tipo cualitativo nominal
  * `edad`: es de tipo cuantitativo discreto
  * `ninos`: es de tipo cualitativo nominal (es un booleano)
  * `codigo_destino`: es de tipo cualitativo nominal
  * `tipo_acomodacion`: es de tipo cualitativo nominal

* ¿Ha realizado una cálculo básico de los estadísticos de los atributos clave? ¿Qué conocimientos ha proporcionado este proceso en cuestiones comerciales?

RTA: Se realizaran en la fase de EDA

* ¿Puede priorizar los atributos relevantes? En caso negativo, ¿los analistas empresariales pueden proporcionar más conocimientos?

RTA: Se realizaran en la fase de EDA