# Dataset: Base de microdatos EVyTH
  
- [Sitio Web](https://datos.gob.ar/dataset/turismo-encuesta-viajes-turismo-hogares-evyth---microdatos/archivo/turismo_645e5505-68ee-4cfa-90f9-fcc9a4a34a85)

- [Descarga CSV](http://datos.yvera.gob.ar/dataset/b5819e9b-5edf-4aad-bd39-a81158a2b3f3/resource/645e5505-68ee-4cfa-90f9-fcc9a4a34a85/download/evyth_microdatos.csv)

- [PDF informativo](http://datos.yvera.gob.ar/dataset/b5819e9b-5edf-4aad-bd39-a81158a2b3f3/resource/1b5d26f1-0ab9-4908-a44f-9ac5bd685f1b/download/evyth-data.pdf)

- [Información en TXT](https://datos.yvera.gob.ar/dataset/b5819e9b-5edf-4aad-bd39-a81158a2b3f3/resource/20e2c018-a2ee-4d97-9c67-a4303f669255/download/evyth_diccionario_registro.txt)

- [Diccionario en CSV](http://datos.yvera.gob.ar/dataset/b5819e9b-5edf-4aad-bd39-a81158a2b3f3/resource/d8107236-f5ba-428d-8a31-f9b2034d8c8f/download/evyth_diccionario_registro.csv)
        

### Librerías

In [1]:
import pandas as pd

### Carga de datos

In [14]:
data = pd.read_csv('data/evyth_microdatos.csv')
dicc = pd.read_csv('data/evyth_diccionario_registro.csv')

### Inspección de dataset

In [15]:
#data.info()

In [16]:
#data.head()

In [17]:
#dicc.info()

In [18]:
#dicc.tail()

## Tratamiento de datos

### Diccionario de registros

Se realiza una limpieza de columnas y filas, para dejar solamente la información útil para el caso de estudio

In [19]:
# De inicio se puede ver que el dataset posee valores NaN. Esto significa un 0 u opción 0.
dicc.isna().sum()

variable        0
opcion         89
descripcion     0
dtype: int64

In [20]:
# Se procede entonces a reemplazar estos valores en la columna de "opcion"
dicc.opcion.fillna(0,inplace=True)
dicc.isna().sum()

variable       0
opcion         0
descripcion    0
dtype: int64

In [21]:
# Se cambia el formato de la columna de opcion a enteros, para mayor legibilidad.
# Esto permite comparar directamente los valores con la otra tabla
dicc['opcion'] = dicc['opcion'].astype('int16')
dicc.dtypes

variable       object
opcion          int16
descripcion    object
dtype: object

### Dataset principal

- ##### Reducción de número de columnas
El resultado final, implica reducir el número de columnas, que van a ser luego las variables ingresadas en el formulario.


- ##### Reducción de número de filas
La idea es generar un dataset de hasta 50 participantes, para no llenar una gran cantidad de formularios de Google. El objetivo no es el análisis completo en sí, si no prestar atención a todo el proceso.

#### Reducción de número de columnas

Se genera un nuevo dataset, solo con las columnas de interés, a partir del diccionario de registro

In [22]:
data = data[['anio','region_origen','aglomerado_origen','region_destino','provincia_destino','localidad_destino','tipo_visitante', 'px08','px09','px10_1','px17_2_5','px17_2_11']]

Como en el caso del dataset diccionario, se revisa por valores nulos

In [28]:
data.isna().sum()

anio                   0
region_origen          0
aglomerado_origen      0
region_destino         0
provincia_destino      0
localidad_destino      0
tipo_visitante         0
px08                   0
px09                   0
px10_1                 0
px17_2_5             406
px17_2_11            410
dtype: int64

In [31]:
data['px17_2_5'].fillna(0,inplace=True)
data['px17_2_11'].fillna(0,inplace=True)

Las columnas con valores float, también se pasan a enteros

In [33]:
data.dtypes

anio                   int64
region_origen          int64
aglomerado_origen      int64
region_destino         int64
provincia_destino      int64
localidad_destino     object
tipo_visitante         int64
px08                   int64
px09                   int64
px10_1                 int64
px17_2_5             float64
px17_2_11            float64
dtype: object

In [34]:
data['px17_2_5'] = data['px17_2_5'].astype('int16')
data['px17_2_11'] = data['px17_2_11'].astype('int16')

In [35]:
data.dtypes

anio                  int64
region_origen         int64
aglomerado_origen     int64
region_destino        int64
provincia_destino     int64
localidad_destino    object
tipo_visitante        int64
px08                  int64
px09                  int64
px10_1                int64
px17_2_5              int16
px17_2_11             int16
dtype: object

#### Reducción de número de filas
Para esto se seleccionan solamente los participantes:

    - solo del 2022
    - que hayan viajado en avion
    - con origen: que no sean de la provincia de Buenos Aires 
    - como destino:  Bariloche

Para ello se quieren obtener los códigos correspondientes, de la tabla de diccionario, y así poder mapearlos en la tabla de datos

In [36]:
dicc.head()

Unnamed: 0,variable,opcion,descripcion
0,id_hogar,0,Código de identificación único de hogares
1,id_viajes,0,Código de identificación único de viajes
2,miembro,0,Número de miembro en el hogar
3,anio,0,Año
4,trimestre,0,Trimestre


In [37]:
# Los que hayan viajado en avión
dicc[dicc['descripcion'] == "Avión"]

Unnamed: 0,variable,opcion,descripcion
134,px09,4,Avión


In [38]:
# Provenientes de todo el país, excepto de provincia de Buenos Aires (solo para reducir el dataset final)
# Se obtienen los números de opciones a excluir
regiones = dicc[(dicc['descripcion'].str.contains('Buenos Aires')) & (dicc['variable'] == 'region_origen')]

In [39]:
# Se cambia el nombre al dataset, para diferenciarlo del original
viajes = data[(data['anio'] == 2022) & (data['localidad_destino'] == 'San Carlos de Bariloche') & (data['px09'] == 4) & (data['region_origen'] > 3)]
#Dado que ahora todas las entradas son del año 2022, dicha columna ya no es necesaria
viajes = viajes.drop('anio', axis=1)

In [40]:
# El resultado es un dataset de 41 filas y 12 columnas (cumpliendo con la expectativa de menos de 50 participantes)
viajes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 41 entries, 396895 to 419939
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   region_origen      41 non-null     int64 
 1   aglomerado_origen  41 non-null     int64 
 2   region_destino     41 non-null     int64 
 3   provincia_destino  41 non-null     int64 
 4   localidad_destino  41 non-null     object
 5   tipo_visitante     41 non-null     int64 
 6   px08               41 non-null     int64 
 7   px09               41 non-null     int64 
 8   px10_1             41 non-null     int64 
 9   px17_2_5           41 non-null     int16 
 10  px17_2_11          41 non-null     int16 
dtypes: int16(2), int64(8), object(1)
memory usage: 3.4+ KB


#### Conversión de valores

Debido al gran número de entradas de la tabla, la misma hace uso de un archivo de texto con los metadatos, para obtener información de los códigos usados en cada variable. La mayoría de los datos son entonces de tipo int64. Tanto estos como los float64, pasarán a ser strings ahora, indicando el contenido real correspondiente.


In [41]:
# Primero, se renombran las columnas, para ser más entendibles
viajes = viajes.rename(columns={'px08':'alojamiento','px09':'transporte','px10_1':'motivo_viaje','px17_2_5':'actividades','px17_2_11':'naturaleza'})


In [42]:
viajes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 41 entries, 396895 to 419939
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   region_origen      41 non-null     int64 
 1   aglomerado_origen  41 non-null     int64 
 2   region_destino     41 non-null     int64 
 3   provincia_destino  41 non-null     int64 
 4   localidad_destino  41 non-null     object
 5   tipo_visitante     41 non-null     int64 
 6   alojamiento        41 non-null     int64 
 7   transporte         41 non-null     int64 
 8   motivo_viaje       41 non-null     int64 
 9   actividades        41 non-null     int16 
 10  naturaleza         41 non-null     int16 
dtypes: int16(2), int64(8), object(1)
memory usage: 3.4+ KB


In [47]:
viajes = viajes.astype(str)
viajes.head()

Unnamed: 0,region_origen,aglomerado_origen,region_destino,provincia_destino,localidad_destino,tipo_visitante,alojamiento,transporte,motivo_viaje,actividades,naturaleza
396895,4,13,8,62,San Carlos de Bariloche,1,7,4,2,2,2
397269,5,4,8,62,San Carlos de Bariloche,1,7,4,1,2,1
398377,7,10,8,62,San Carlos de Bariloche,1,3,4,2,1,2
399841,7,10,8,62,San Carlos de Bariloche,1,7,4,1,2,1
400917,4,13,8,62,San Carlos de Bariloche,1,8,4,2,1,1


Se reemplazan ahora por los valores respectivos

In [None]:
# Faltaría:
#reemplazar los valores de índices por la descripción, en todas las columnas del dataset viajes
#generar un archivo output.csv para el robot framework