# Sesión 03: Preparación de datos
*"Es un error capital teorizar antes de tener datos. Sin darse cuenta, uno empieza a deformar los hechos para que se ajusten a las teorías, en lugar de ajustar las teorías a los hechos." Arthur Conan Doyle en "Escándalo en Bohemia".*

## 3.1 Selección de filas y columnas
El archivo "hoteles-vienna.xlsx" contiene información de hoteles con habitaciones disponibles para cierto fin de semana. Aunque tenemos varias variables, solamente utilizaremos las siguientes:
- hotel_id: es un identificador que reemplaza el nombre del hotel por razones de confidencialidad.
- accommodationtype: tipo de hospedaje
- price: precio.
- center1distance: distancia al centro
- starrating: calificación de 1 a 5 estrellas (más es mejor). 
- guestreviewsrating: calificación promedio otorgada por los clientes

In [None]:
# Importa la biblioteca de pandas


In [None]:
# Carga el archivo 'data/hotelbookingdata-vienna.xlsx'


In [None]:
variables = ["hotel_id", "accommodationtype", "price", "center1distance",
             "starrating", "guestreviewsrating"]
# Selecciona las variables del listado en el dataframe


La base de datos abarca diferentes tipos de hospedajes. Mediante `df['A'].value_counts()` podemos consultar qué categorías y frecuencias tiene una variable 'A' en un dataframe llamado 'df'.

In [None]:
# Obtén la frecuencia por tipo de hospedaje


Selecciona solamente las filas que corresponden a hoteles. Por ejemplo: 
`df = df[df['accommodationtype'] == 'Hotel']`

In [None]:
# Selecciona las filas correspondientes a hoteles


In [None]:
# Consulta la información de las variables


In [None]:
# Revisa las primeras cinco filas


## 3.2 Datos duplicados
En algunas ocasiones puede haber datos duplicados en nuestra base de datos. Para visualizar los datos duplicados podemos usar *duplicated()* de la siguiente manera:
`df[df.duplicated()]`. Si nos interesa en la variable "A" en particular encontonces es `df[df['A'].duplicated()]`

In [None]:
# Identifica los datos duplicados en todas las variables 


Una opción para eliminar datos duplicados es usar *drop_duplicates()*. En nuestro ejemplo sería: `df.drop_duplicates()`. Esto sólo elimina observaciones filas duplicadas en todas las variables.De manera predeterminada, solamente conserva la primera fila de ellas.  
En algunas ocasiones necesitaremos eliminar observaciones duplicadas en solamente algunas variables. En ese caso se puede agregar un listado con el argumento *subset*. En nuestro ejemplo: `df.drop_duplicates(subset=['hotel_id'])`

In [None]:
# Elimina las observaciones duplicadas


## 3.3 Datos perdidos
En el caso de datos perdidos es importante determinar si se pueden considerar aleatorios o si existe un patrón que pueda afectar los resultados. En una encuesta, por ejemplo, es posible que las personas que prefieran no mencionar su ingreso tengan ciertas características, o bien, que las personas tiendan a no responder a preguntas sobre cierto tipo de comportamiento que no es socialmente aceptable.

Es recomendable realizar pruebas estadísticas para verificar si los datos perdidos pueden ser considerados aleatorios o no. Bajo el procedimiento habitual, se construyen dos grupos, uno de observaciones con datos completos y otro grupo de observaciones con datos perdidos en una variable en particular. Posteriormente, se realizan pruebas para comparar si existen diferencias significativas en los valores promedio de las otras variables

Como una aproximación inicial, el método `info()` puede servir para identificar qué variables tienen valores perdidos.

In [None]:
# Identifica qué variables tienen valores perdidos con 'info()'


Para encontrar las filas con datos perdidos podemos usar `df[df.isna().any(axis=1)]`. El método *isna()* sirve para indicar qué valores son perdidos y el método *any* sirve para indicar qué filas tienen al menos un valor perdido.

In [None]:
# Identifica qué observaciones tienen datos perdidos 
# ¿Qué característica tienen en común la mayoría?


*¿Qué hacer con datos perdidos?*  
Los métodos más comunes para tratar con datos perdidos son:
- Borrar filas o columnas con datos perdidos. Si son pocos datos perdidos (menos del 5%) y parecen ser completamente aleatorios, borrar los casos correspondientes es una alternativa.
- Imputación simple: Reemplazar los datos perdidos con un valor calculado a partir de la misma variable. La opción más común y conservadora es utilizar el promedio. Sin embargo, este método es muy criticado debido a que reduce la variabilidad y afecta la estimación de los intervalos de confianza (Treiman, 2009).
- Imputación multivariada: Reemplazar los datos perdidos con un valor calculado a partir de otras variables. En la imputación de datos por medio de la regresión se utilizan otras variables en la base de datos para establecer una ecuación de regresión en la que la variable dependiente es la variable con los datos perdidos. La ecuación de regresión estimada se utiliza para estimar los datos perdidos 


En cuanto a otros métodos de estimación se recomienda la lectura del capítulo “Multiple imputation of missing data” de Treiman (2009).


*Imputación simple o univariada*  
La imputación con la media para una columna 'A' es:  
`df['A'] = df['A'].fillna(df['A'].mean())`  
La imputación con la mediana es  
`df['A'] = df['A'].fillna(df['A'].median())`   
La imputación con la moda es:  
`df['A'] = df['A'].fillna(df['A'].mode().iloc[0])` 

In [None]:
# Consulta las variables que tienen datos perdidos con 'info()'


In [None]:
# Reemplaza los valores perdidos con la media


In [None]:
# Utilizando 'describe()' obtén las principales medidas numéricas de resumen


Un dataframe lo podemos guardar con `df.to_excel('carpeta/archivo.xlsx', index=False)`

In [None]:
# Exporta el dataframe depurado a la carpeta 'output'


## 3.4 Valores atípicos
Un valor atípico (outlier) es un valor extremo en una o más variables. En el caso de series univariadas, es común utilizar el método del valor z o el criterio del rango intercuartil. Para el caso de datos multivariados generalmente se utilizan criterios basados en la distancia de Mahalanobis y otras técnicas multivariadas. 

*Método del valor z*
En este enfoque un valor atípico es aquel que esté a más de tres desviaciones estándar a partir de la media.

In [None]:
from scipy.stats import zscore

datos = df['price']
z_scores = zscore(datos)
valores_atipicos_z = df[abs(z_scores)>3]
valores_atipicos_z

*Método del rango intercuartil*. Otro criterio común es considerar como atípicos los valores que están a más de 1.5 veces el rango intercuartil hacia el extremo a partir del 1er. o 3er. cuartil.

In [None]:
import numpy as np

datos = df['price']
q1 = np.percentile(datos, 25)
q3 = np.percentile(datos, 75)
valores_atipicos_iqr = df[abs(z_scores)>3]
valores_atipicos_iqr

*¿Qué hacer con datos atípicos?*
Si el valor extremo es un error de captura o parte de otra población lo recomendable es corregir o borrar el caso o variable. Si el valor extremo es parte de la distribución se debe mantener, pero se recomienda transformar la variable de forma tal que el valor extremo no impacte los resultados (p. ej. transformación logarítmica, transformación de Box-Cox o la recodificación de datos).

## Referencias
Treiman, D. J. (2009). *Quantitative data analysis. Doing social research to test ideas*. San Francisco, CA: Jossey-Bass.