# Clase 2: Tipos de Datos y Visualización

En esta clase se estudian los diferentes tipos de datos más comunes y cómo trabajar con ellos en pandas. En particular, se muestra cómo visualizarlos usando la librería _matplotlib_.


In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

<center>
<img src=im/type_data.jpg>
<center/>

#### Cargue la base datos de reseñas de vinos

In [None]:
# Ejercicio opcional: ¿cómo descomprimir un archivo usando Python?

In [None]:
# Para que cargue con el índice

In [None]:
# Explore qué tipo de dato es el puntaje.

In [None]:
# Explore qué tipos de datos son las diferentes columnas.

#### Para transformar una varibale a un tipo deseado se usa:
- Para datos discretos: _astype(int)_
- Para datos continuos: _astype(float)_
- Para datos categóricos: _astype('category')_
- Para datos de texto: _astype(str)_
- Entre otros...

In [None]:
# Convierta la variable país en una variable categórica.

In [None]:
# Verifique que se hizo correctamente

#### Construcción de variables

1. Genere categorías de calificación de los vinos según el puntaje y usando la función _pd.cut()_.
2. Convierta esta nueva variable en variables categóricas. No tenga en cuenta una de las categorías (¿por qué?).
3. Construya una variable booleana que capture si el vino es recomedado cuando pasa cierto umbral de puntaje.


In [None]:
# Para explorar la distrubición de la variable y escoger puntos de corte adecuados.

In [None]:
# Genere las categorías con pd.cut()

In [None]:
# Explore el tipo de datos de su variable creada

In [None]:
# Genere las dummies sin tener en cuenta la primera categoría

In [None]:
# Genere variable booleana de recomendación

### Imputación de datos:

Consiste en asignar a los valores faltantes (_missing_) de una observación un valor determinado usando técnicas estadísticas.


In [None]:
# Identifique qué observaciones no cuentan con información de su precio

In [None]:
# Opción 1: eliminar las observaciones sin información del precio

In [None]:
# Opción 2: Darles un valor de 0

In [None]:
# Opción 3: Asignarles el precio promedio de las observaciones con esta información.

## Análisis Exploratorio de Datos (EDA): Visualización

### Anatomía de una Figura

1. Se compone de uno o más gráficos.
2. Cada gráfico tiene propiedades que se pueden personalizar. 

<center>
<img src=im/anatomia.png>
<center/>

### Diferentes tipos de gráficos según tipos de las variables y el tipo de preguntas que se desean responder

<center>
<img src=im/comparison2.PNG>
<center/>
    
Fuente: _Datanest_

#### Gráfico de línea

Se usa para presentar relaciones entre dos variables numéricas, típicamente continuas. Usualmente se usa para visualizar el comportamiento de una variable a través del tiempo, e.g. PIB, Inflación, Tasas de interés, Precios de acciones, Resultados financieros.

In [None]:
# Cargue las información del precio de la acción de Google

In [None]:
# Transforme la columna de fecha a formato fecha usando pd.to_datetime 

In [None]:
# Asigne la variable fecha como el índice del data frame

In [None]:
# Graficar con Matplotlib

In [None]:
# Dé formato al gráfico

In [None]:
# Grafique directamente

<center>
<img src=im/comparison1.PNG>
<center/>
    
Fuente: _Datanest_

#### Gráfico de barras

Se utiliza para comparar diferentes categorías de variable.

In [None]:
# Genere una pandas.Series con el número de vinos por país en la base de datos.

In [None]:
# Grafique directamente

In [None]:
# Ahora con Matplotlib

In [None]:
# Grafique ahora con barras horizontales

<center>
<img src=im/composition1.PNG>
<center/>
    
Fuente: _Datanest_

#### Gráfico de pie

Se utiliza pra representar la contribución de diferenes categorías/grupos a un total. Por ejemplo, Contribución de cada departamento al PIB nacional, Categorías de productos compradas por los clientes.

In [None]:
# Calcule el porcentaje que representa cada categoría de clasificación construida sobre el total.

In [None]:
# Gráfico de Pie

<center>
<img src=im/composition2.PNG>
<center/>
    
Fuente: _Datanest_

In [None]:
# Cramos una base de datos artificial de ventas de diferentes tipos de productos

x = np.array([1, 2, 3, 4, 5, 6])
Apr = [5, 7, 6, 8, 7, 9]
May = [0, 4, 3, 7, 8, 9]
June = [6, 7, 4, 5, 6, 8]

labels = ["Abril ", "Mayo", "Junio"]

In [None]:
# Gráfico de área acumulada

<center>
<img src=im/distribution.PNG>
<center/>
    
Fuente: _Datanest_

### Histograma

Se utilizan para estudiar la distribución de una variable continua, a partir de dividir el rango de la variable ([min, max]) en un número de grupos (bins) y se grafica el número de observaciones en cada uno de estos grupos.

In [None]:
# Histograma de la puntuación de los vinos combinando grafico directo de pandas y Matplotlib para formato
# Linea vertical en el umbral de recomendación

In [None]:
# Gráfico de estimación de densidad de kernel

### Box Plot (Gráfico de cajas y bigotes)

Se usa para ver la distribución de una variable a través de diferentes categorías. Pinta una caja con el 1er (25), el 2do (50) y el 3er (75) quartil, y bigotes arriba y abajo de la caja a 1.5*IQR (rango inter-quantil, distancia entre el 3ro y el 1er quartil). Si no hay _outliers_ los bigotes se pintan en el máximo y el mínimo.

In [None]:
# Gráfico de cajas y bigotes de la distribución de precios por categoría de clasificación
# Formato para ver mejor los datos

<center>
<img src=im/relation.PNG>
<center/>
    
Fuente: _Datanest_

#### Gráfico de dispersión (Scatter plot)

Utilizado para estudiar visualmente si existe una relación entre dos variables. Como prácticamente solo podemos graficar 2 dimensiones, se puede incluir más información de los datos jugando con su forma, tamaño, color, entre otros.

In [None]:
# Creamos un subconjunto aleatorio de 5000 observaciones de la base de datos original

In [None]:
# Gráfico de dispersión puntaje vs. precio

In [None]:
# Creamos la categoría del crítico para agregarlo al gráfico

In [None]:
# Para pasarlo a la función para que pinte los colores según la variable del crítico se tiene que pasar numéricamente, esto se hace con cat.codes

In [None]:
# El tamaño de los puntos se da por el argumento s y la transparencia por alpha