# **Machine Learning para Business Intelligence** 
#### Profesor: Santiago Neira

## Clase 2. Preprocesamiento de datos, estructuración y visualización

In [None]:
#!pip install plotly

In [None]:
#!pip install scikit-learn

In [None]:
# Importamos las librerías de la clase
import os
import pandas as pd
import numpy as np

In [None]:
# Definimos el directorio
os.getcwd()

In [None]:
os.listdir("../Datos/")

In [None]:
os.chdir("../Datos/")

In [None]:
os.getcwd()

In [None]:
# Importamos los datos
vinos = pd.read_csv('winemag-data.zip', compression = 'zip', index_col = 0)

In [None]:
# Importamos los datos
calidad_vinos = pd.read_csv('wine-quality.csv')

In [None]:
# Veamos qué columnas tiene el dataframe
vinos.columns

0. Ciudad del Vino
1. Descripcion
2. Viñedo de donde provienne las uvas
3. Puntaje 1-100
4. Costo botella
5. Provincia o estado del vino
6. Desagregacion de ubicacion 1
7. Desagregacion de ubicacion 2
8. Nombre del catador
9. Twitter del catador
10. Titulo de la reseña
11. Tipo de uva para hacer el vino
12. La bodega del vino

In [None]:
vinos.head()

In [None]:
# Explore qué tipo de dato es el puntaje
vinos['points'].dtype

In [None]:
# Explore qué tipos de datos son las diferentes columnas.
vinos.dtypes

In [None]:
# ¿Cuál es la estructura del dataframe?
vinos.shape

In [None]:
# Informacion de la base de datos (todo lo anterior en una sola vista)
vinos.info()

Para transformar una varibale a un tipo deseado se usa:
- Para datos discretos: ``astype(int)``
- Para datos continuos: ``astype(float)``
- Para datos categóricos: ``astype('category')``
- Para datos de texto: ``astype(str)``
- Entre otros...

In [None]:
# Veamos que tipo de dato es country
vinos['country'].dtype

In [None]:
# Veamos qué países aparecen en la columna 'country'
vinos['country'].unique()

In [None]:
# Convierta la variable país en una variable categórica.
vinos['country'] = vinos['country'].astype('category')

In [None]:
# Verifique que se hizo correctamente
vinos['country'].dtype

In [None]:
vinos['country']

### Construcción de variables
1. Genere categorías de calificación de los vinos según el puntaje y usando la función ``pd.cut()``.
2. Convierta esta nueva variable en variables categóricas. No tenga en cuenta una de las categorías (¿Por Qué?).
3. Construya una variable booleana que capture si el vino es recomendado cuando pasa cierto umbral de puntaje.

In [None]:
# Explorar la distribución de la variable y escoger puntos de corte adecuados.
vinos['points'].describe()

In [None]:
# Queremos un punto de corte para definir un vino excelente!
q25 = np.quantile(vinos['points'], .25) # Percentil 25
q75 = np.quantile(vinos['points'], .75) # Percentil 75
x = np.floor(0.5*(q75 + vinos.points.max())) # Un punto entre el percentil 75 y el máximo

In [None]:
# Un vino por encima de 92 resulta siendo excelente
x

In [None]:
# Genere las categorías con pd.cut()
cats = ['malo', 'regular', 'bueno', 'excelente']
cortes = [vinos.points.min(), q25, q75, x, vinos.points.max()]
cortes

In [None]:
vinos['class'] = pd.cut(vinos['points'], 
                        cortes, 
                        labels = cats)

In [None]:
vinos['points'].tail()

In [None]:
vinos['class'].tail()

In [None]:
# Explore el tipo de datos de su variable creada
vinos['class'].dtype

In [None]:
vinos.head()

In [None]:
# Genere variable booleana de recomendación (puntaje mayor o igual a 92)
vinos['recommend'] = vinos['points'] >= 92

In [None]:
vinos['recommend'].head()

In [None]:
# proporcion de vinos que si son recomendados usando la variable recomendado
vinos['recommend'].mean()

In [None]:
vinos['recommend'].value_counts()

## Estandarización

In [None]:
calidad_vinos

In [None]:
info_vinos = calidad_vinos.merge(vinos,on='title',how='left').reset_index(drop=True)

In [None]:
info_vinos.head(10)

In [None]:
info_vinos.columns

Solo estandarizamos las variables numéricas

In [None]:
vars_estandarizar = ['fixed acidity', 'volatile acidity', 'citric acid',
       'residual sugar', 'chlorides', 'free sulfur dioxide',
       'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol',
       'quality','points']

In [None]:
info_vinos[vars_estandarizar]

In [None]:
from sklearn.preprocessing import MinMaxScaler

estandarizacion_min_max = MinMaxScaler()
estandarizacion_min_max.fit(info_vinos[vars_estandarizar])

In [None]:
estandarizacion_min_max.transform(info_vinos[vars_estandarizar])

In [None]:
info_vinos_estandarizado = info_vinos.copy()
info_vinos_estandarizado.loc[:,vars_estandarizar] = estandarizacion_min_max.transform(info_vinos[vars_estandarizar])

In [None]:
info_vinos_estandarizado[vars_estandarizar]

In [None]:
(0.045-info_vinos.chlorides.min())/(info_vinos.chlorides.max()-info_vinos.chlorides.min())

Estandarización con la normal

In [None]:
from sklearn.preprocessing import StandardScaler

estandarizacion_normal = StandardScaler()
estandarizacion_normal.fit(info_vinos[vars_estandarizar])

In [None]:
info_vinos.loc[:,vars_estandarizar] = estandarizacion_normal.transform(info_vinos[vars_estandarizar])

In [None]:
info_vinos.loc[:,vars_estandarizar]

In [None]:
pd.DataFrame(estandarizacion_normal.inverse_transform(info_vinos.loc[:,vars_estandarizar]),columns=vars_estandarizar)

## ¿Cómo lidiar con los NAs o missing values?
Primero vamos a identificar aquellas observaciones que son explícitamente NA

In [None]:
# Identifique qué observaciones no cuentan con información de su precio
info_vinos['fixed acidity'].isna().head()

In [None]:
info_vinos.isna().sum()

In [None]:
np.round(100*info_vinos.isna().mean(), 2)

In [None]:
# Opción 1: eliminar las observaciones sin información del precio
vinos1 = info_vinos[info_vinos['fixed acidity'].notna()]

In [None]:
vinos1 = info_vinos[~info_vinos['fixed acidity'].isna()]

In [None]:
vinos1 = info_vinos.dropna(subset = ['fixed acidity'])

In [None]:
vinos1.shape

In [None]:
# ¿Cuántas observaciones perdimos?
vinos1.shape[0] - info_vinos.shape[0]

In [None]:
# ¿Qué proporción de observaciones perdimos?
vinos1.shape[0]/info_vinos.shape[0] - 1

In [None]:
# Opción 2: Asignarles el precio promedio o mediano de las observaciones con esta información.
vinos2 = info_vinos.copy()
valor_promedio = vinos2['fixed acidity'].mean()
valor_promedio

In [None]:
vinos2['fixed acidity'] = vinos2['fixed acidity'].fillna(vinos2['fixed acidity'].mean())
vinos2['fixed acidity'].head()

In [None]:
# Opción 3: Asignandole la media/mediana de algún grupo relevante
tabla_imputacion = info_vinos.groupby("class")['fixed acidity'].median().reset_index()
tabla_imputacion

In [None]:
diccionario_imputacion = dict(tabla_imputacion.values)
diccionario_imputacion

In [None]:
# A cada clase se le está asignando un precio según el diccionario
valores_imputacion = info_vinos["class"].map(diccionario_imputacion)
valores_imputacion = np.array(valores_imputacion)
valores_imputacion

In [None]:
filtro = info_vinos['fixed acidity'].isna()
filtro

In [None]:
vinos3 = info_vinos.copy()

In [None]:
vinos3.loc[filtro, "fixed acidity"] = valores_imputacion[filtro]

In [None]:
vinos3.loc[filtro, ["fixed acidity", "class"]]

In [None]:
# ¿Son los NA at random? ¿O siguen algún patrón?
np.round(100*vinos3["class"].value_counts(normalize = True), 2)

In [None]:
np.round(100*vinos3.loc[filtro, ["price", "class"]].value_counts(normalize = True), 2)

In [None]:
diccionario_imputacion

In [None]:
## Opción 4: Haciendo uso de alguna técnica de ML

In [None]:
# El país tiene NAs
info_vinos[["points", "country"]].isna().sum()

In [None]:
# Menos del 5%
info_vinos[["points", "country"]].isna().mean()

In [None]:
# Revisemos si para los precios faltantes, también hace falta el país
info_vinos.loc[info_vinos["fixed acidity"].isna(), ["points", "country", "fixed acidity"]].isna().sum()

In [None]:
# Opcion 4: Utilizando técnicas de ML
# Crearemos una base para imputar
X = info_vinos[["fixed acidity", "points", "country"]]

In [None]:
# No podemos imputar con NAs
X = X.dropna(subset = ["country"])
idx = list(X.index)

In [None]:
idx

In [None]:
X

In [None]:
X = pd.get_dummies(X,columns=['country'],drop_first=True)

In [None]:
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors = 3)
X_imputed = imputer.fit_transform(X)

In [None]:
X_imputed

In [None]:
X_imputed = pd.DataFrame(X_imputed, columns = X.columns)

In [None]:
X_imputed = X_imputed.rename(columns = {"fixed acidity": "fixed_acidity_knn"})
X_imputed

In [None]:
pd.concat([X[["fixed acidity"]], X_imputed[["fixed_acidity_knn"]]], axis = 1)

In [None]:
vinos4 = info_vinos.copy()

In [None]:
vinos4.loc[idx, "fixed acidity"] = X_imputed["fixed_acidity_knn"].values

In [None]:
vinos4.loc[idx, "fixed acidity"]

In [None]:
# Comparemos los métodos 2, 3 y 4
info_vinos.shape[0] == vinos2.shape[0] == vinos3.shape[0] == vinos4.shape[0]

In [None]:
vinos2 = vinos2.rename(columns = {"fixed acidity": "acidity_media"})
vinos3 = vinos3.rename(columns = {"fixed acidity": "acidity_categoria"})
vinos4 = vinos4.rename(columns = {"fixed acidity": "acidity_knn"})

In [None]:
imputar_media = vinos2[["acidity_media"]]
imputar_categoria = vinos3[["acidity_categoria"]]
imputar_knn = vinos4[["acidity_knn"]]

In [None]:
vinos_comparacion = pd.concat([info_vinos[['country', 'province', 'points', "fixed acidity"]], imputar_media, imputar_categoria, imputar_knn], axis = 1)

In [None]:
vinos_comparacion

In [None]:
vinos_comparacion.loc[vinos_comparacion["fixed acidity"].isna(), ]

## Visualizaciones

In [None]:
# Cargue las información del precio de la acción de Google
google = pd.read_csv('GOOG.csv', header=None, delimiter=',') # No tienen titulo 
google

In [None]:
google.columns = ['Fecha', 'Precio'] # Asigne titulos
google.head()

In [None]:
google.dtypes

In [None]:
google['Fecha'] = pd.to_datetime(google['Fecha'], format="%d-%m-%Y")
google.head()

In [None]:
google.dtypes

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# https://www.python-graph-gallery.com/

In [None]:
fig, ax = plt.subplots(figsize = (20, 6))
sns.lineplot(data = google, x = "Fecha", y = "Precio", ax = ax, color = "darkblue")
sns.scatterplot(data = google, x = "Fecha", y = "Precio", ax = ax, color = "darkblue")
ax.yaxis.set_major_formatter("${x:,.0f}")
plt.title("Precio de la acción de Google")

In [None]:
import plotly.express as px

In [None]:
google.isna().mean/(

In [None]:
fig = px.line(data_frame = google, x = "Fecha", y = "Precio", title = "Precio de la acción de Google",
              markers = True)
fig.update_traces(line_color = 'darkblue', line_width = 2)
fig.show()

In [None]:
# Número de vinos por país
paises = vinos.groupby('country').size().sort_values(ascending = False).reset_index(name = "Cantidad")
paises.head()

In [None]:
fig, ax = plt.subplots(figsize = (20, 7))
sns.barplot(data = paises, x = "Cantidad", y = "country", order = paises["country"], ax = ax)
plt.xlabel("Cantidad")
plt.ylabel("País")

In [None]:
paises["Porcentaje"] = paises["Cantidad"]/paises["Cantidad"].sum()
paises["Porcentaje acumulado"] = paises["Porcentaje"].cumsum()
paises

In [None]:
paises.loc[paises["Cantidad"] < 1000, "country"] = "Otro"

In [None]:
paises["country"] = paises["country"].astype(str)
paises.loc[paises["Cantidad"] < 1000, "country"] = "Otro"

In [None]:
paises2 = paises.groupby("country")[["Cantidad", "Porcentaje"]].sum().reset_index().sort_values("Cantidad", ascending = False)

In [None]:
paises2

In [None]:
fig, ax = plt.subplots(figsize = (20, 7))
sns.barplot(data = paises2, x = "Cantidad", y = "country", order = paises2["country"], ax = ax,
            palette = "RdYlGn_r",hue="country")
plt.xlabel("Cantidad de vinos")
plt.ylabel("País")
ax.xaxis.set_major_formatter("{x:,.0f}")

# Anotación del valor de cada barra
total = paises2.Cantidad.sum()
for barra in ax.patches:
    h, w = barra.get_y(), barra.get_width()
    ax.text(x = w + 1500, y = h + 0.38, s = "{:.2%}".format(w/total), # "{:,.0f}".format(w)
            ha = 'center',
            va = 'center')

In [None]:
fig, ax = plt.subplots(figsize = (20, 7))
sns.barplot(data = paises2, x = "Cantidad", y = "country", order = paises2["country"], ax = ax,
            palette = list(np.where(paises2.country == "Otro", "Red", "Grey")),hue='country')
plt.xlabel("Cantidad de vinos")
plt.ylabel("País")
ax.xaxis.set_major_formatter("{x:,.0f}")

# Anotación del valor de cada barra
total = paises2.Cantidad.sum()
for barra in ax.patches:
    h, w = barra.get_y(), barra.get_width()
    ax.text(x = w + 1500, y = h + 0.38, s = "{:.2%}".format(w/total), # "{:,.0f}".format(w)
            ha = 'center',
            va = 'center')

In [None]:
fig = px.bar(paises2, x = "Cantidad", y = "country")
fig.show()

In [None]:
import plotly.graph_objects as go

In [None]:
fig = go.Figure([
    go.Bar(x = paises2["country"], y = paises2["Cantidad"])
    ])
fig.show()

In [None]:
# https://plotly.com/python/horizontal-bar-charts/
fig = go.Figure([
    go.Bar(y = paises2["country"], x = paises2["Cantidad"], orientation = 'h', 
           marker = dict(color = 'rgba(50, 171, 96, 0.6)', line = dict(color = 'rgba(50, 171, 96, 1.0)', width = 1)),
           hovertemplate = 'País: %{y}'+ '<br>Cantidad: %{x}'
           )
    ])

fig.update_layout(
    title = 'Tipos de vino por país',
    yaxis = dict(
        showgrid = False,
        showticklabels = True,
    ),
    xaxis = dict(
        showticklabels = True,
        showgrid = False
    ),
    paper_bgcolor = 'rgb(248, 248, 255)',
    plot_bgcolor = 'rgb(248, 248, 255)',
)

fig.show()

In [None]:
# Histograma de la puntuación de los vinos combinando grafico directo de pandas y Matplotlib para formato
fig, ax = plt.subplots(figsize = (20, 6))

sns.histplot(data = vinos, x = "points", bins = 20, ax = ax)
plt.xlabel('Puntuación')
plt.ylabel('Frecuencia')
plt.title('Distribución de la puntuación de vinos')

# Linea vertical en el umbral de recomendación
plt.axvline(x = 92, linewidth = 2, color = 'r', linestyle = "dashed")
plt.show()

In [None]:
fig = px.histogram(vinos, x = "points", nbins = 20, opacity = 0.8)
fig.show()

In [None]:
vinos_paises = vinos.loc[vinos.country.isin(["Italy", "France"]),].reset_index(drop = True)
vinos_paises["country"] = vinos_paises["country"].astype(str)

# Histograma de la puntuación de los vinos combinando grafico directo de pandas y Matplotlib para formato
fig, ax = plt.subplots(figsize = (20, 6))

sns.histplot(data = vinos_paises, x = "points", hue = "country", stat = "density", bins = 10, 
             palette = ["green", "blue"], ax = ax)
plt.xlabel('Puntuación')
plt.ylabel('Frecuencia')
plt.title('Distribución de la puntuación de vinos')

# Linea vertical en el umbral de recomendación
plt.axvline(x = 92, linewidth = 2, color = 'r', linestyle = "dashed")
plt.show()

In [None]:
fig, ax = plt.subplots(figsize = (20, 6))

sns.boxplot(data = vinos, x = "class", y = "price", ax = ax, palette = "RdYlGn")
plt.ylim(0, 500)
plt.xlabel('Calidad del vino')
plt.ylabel('Precio del vino')
ax.yaxis.set_major_formatter("${x:,.0f}")

## TAREA - Taller 

 1. Además de entender las posibles distribuciones o gráficos de dispersión a través del tiempo, nos interesa poder visualizar las relaciones entre dos variables numéricas. Esto nos permite observar si existe algun tipo de correlacion. Investigue e implemente el comando `plt.scatter` o `sns.scatter` para evidenciar cualesquiera dos de sus variables. ¿Qué historia se puede contar?

2. Use un gráfico de torta (un pie graph en inglés) para ver la distribución por clase. Investigue si existe alguna forma de "extraer" (explode en inglés) pedazos de dicha torta 

3. Incorpore las 2 vistas para que estén en un único visual.