# Análisis exploratorio de los datos

![Mineria de datos](data-mining.jpg  "Metodología proyectos de minería") 

<center>
(Fuente:https://www.proglobalbusinesssolutions.com/wp-content/uploads/2017/12/data-mining.jpg/)
</center>

La recopilación inicial de datos y cifras se realiza a partir de todas las fuentes disponibles. En la fase para **entender los datos** se examinan las propiedades del set de datos que se tiene. Luego, la calidad de la información se verifica mediante respuestas a ciertas preguntas relevantes sobre la integridad y precisión del material.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Carga de datos

In [None]:
# Carga de datos
data_frame = pd.read_csv("Food_Preference.csv")
data_frame.head()

### Consideraciones

1. El set de datos está formado por filas y columnas. Las filas corresponden a las observaciones y las columnas son las características (features, variables). 

2. Cada característica puede ser numérica o catgórica; particularmente, muchos algoritmos requieren que las columnas con las cuales se quiere trabajar deben ser numéricas. Lo anterior lleva a un proceso, eventualmente, de transformación de los datos.

## Es hora de comenzar con la exploración de los datos ...

## Tamaño del dataset

In [None]:
data_frame.shape

In [None]:
len(data_frame)

## Tipos de datos de las columnas

In [None]:
# Revisión de los tipos de datos
data_frame.dtypes

### Tratamiento de valores nulos

In [None]:
# Valores nulos
for feature in data_frame.columns:
    print('Total de valores nulos de', feature, '=', data_frame[feature].isna().sum())

### Técnicas de tratamiento de nulos

1. Eliminar las observaciones (opción simple)
2. Imputación (mejor opción). Acá se rellenan los valores vacíos con algún valor, puede ser el promedio del valor de la columna. Puede ser el valor más repetido en el caso de una variable categórica.
3. Una extensión de la imputación. Se agrega una columna indicando que el valor ha sido reemplazado, de esta forma, se mantiene "identificados" a los valores nulos


In [None]:
data_frame.isnull()

In [None]:
data_frame.isnull().any()

In [None]:
data_frame.isnull().any(1)

In [None]:
data_frame[data_frame.isnull().any(1)]

In [None]:
import statistics as stat
moda=stat.mode(data_frame["Gender"])
print(moda)

In [None]:
data_frame["Gender"]=data_frame["Gender"].fillna(moda)

In [None]:
# Aplica la técnica 1 de tratamiento de nulos
data_frame = data_frame.dropna()
data_frame.shape

## Exploración de valores 

### Algunas estadísticas

In [None]:
data_frame.describe()

La función anterior obtiene las estadísticas de una sola columna (en este caso hay 8), aparece solo esa porque es la única columna numérica.

La interpretación:

1. Hay 284 valores en la columna
2. El promedio corresponde a 30.65
3. La desviación estándar es de 11.24, lo que quiere decir, la edad de las observaciones varía dentro del intervalo [19.41, 41.89] [mean - std; mean + std]
4. Valor mínimo de la columna es 8
5. El 25% de las observaciones es menor a 24
6. El 50% de las observaciones es menor a 28
7. El 75% de las observaciones es menor a 37
8. El valor máximo de la columna es 80

### Una alternativa

Lo anterior igual se puede lograr de forma individual

In [None]:
print('Mínimo:',data_frame['Age'].min())
print('Máximo:',data_frame['Age'].max())
print('Promedio:',data_frame['Age'].mean())
print('STD:',data_frame['Age'].std())
print(data_frame.Age.quantile([.25, .5, .75]))
print('*******')
print('Mínimo:',min(data_frame['Age']))
print('Máximo:',max(data_frame['Age']))

In [None]:
data_frame.describe(include="all")

In [None]:
# Considerando solo las columnas de tipo object
import numpy as np
data_frame.describe(include=[np.object])

## Agrupaciones de datos 

In [None]:
# Para comprobar los resultados anteriores
data_frame.groupby(data_frame.Gender).count()

In [None]:
data_frame.groupby('Gender').count()

In [None]:
data_frame.groupby('Gender')["Food"].count()

In [None]:
# Obtener total de pedidos considerando tipo de comida y género
data_frame.groupby('Gender')['Food'].value_counts()

In [None]:
# Obtener total de alternativas de postre por género
data_frame.groupby('Gender')['Dessert'].value_counts()

In [None]:
# ¿Quiénes piden más postres, los hombres o las mujeres?
data_frame[data_frame.Dessert == 'Yes'].groupby('Gender')["Dessert"].value_counts()

Claramente la pregunta anterior es más fácil de responder utilizando gráficos ...

## También es posible graficar ...

In [None]:
# Visualizamos de forma rápida las características de entrada, eliminando las columnas que no interesan
data_frame['Age'].hist()
plt.show()

In [None]:
# Visualizamos de forma rápida las características de entrada, eliminando las columnas que no interesan
data_frame.drop(['Timestamp', 'Participant_ID'],1).hist()
plt.show()

Nuevamente, solo considera las columnas que son numéricas. La pregunta válida acá es, ¿cómo se puede graficar por ejemplo, la columna Food?

La respuesta es variada a la pregunta, sin embargo, una alternativa es la que se indica a continuación:

In [None]:
data_frame['Food'].unique()

In [None]:
data_frame['Food'].value_counts()

In [None]:
data_frame['Food'].value_counts().tolist()

In [None]:
def getGraficoBarras(label_x, label_y, title, feature):
    x_values = data_frame[feature].unique()
    y_values = data_frame[feature].value_counts().tolist()
    plt.bar(x_values, y_values)
    plt.title(title)
    plt.xlabel(label_x)
    plt.ylabel(label_y)
    plt.show()

getGraficoBarras('Tipos de comida', 'Nro.Obsevaciones', "Total de observaciones por tipo de comida", 'Food')

In [None]:
tipos = data_frame['Food'].unique()
total = data_frame['Food'].value_counts().tolist()
plt.pie(total, labels=tipos, autopct='%1.1f%%', shadow=True, startangle=90) 
plt.title('Distribución de tipos de comida')
plt.show()

In [None]:
tipos = data_frame['Food'].unique()
total = data_frame['Food'].value_counts().tolist()
explode = [0.4 if total[0] == max(total) else 0, 0.4 if total[1] == max(total) else 0] # Destacar algunos 
plt.pie(total, labels=tipos, explode = explode, autopct='%1.1f%%', shadow=True, startangle=90) 
plt.title('Distribución de tipos de comida')
plt.show()

Ahora que ya se conoce como se genera un gráfico de torta, entonces se puede, responder (gráficamente) a la pregunta acerca de ¿Quiénes piden más postres, los hombres o las mujeres?

In [None]:
# Respondiendo, gráficamente a: ¿Quiénes piden más postres, los hombres o las mujeres?
df_pie = pd.DataFrame(data_frame[data_frame.Dessert == 'Yes'].groupby('Gender')['Dessert'].count())
colores = ["#EE6055","#60D394"]
plt.pie(np.array(df_pie).ravel(), labels=[df_pie.index[0],df_pie.index[1]], 
        autopct='%1.1f%%', shadow=True, startangle=90, colors = colores) 
plt.title('Distribución por género de solicitud de postres')
plt.show()

In [None]:
df_pie

### Manejando la carta de colores

Más información en: https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html

In [None]:
from matplotlib import cm
from matplotlib import colors
df_pie = pd.DataFrame(data_frame[data_frame.Dessert == 'Yes'].groupby('Gender')['Dessert'].count())
normdata = colors.Normalize(min(df_pie.Dessert), max(df_pie.Dessert))
colormap = cm.get_cmap("Blues")
colores =colormap(normdata(np.array(df_pie).ravel()))
plt.pie(np.array(df_pie).ravel(), labels=[df_pie.index[0],df_pie.index[1]], 
        autopct='%1.1f%%', shadow=True, startangle=90, colors = colores) 
plt.title('Distribución por género de solicitud de postres')
plt.show()

In [None]:
# Gráfico de densidad de edades

x_values = data_frame.Age.unique()
y_values = data_frame.Age.value_counts().tolist()
plt.scatter(x_values, y_values, marker='o');
#plt.plot(x_values, y_values)
plt.title('Densidad de edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()