# Módulo 2
**Desarrollo de proyectos de análisis de datos  IN1002B**

### Visualización

**Librerías**

Importaremos las librerías más comunmente utilizadas con pandas para temas de visualización.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

In [None]:
data = pd.read_csv('/content/drive/MyDrive/IN1002B_204/treadmill.csv')

## Caso de estudio

Parte de estas respuestas serán solicitadas en su actividad 2.3.

Se pide hacer un análisis de la siguiente base de datos sobre la venta de maquinas para correr.
<br>
El objetivo es diseñar campañas que abarquen diferentes segmentos de compradores, lo anterior desarrollando un perfil general de los compradores.
<br>
Las columnas contienen la siguiente información:

- Product - the model no. of the treadmill
- Age - in no of years, of the customer
- Gender - of the customer
- Education - in no. of years, of the customer
- Marital Status - of the customer
- Usage - Avg. # times the customer wants to use the treadmill every week
- Fitness - Self rated fitness score of the customer (5 - very fit, 1 - very unfit)
- Income - of the customer
- Miles- expected to run


Se espera dar respuesta a las siguientes preguntas en su actividad 2.3:

1. ¿Que edad promedio tienen los clientes que usan las maquinas para correr?

2. ¿Podemos utilizar el promedio como una medida valida?

3. ¿Hay alguna diferencia entre el estado físico de hombres y mujeres?

4. ¿Existe una relación entre la edad y las millas que corre una persona? Si la respuesta es sí, escribe tus observaciones.

5. Relacionado a la pregunta anterior, si lo que se desea es generar una campaña publicitaria que impacte a la mayor parte de los compradores ¿que recomendación de segmentos darías? (Eg. por edad, sexo, estado marital, etc.)

Las preguntas serán analizadas al final del código.

## **Limpieza**

1. **Datos fatantes:**

In [None]:
# shape


In [None]:
#isnull()


2. **Identificar el tipo de dato:**

In [None]:
#info()


In [None]:
#head()


# **Datos cuantitativos**

### **Histogramas**

Los histogramas son una de las herramientas más utilizadas para conocer las distribuciones de los datos.

```Seaborn```

Seaborn es una interfaz de alto nivel para crear gráficos estadísticos. Está construido sobre Matplotlib y proporciona una interfaz más sencilla e intuitiva para crear gráficos estadísticos comunes.

```Matplot```

Matplotlib es una biblioteca para la generación de gráficos en dos dimensiones, a partir de datos contenidos en listas o arrays

- **Income**

Este primer valor será analizado con la función de ```Seaborn``` llamada ```histplot``` y en ```Matplot``` se llama ```plt.hist()```.

Ambas funciones otorgan resultados similares, el principal cambio se ve en la manera de editar y llamar a las funciones.

In [None]:
# info()


In [None]:
# Matplot -> plt.hist
plt.hist(data.Income)
plt.show()

In [None]:
# agregar grid(True)


- **Age**

In [None]:
# lo mismo, pero ahora en seaborn
sns.histplot(data = data, x = 'Age')


In [None]:
# Agreguemos hue = 'Gender' dentro de nuestra función


In [None]:
# Se sobreponen, entonces les sugiero agregar tambien element="step"


## **Diagrama de caja y bigote**

 Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos numéricos a través de sus cuartiles.

Las líneas que se extienden paralelas a las cajas se conocen como «**bigotes**», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior.

 Los **valores atípicos** se representan a veces como puntos individuales que están en línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical u horizontalmente.

In [None]:
# describe()


In [None]:
sns.boxplot(data = data, y = 'Income')

# **Datos cualitativos**

### **Gráfico de barras**

```countplot()```

https://seaborn.pydata.org/generated/seaborn.countplot.html

Realicemos un gráfico por cada una de las variables cualitativas:

In [None]:
# head()


In [None]:
# sns.countplot() -> Product
sns.countplot(x = data['Product'])

In [None]:
# Variable 2


In [None]:
# Variable 3


In [None]:
# Variable 4


In [None]:
# Variable 5


***¿Consideran que los gráficos anteriores son suficientes para la creación de un reporte?***

Vamos a crear con otra función de ```seaborn``` gráficos  con más información. De tal forma que puedan en una imagen resolver multiples preguntas de investigación.



```catplot()```

https://seaborn.pydata.org/generated/seaborn.catplot.html

El siguiente gráfico tendrá las siguientes características:


1.   Grafico de barras donde se mostrarán los ingresos respecto al género.
2.   Dentro de cada género, se crearán barras inicando el tipo de prodicto. cada barra tendrá un color diferente.



In [None]:
sns.catplot(data=data, y="Income", x="Gender", hue="Product", kind="bar")

Realicemos otro gráfico, consideremos las mismas variables ```x``` y ```y```, cambiando el valor de ```hue = ''``` por uno de su interés.

Solo recuenden que ```hue = ''``` forzosamente debe de ser una categoría.



In [None]:
sns.catplot(data=data, y="Income", x="Gender", hue="", kind="bar")

Eliminemos el parámetro de ```kind = ''``` y volvamos a ejecutar ese código en una línea nueva:

## **Tablas**

La función ```crosstab()``` nos permite unir dos variables y realizar un conteo de frecuencias o bien alguna otra función (media, mediana, moda, max, min, etc).



In [None]:
pd.crosstab(data['Product'],data['MaritalStatus'] )

### **Tablas pivote**

Podemos obtener un resultado similar por medio de tablas pivote, la ventaja es que podemos jugar con más variables.

En el siguiente ejemplo, la tabla tendrá la siguiente estructura:



*   Índice: producto
*   Columnas: género
*   Función agregada: promedio de ingresos


In [None]:
data.pivot_table(index = "Product", columns = "Gender", aggfunc = {"Income": 'mean'})

### **Gráfico de pay**

Actualmente, este gráfico no puede realizarse en ```seaborn```, por lo que utilizaremos ```matplot``` :)

La función ```plot.pie()``` nos pide tener un formaro especifico como variable de entrada.

Lo que se necesita es una tabla o un dataframe con las variables que deseamos graficas y el conteo de frecuencias de cada una de ellas.

Para lograrlo podemos hacer lo siguiente:

In [None]:
fitness = data.Fitness.value_counts().rename_axis('unique_values').to_frame('counts')
fitness

Unnamed: 0_level_0,counts
unique_values,Unnamed: 1_level_1
3,97
5,31
2,26
4,24
1,2


In [None]:
fitness.plot.pie(y = 'counts')

Ahora, seleccionen una variable de su interes que siga las características del ejemplo anterior.

Recuerden crear el mini dataframe previo a llamar ```plot.pie()```

In [None]:
# dataframe



#plot.pie()

## **Gráficos de tendencia**

### **Gráficos de línea**

Para el siguiente ejemeplo utilizaremos la base de datos de supermarket_sales en conjunto con la función ```lineplot()```.


https://seaborn.pydata.org/generated/seaborn.lineplot.html

In [22]:
# cargar el archivo
sales = pd.read_csv('/content/drive/MyDrive/IN1002B_204/supermarket_sales - Sheet1.csv')

In [None]:
# head()

In [None]:
# isnull()


In [33]:
# ajustes de fecha

sales['Date'] = pd.to_datetime(sales['date'], format= '%m/%d/%Y')

Vamos ahora a crear dos columnas nuevas, una será por año y la otra por mes.

In [34]:
# Año

sales['Year'] = sales.Date.dt.year

# Mes
sales['Month'] = sales.Date.dt.month

Ahora podemos hacer un gráfico de línea con la función ```lineplot()``` de ```seaborn```.

In [None]:
sns.lineplot(data=sales, y="Total", x="Month", ci = None)
# Ajustar las leyendas de eje para que aparezcan todos los meses
plt.xticks(ticks=sales['Month'].unique())

# Mostrar el gráfico
plt.show()

In [None]:
# Agregamos el argumento "hue" con el valor = Gender para ver la tendencia por género.


In [None]:
sns.lineplot(data=sales, y="Total", x="Month", hue = 'Gender', ci = None)
plt.xticks(ticks=sales['Month'].unique())

# Agregamos una línea de guía, mostraremos el promedio de ventas en todos los periodos
plt.axhline(y=sales.Total.mean(), color='red', linestyle='--', label='Línea Punteada')

# Mostrar el gráfico
plt.show()