# Programa Ingenias+ Data Science

Un proyecto de data science tiene varias etapas:

1. Recolección de Datos
2. Exploración y Procesamiento de los datos
3. Modelado
4. Puesta en Producción

Si bien la recoleccion de los datos es uno de los pasos más importante de cualquier proyecto, el Data Scientist puede tener desde mucho hasta nada de control en esta etapa. Muy frecuentemente, los data scientist tienen que trabajar con datos guardados en archivos excel, o csv que proveen los clientes.

De cualquier manera, poder leer estos datos, organizarlos, darles el formato correcto, inspeccionarlos y manipularlos es una tarea escencial y requiere librerias especiales, que veremos a lo largo de esta Notebook.

<font size=5>  👩🏽‍🔬 Exploración de los datos 👩🏽‍💻</font>

Una de las primeras cosas que debe realizar un Data Scientist al iniciar un nuevo proyecto es conocer el dataset con el cual va a trabajar. Este paso se conoce como <font color='#1ABC9C'>_"Analisis exploratorio de datos"_</font>.

Este análisis, que es parte de nuestra etapa de exploración y procesamiento de los datos, es muy importante ya que nos permitira descubrir patrones presentes en los datos. También permitira ver aquellos datos que se alejen del comportamiento esperado.

Cuando uno inicia un proyecto de Data Science el primer impulso es saltar a ajustar un modelo de machine learning. Sin embargo, es muy probable que no podamos explicar sus resultados, o no podamos entender que debemos ajustar si no hemos realizado previamente un analisis exploratorio.

Por este motivo, nos abocaremos a explorar nuestros datos en esta Notebook.

## Primera Parte: Describiendo los datos

Imaginemos la siguiente situación: Trabajas como data scientist en una empresa que comercializa distintos productos. La empresa tiene datos de ventas del Black Friday del año pasado. Tu Team leader te provee el dataset en el archivo `blackfriday.csv` y te pide que pienses en que proyecto puede surgir de allí que tenga utilidad para la empresa.

In [None]:
#importa pandas
import pandas as pd
import numpy as np

Recordemos que la sintaxis para poder leer un archivo csv es:
    
`df = pd.read_csv('archivo.csv', delimiter=',')`

Aunque muchas veces se omite el `delimiter` si el archivo esta separado por comas.

Lee el archivo csv `bkackfriday.csv` usando `pandas`. Guardalo en una variable llamada `blackfriday`.

In [None]:
blackfriday = pd.read_csv('blackfriday.csv')


Visualiza el DataFrame y observa cuantas filas y columnas tiene.

In [None]:
blackfriday.head()

In [None]:
blackfriday.shape

Nombre y tipo de datos en las columnas contenidas en `blackfriday`

In [None]:
blackfriday.columns

In [None]:
blackfriday.dtypes

Chequea si tiene valores faltantes y ver las filas que los tienen.

In [None]:
blackfriday.isna().sum()

In [None]:
blackfriday[blackfriday.isna().any(axis=1)]

In [None]:
blackfriday[blackfriday['Gender'].isna()]

Detalles estadisticos de cada columna:

In [None]:
blackfriday.describe()

Podemos ver tambien que valores o categorias estan incluidas en las columnas:

In [None]:
blackfriday["City_Category"].value_counts()

In [None]:
blackfriday["City_Category"].value_counts(normalize=True)

In [None]:
blackfriday["Marital_Status"].value_counts(normalize=True)

In [None]:
blackfriday['Stay_In_Current_City_Years'].unique()

In [None]:
blackfriday['Stay_In_Current_City_Years'].value_counts()

In [None]:
blackfriday['Stay_In_Current_City_Years'] = blackfriday['Stay_In_Current_City_Years'].str.replace('4+', '4', regex=False).astype(int)

In [None]:
blackfriday[(blackfriday["City_Category"] == 'A') & (blackfriday["Marital_Status"] == 0)]["Purchase"].max()


In [None]:
blackfriday[(blackfriday["City_Category"] == 'A') & (blackfriday["Marital_Status"] == 0)]["Purchase"].min()


In [None]:
blackfriday[(blackfriday["Gender"] == 'F') & (blackfriday["Marital_Status"] == 0)]["Purchase"].max()


In [None]:
blackfriday.groupby(by=['City_Category', 'Gender'])['Purchase'].mean()

In [None]:
pd.crosstab(blackfriday["City_Category"], blackfriday["Product_Category_1"])

## Parte 2: ¿Cómo visualizo mis datos?

Para poder visualizar los datos y la relación entre las distintas variables, podemos usar dos librerias: `matplotlib` y `seaborn`.

Documentación:
- [matplotlib](https://matplotlib.org/3.1.1/contents.html)
- [seaborn](https://seaborn.pydata.org/)

- Importamos la libreria `matplotlib.pyplot` como `plt`
- Importamos la libreria seaborn como `sns`

In [None]:
#Importa las librerias matplotlib y seaborn
import matplotlib.pyplot as plt
import seaborn as sns

Veamos algunos ejemplos de distintos graficos que se pueden obtener con estas librerias.

In [None]:
blackfriday.dtypes

#### Histogramas:

In [None]:
# Grafico Age
plt.figure()
plt.hist(blackfriday['Purchase'].dropna(), bins=10, color="blue", alpha=0.3)
plt.ylabel("Cantidad", size=14)
plt.xlabel("Monto de la compra", size=14)
plt.title("Distribucion del monto de la compra realizado por los clientes", size=16, pad=25)
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.grid(False)
plt.show()

In [None]:
# Grafico Age
plt.figure()
plt.hist(blackfriday['Age'].dropna(), bins=10, color="orange", alpha=0.3)
plt.ylabel("Cantidad", size=14)
plt.xlabel("Edad", size=14)
plt.title("Distribucion de la edad de los clientes", size=16, pad=25)
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.grid(False)
plt.show()

Mi pagina favorita para elegir [colores](https://htmlcolorcodes.com/es/tabla-de-colores/)🎨 &nbsp;🖍

#### Distplot:

In [None]:
plt.figure()
sns.displot(blackfriday["Purchase"], color="#5ea88e", kde=True)
plt.xlabel('Monto de la compra')
plt.ylabel('Frequency')
sns.despine()
plt.show()

#### Boxplot:

In [None]:
boxplot_blackfriday = blackfriday.melt(id_vars='City_Category', value_vars=['Purchase'])

In [None]:
boxplot_blackfriday.head()

In [None]:
plt.figure(figsize=(6, 4))
sns.boxplot(x="variable", y="value", data=boxplot_blackfriday, palette="Set2", hue='City_Category')

plt.title('Monto segun categoria de ciudad', size=14, pad=15)
plt.legend(loc='best', frameon=False)
plt.xlabel('Ciudad', size=12)
plt.ylabel('Monto', size=12)
sns.despine()
plt.show()

#### Scaterplot:

In [None]:
plt.figure()
sns.scatterplot(x="Age", y="Purchase",data=blackfriday, palette="spring")
sns.despine()
plt.show();

#### Countplot

Observa como se pueden ajustar la estetica del grafico (Vale para cualquier grafico).

In [None]:
plt.figure(figsize=(10,5))


sns.countplot(x="Occupation", data=blackfriday.sort_values('Occupation'), palette="Set3")

plt.ylabel("Eventos", size=14)
plt.xlabel("Ocupacion", size=14)
plt.title("Distribucion de la variable ocupacion", size=16, pad=25)
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.grid(False)
plt.show()

In [None]:
plt.figure(figsize=(10,5))


sns.countplot(x="Gender", data=blackfriday, palette="Set3")

plt.ylabel("Eventos", size=14)
plt.xlabel("Genero", size=14)
plt.title("Distribucion de la variable genero", size=16, pad=25)
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.grid(False)
plt.show()

#### Graficos solapados

In [None]:
plt.figure()
sns.displot(blackfriday[blackfriday['City_Category'] == 'A']["Purchase"], color="#a8685e", kde=True)
sns.displot(blackfriday[blackfriday['City_Category'] == 'B']["Purchase"], color="#5ea88e", kde=True)
sns.displot(blackfriday[blackfriday['City_Category'] == 'C']["Purchase"], color="#0f0752", kde=True)
plt.xlabel('Monto de la compra')
plt.ylabel('Frequency')
sns.despine()
plt.show();

#### Subplots

In [None]:
# Inicio subplots
fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(10, 4))
# Establezco colores
colors = np.arange(959)
# primer grafico
ax[0].hist(blackfriday[blackfriday['City_Category'] == 'A']["Purchase"], color="#a8685e", alpha=0.5, bins=15)
# segundo grafico
ax[1].hist(blackfriday[blackfriday['City_Category'] == 'B']["Purchase"], color="#5ea88e", alpha=0.4, bins=20)
# tercer grafico
ax[2].hist(blackfriday[blackfriday['City_Category'] == 'C']["Purchase"], color="#0f0752", alpha=0.4,  bins=25)
# modifico primer grafico
ax[0].spines["top"].set_visible(False)
ax[0].spines["right"].set_visible(False)
# modifico segundo grafico
ax[1].spines["top"].set_visible(False)
ax[1].spines["right"].set_visible(False)
# modifico tercer grafico
ax[2].spines["top"].set_visible(False)
ax[2].spines["right"].set_visible(False)
plt.show()

#### Pairplot

In [None]:
blackfriday.columns

In [None]:
sns.pairplot(blackfriday[['Stay_In_Current_City_Years', 'Age', 'Purchase', 'Gender']], hue='Gender', palette='PuRd');

In [None]:
corr = blackfriday[['Age', 'Stay_In_Current_City_Years', 'Purchase']].corr(method = 'pearson')

In [None]:
sns.heatmap(corr, cmap='YlGnBu', annot=True);

**Otros ejemplos de gráficos**: [Ejemplos en Matplotlib](https://matplotlib.org/3.1.0/gallery/index.html) y [Ejemplos en Seaborn](https://seaborn.pydata.org/examples/index.html)