# **NIVEL 1**

### Utiliza los scripts de Python creados previamente en Sprint 8.1 para generar visualizaciones personalizadas con las bibliotecas Seaborn y Matplotlib. Estas visualizaciones se integrarán en el informe de Power BI para ofrecer una comprensión más profunda de la capacidad del lenguaje de programación en la fuente Power BI.

A la hora de importar los dataframes, añadí el código de creación de las columnas de edad y continente para que se guarden en el modelo. 

In [1]:
import pandas as pd
from sqlalchemy import create_engine

conexion = create_engine(f'mysql+mysqlconnector://root:joonie@localhost/operations')

tablas_db = ['transaction','company','credit_card','user','transaction_product','product']
dataframe = {}

for tabla in tablas_db:
	query = f'SELECT * FROM {tabla}'
	dataframe[tabla] = pd.read_sql(query, conexion)

conexion = conexion.dispose()

#cambio dtype de objeto a datetime
dataframe['user']['birth_date'] = pd.to_datetime(dataframe['user']['birth_date'])
#función para calcular la edad
def calculate_age(birth_date):
    today = pd.Timestamp.now()
    age = today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
    return age
dataframe['user']['age'] = dataframe['user']['birth_date'].apply(calculate_age)

#creación de una nueva columna para clasificar los países de las empresas por continente
Continents = {'Europe': ['Germany','Italy','United Kingdom','Sweden','Norway','Ireland','Netherlands','Belgium','France','Spain'],
              'Asia': ['China'],
              'North America': ['Canada','United States'],
              'Oceania': ['New Zealand','Australia']}
def assign_continent(country):
    if country in Continents['Europe']:
         return 'Europe'
    elif country in Continents['Asia']:
        return 'Asia'
    elif country in Continents['North America']:
        return 'North America'
    elif country in Continents['Oceania']:
        return 'Oceania'
    else: 
        return 'Undefined Continent'
dataframe['company']['Continent'] = dataframe['company']['country'].apply(assign_continent)

#simplifico los nombres de dataframes para usar en PowerBI; cambio nombre a algunas columnas
transaction = dataframe['transaction'].rename(columns={'id':'transaction_id'})
company = dataframe['company'].rename(columns={'country':'company_country'})
credit_card = dataframe['credit_card'].rename(columns={'id':'card_id','user_id':'card_owner'})
user = dataframe['user'].rename(columns={'id':'user_id','country':'user_country'})
transaction_product = dataframe['transaction_product']
product = dataframe['product'].rename(columns={'id':'product_id'})

## Ejercicio 1: Una variable numérica

**Variables escogidas**: 
* transaction: amount y transaction_id (para evitar que algunos importes se detecten como duplicados)

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(transaction_id, amount)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')

plt.figure(figsize=(10,6))
values, bins, bars = plt.hist(dataset['amount'], bins=np.arange(0, 525, 50), edgecolor="white")

plt.xticks(bins)

plt.xlabel('Importe de Transacciones (€)')
plt.ylabel('Frecuencia')
plt.bar_label(container=bars)
plt.tight_layout()

plt.show()

![image-2.png](attachment:image-2.png)

## Ejercicio 2: Dos variables numéricas

**Variables escogidas**: 
* transaction: amount
* user: age y user_id

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(user_id, age, amount)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')

user_median_amount = dataset.groupby('user_id').agg({'amount': 'median', 'age': 'first'}).reset_index()

plt.figure(figsize=(10,6))
plt.scatter(user_median_amount['amount'], user_median_amount['age'])

plt.yticks(np.arange(min(dataset['age']), max(dataset['age'] + 1),2))
plt.xticks(np.arange(0, 525, 50))

plt.xlabel('Mediana del Importe de Transacciones (€)')
plt.ylabel('Edad de Compradores')
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

## Ejercicio 3: Una variable categórica

**Variables escogidas**: 
* transaction: amount y user_id
* user: user_country

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(user_id, amount, user_country)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

#mediana de gasto y país de cada comprador
user_median_amount = dataset.groupby('user_id').agg({'amount': 'median', 'user_country': 'first'}).reset_index()

#recuento de transacciones por usuario y filtrado de los recurrentes
user_trans_count = dataset['user_id'].value_counts().reset_index(name='trans_count')
rec_users_filtered = user_trans_count[user_trans_count['trans_count'] > 2].reset_index(drop=True)
recurrent_users = pd.merge(rec_users_filtered, user_median_amount, on='user_id')

#recuento de usuarios por país
trans_users_country = user_median_amount.groupby('user_country').size().reset_index(name='user_count')
rec_users_country = recurrent_users.groupby('user_country').size().reset_index(name='rec_user_count') 

#visualización 
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,6))

ax1.pie(trans_users_country['user_count'], autopct='%1.2f%%', wedgeprops={"linewidth": 1.5, 'edgecolor': 'white'}, colors=['#E24A33','#348ABD','#988ED5'])
ax1.set_title('Todos los Compradores')
ax1.legend(trans_users_country['user_country'], title="País", loc="lower right", bbox_to_anchor=(1.2, 0, 0, 0))


ax2.pie(rec_users_country['rec_user_count'], autopct='%1.2f%%', wedgeprops={"linewidth": 1.5, 'edgecolor': 'white'}, colors=['#E24A33','#988ED5'])
ax2.set_title('Compradores Recurrentes')
ax2.legend(rec_users_country['user_country'], title="País", loc="lower right", bbox_to_anchor=(1.1, 0, 0, 0))
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

## Ejercicio 4: Una variable categórica y una numérica 

**Variables escogidas**: 
* transaction: amount y transaction_id
* company: company_country y continent

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(company_country, Continent, amount, transaction_id)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

plt.figure(figsize=(14,10))

dataset.sort_values(by=['Continent','company_country'], inplace=True)

ax = sns.boxplot(x='company_country', y='amount', data=dataset, hue='Continent', legend=False, palette='Set2')
ax = sns.stripplot(x='company_country', y='amount', data=dataset, color='black', jitter=0.1, size=3)

plt.yticks(np.arange(0, 525, 50))
ax.tick_params(axis='x', labelrotation=45)
plt.xlabel('País')
plt.ylabel('Importe de Transacciones (€)')
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

## Ejercicio 5: Dos variables categóricas

**Variables escogidas**: 
* transaction: declined y transaction_id (para que no se detecten como duplicados los datos) 
* company: company_country

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(company_country, declined, transaction_id)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

#recuento de la cantidad de transacciones rechazadas y aceptadas; merge de las cantidades en un dataframe nuevo
num_declined_trans = dataset.groupby('company_country')['declined'].sum().reset_index(name='num_declined')

accepted_trans = dataset[dataset['declined']==0]
num_accepted_trans = accepted_trans.groupby('company_country').size().reset_index(name='num_accepted')

country_trans = pd.merge(num_accepted_trans, num_declined_trans, on='company_country')

#cálculo de los porcentajes
country_trans['total_trans'] = country_trans['num_accepted'] + country_trans['num_declined']
country_trans['%_accepted'] = (country_trans['num_accepted'] / country_trans['total_trans']) * 100
country_trans['%_declined'] = (country_trans['num_declined'] / country_trans['total_trans']) * 100

country_trans.sort_values(by='%_declined', inplace=True)

#visualización
fig, ax = plt.subplots(figsize=(14, 6))

bar1 = ax.bar(country_trans['company_country'], country_trans['%_accepted'], label='Transacciones Aceptadas', 
              color='#348ABD', edgecolor='white', linewidth=1.25)

bar2 = ax.bar(country_trans['company_country'], country_trans['%_declined'], bottom=country_trans['%_accepted'], label='Transacciones Rechazadas', 
              color='#E24A33', edgecolor='white', linewidth=1.25)

ax.legend()
ax.set_xlabel('País')
ax.set_ylabel('Porcentaje de Transacciones (%)')
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

## Ejercicio 6: Tres variables

**Variables escogidas**: 
* transaction: amount y declined 
* company: company_country y continent

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(Continent, company_country, amount, declined)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

accepted_trans = dataset[dataset['declined']==0]
amount_country = accepted_trans.groupby(['Continent','company_country'])['amount'].sum().reset_index(name='sum_amount')
amount_country.sort_values(by='Continent',inplace=True)

#visualización
fig, ax = plt.subplots(figsize=(14, 6))

ax = sns.barplot(x='company_country', y='sum_amount', data=amount_country, hue='Continent', errorbar=None, palette='Set2')

ax.set_yscale('log')
ax.tick_params(axis='x', labelrotation=45)
plt.xlabel('País')
plt.ylabel('Suma Ventas (€), escala logarítmica')
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

## Ejercicio 7: Graficar un Pairplot

**Variables escogidas**: 
* transaction: user_id y amount
* user: user_country y age

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(age, user_country, user_id, amount)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

#mediana de gasto y país de cada comprador
user_median_amount = dataset.groupby('user_id').agg({'amount': 'median', 'user_country': 'first', 'age':'first'}).reset_index()

#recuento de transacciones por usuario y filtrado de los recurrentes
user_trans_count = dataset['user_id'].value_counts().reset_index(name='trans_count')
rec_users_filtered = user_trans_count[user_trans_count['trans_count'] > 2].reset_index(drop=True)
recurrent_users = pd.merge(rec_users_filtered, user_median_amount, on='user_id')

recurrent_users.rename(columns={'trans_count':'transaction count', 'amount':'median_amount'}, inplace=True)

#visualización
g = sns.pairplot(recurrent_users, vars=['transaction count', 'median_amount', 'age'], hue='user_country',
                 palette={'United States': '#988ED5', 'Canada': '#E24A33'}, height=4.5, aspect=1.5)

for ax in g.axes.flatten():
    if ax.get_ylabel() == 'age':
        ax.set_yticks(np.arange(20,45,3))
    elif ax.get_xlabel() == 'age':
        ax.set_xticks(np.arange(20,50,5))
    elif ax.get_xlabel() == 'median_amount':
        ax.set_xticks(np.arange(125,375,50))
    elif ax.get_xlabel() == 'transaction count':
        ax.set_xticks(np.arange(0,90,10))

sns.move_legend(g, "upper center", ncol=3, title='País de Compradores', frameon=False, fontsize=14, title_fontsize=15, bbox_to_anchor=(0.48, 1))
g.figure.subplots_adjust(top=0.93)

plt.show()

![image.png](attachment:image.png)

# **NIVEL 2**

## Ejercicio 1: Correlación de todas las variables numéricas

**Variables escogidas**: 
* transaction: amount
* product: price y weight
* user: age

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(age, amount, price, weight)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

correlation_matrix = dataset[['age','amount','price','weight']].corr()

plt.figure(figsize=(10,6))

g = sns.heatmap(correlation_matrix, cmap='Spectral', annot=True, fmt='.2f', vmin= -1, vmax= 1, center= 0, square=True, linewidths= 0.5)

g.figure.subplots_adjust(top=0.9)
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

## Ejercicio 2: Implementa un Jointplot

**Variables escogidas**: 
* transaction: amount y transaction_id
* transaction_product: product_id
* user: user_country

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(product_id, amount, transaction_id, user_country)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

#agrupación por id de transacción
num_prod_trans = dataset.groupby('transaction_id').agg(number_products=('product_id', 'count'), 
                                                        transaction_amount=('amount', 'first'),
                                                        user_country=('user_country', 'first'))

g = sns.jointplot(data=num_prod_trans, x='transaction_amount', y='number_products', hue='user_country', 
                  palette={'United States': '#988ED5', 'United Kingdom': '#348ABD', 'Canada': '#E24A33'}, height=10, ratio=4)

g.ax_joint.set_xticks(np.arange(0, 525, 50))
g.figure.subplots_adjust(top=0.9)
g.set_axis_labels('Importe de Transacciones (€)', 'Núm. de Productos Comprados')
plt.tight_layout()

plt.show()

![image.png](attachment:image.png)

# **NIVEL 3**

## Ejercicio 1: Implementa un Violinplot combinado con otro tipo de gráfico

**Variables escogidas**:
* transaction: amount, declined y transaction_id
* user: user_country

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(user_country, declined, amount, transaction_id)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

#nueva columna de transaction status
dataset['Transaction Status'] = dataset['declined'].replace({False:'Accepted', True:'Declined'})

#visualizacion
plt.figure(figsize=(13,8))

g = sns.violinplot(data=dataset, x='user_country', y='amount', hue='Transaction Status', palette={'Accepted':'#348ABD','Declined':'#E24A33'},
                   split=True, linewidth=1.25, inner='quart')
g = sns.stripplot(data=dataset, x='user_country', y='amount', hue='Transaction Status', palette={'Accepted':'black','Declined':'white'}, 
                  jitter=0.1, size=2.5)

g.set_ylabel('Importe de Transacciones (€)')
g.set_xlabel('País de Compradores')
g.set_yticks(np.arange(0, 525, 50))
plt.tight_layout()

plt.show()

**NOTA**: por alguna razón que desconozco, los países no salen en el mismo orden que en la tasca 8.01

![image.png](attachment:image.png)

## Ejercicio 2: Genera un FacetGrid para visualizar múltiples aspectos de datos simultáneamente

**Variables escogidas**:
* transaction: amount y declined
* company: company_country

In [None]:
# El código siguiente, que crea un dataframe y quita las filas duplicadas, siempre se ejecuta y actúa como un preámbulo del script: 

# dataset = pandas.DataFrame(company_country, amount, declined)
# dataset = dataset.drop_duplicates()

# Pegue o escriba aquí el código de script:
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

#suma del monto de transacciones por país y estado
sum_trans_status_country = dataset.groupby(['company_country','declined'])['amount'].sum().reset_index(name='sum_amount')
sum_trans_status_country.rename(columns={'company_country':'country'},inplace=True)
sum_trans_status_country['declined'] = sum_trans_status_country['declined'].replace({False:'Accepted', True:'Declined'})

#visualización
g = sns.FacetGrid(sum_trans_status_country, col='country', hue='declined', col_wrap=5, palette={'Accepted':'#348ABD','Declined':'#E24A33'})

g.map(sns.barplot, 'declined', 'sum_amount', order=['Accepted','Declined'])

for ax in g.axes:
    for p in ax.patches:
        ax.annotate('%.2f' % p.get_height(), (p.get_x() + p.get_width() / 2., p.get_height()),
                    ha='center', va='center', fontsize=9, color='black', xytext=(0, 4),
                    textcoords='offset points')

g.figure.subplots_adjust(top=0.9)
g.set_axis_labels(x_var='Estado Transacción', y_var='Suma Importe (€)')
plt.tight_layout()
             
plt.show()

![image.png](attachment:image.png)