### Scripts usados en PowerBI


Usé el siguiente script de Python para conectar PowerBI con MySQLWorkbench:  

In [None]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine("mysql+pymysql://root:Hello@localhost:3306/sprint_4")

def load_table(table_name):
    query = f"SELECT * FROM {table_name}"
    return pd.read_sql(query, engine)

companies_df = load_table("companies")
credit_cards_df = load_table("credit_cards")
credit_cards_status_final_df = load_table("credit_cards_status_final")
products_df = load_table("products")
transaction_products_df = load_table("transaction_products")
transactions_df = load_table("transactions")
users_df = load_table("users")

df_final = companies_df # Tuve que agregar esta línea porque Power BI sólo puede leer un DataFrame a la vez desde el script de Python. Así, PowerBI ya es capaz de hacer la conexión y después pude seleccionar todas las tablas que quería importar. 

E1

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(amount)
# dataset = dataset.drop_duplicates()

# Paste or type your script code here:
import matplotlib.pyplot as plt

dataset["amount"].plot.hist(bins=50)
plt.title("Distribución del monto por transacción")
plt.xlabel("Monto (€)")
plt.ylabel("Número de transacciones")
plt.tight_layout()
plt.show()


E2

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(weight, price)
# dataset = dataset.drop_duplicates()

# Paste or type your script code here:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8, 6))

sns.kdeplot(
    data=dataset,
    x="weight",
    y="price",
    fill=True,
    cmap="Reds",
    thresh=0.05,
    levels=100,
    clip=((None, None), (0, None))
)

sns.scatterplot(
    data=dataset,
    x="weight",
    y="price",
    color="white",
    edgecolor="black",
    alpha=0.6
)

plt.title("Distribución de productos: Peso vs Precio")
plt.xlabel("Peso")
plt.ylabel("Precio (€)")
plt.tight_layout()
plt.show()


E3

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(declined)
# dataset = dataset.drop_duplicates()

# Paste or type your script code here:
import matplotlib.pyplot as plt

counts = dataset["declined"].value_counts().sort_index()
total = counts.sum()
ax = counts.plot.bar()

for i, count in enumerate(counts):
    percentage = (count / total) * 100
    ax.text(i, count + 5, f"{percentage:.2f}%", ha="center")

plt.title("Porcentaje de transacciones aprobadas vs. rechazadas")
plt.xlabel("Estado de la transacción")
plt.ylabel("Número de transacciones")
plt.xticks([0, 1], ["Aprobada", "Rechazada"], rotation=0)
plt.tight_layout()
plt.show()

Fue necesario añadir el ID para generar registros únicos y que PowerBI realizará el gráfico correctamente.   

E4

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(company_name, amount)
# dataset = dataset.drop_duplicates()

# Paste or type your script code here:
import matplotlib.pyplot as plt

top_companies = dataset.groupby("company_name")["amount"].sum().sort_values(ascending=False).head(10)
ax = top_companies[::-1].plot.barh()

for i, amount in enumerate(top_companies[::-1]):
    ax.text(amount + 1, i, f"{amount:,.1f}", va='center')

plt.title("Top 10 compañías con ventas más altas")
plt.xlabel("Monto total (€)")
plt.ylabel("Compañía")
plt.tight_layout()
plt.show()

En PowerBI tuve que usar el panel de filtros para filtrar este gráfico por los 10 países con mayores ventas.

E5

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(declined, country, id)
# dataset = dataset.drop_duplicates()


# Creo la macrotabla para poder usar las columnas que necesito
merge_exercise_5_df = pd.merge(companies_df, transactions_df, how="left", left_on="company_id", right_on="business_id")

# Creo una tabla cruzada con el número de transacciones aprobadas (0) y declinadas (1) por país
ct = pd.crosstab(subset["country"], subset["declined"])

# Renombro las columnas para que sean más descriptivas
ct.columns = ["Aprobada", "Declinada"]

# Grafico un diagrama de barras horizontal y apilado
ax = ct.plot.barh(stacked=True)

# Añado título, etiquetas y leyenda
plt.title("Transacciones aprobadas vs. declinadas por país")
plt.xlabel("Cantidad de transacciones")
plt.ylabel("País")
plt.legend(title="Estado")
plt.tight_layout()  # Ajusta el layout para que no se corten las etiquetas



Fue necesario añadir el ID para generar registros únicos y que PowerBI realizará el gráfico correctamente.   

E6

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(company_name, amount, country)
# dataset = dataset.drop_duplicates()

# Paste or type your script code here:
# Group by company and country, sum the amount
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12, 6))
sns.boxplot(
    data=dataset,
    x="company_name",
    y="amount",
    hue="country"
)

plt.title("Distribución del monto por compañía y país")
plt.xlabel("Top 5 compañías")
plt.ylabel("Monto de transacción")
plt.legend(title="Top país por compañía", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

En PowerBI tuve que usar el panel de filtros para filtrar este gráfico por los 5 países con mayores ventas.

E7

In [None]:
# The following code to create a dataframe and remove duplicated rows is always executed and acts as a preamble for your script: 

# dataset = pandas.DataFrame(amount, price, weight)
# dataset = dataset.drop_duplicates()

# Paste or type your script code here:
import seaborn as sns
import matplotlib.pyplot as plt

sns.pairplot(
    dataset,
    x_vars=["price", "weight", "amount"],
    y_vars=["price", "weight", "amount"]
)

plt.tight_layout()
plt.show()