In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv("../data/greatest_colombian_business.csv")
df.tail(5)

In [None]:
df.info()

In [None]:
financial_cols = ['INGRESOS OPERACIONALES', 'GANANCIA (PÉRDIDA)', 'TOTAL ACTIVOS', 'TOTAL PASIVOS', 'TOTAL PATRIMONIO']

for col in financial_cols:

    if df[col].dtype == 'object':
        df[col] = df[col].str.replace(r'[$,]', '', regex=True)
        df[col] = pd.to_numeric(df[col], errors='coerce')

if df['Año de Corte'].dtype == 'object':
    df['Año de Corte'] = df['Año de Corte'].astype(str).str.replace(r'[$,]', '', regex=True)
    df['Año de Corte'] = pd.to_numeric(df['Año de Corte'], errors='coerce').astype('Int64')

if 'BOGOTA D.C.' in df["DEPARTAMENTO DOMICILIO"].values:
    df.loc[df["DEPARTAMENTO DOMICILIO"] == "BOGOTA D.C.", "CIUDAD DOMICILIO"] = "Bogotá - Cundinamarca"

df.drop_duplicates(inplace=True)

df.info()

In [None]:
for i in df.columns:
    print(f"La columna {i} tiene un total de {len(df[i].value_counts())} valores unicos")

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(13, 12))
sns.countplot(data=df, x="SUPERVISOR", orient="v", width=0.6, ax=ax[0, 0], palette="Set1")
ax[0, 0].set_title("Conteo de supervisores")
ax[0, 0].tick_params(axis="x", rotation=45)
ax[0,0].set_xlabel("")

sns.countplot(data=df, x="REGIÓN", orient="v", width=0.6, ax=ax[0, 1], palette="Set1")
ax[0, 1].set_title("Conteo de Región")
ax[0, 1].tick_params(axis="x", rotation=45)
ax[0,1].set_xlabel("")

sns.countplot(data=df, x="MACROSECTOR", orient="v", width=0.6, ax=ax[1, 0], palette="Set1")
ax[1, 0].set_title("Conteo de Macrosector")
ax[1, 0].tick_params(axis="x", rotation=45)
ax[1,0].set_xlabel("")

sns.countplot(data=df, x="Año de Corte", orient="v", width=0.6, ax=ax[1, 1], palette="Set1")
ax[1, 1].set_title("Conteo de Año de Corte")
ax[1, 1].tick_params(axis="x", rotation=45)
ax[1,1].set_xlabel("")

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(4, 1, figsize=(16, 15))

sns.violinplot(
    data=df[df["Año de Corte"] == 2021],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[0]
)
ax[0].set_title("Distribución de ganancias por año 2021", fontsize=14, fontweight='bold')
ax[0].tick_params(axis="x", rotation=45)

sns.violinplot(
    data=df[df["Año de Corte"] == 2022],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[1]
)
ax[1].set_title("Distribución de ganancias por año 2022", fontsize=14, fontweight='bold')
ax[1].tick_params(axis="x", rotation=45)

sns.violinplot(
    data=df[df["Año de Corte"] == 2023],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[2]
)
ax[2].set_title("Distribución de ganancias por año 2023", fontsize=14, fontweight='bold')
ax[2].tick_params(axis="x", rotation=45)

sns.violinplot(
    data=df[df["Año de Corte"] == 2024],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[3]
)
ax[3].set_title("Distribución de ganancias por año 202", fontsize=14, fontweight='bold')
ax[3].tick_params(axis="x", rotation=45)
plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(4, 1, figsize=(15, 20))

sns.histplot(
    data=df[df["Año de Corte"] == 2021],
    x="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[0],
    kde=True,
    bins=400
)
ax[0].set_title("Distribución de ganancias por año 2021", fontsize=14, fontweight='bold')
ax[0].tick_params(axis="x", rotation=45)

sns.histplot(
    data=df[df["Año de Corte"] == 2022],
    x="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[1],
    kde=True,
    bins=400
)
ax[1].set_title("Distribución de ganancias por año 2022", fontsize=14, fontweight='bold')
ax[1].tick_params(axis="x", rotation=45)

sns.histplot(
    data=df[df["Año de Corte"] == 2023],
    x="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[2],
    kde=True,
    bins=400
)
ax[2].set_title("Distribución de ganancias por año 2023", fontsize=14, fontweight='bold')
ax[2].tick_params(axis="x", rotation=45)

sns.histplot(
    data=df[df["Año de Corte"] == 2024],
    x="GANANCIA (PÉRDIDA)", 
    palette="Set3",
    ax=ax[3],
    kde=True,
    bins=400
)
ax[3].set_title("Distribución de ganancias por año 2024", fontsize=14, fontweight='bold')
ax[3].tick_params(axis="x", rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# Agregación por año
trend_data = df.groupby('Año de Corte')[['INGRESOS OPERACIONALES', 'GANANCIA (PÉRDIDA)']].sum()
print(trend_data)

trend_data.plot(kind='line', subplots=True, title='Tendencia Financiera Anual')

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(16, 12))

# Año 2021
sns.regplot(
    data=df[df["Año de Corte"] == 2021],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[0, 0],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[0, 0].set_title("Ganancias vs Ingresos - 2021", fontsize=14, fontweight='bold')

# Año 2022
sns.regplot(
    data=df[df["Año de Corte"] == 2022],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[0, 1],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[0, 1].set_title("Ganancias vs Ingresos - 2022", fontsize=14, fontweight='bold')

# Año 2023
sns.regplot(
    data=df[df["Año de Corte"] == 2023],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[1, 0],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[1, 0].set_title("Ganancias vs Ingresos - 2023", fontsize=14, fontweight='bold')

# Año 2024
sns.regplot(
    data=df[df["Año de Corte"] == 2024],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[1, 1],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[1, 1].set_title("Ganancias vs Ingresos - 2024", fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
df.head()

In [None]:
sin_ecopetrol = df.loc[df["RAZÓN SOCIAL"]!="ECOPETROL S.A"]

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(16, 12))

# Año 2021
sns.regplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2021],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[0, 0],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[0, 0].set_title("Ganancias vs Ingresos - 2021", fontsize=14, fontweight='bold')

# Año 2022
sns.regplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2022],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[0, 1],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[0, 1].set_title("Ganancias vs Ingresos - 2022", fontsize=14, fontweight='bold')

# Año 2023
sns.regplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2023],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[1, 0],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[1, 0].set_title("Ganancias vs Ingresos - 2023", fontsize=14, fontweight='bold')

# Año 2024
sns.regplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2024],
    x="INGRESOS OPERACIONALES",
    y="GANANCIA (PÉRDIDA)",
    ax=ax[1, 1],
    scatter_kws={'s': 100, 'alpha': 0.6},
    line_kws={'color': 'red'}
)
ax[1, 1].set_title("Ganancias vs Ingresos - 2024", fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(4, 1, figsize=(16, 15))

sns.violinplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2021],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[0]
)
ax[0].set_title("Distribución de ganancias por año 2021", fontsize=14, fontweight='bold')
ax[0].tick_params(axis="x", rotation=45)

sns.violinplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2022],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[1]
)
ax[1].set_title("Distribución de ganancias por año 2022", fontsize=14, fontweight='bold')
ax[1].tick_params(axis="x", rotation=45)

sns.violinplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2023],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[2]
)
ax[2].set_title("Distribución de ganancias por año 2023", fontsize=14, fontweight='bold')
ax[2].tick_params(axis="x", rotation=45)

sns.violinplot(
    data=sin_ecopetrol[sin_ecopetrol["Año de Corte"] == 2024],
    x="MACROSECTOR", 
    y="GANANCIA (PÉRDIDA)", 
    palette="Set2",
    ax=ax[3]
)
ax[3].set_title("Distribución de ganancias por año 202", fontsize=14, fontweight='bold')
ax[3].tick_params(axis="x", rotation=45)
plt.tight_layout()
plt.show()