In [2]:
# Importamos la clase ProfileReport desde la librería ydata_profiling,
# que sirve para generar informes automáticos de análisis exploratorio de datos (EDA).
from ydata_profiling import ProfileReport

# Importamos la librería pandas para trabajar con estructuras de datos (DataFrames).
import pandas as pd

# Leemos el archivo CSV que contiene el dataset de las 10.000 empresas más grandes del país.
# pandas convierte el archivo en un DataFrame llamado 'df'.
df = pd.read_csv('10.000_Empresas_mas_Grandes_del_País_20251101.csv')

# Creamos el objeto 'profile', que genera el reporte de análisis del DataFrame 'df'.
# El parámetro 'title' define el título que aparecerá en el informe.
profile = ProfileReport(df, title="10.000_Empresas_mas_Grandes_del_País")

# Muestra el informe de forma interactiva dentro del mismo Jupyter Notebook,
# sin necesidad de abrir un archivo externo.
profile.to_notebook_iframe()

# Guarda una copia completa del informe en formato HTML en la carpeta actual.
# Este archivo puede abrirse en un navegador.
profile.to_file("10.000_Empresas_mas_Grandes_del_País.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]


  0%|                                                                                           | 0/14 [00:00<?, ?it/s][A
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:01<00:00,  7.33it/s][A


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

## Análisis del Dataset “10.000 Empresas más Grandes del País”

### Duplicados

0 registros duplicados

![Duplicados](https://trello.com/1/cards/690c2c386cde4d38d46b5880/attachments/69102221e98ea47cced623e3/download/image.png)

Cada empresa tiene un registro único.

---

### Valores nulos

Se encuentran 2 valores nulos en la columna `RAZÓN SOCIAL`.

![Valores nulos](https://trello.com/1/cards/690c2c386cde4d38d46b5880/attachments/691022879f0d20482256370b/download/image.png)

Esos dos casos deben revisarse, ya que podrían corresponder a errores de digitación o registros sin razón social asignada.

---

### Tipos de Datos

Todas las columnas están actualmente como **texto** (`object`).  
Incluye tanto variables categóricas (como **REGIÓN**, **MACROSECTOR**, **CIUDAD**)  
como variables numéricas representadas como texto (**INGRESOS OPERACIONALES**, **GANANCIA (PÉRDIDA)**, **TOTAL ACTIVOS**, etc.).

![Tipos de datos](https://trello.com/1/cards/690c2c386cde4d38d46b5880/attachments/691023c057ef254664d3ea21/download/image.png)

Antes de cualquier análisis numérico o cálculo, será necesario **convertir las columnas financieras a tipo numérico (`float` o `int`)**, eliminando símbolos como `$`, `,` o espacios.

---

### Distribuciones

Aunque todavía están en formato texto, se espera que:

- Las **variables financieras** (*INGRESOS OPERACIONALES*, *TOTAL ACTIVOS*, *PATRIMONIO*) muestren una **distribución fuertemente sesgada a la derecha**, con pocas empresas de muy alto valor y muchas de menor tamaño.  
- Las **variables categóricas** como *MACROSECTOR* o *REGIÓN* concentren gran parte de los registros en pocas categorías dominantes (por ejemplo, *Comercio* o *Bogotá D.C.*).

![Distribuciones](https://trello.com/1/cards/690c2c386cde4d38d46b5880/attachments/6910245efb729c2b4f2f7b94/download/image.png)

Se recomienda aplicar una **transformación logarítmica o escalamiento** después de convertirlas a numéricas para obtener análisis más estables.

---

### Correlaciones

Por ahora **no se pueden calcular correlaciones válidas**, ya que las columnas numéricas están en formato texto.  
Una vez convertidas, se espera encontrar:

- Alta **correlación positiva** entre *TOTAL ACTIVOS*, *TOTAL PASIVOS* y *PATRIMONIO*.  
- Posible **relación entre INGRESOS OPERACIONALES y GANANCIA (PÉRDIDA)*.*

![Correlaciones](https://trello.com/1/cards/690c2c386cde4d38d46b5880/attachments/6910257b81555a3a74144e1f/download/image.png)

Esto puede ayudar a identificar **indicadores financieros clave** o **redundancias entre variables**.

---

### Estadísticas descriptivas generales

Después de limpiar los datos numéricos, el análisis mostrará:

- **Valores máximos y mínimos extremos**, dada la gran diferencia entre empresas.  
- **Media mucho mayor que la mediana**, típica de distribuciones sesgadas.  
- **Desviaciones estándar altas**, reflejando la heterogeneidad del tamaño empresarial.
