# 1. Análisis Exploratorio de Datos (EDA) - Hoja 1: BASE DE DATOS

**Objetivo:** Analizar exclusivamente la hoja "BASE DE DATOS" del conjunto de datos de minería para entender su estructura, contenido y calidad. Específicamente, se busca:
1. Determinar el número de filas.
2. Identificar las columnas, su tipo de dato y su significado.
3. Cuantificar los valores faltantes en cada columna.
4. Analizar la distribución de valores únicos y categóricos.

In [48]:
# Cargar la sesión de Kedro y el dataset de la hoja 2
%load_ext kedro.ipython
%reload_kedro

The kedro.ipython extension is already loaded. To reload it, use:
  %reload_ext kedro.ipython


## Carga de Datos: Hoja "BASE DE DATOS"
Cargamos exclusivamente la hoja "BASE DE DATOS" del conjunto de datos `raw_mineria_data` definido en `conf/base/catalog.yml`. Este archivo Excel contiene múltiples hojas, pero aquí solo analizamos la hoja de empresas mineras.

In [49]:
data = catalog.load("raw_mineria_data")
sheet_name = "BASE DE DATOS"
df = data[sheet_name]
print(f"Se analizará la hoja: {sheet_name}")
print(f"Dimensiones: {df.shape[0]} filas × {df.shape[1]} columnas")

Se analizará la hoja: BASE DE DATOS
Dimensiones: 209 filas × 24 columnas


## Análisis de la Hoja "BASE DE DATOS"

A continuación se presenta un análisis detallado de la hoja "BASE DE DATOS" del archivo Excel, incluyendo:
- Dimensiones (filas y columnas)
- Tipos de datos
- Valores faltantes
- Distribución de valores únicos
- Análisis de variables categóricas

In [50]:
# Importar librerías necesarias para el análisis de la hoja "LISTADO EMPRESA"
import pandas as pd
import numpy as np
from IPython.display import display, Markdown

In [51]:
# Análisis Exploratorio de la Hoja "LISTADO EMPRESA"

display(Markdown(f"### Hoja: {sheet_name}"))
display(Markdown("---"))

# 1. Dimensiones
display(Markdown("#### 1. Número de Filas y Columnas"))
print(f"La hoja '{sheet_name}' tiene {df.shape[0]:,} filas y {df.shape[1]} columnas.")

# 2. Tipos de datos e información general
display(Markdown("#### 2. Tipos de Datos y Valores Faltantes"))
print("Información general del DataFrame:")
df.info()

# 3. Valores faltantes
print("\n" + "=" * 50)
missing_values = df.isnull().sum()
missing_percent = (missing_values / len(df)) * 100
missing_df = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje (%)': missing_percent
})
missing_df = missing_df[missing_df['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)

if len(missing_df) > 0:
    print("Valores faltantes por columna:")
    print(missing_df)
else:
    print("✓ No hay valores faltantes en esta hoja.")

# 4. Análisis de valores únicos
display(Markdown("#### 3. Análisis de Valores Únicos"))
print("\nNúmero de valores únicos por columna:")
print("=" * 50)
unique_counts = df.nunique()
unique_df = pd.DataFrame({'Valores Únicos': unique_counts})
print(unique_df)

# 5. Análisis de variables categóricas
display(Markdown("#### 4. Análisis Detallado de Variables Categóricas"))
categorical_vars = df.select_dtypes(include=['object']).columns

if len(categorical_vars) > 0:
    for var in categorical_vars:
        if df[var].nunique() < 20:  # Solo mostrar si tiene menos de 20 valores únicos
            print(f"\n--- Distribución de '{var}' ---")
            value_counts = df[var].value_counts()
            print(value_counts)
            print(f"\nPorcentajes para '{var}':")
            percentages = df[var].value_counts(normalize=True) * 100
            for value, percentage in percentages.items():
                print(f"  {value}: {percentage:.2f}%")
        else:
            print(f"\n--- Variable '{var}' ---")
            print(f"Tiene {df[var].nunique():,} valores únicos (demasiado para mostrar distribución completa).")
            print(f"Primeros 10 valores más frecuentes:")
            print(df[var].value_counts().head(10))
else:
    print("No hay variables categóricas (tipo 'object') en esta hoja.")

# 6. Análisis de variables numéricas

display(Markdown("#### 5. Estadísticas Descriptivas de Variables Numéricas"))
numeric_vars = df.select_dtypes(include=[np.number]).columns

if len(numeric_vars) > 0:
    for var in numeric_vars:
        display(Markdown(f"**Variable:** `{var}`"))
        stats = df[var].describe()
        print(stats)
        print("\n" + "-" * 40 + "\n")
else:
    print("No hay variables numéricas en esta hoja.")

print("\n" + "=" * 80 + "\n")

### Hoja: BASE DE DATOS

---

#### 1. Número de Filas y Columnas

La hoja 'BASE DE DATOS' tiene 209 filas y 24 columnas.


#### 2. Tipos de Datos y Valores Faltantes

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 24 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   RUT                                                     209 non-null    object 
 1   EMPRESA                                                 209 non-null    object 
 2   COTIZA EN BOLSA                                         209 non-null    object 
 3   EMP. FAMI                                               209 non-null    object 
 4   ANIO                                                    209 non-null    int64  
 5   UTILIDAD NETA                                           208 non-null    float64
 6   TOTAL ACTIVOS                                           205 non-null    float64
 7   PATRIMONIO                                              204 non-null    float64
 8   UTILI

#### 3. Análisis de Valores Únicos


Número de valores únicos por columna:
                                                    Valores Únicos
RUT                                                             19
EMPRESA                                                         19
COTIZA EN BOLSA                                                  1
EMP. FAMI                                                        1
ANIO                                                            11
UTILIDAD NETA                                                  204
TOTAL ACTIVOS                                                  200
PATRIMONIO                                                     198
UTILIDAD OPERACIONAL                                           184
DEPRECIACIÓN Y AMORTIZACIÓN                                    181
ROA                                                            203
ROE                                                            201
EBDITA                                                         194
Cantidad de mujeres en 

#### 4. Análisis Detallado de Variables Categóricas


--- Distribución de 'RUT' ---
RUT
76000957-1    11
76079669-7    11
78840880-3    11
96701340-4    11
77116500-1    11
86542100-1    11
96790240-3    11
79587210-8    11
76727040-2    11
96567040-8    11
77762940-9    11
78126110-6    11
89468900-5    11
94621000-5    11
85272800-0    11
85306000-3    11
76038806-8    11
78928380-K    11
61704000-K    11
Name: count, dtype: int64

Porcentajes para 'RUT':
  76000957-1: 5.26%
  76079669-7: 5.26%
  78840880-3: 5.26%
  96701340-4: 5.26%
  77116500-1: 5.26%
  86542100-1: 5.26%
  96790240-3: 5.26%
  79587210-8: 5.26%
  76727040-2: 5.26%
  96567040-8: 5.26%
  77762940-9: 5.26%
  78126110-6: 5.26%
  89468900-5: 5.26%
  94621000-5: 5.26%
  85272800-0: 5.26%
  85306000-3: 5.26%
  76038806-8: 5.26%
  78928380-K: 5.26%
  61704000-K: 5.26%

--- Distribución de 'EMPRESA' ---
EMPRESA
ALGORTA NORTE S.A.                                     11
MINERA ANTUCOYA                                        11
SOCIEDAD CONTRACTUAL MINERA EL MORRO                

#### 5. Estadísticas Descriptivas de Variables Numéricas

**Variable:** `ANIO`

count     209.00000
mean     2018.00000
std         3.16987
min      2013.00000
25%      2015.00000
50%      2018.00000
75%      2021.00000
max      2023.00000
Name: ANIO, dtype: float64

----------------------------------------



**Variable:** `UTILIDAD NETA`

count    2.080000e+02
mean     3.126891e+08
std      8.042437e+08
min     -2.191000e+09
25%     -1.397750e+07
50%      3.280328e+07
75%      3.460719e+08
max      3.889000e+09
Name: UTILIDAD NETA, dtype: float64

----------------------------------------



**Variable:** `TOTAL ACTIVOS`

count    2.050000e+02
mean     4.992522e+09
std      8.834837e+09
min      9.950800e+07
25%      5.557225e+08
50%      1.744904e+09
75%      5.446000e+09
max      4.516600e+10
Name: TOTAL ACTIVOS, dtype: float64

----------------------------------------



**Variable:** `PATRIMONIO`

count    2.040000e+02
mean     2.216568e+09
std      3.397748e+09
min     -2.732002e+09
25%      1.034202e+08
50%      7.097656e+08
75%      3.257718e+09
max      1.375800e+10
Name: PATRIMONIO, dtype: float64

----------------------------------------



**Variable:** `UTILIDAD OPERACIONAL`

count    1.940000e+02
mean     5.450351e+08
std      1.096098e+09
min     -5.236430e+08
25%     -4.271486e+06
50%      8.951512e+07
75%      6.222500e+08
max      6.547000e+09
Name: UTILIDAD OPERACIONAL, dtype: float64

----------------------------------------



**Variable:** `DEPRECIACIÓN Y AMORTIZACIÓN`

count    1.990000e+02
mean     3.291797e+08
std      6.739574e+08
min      0.000000e+00
25%      1.506000e+07
50%      8.107370e+07
75%      3.121785e+08
max      3.832000e+09
Name: DEPRECIACIÓN Y AMORTIZACIÓN, dtype: float64

----------------------------------------



**Variable:** `ROA`

count    205.000000
mean       0.189845
std       20.282811
min     -114.930104
25%       -2.241864
50%        2.012494
75%        8.821955
max       47.668436
Name: ROA, dtype: float64

----------------------------------------



**Variable:** `ROE`

count     204.000000
mean       -0.887972
std       132.949147
min     -1385.510238
25%        -0.563829
50%         8.977900
75%        21.890479
max       349.541641
Name: ROE, dtype: float64

----------------------------------------



**Variable:** `EBDITA`

count    2.090000e+02
mean     8.193472e+08
std      1.535932e+09
min     -5.193070e+08
25%      3.319000e+05
50%      1.232653e+08
75%      9.415630e+08
max      1.037900e+10
Name: EBDITA, dtype: float64

----------------------------------------



**Variable:** `Cantidad de mujeres en Directorios (incluye suplentes)`

count    208.000000
mean       1.062500
std        1.171702
min        0.000000
25%        0.000000
50%        1.000000
75%        2.000000
max        6.000000
Name: Cantidad de mujeres en Directorios (incluye suplentes), dtype: float64

----------------------------------------



**Variable:** `Total en Directorios`

count    208.000000
mean       7.192308
std        5.008354
min        0.000000
25%        6.000000
50%        7.000000
75%       10.000000
max       22.000000
Name: Total en Directorios, dtype: float64

----------------------------------------



**Variable:** `Cantidad de mujeres en otros ejecutivos`

count    209.000000
mean       0.813397
std        1.255225
min        0.000000
25%        0.000000
50%        0.000000
75%        1.000000
max        6.000000
Name: Cantidad de mujeres en otros ejecutivos, dtype: float64

----------------------------------------



**Variable:** `Total en otros ejecutivos`

count    209.000000
mean       8.564593
std        6.249376
min        0.000000
25%        4.000000
50%        8.000000
75%       11.000000
max       33.000000
Name: Total en otros ejecutivos, dtype: float64

----------------------------------------



**Variable:** `Flujo efectivo de operación (CFO)`

count    1.690000e+02
mean     8.029940e+08
std      1.442150e+09
min     -1.734580e+08
25%      6.217846e+06
50%      1.311450e+08
75%      1.111900e+09
max      8.301000e+09
Name: Flujo efectivo de operación (CFO), dtype: float64

----------------------------------------



**Variable:** `Activos total al inicio de anio`

count    1.700000e+02
mean     5.055569e+09
std      9.293410e+09
min      0.000000e+00
25%      3.715182e+08
50%      1.600594e+09
75%      5.388500e+09
max      4.516600e+10
Name: Activos total al inicio de anio, dtype: float64

----------------------------------------



**Variable:** `Ventas`

count    1.700000e+02
mean     1.411065e+09
std      2.318652e+09
min     -4.769165e+06
25%      1.221475e+06
50%      3.895308e+08
75%      2.286648e+09
max      1.063100e+10
Name: Ventas, dtype: float64

----------------------------------------



**Variable:** `Ventas del anio (diferencia)`

count    1.710000e+02
mean    -1.405543e+07
std      9.821150e+08
min     -8.839127e+09
25%     -4.738500e+07
50%      0.000000e+00
75%      5.199150e+07
max      5.231138e+09
Name: Ventas del anio (diferencia), dtype: float64

----------------------------------------



**Variable:** `Cuentas por cobrar`

count    1.660000e+02
mean     3.293126e+08
std      6.303989e+08
min      0.000000e+00
25%      1.530675e+07
50%      7.828164e+07
75%      4.059173e+08
max      4.194350e+09
Name: Cuentas por cobrar, dtype: float64

----------------------------------------



**Variable:** `Cuentas por cobrar (diferencia)`

count    1.700000e+02
mean    -1.361292e+07
std      3.643569e+08
min     -4.194350e+09
25%     -1.890740e+07
50%      0.000000e+00
75%      2.440799e+07
max      9.450330e+08
Name: Cuentas por cobrar (diferencia), dtype: float64

----------------------------------------



**Variable:** `Propiedades, planta y equipo (PPE)`

count    1.630000e+02
mean     3.438723e+09
std      6.313525e+09
min      0.000000e+00
25%      2.600905e+08
50%      6.929680e+08
75%      3.937704e+09
max      3.044989e+10
Name: Propiedades, planta y equipo (PPE), dtype: float64

----------------------------------------





## Exportar resultados del EDA a markdown

In [52]:
# Exportar resultados del EDA a markdown
output_path = "/home/gabriel/Escritorio/Proyectos/UBO/Erik_Escalona/kotari_proyecto/kotari-gender-data-analysis/docs/source/note_00_EDA_Sheet1.md"

with open(output_path, "w", encoding="utf-8") as f:
    f.write("# Resultados del Análisis Exploratorio de Datos (EDA) - Hoja 'BASE DE DATOS'\n\n")
    f.write("<!-- Este archivo es solo para mostrar resultados del análisis, no debe aparecer como página principal en el menú de la documentación. -->\n\n")
    f.write("**Fuente:** notebooks/00_EDA_Sheet1.ipynb\n\n")
    f.write(f"## Dimensiones del Dataset\n- Filas: {df.shape[0]}\n- Columnas: {df.shape[1]}\n\n")

    # Valores faltantes
    f.write("## Valores Faltantes por Columna\n\n")
    missing_values = df.isnull().sum()
    missing_percent = (missing_values / len(df)) * 100
    f.write("| Columna | Valores Faltantes | Porcentaje (%) |\n|---------|-------------------|----------------|\n")
    for col in df.columns:
        f.write(f"| {col} | {missing_values[col]} | {missing_percent[col]:.2f} |\n")
    f.write("\n")

    # Valores únicos
    f.write("## Distribución de Valores Únicos por Columna\n\n")
    unique_counts = df.nunique()
    f.write("| Columna | Valores Únicos |\n|---------|----------------|\n")
    for col in df.columns:
        f.write(f"| {col} | {unique_counts[col]} |\n")
    f.write("\n")

    # Variables categóricas
    f.write("## Análisis Detallado de Variables Categóricas\n\n")
    categorical_vars = df.select_dtypes(include=['object']).columns
    for var in categorical_vars:
        if df[var].nunique() < 20:
            f.write(f"\n### Distribución de '{var}'\n")
            value_counts = df[var].value_counts()
            f.write("| Valor | Frecuencia |\n|-------|------------|\n")
            for value, count in value_counts.items():
                f.write(f"| {value} | {count} |\n")
            f.write(f"\n### Porcentajes para '{var}'\n")
            percentages = df[var].value_counts(normalize=True) * 100
            f.write("| Valor | Porcentaje (%) |\n|-------|-----------------|\n")
            for value, percentage in percentages.items():
                f.write(f"| {value} | {percentage:.2f} |\n")
        else:
            f.write(f"\n--- Variable '{var}' ---\n")
            f.write(f"Tiene {df[var].nunique():,} valores únicos (demasiados para mostrar distribución completa).\n")
            f.write("Primeros 10 valores más frecuentes:\n")
            top10 = df[var].value_counts().head(10)
            f.write("| Valor | Frecuencia |\n|-------|------------|\n")
            for value, count in top10.items():
                f.write(f"| {value} | {count} |\n")
        f.write("\n")
    f.write("\n")

    # Variables numéricas
    f.write("## Estadísticas Descriptivas de Variables Numéricas\n\n")
    numeric_vars = df.select_dtypes(include=[np.number]).columns
    for var in numeric_vars:
        stats = df[var].describe()
        f.write(f"| Variable | Estadístico | Valor |\n|----------|-------------|-------|\n")
        for stat_name, stat_value in stats.items():
            f.write(f"| {var} | {stat_name} | {stat_value} |\n")
        f.write("\n")

    f.write("*Generado automáticamente desde el notebook.*\n")