# 1. Análisis Exploratorio de Datos (EDA) - Hoja 2: LISTADO EMPRESA

**Objetivo:** Analizar exclusivamente la hoja "LISTADO EMPRESA" del conjunto de datos de minería para entender su estructura, contenido y calidad. Específicamente, se busca:
1. Determinar el número de filas.
2. Identificar las columnas, su tipo de dato y su significado.
3. Cuantificar los valores faltantes en cada columna.
4. Analizar la distribución de valores únicos y categóricos.

In [25]:
# Cargar la sesión de Kedro y el dataset de la hoja 2
%load_ext kedro.ipython
%reload_kedro

The kedro.ipython extension is already loaded. To reload it, use:
  %reload_ext kedro.ipython


## Carga de Datos: Hoja "LISTADO EMPRESA"
Cargamos exclusivamente la hoja "LISTADO EMPRESA" del conjunto de datos `raw_mineria_data` definido en `conf/base/catalog.yml`. Este archivo Excel contiene múltiples hojas, pero aquí solo analizamos la hoja de empresas mineras.

In [26]:
data = catalog.load("raw_mineria_data")
sheet_name = "LISTADO EMPRESA"
df = data[sheet_name]
print(f"Se analizará la hoja: {sheet_name}")
print(f"Dimensiones: {df.shape[0]} filas × {df.shape[1]} columnas")

Se analizará la hoja: LISTADO EMPRESA
Dimensiones: 35 filas × 8 columnas


## Análisis de la Hoja "LISTADO EMPRESA"

A continuación se presenta un análisis detallado de la hoja "LISTADO EMPRESA" del archivo Excel, incluyendo:
- Dimensiones (filas y columnas)
- Tipos de datos
- Valores faltantes
- Distribución de valores únicos
- Análisis de variables categóricas

In [27]:
# Importar librerías necesarias para el análisis de la hoja "LISTADO EMPRESA"
import pandas as pd
import numpy as np
from IPython.display import display, Markdown

In [28]:
# Análisis Exploratorio de la Hoja "LISTADO EMPRESA"

display(Markdown(f"### Hoja: {sheet_name}"))
display(Markdown("---"))

# 1. Dimensiones
display(Markdown("#### 1. Número de Filas y Columnas"))
print(f"La hoja '{sheet_name}' tiene {df.shape[0]:,} filas y {df.shape[1]} columnas.")

# 2. Tipos de datos e información general
display(Markdown("#### 2. Tipos de Datos y Valores Faltantes"))
print("Información general del DataFrame:")
df.info()

# 3. Valores faltantes
print("\n" + "=" * 50)
missing_values = df.isnull().sum()
missing_percent = (missing_values / len(df)) * 100
missing_df = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje (%)': missing_percent
})
missing_df = missing_df[missing_df['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)

if len(missing_df) > 0:
    print("Valores faltantes por columna:")
    print(missing_df)
else:
    print("✓ No hay valores faltantes en esta hoja.")

# 4. Análisis de valores únicos
display(Markdown("#### 3. Análisis de Valores Únicos"))
print("\nNúmero de valores únicos por columna:")
print("=" * 50)
unique_counts = df.nunique()
unique_df = pd.DataFrame({'Valores Únicos': unique_counts})
print(unique_df)

# 5. Análisis de variables categóricas
display(Markdown("#### 4. Análisis Detallado de Variables Categóricas"))
categorical_vars = df.select_dtypes(include=['object']).columns

if len(categorical_vars) > 0:
    for var in categorical_vars:
        if df[var].nunique() < 20:  # Solo mostrar si tiene menos de 20 valores únicos
            print(f"\n--- Distribución de '{var}' ---")
            value_counts = df[var].value_counts()
            print(value_counts)
            print(f"\nPorcentajes para '{var}':")
            percentages = df[var].value_counts(normalize=True) * 100
            for value, percentage in percentages.items():
                print(f"  {value}: {percentage:.2f}%")
        else:
            print(f"\n--- Variable '{var}' ---")
            print(f"Tiene {df[var].nunique():,} valores únicos (demasiados para mostrar distribución completa).")
            print(f"Primeros 10 valores más frecuentes:")
            print(df[var].value_counts().head(10))
else:
    print("No hay variables categóricas (tipo 'object') en esta hoja.")

# 6. Análisis de variables numéricas
display(Markdown("#### 5. Estadísticas Descriptivas de Variables Numéricas"))
numeric_vars = df.select_dtypes(include=[np.number]).columns

if len(numeric_vars) > 0:
    print("\nEstadísticas descriptivas de variables numéricas:")
    print(df[numeric_vars].describe())
else:
    print("No hay variables numéricas en esta hoja.")

print("\n" + "=" * 80 + "\n")

### Hoja: LISTADO EMPRESA

---

#### 1. Número de Filas y Columnas

La hoja 'LISTADO EMPRESA' tiene 35 filas y 8 columnas.


#### 2. Tipos de Datos y Valores Faltantes

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   RUT                    35 non-null     object
 1   EMPRESA                35 non-null     object
 2   PAÍS DE ORIGEN         35 non-null     object
 3   ORIGEN NACIONAL        35 non-null     object
 4   PROPIETARIO PRINCIPAL  35 non-null     object
 5   PROPIETARIO NACIONAL   35 non-null     object
 6   TIPO DE EMPRESA        35 non-null     object
 7   TIPO DE MINERAL        35 non-null     object
dtypes: object(8)
memory usage: 2.3+ KB

✓ No hay valores faltantes en esta hoja.


#### 3. Análisis de Valores Únicos


Número de valores únicos por columna:
                       Valores Únicos
RUT                                35
EMPRESA                            35
PAÍS DE ORIGEN                      4
ORIGEN NACIONAL                     2
PROPIETARIO PRINCIPAL              18
PROPIETARIO NACIONAL                2
TIPO DE EMPRESA                     2
TIPO DE MINERAL                    12


#### 4. Análisis Detallado de Variables Categóricas


--- Variable 'RUT' ---
Tiene 35 valores únicos (demasiados para mostrar distribución completa).
Primeros 10 valores más frecuentes:
RUT
76000957-1    1
78338570-8    1
96790240-3    1
99529080-4    1
86542100-1    1
77116500-1    1
99531960-8    1
76081590-K    1
96701340-4    1
79587210-8    1
Name: count, dtype: int64

--- Variable 'EMPRESA' ---
Tiene 35 valores únicos (demasiados para mostrar distribución completa).
Primeros 10 valores más frecuentes:
EMPRESA
ALGORTA NORTE S.A.                                    1
SOCIEDAD CONTRACTUAL MINERA ATACAMA MINERALS CHILE    1
MINERA LOS PELAMBRES                                  1
MINERA SANTO DOMINGO SCM                              1
MINERA SPENCE S.A.                                    1
NORTE ABIERTO SPA                                     1
SCM MINERA LUMINA COPPER CHILE                        1
SIERRA GORDA SCM                                      1
SOCIEDAD CONTRACTUAL MINERA EL ABRA                   1
MINERA ESCONDIDA LIMITADA   

#### 5. Estadísticas Descriptivas de Variables Numéricas

No hay variables numéricas en esta hoja.




## Exportar resultados del EDA a markdown

In [29]:
output_path = "/home/gabriel/Escritorio/Proyectos/UBO/Erik_Escalona/kotari_proyecto/kotari-gender-data-analysis/docs/source/note_01_EDA_Sheet2.md"

with open(output_path, "w", encoding="utf-8") as f:
    f.write("# Resultados del Análisis Exploratorio de Datos (EDA) - Hoja 'LISTADO EMPRESA'\n\n")
    f.write("<!-- Este archivo es solo para mostrar resultados del análisis, no debe aparecer como página principal en el menú de la documentación. -->\n\n")
    f.write("**Fuente:** notebooks/01_EDA_Sheet2.ipynb\n\n")
    f.write(f"## Dimensiones del Dataset\n- Filas: {df.shape[0]}\n- Columnas: {df.shape[1]}\n\n")

    # Valores faltantes
    f.write("## Valores Faltantes por Columna\n\n")
    missing_values = df.isnull().sum()
    missing_percent = (missing_values / len(df)) * 100
    f.write("| Columna | Valores Faltantes | Porcentaje (%) |\n|---------|-------------------|----------------|\n")
    for col in df.columns:
        f.write(f"| {col} | {missing_values[col]} | {missing_percent[col]:.2f} |\n")
    f.write("\n")

    # Valores únicos
    f.write("## Distribución de Valores Únicos por Columna\n\n")
    unique_counts = df.nunique()
    f.write("| Columna | Valores Únicos |\n|---------|----------------|\n")
    for col in df.columns:
        f.write(f"| {col} | {unique_counts[col]} |\n")
    f.write("\n")

    # Variables categóricas
    f.write("## Análisis Detallado de Variables Categóricas\n\n")
    categorical_vars = df.select_dtypes(include=['object']).columns
    for var in categorical_vars:
        if df[var].nunique() < 20:
            f.write(f"\n### Distribución de '{var}'\n")
            value_counts = df[var].value_counts()
            f.write("| Valor | Frecuencia |\n|-------|------------|\n")
            for value, count in value_counts.items():
                f.write(f"| {value} | {count} |\n")
            f.write(f"\n### Porcentajes para '{var}'\n")
            percentages = df[var].value_counts(normalize=True) * 100
            f.write("| Valor | Porcentaje (%) |\n|-------|-----------------|\n")
            for value, percentage in percentages.items():
                f.write(f"| {value} | {percentage:.2f} |\n")
        else:
            f.write(f"\n--- Variable '{var}' ---\n")
            f.write(f"Tiene {df[var].nunique():,} valores únicos (demasiados para mostrar distribución completa).\n")
            f.write("Primeros 10 valores más frecuentes:\n")
            top10 = df[var].value_counts().head(10)
            f.write("| Valor | Frecuencia |\n|-------|------------|\n")
            for value, count in top10.items():
                f.write(f"| {value} | {count} |\n")
        f.write("\n")
    f.write("\n")

    # Variables numéricas
    f.write("## Estadísticas Descriptivas de Variables Numéricas\n\n")
    numeric_vars = df.select_dtypes(include=[np.number]).columns
    for var in numeric_vars:
        stats = df[var].describe()
        f.write(f"| Variable | Estadístico | Valor |\n|----------|-------------|-------|\n")
        for stat_name, stat_value in stats.items():
            f.write(f"| {var} | {stat_name} | {stat_value} |\n")
        f.write("\n")

    f.write("*Generado automáticamente desde el notebook.*\n")