# 1. Análisis Exploratorio de Datos (EDA)

**Objetivo:** Analizar el conjunto de datos de minería para entender su estructura, contenido y calidad en cada una de sus hojas. Específicamente, se busca:
1. Determinar el número de filas.
2. Identificar las columnas, su tipo de dato y su significado.
3. Cuantificar los valores faltantes en cada columna.
4. Analizar la distribución de valores únicos y categóricos.

In [2]:
# Cargar la sesión de Kedro para acceder al catálogo de datos
%load_ext kedro.ipython
%reload_kedro

## Carga de Datos
Cargamos el conjunto de datos `raw_mineria_data` definido en `conf/base/catalog.yml`. Este archivo Excel contiene múltiples hojas con información de minería.

In [8]:
data = catalog.load("raw_mineria_data")
print(f"Se encontraron {len(data)} hojas en el archivo Excel:")
print("=" * 50)
for i, sheet_name in enumerate(data.keys(), 1):
    print(f"  {i}. {sheet_name}")

Se encontraron 2 hojas en el archivo Excel:
  1. BASE DE DATOS
  2. LISTADO EMPRESA


---

## Análisis por Hoja

A continuación se presenta un análisis detallado de cada hoja del archivo Excel, incluyendo:
- Dimensiones (filas y columnas)
- Tipos de datos
- Valores faltantes
- Distribución de valores únicos
- Análisis de variables categóricas

In [9]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from IPython.display import display, Markdown

In [10]:
for sheet_name, df in data.items():
    display(Markdown(f"### Hoja: {sheet_name}"))
    display(Markdown("---"))
    
    # 1. Dimensiones
    display(Markdown("#### 1. Número de Filas y Columnas"))
    print(f"La hoja '{sheet_name}' tiene {df.shape[0]:,} filas y {df.shape[1]} columnas.")
    
    # 2. Tipos de datos e información general
    display(Markdown("#### 2. Tipos de Datos y Valores Faltantes"))
    print("Información general del DataFrame:")
    df.info()
    
    # 3. Valores faltantes
    print("\n" + "=" * 50)
    missing_values = df.isnull().sum()
    missing_percent = (missing_values / len(df)) * 100
    missing_df = pd.DataFrame({
        'Valores Faltantes': missing_values,
        'Porcentaje (%)': missing_percent
    })
    missing_df = missing_df[missing_df['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)
    
    if len(missing_df) > 0:
        print("Valores faltantes por columna:")
        print(missing_df)
    else:
        print("✓ No hay valores faltantes en esta hoja.")
    
    # 4. Análisis de valores únicos
    display(Markdown("#### 3. Análisis de Valores Únicos"))
    print("\nNúmero de valores únicos por columna:")
    print("=" * 50)
    unique_counts = df.nunique()
    unique_percentage = (unique_counts / len(df)) * 100
    unique_df = pd.DataFrame({
        'Valores Únicos': unique_counts,
        'Porcentaje (%)': unique_percentage
    })
    print(unique_df)
    
    # 5. Análisis de variables categóricas
    display(Markdown("#### 4. Análisis Detallado de Variables Categóricas"))
    categorical_vars = df.select_dtypes(include=['object']).columns
    
    if len(categorical_vars) > 0:
        for var in categorical_vars:
            if df[var].nunique() < 20:  # Solo mostrar si tiene menos de 20 valores únicos
                print(f"\n--- Distribución de '{var}' ---")
                value_counts = df[var].value_counts()
                print(value_counts)
                
                print(f"\nPorcentajes para '{var}':")
                percentages = df[var].value_counts(normalize=True) * 100
                for value, percentage in percentages.items():
                    print(f"  {value}: {percentage:.2f}%")
            else:
                print(f"\n--- Variable '{var}' ---")
                print(f"Tiene {df[var].nunique():,} valores únicos (demasiados para mostrar distribución completa).")
                print(f"Primeros 10 valores más frecuentes:")
                print(df[var].value_counts().head(10))
    else:
        print("No hay variables categóricas (tipo 'object') en esta hoja.")
    
    # 6. Análisis de variables numéricas
    display(Markdown("#### 5. Estadísticas Descriptivas de Variables Numéricas"))
    numeric_vars = df.select_dtypes(include=[np.number]).columns
    
    if len(numeric_vars) > 0:
        print("\nEstadísticas descriptivas de variables numéricas:")
        print(df[numeric_vars].describe())
    else:
        print("No hay variables numéricas en esta hoja.")
    
    print("\n" + "=" * 80 + "\n")

### Hoja: BASE DE DATOS

---

#### 1. Número de Filas y Columnas

La hoja 'BASE DE DATOS' tiene 209 filas y 24 columnas.


#### 2. Tipos de Datos y Valores Faltantes

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 24 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   RUT                                                     209 non-null    object 
 1   EMPRESA                                                 209 non-null    object 
 2   COTIZA EN BOLSA                                         209 non-null    object 
 3   EMP. FAMI                                               209 non-null    object 
 4   ANIO                                                    209 non-null    int64  
 5   UTILIDAD NETA                                           208 non-null    float64
 6   TOTAL ACTIVOS                                           205 non-null    float64
 7   PATRIMONIO                                              204 non-null    float64
 8   UTILI

#### 3. Análisis de Valores Únicos


Número de valores únicos por columna:
                                                    Valores Únicos  \
RUT                                                             19   
EMPRESA                                                         19   
COTIZA EN BOLSA                                                  1   
EMP. FAMI                                                        1   
ANIO                                                            11   
UTILIDAD NETA                                                  204   
TOTAL ACTIVOS                                                  200   
PATRIMONIO                                                     198   
UTILIDAD OPERACIONAL                                           184   
DEPRECIACIÓN Y AMORTIZACIÓN                                    181   
ROA                                                            203   
ROE                                                            201   
EBDITA                                             

#### 4. Análisis Detallado de Variables Categóricas


--- Distribución de 'RUT' ---
RUT
76000957-1    11
76079669-7    11
78840880-3    11
96701340-4    11
77116500-1    11
86542100-1    11
96790240-3    11
79587210-8    11
76727040-2    11
96567040-8    11
77762940-9    11
78126110-6    11
89468900-5    11
94621000-5    11
85272800-0    11
85306000-3    11
76038806-8    11
78928380-K    11
61704000-K    11
Name: count, dtype: int64

Porcentajes para 'RUT':
  76000957-1: 5.26%
  76079669-7: 5.26%
  78840880-3: 5.26%
  96701340-4: 5.26%
  77116500-1: 5.26%
  86542100-1: 5.26%
  96790240-3: 5.26%
  79587210-8: 5.26%
  76727040-2: 5.26%
  96567040-8: 5.26%
  77762940-9: 5.26%
  78126110-6: 5.26%
  89468900-5: 5.26%
  94621000-5: 5.26%
  85272800-0: 5.26%
  85306000-3: 5.26%
  76038806-8: 5.26%
  78928380-K: 5.26%
  61704000-K: 5.26%

--- Distribución de 'EMPRESA' ---
EMPRESA
ALGORTA NORTE S.A.                                     11
MINERA ANTUCOYA                                        11
SOCIEDAD CONTRACTUAL MINERA EL MORRO                

#### 5. Estadísticas Descriptivas de Variables Numéricas


Estadísticas descriptivas de variables numéricas:
             ANIO  UTILIDAD NETA  TOTAL ACTIVOS    PATRIMONIO  \
count   209.00000   2.080000e+02   2.050000e+02  2.040000e+02   
mean   2018.00000   3.126891e+08   4.992522e+09  2.216568e+09   
std       3.16987   8.042437e+08   8.834837e+09  3.397748e+09   
min    2013.00000  -2.191000e+09   9.950800e+07 -2.732002e+09   
25%    2015.00000  -1.397750e+07   5.557225e+08  1.034202e+08   
50%    2018.00000   3.280328e+07   1.744904e+09  7.097656e+08   
75%    2021.00000   3.460719e+08   5.446000e+09  3.257718e+09   
max    2023.00000   3.889000e+09   4.516600e+10  1.375800e+10   

       UTILIDAD OPERACIONAL  DEPRECIACIÓN Y AMORTIZACIÓN         ROA  \
count          1.940000e+02                 1.990000e+02  205.000000   
mean           5.450351e+08                 3.291797e+08    0.189845   
std            1.096098e+09                 6.739574e+08   20.282811   
min           -5.236430e+08                 0.000000e+00 -114.930104   
25%

### Hoja: LISTADO EMPRESA

---

#### 1. Número de Filas y Columnas

La hoja 'LISTADO EMPRESA' tiene 35 filas y 8 columnas.


#### 2. Tipos de Datos y Valores Faltantes

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   RUT                    35 non-null     object
 1   EMPRESA                35 non-null     object
 2   PAÍS DE ORIGEN         35 non-null     object
 3   ORIGEN NACIONAL        35 non-null     object
 4   PROPIETARIO PRINCIPAL  35 non-null     object
 5   PROPIETARIO NACIONAL   35 non-null     object
 6   TIPO DE EMPRESA        35 non-null     object
 7   TIPO DE MINERAL        35 non-null     object
dtypes: object(8)
memory usage: 2.3+ KB

✓ No hay valores faltantes en esta hoja.


#### 3. Análisis de Valores Únicos


Número de valores únicos por columna:
                       Valores Únicos  Porcentaje (%)
RUT                                35      100.000000
EMPRESA                            35      100.000000
PAÍS DE ORIGEN                      4       11.428571
ORIGEN NACIONAL                     2        5.714286
PROPIETARIO PRINCIPAL              18       51.428571
PROPIETARIO NACIONAL                2        5.714286
TIPO DE EMPRESA                     2        5.714286
TIPO DE MINERAL                    12       34.285714


#### 4. Análisis Detallado de Variables Categóricas


--- Variable 'RUT' ---
Tiene 35 valores únicos (demasiados para mostrar distribución completa).
Primeros 10 valores más frecuentes:
RUT
76000957-1    1
78338570-8    1
96790240-3    1
99529080-4    1
86542100-1    1
77116500-1    1
99531960-8    1
76081590-K    1
96701340-4    1
79587210-8    1
Name: count, dtype: int64

--- Variable 'EMPRESA' ---
Tiene 35 valores únicos (demasiados para mostrar distribución completa).
Primeros 10 valores más frecuentes:
EMPRESA
ALGORTA NORTE S.A.                                    1
SOCIEDAD CONTRACTUAL MINERA ATACAMA MINERALS CHILE    1
MINERA LOS PELAMBRES                                  1
MINERA SANTO DOMINGO SCM                              1
MINERA SPENCE S.A.                                    1
NORTE ABIERTO SPA                                     1
SCM MINERA LUMINA COPPER CHILE                        1
SIERRA GORDA SCM                                      1
SOCIEDAD CONTRACTUAL MINERA EL ABRA                   1
MINERA ESCONDIDA LIMITADA   

#### 5. Estadísticas Descriptivas de Variables Numéricas

No hay variables numéricas en esta hoja.




---

## Conclusiones Generales

Este análisis exploratorio del archivo **"20250728 DATOS MINERIA.xlsx"** ha revelado información importante sobre la estructura y calidad de los datos:

### 📊 Resumen del Dataset

El archivo contiene **2 hojas** con información complementaria sobre el sector minero:

1. **BASE DE DATOS** (209 registros × 24 columnas): Dataset principal con información detallada de operaciones mineras
2. **LISTADO EMPRESA** (35 registros × 8 columnas): Catálogo de empresas mineras con información corporativa

### 🔍 Hallazgos Principales

#### Calidad de los Datos
- **Hoja "LISTADO EMPRESA"**: 
  - ✅ Excelente calidad de datos - **0% de valores faltantes**
  - Todas las columnas están completamente pobladas
  - Variables categóricas bien definidas con pocos valores únicos
  
- **Hoja "BASE DE DATOS"**: 
  - Presenta valores faltantes en algunas columnas (requiere análisis detallado)
  - Mayor complejidad con 24 variables diferentes
  - Combina variables categóricas y numéricas

#### Estructura de Variables
- **Variables categóricas**: Identificadas correctamente (tipo 'object')
- **Variables numéricas**: Presentes principalmente en la hoja "BASE DE DATOS"
- **Variables identificadoras**: RUT y EMPRESA son únicos (100% de unicidad)

#### Patrones Identificados
- **Origen de empresas**: Concentración en pocos países de origen (4 países únicos)
- **Clasificación binaria**: Variables como ORIGEN NACIONAL, PROPIETARIO NACIONAL y TIPO DE EMPRESA tienen solo 2 categorías
- **Diversidad de minerales**: 12 tipos diferentes de minerales en el catálogo

### 📈 Insights Clave

1. **Completitud de datos en catálogo de empresas**: La hoja "LISTADO EMPRESA" está perfectamente estructurada sin valores faltantes
2. **Identificadores únicos robustos**: RUT y EMPRESA pueden servir como llaves primarias confiables
3. **Variables categóricas bien definidas**: La mayoría de las variables categóricas tienen cardinalidad apropiada (<20 valores únicos)
4. **Base analítica sólida**: Los datos permiten análisis por tipo de empresa, origen, propietario y tipo de mineral

### 🎯 Próximos Pasos Recomendados

1. **Análisis de valores faltantes**: 
   - Investigar en detalle qué columnas tienen datos faltantes en "BASE DE DATOS"
   - Determinar si los valores faltantes son MCAR, MAR o MNAR
   - Definir estrategias de imputación o exclusión

2. **Análisis de relaciones**:
   - Explorar la relación entre las dos hojas mediante RUT/EMPRESA
   - Identificar correlaciones entre variables numéricas
   - Analizar distribuciones por categorías clave

3. **Visualizaciones**:
   - Crear gráficos de barras para distribución de tipos de empresa y minerales
   - Mapas de calor para valores faltantes
   - Histogramas y boxplots para variables numéricas

4. **Validación de datos**:
   - Verificar formatos de RUT
   - Identificar posibles duplicados o inconsistencias
   - Validar rangos de variables numéricas

5. **Análisis de género** (según objetivo del proyecto):
   - Identificar variables relacionadas con género si existen
   - Explorar patrones de participación por género en el sector
   - Preparar datos para análisis estadístico de brechas de género

### 💡 Observaciones Finales

El dataset presenta una **estructura adecuada** para análisis exploratorios y modelado. La hoja de empresas está **lista para uso inmediato**, mientras que la base de datos principal requiere **limpieza y preparación adicional**. La combinación de ambas hojas permite un análisis multinivel desde la perspectiva corporativa hasta las operaciones individuales.