# PREDICCIÓN DE CALIDAD MINERAL

## INTRODUCCIÓN

### El mineral de hierro es una sustancia mineral que, cuando se calienta en presencia de un reductor, produce hierro metálico (Fe). Casi siempre consiste en óxidos de hierro, cuyas formas primarias son magnetita (Fe3O4) y hematita (Fe2O3).
### El mineral de hierro es la fuente de hierro primario para las industrias siderúrgicas del mundo. Por lo tanto, es esencial para la producción de acero, que a su vez es esencial para mantener una base industrial fuerte. Casi todo el mineral de hierro (98%) se utiliza en la fabricación de acero. El mineral de hierro se extrae en unos 50 países. Los siete mayores productores representan alrededor de las tres cuartas partes de la producción mundial total. Australia y Brasil juntos dominan las exportaciones mundiales de mineral de hierro, cada uno con alrededor de un tercio de las exportaciones totales.
### Los minerales que se extraen de una planta de tratamiento son mayoritariamente una mezcla entre el propio mineral de valor que se busca explotar, y también material que no posee valor comercial, el cual se denomina “ganga”.
### Un paso principal en el procesamiento de minerales es la separación física del mineral con valor económico, de la ganga, para producir una porción enriquecida (concentrado) que contiene la mayoría de los minerales valiosos y un descarte (relave) que contiene predominantemente la ganga.
### Un paso clave en la separación de minerales es la flotación. El proceso de flotación consiste en triturar el mineral para liberar granos separados de varios minerales valiosos y componentes de ganga, triturar las partículas de mineral con agua y luego volver hidrofóbica selectivamente la superficie del mineral de interés. Luego se pasa una corriente de burbujas de aire a través de la pulpa; las burbujas se adhieren y levitan las partículas hidrófobas, que se acumulan en una capa de espuma que fluye sobre el vertedero de la celda de flotación.
### El concentrado de flotación se muestrea periódicamente para determinar su pureza (es decir, % de mineral valioso, % de ganga). Un porcentaje más alto de ganga en el concentrado no es deseable, ya que indica que la mayoría de los minerales valiosos se han ido al relave. La medición de la pureza generalmente se realiza en un laboratorio y puede llevar algún tiempo antes de que los ingenieros de procesos puedan realizar ajustes en función de los resultados. Una investigación oportuna de la pureza del concentrado es, por tanto, un aspecto fundamental para el control y optimización del proceso de flotación.
### El objetivo de este trabajo es predecir la ganga (% de contenido de sílice) en el concentrado de flotación. El pronóstico ayudará a los ingenieros de procesos a evaluar la pureza del concentrado de flotación y tomar acciones correctivas por adelantado, es decir sin tener que esperar a tener los resultados de laboratorio y así poder optimizar el proceso de extracción mineral.


## SOBRE EL DATASET

### CONTEXTO ANALITICO
    El dataset con el que se trabajará corresponde a información recopilada durante un proceso de flotación de minerales en una planta de concentración, que abarca el período desde el 01 de abril de 2017 al 30 de abril de 2017, correspondiente a una mina dedicada a la explotación de hierro.
    El archivo .csv utilizado fue extraído de la página kaggle.com.


### CONTEXTO COMERCIAL
    El objetivo principal es utilizar los datos expuestos en el dataset para predecir cuánta impureza hay en el concentrado de mineral correspondiente a una Mina de Hierro. Como esta impureza se mide cada hora, si podemos predecir cuánta sílice (impureza) hay en el concentrado de mineral, podemos ayudar a los ingenieros, brindándoles información temprana para tomar medidas. Por lo tanto, podrán tomar acciones correctivas con anticipación (reducir la impureza, si es el caso) y también ayudar al medio ambiente (reducir la cantidad de mineral que va a los relaves a medida que reduce la sílice en el concentrado de mineral).

##### Importación de librerias necesarias

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline
sns.set()

#### El dataset se muestra a continuación:

In [4]:
pd.read_csv('/workspaces/CoderHouse_CH-32845/data/raw/Mining.csv')

Unnamed: 0,date,% Iron Feed,% Silica Feed,Starch Flow,Amina Flow,Ore Pulp Flow,Ore Pulp pH,Ore Pulp Density,Flotation Column 01 Air Flow,Flotation Column 02 Air Flow,...,Flotation Column 07 Air Flow,Flotation Column 01 Level,Flotation Column 02 Level,Flotation Column 03 Level,Flotation Column 04 Level,Flotation Column 05 Level,Flotation Column 06 Level,Flotation Column 07 Level,% Iron Concentrate,% Silica Concentrate
0,4/1/2017 0:00,5972,922,219531,523283,395785,945255,171765,1763797421322,1846194580978,...,249082,807178,799417,799614,461455,476486,421792,449983,6403,311
1,4/1/2017 0:00,5972,922,214828,520983,397219,945499,171748,1763793195901,1846220493979,...,250292,810002,791179,800324,471731,472107,460954,453981,6403,311
2,4/1/2017 0:00,5972,922,210125,523682,39873,945742,171731,1763788970481,184624640698,...,248511,800781,802031,802312,474609,469266,493972,447476,6403,311
3,4/1/2017 0:00,5972,922,205422,524413,400369,945985,171713,176378474506,184627231998,...,24816,796182,798411,796923,457443,462444,481218,452986,6403,311
4,4/1/2017 0:00,5972,922,204343,525272,402293,946229,171696,1763780519639,1846298232981,...,247747,790783,794159,790596,437286,454435,466243,459457,6403,311
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129594,4/30/2017 23:00,542,1826,48957368,2422614461538,398311,101911,15203346667,299927,299988,...,293727,439206,449734,446475,190396,332986,359939,340358,6521,254
129595,4/30/2017 23:00,542,1826,4836658,2422593076923,39788,10192,15203371111,29986,297554,...,294742,448714,438329,439674,217672,331445,372107,344662,6521,254
129596,4/30/2017 23:00,542,1826,47775792,2422571692308,401788,10193,15203395556,299433,302028,...,30369,450471,445089,439296,210815,334152,330819,346987,6521,254
129597,4/30/2017 23:00,542,1826,47185004,2422550307692,40178,101939,1520342,29951,300613,...,30529,452461,448459,443815,201431,349177,337431,346388,6521,254


#### El dataset cuenta con:
24 columnas 
129599 filas.


### DESCRIPCIÓN DEL DATASET:
- date: fecha y hora de la medición, que abarca el período del 01 de abril de 2017 al 30 de abril de 2017. Algunas variables se muestrean cada 20 segundos, mientras que otras se muestrean cada 1 hora.
- % Iron Feed: Porcentaje de Hierro presente en el mineral de hierro, antes de ingresar a la planta de flotación.
- % Silica Feed: Porcentaje de sílice (considerado impureza) presente en el mineral de hierro, antes de ingresar a la planta de flotación.
- Starch Flow: Flujo de reactivo de almidón (m³/h).
- Amina Flow: Flujo de reactivo de amina (m³/h).
- Ore Pulp Flow: Flujo de pulpa mineral (t/h).
- Ore Pulp ph: pH de la pulpa mineral (0 a 14).
- Ore Pulp Density: Densidad de pulpa mineral (1 a 3 kg/cm³).
- Flotation Column 01 Air Flow: flujo de aire que va a la celda de flotación 01 (Nm³/h).
- Flotation Column 02 Air Flow: flujo de aire que va a la celda de flotación 02 (Nm³/h).
- Flotation Column 03 Air Flow: flujo de aire que va a la celda de flotación 03 (Nm³/h).
- Flotation Column 04 Air Flow: flujo de aire que va a la celda de flotación 04 (Nm³/h).
- Flotation Column 05 Air Flow: flujo de aire que va a la celda de flotación 05 (Nm³/h).
- Flotation Column 06 Air Flow: flujo de aire que va a la celda de flotación 06 (Nm³/h).
- Flotation Column 07 Air Flow: flujo de aire que va a la celda de flotación 07 (Nm³/h).
- Flotation Column 01 Level: Nivel de espuma en la celda de flotación 01 (mm).
- Flotation Column 02 Level: Nivel de espuma en la celda de flotación 02 (mm).
- Flotation Column 03 Level: Nivel de espuma en la celda de flotación 03 (mm).
- Flotation Column 04 Level: Nivel de espuma en la celda de flotación 04 (mm).
- Flotation Column 05 Level: Nivel de espuma en la celda de flotación 05 (mm).
- Flotation Column 06 Level: Nivel de espuma en la celda de flotación 06 (mm).
- Flotation Column 07 Level: Nivel de espuma en la celda de flotación 07 (mm).
- % Iron Concentrate: Porcentaje de Hierro presente en el mineral de hierro, luego del proceso de flotación (medición obtenida luego de análisis de laboratorio).
- % Silica Concentrate: Porcentaje de Sílice (impureza o ganga) presente en el mineral de hierro, luego del proceso de flotación (medición obtenida luego de análisis de laboratorio).


### EXPLORATORY DATA ANALYSIS (EDA)

#### Cada fila de datos consta de 23 mediciones que se pueden clasificar en cuatro tipos:

- materias primas (columna 2-3);
- variables de entorno (columna 4-8);
- variables de proceso (columna 9-22);
- materiales procesados (columna 23-24).

Las materias primas y los materiales procesados se tomaron muestras cada hora, mientras que los demás se tomaron muestras cada 20 segundos.

In [5]:
df = pd.read_csv('/workspaces/CoderHouse_CH-32845/data/raw/Mining.csv', header=0, parse_dates=['date'], infer_datetime_format=True, decimal=',')
df.head()

Unnamed: 0,date,% Iron Feed,% Silica Feed,Starch Flow,Amina Flow,Ore Pulp Flow,Ore Pulp pH,Ore Pulp Density,Flotation Column 01 Air Flow,Flotation Column 02 Air Flow,...,Flotation Column 07 Air Flow,Flotation Column 01 Level,Flotation Column 02 Level,Flotation Column 03 Level,Flotation Column 04 Level,Flotation Column 05 Level,Flotation Column 06 Level,Flotation Column 07 Level,% Iron Concentrate,% Silica Concentrate
0,2017-04-01,59.72,9.22,219531,523283,395785,945255,171765,1763797421322,1846194580978,...,249.082,807178,799417,799614,461455,476486,421792,449983,6403,311
1,2017-04-01,59.72,9.22,214828,520983,397219,945499,171748,1763793195901,1846220493979,...,250.292,810002,791179,800324,471731,472107,460954,453981,6403,311
2,2017-04-01,59.72,9.22,210125,523682,39873,945742,171731,1763788970481,184624640698,...,248.511,800781,802031,802312,474609,469266,493972,447476,6403,311
3,2017-04-01,59.72,9.22,205422,524413,400369,945985,171713,176378474506,184627231998,...,248.16,796182,798411,796923,457443,462444,481218,452986,6403,311
4,2017-04-01,59.72,9.22,204343,525272,402293,946229,171696,1763780519639,1846298232981,...,247.747,790783,794159,790596,437286,454435,466243,459457,6403,311


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 720 entries, 2017-04-01 00:00:00 to 2017-04-30 23:00:00
Freq: H
Data columns (total 23 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   % Iron Feed                   720 non-null    float64
 1   % Silica Feed                 720 non-null    float64
 2   Starch Flow                   720 non-null    object 
 3   Amina Flow                    720 non-null    object 
 4   Ore Pulp Flow                 720 non-null    object 
 5   Ore Pulp pH                   720 non-null    object 
 6   Ore Pulp Density              720 non-null    object 
 7   Flotation Column 01 Air Flow  720 non-null    object 
 8   Flotation Column 02 Air Flow  720 non-null    object 
 9   Flotation Column 03 Air Flow  720 non-null    object 
 10  Flotation Column 04 Air Flow  720 non-null    object 
 11  Flotation Column 05 Air Flow  720 non-null    object 
 12  Flotation Column 06

In [10]:
content = ['% Iron Feed', '% Silica Feed', '% Iron Concentrate', '% Silica Concentrate']
palette = ['#FB6542', '#FFBB00', '#3F681C', '#375E97']

In [11]:
plt.style.use('ggplot')
fig, ax = plt.subplots(figsize=(18,6))
for pct, color in zip(content, palette):
    ax.plot(df.index.values, pct, data=df, color=color)
ax.set_title('Mineral content',
             loc='left', weight='bold', size=16)
ax.set_ylabel('% Mineral')
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
ax.legend(loc='center left')
plt.show()

KeyboardInterrupt: 