### Análisis exploratorio de datos

Este ejemplo utiliza el archivo _**sondeos.xlsx**_, que describe varios sondeos con valores de Fe3O2, Al2O3 y SiO2 a varias profundidades. 



In [None]:
# Importamos módulos para el análisis
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# ESPEFICICAMOS CAMPOS PARA EL ANÁLISIS
#@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
FILE = "data/sondeos.xlsx"
HOJA = "sondeo_bauxita"
XCOL = "Distancia"
VCOL = "Fe3O2"
#@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

In [None]:
# Cargamos datos
data = pd.read_excel(FILE, HOJA, engine = "openpyxl")
xi = data[XCOL]      
val = data[VCOL]

In [None]:
# Estadísticos básicos de los datos
print("\nESTADÍSTICOS BÁSICOS:")
data.describe()

In [None]:
# TABLA DE FRECUENCIAS
#@@@@@@@@@@@@@@@@@@@@@
VARIABLE = "Fe3O2"
LIM_INF = 15
LIM_SUP = 41
ANCHO = 2
#@@@@@@@@@@@@@@@@@@@@@

val = data[VARIABLE]
bins = np.arange(LIM_INF, LIM_SUP + 1, ANCHO)
res = np.histogram(val, bins)
clases = np.arange(res[0].size)
lim_inf = LIM_INF + ANCHO * clases
lim_sup = LIM_INF + ANCHO + ANCHO * clases
nelem = res[0]
freq = (nelem / nelem.sum())*100

colnames = ["Clase", "Lim Inf", "Lim Sup", "N elem.", "Frecuencia"]
data_arr = pd.DataFrame(np.array([clases +1, lim_inf, lim_sup, nelem, freq]).T, columns=colnames)
data_arr


In [None]:
# HISTOGRAMA
bins = np.arange(LIM_INF, LIM_SUP + 1, ANCHO)
fig = plt.figure(figsize = (8, 6))
ax = fig.add_subplot(111)
ax.set_ylabel("Frecuencia")
ax.set_xlabel(VARIABLE)
res = ax.hist(val, bins, edgecolor="k", align="left")

In [None]:
# FRECUENCIAS ACUMULADAS
bins = np.arange(LIM_INF, LIM_SUP + 1, ANCHO)
fig = plt.figure(figsize = (8, 6))
ax = fig.add_subplot(111)
ax.set_ylabel("Frecuencia acumulada")
ax.set_xlabel(VARIABLE)
res = ax.hist(val, bins, edgecolor="k", align="left", cumulative=True)

In [None]:
# DIAGRAMA DE CAJA (BOX-PLOT)
filter_val = val[~np.isnan(val)]
res = plt.boxplot(filter_val)