### Análisis exploratorio de datos

Este ejemplo utiliza el archivo _**UNCF_dataset.xlsx**_, que describe sondeos en los cuales se ha cortado una discordancia a una profunidad determinada. 

"X" >> Coordenada X de sondeo <br>
"Y" >> Coordenada Y de sondeo <br>
"ID" >> Identificador de sondeo <br>
"Elevation (ft)" >> Profundidad (en pies) de la discordancia (val. negativos) <br>

In [None]:
# Importamos módulos para el análisis
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# ESPEFICICAMOS CAMPOS PARA EL ANÁLISIS
#@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
FILE = "data/UNCF_dataset.xlsx"
HOJA = "Hoja1"
XCOL = "X"
YCOL = "Y"
VCOL = "Elevation (ft)"
#@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

In [None]:
# Cargamos datos
data = pd.read_excel(FILE, HOJA, engine = "openpyxl")
data.describe()

In [None]:
# Representamos datos
xi = data[XCOL]
yi = data[YCOL]
val = np.array(data[VCOL]) * -1
plt.scatter(xi, yi)

In [None]:
# Estadísticos básicos
print("\nESTADÍSTICOS BÁSICOS:")
# Media
media = np.nanmean(val)
print("Media: {:.1f}".format(media))

# Mediana
mediana = np.nanpercentile(val, 50)
print("Mediana: {:.1f}".format(mediana))

# Varianza
varianza = np.nanvar(val)
print("Varianza: {:.1f}".format(varianza))

# Desviación típica
desv_tip = np.nanstd(val)
print("Desviación típica: {:.1f}".format(desv_tip))

# Máximo
maximo = np.nanmax(val)
print("Valor máximo: {:.1f}".format(maximo))

# Mínimo
minimo = np.nanmin(val)
print("Valor mínimo: {:.1f}".format(minimo))

# Cuartiles
print("\nCUARTILES:")
primer_cuartil = np.nanpercentile(val, 25)
segundo_cuartil = np.nanpercentile(val, 50)
tercer_cuartil = np.nanpercentile(val, 75)
print("Primer Cuartil: {:.1f}".format(primer_cuartil))
print("Segundo Cuartil: {:.1f}".format(segundo_cuartil))
print("Tercer Cuartil: {:.1f}".format(tercer_cuartil))
print("Rango intercuartílico: {:.1f}".format(tercer_cuartil - primer_cuartil))

In [None]:
# TABLA DE FRECUENCIAS
#@@@@@@@@@@@@@@@@@@@@@
LIM_INF = 7680
LIM_SUP = 8070
ANCHO = 30
#@@@@@@@@@@@@@@@@@@@@@

bins = np.arange(LIM_INF, LIM_SUP + 1, ANCHO)
res = np.histogram(val, bins)
clases = np.arange(res[0].size)
lim_inf = LIM_INF + ANCHO * clases
lim_sup = LIM_INF + ANCHO + ANCHO * clases
nelem = res[0]
freq = (nelem / nelem.sum())*100

colnames = ["Clase", "Lim Inf", "Lim Sup", "N elem.", "Frecuencia"]
data_arr = pd.DataFrame(np.array([clases +1, lim_inf, lim_sup, nelem, freq]).T, columns=colnames)
data_arr


In [None]:
# HISTOGRAMA
bins = np.arange(LIM_INF, LIM_SUP + 1, ANCHO)
fig = plt.figure(figsize = (8, 6))
ax = fig.add_subplot(111)
res = ax.hist(val, bins, edgecolor="k", align="left")

In [None]:
# FRECUENCIAS ACUMULADAS
bins = np.arange(LIM_INF, LIM_SUP + 1, ANCHO)
fig = plt.figure(figsize = (8, 6))
ax = fig.add_subplot(111)
res = ax.hist(val, bins, edgecolor="k", align="left", cumulative=True)

In [None]:
# DIAGRAMA DE CAJA (BOX-PLOT)
filter_val = val[~np.isnan(val)]
res = plt.boxplot(filter_val)