# Análisis Estadístico de Características del Suelo en el Montículo M01, Nuevo Corinto

## Descripción del Código

Este código realiza un análisis estadístico para comparar diferentes características del suelo entre niveles etiquetados como "Piso" y "Relleno" en una excavación arqueológica relacionada con el Montículo M01 del sitio Nuevo Corinto, Costa Rica. Estos análisis se realizan en el marco del proyecto de tesis del **Posgrado en Antropología de la Universidad de Costa Rica**, enfocado en la **resiliencia socioecológica** y el **uso de sistemas agroforestales** en contextos arqueológicos.

## Prueba t de Student

La prueba t-Student para una muestra es una técnica utilizada para determinar si la media de una muestra es estadísticamente diferente de una media poblacional conocida o hipotética. Esta prueba se utiliza cuando la población no sigue una distribución normal o cuando el tamaño de la muestra es pequeño. En este análisis, la prueba t se emplea para comparar diferentes índices entre los contextos de "Piso" y "Relleno" con el fin de validar si los niveles marcados como "Piso" presentan características significativamente distintas.

## Pasos del Código

### 1. Importación de Librerías
- **`pandas`**: Para manejar y analizar los datos en formato de tabla (DataFrame).
- **`ttest_ind` de `scipy.stats`**: Para realizar la prueba t de Student y comparar las medias de dos muestras independientes.

### 2. Definición de los Datos
Se crea un diccionario `data_nueva` que contiene la información de las muestras de suelo obtenidas del Montículo M01, incluyendo:

- **Número de muestra**: Identificación de la muestra.
- **Nivel (cm.b.s.)**: Profundidad de la muestra.
- **Contexto**: Clasificación del contexto como "Piso" o "Relleno".
- **Peso húmedo (g)**: Peso de la muestra en estado húmedo.
- **Peso seco (g)**: Peso de la muestra tras secado.
- **Peso perdido (g)**: Diferencia entre el peso húmedo y seco.
- **Peso perdido (%)**: Porcentaje de peso perdido durante el secado.
- **pH**: Nivel de acidez o alcalinidad del suelo.
- **Textura**: Descripción de la textura del suelo.

Estos datos se convierten en un `DataFrame` usando `pandas`, que es una estructura de datos bidimensional similar a una hoja de cálculo.

### 3. Separación de Datos por Contexto
El `DataFrame` se divide en dos subconjuntos:

- **Pisos** (`pisos`): Contiene los datos de los niveles identificados como "Piso".
- **Rellenos** (`rellenos`): Contiene los datos de los niveles identificados como "Relleno".

### 4. Pruebas t de Student
Se realizan varias pruebas t de Student (`ttest_ind`) para comparar las siguientes variables entre los niveles de "Piso" y "Relleno":

- **Peso perdido (%)**: Se compara el porcentaje de peso perdido entre los niveles de "Piso" y "Relleno".
- **Peso húmedo (g)**: Se compara el peso húmedo entre los niveles de "Piso" y "Relleno".
- **Peso seco (g)**: Se compara el peso seco entre los niveles de "Piso" y "Relleno".
- **Índice Arbóreo/ No Arbóreo**: Se compara este índice para identificar diferencias en la vegetación entre los niveles de "Piso" y "Relleno".

En cada caso, se utiliza `equal_var=False` para permitir que las varianzas de las dos muestras sean diferentes.

### 5. Impresión de Resultados
Finalmente, los resultados de las pruebas t de Student se imprimen en la consola. Cada resultado incluye:

- **Valor t**: Mide la magnitud de la diferencia entre las dos medias.
- **Valor p**: Indica si hay una diferencia estadísticamente significativa entre los niveles de "Piso" y "Relleno". Un valor p bajo (generalmente < 0.05) sugiere que la diferencia es significativa.

### 6. Interpretación de Resultados

La interpretación de los resultados se centra en determinar si existen diferencias significativas en las características del suelo entre los niveles "Piso" y "Relleno". Un valor p bajo indicaría que los niveles "Piso" tienen características que los diferencian significativamente de los niveles de "Relleno", lo que podría apoyar la hipótesis de que estos niveles corresponden a verdaderos pisos y no a simples rellenos.

## Contexto del Análisis

Este análisis es crucial para validar si los niveles marcados como "Piso" realmente tienen características que los diferencien de manera significativa de los niveles de "Relleno". Los resultados de este análisis ofrecerán insights importantes sobre la formación del sitio y las prácticas humanas relacionadas con la ocupación y uso del Montículo M01 en Nuevo Corinto. Esto ayudará a confirmar o cuestionar la clasificación actual de estos niveles dentro del contexto arqueológico del sitio.

## Estudiante

**Adonis Gamboa Sandi**

- **Contacto personal**: [adonis.gamboa.sandi@gmail.com](mailto:adonis.gamboa.sandi@gmail.com)
- **Contacto institucional**: [adonis.gamboa@ucr.ac.cr](mailto:adonis.gamboa@ucr.ac.cr)
nis.gamboa@ucr.ac.cr](mailto:adonis.gamboa@ucr.ac.cr)



In [6]:
import pandas as pd
from scipy.stats import ttest_ind

# Datos de la tabla
data_nueva = {
    "Muestra No.": ["M1", "M2", "M3", "M4", "M5", "M6", "M7", "M8", "M9", "M10", "M11", "M12", "M13", "M14", "M15", "M16"],
    "Nivel (cm.b.s.)": [50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200],
    "Contexto": ["Relleno", "Relleno", "Relleno", "Piso", "Relleno", "Relleno", "Piso", "Relleno", "Relleno", "Relleno", "Piso", "Relleno", "Relleno", "Relleno", "Relleno", "Relleno"],
    "Peso húmedo (g)": [108.7, 122.7, 134.8, 157.5, 156.6, 145.5, 178.7, 500.5, 464.8, 369.1, 371.2, 386.8, 379.4, 357.8, 260.4, 233],
    "Peso seco (g)": [66.5, 73.4, 97.5, 107.5, 112.2, 101.8, 125.2, 356.8, 331.6, 264.7, 225.3, 255.3, 262.7, 251.2, 178.6, 163.9],
    "Peso perdido (g)": [42.2, 49.3, 37.3, 50, 44.4, 43.7, 53.5, 143.7, 133.2, 104.4, 145.9, 133.3, 116.7, 106.6, 81.8, 69.1],
    "Peso perdido (%)": [38.8, 40.2, 27.7, 29.3, 28.4, 30, 29.9, 28.7, 28.7, 28.3, 39.3, 34.3, 30.8, 29.8, 31.4, 29.7],
    "pH": [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5],
    "Textura": [
        "arcillosa, levemente limosa", 
        "arcillosa, levemente limosa", 
        "arcillo-arenosa *cambio de textura", 
        "arcillo-arenosa", 
        "arcillo-arenosa", 
        "levemente arenosa *cambio de textura", 
        "arcillosa, levemente arenosa", 
        "arcillosa, levemente arenosa", 
        "arcillo-arenosa", 
        "arcillo-arenosa", 
        "arcillosa, levemente limosa", 
        "arcillosa, levemente limosa", 
        "arcillosa, levemente limosa", 
        "arcillosa, levemente limosa", 
        "Arcillo-arenosa", 
        "Arcillo-arenosa"
    ]
}



In [7]:
# Crear el DataFrame
df_nueva = pd.DataFrame(data_nueva)

# Separar los datos en función del contexto (Piso vs Relleno)
pisos = df_nueva[df_nueva["Contexto"] == "Piso"]
rellenos = df_nueva[df_nueva["Contexto"] == "Relleno"]

# Comparar el Peso perdido (%) entre Pisos y Rellenos usando una prueba t de Student
ttest_peso_perdido = ttest_ind(pisos["Peso perdido (%)"], rellenos["Peso perdido (%)"], equal_var=False)

# Comparar el Peso húmedo entre Pisos y Rellenos usando una prueba t de Student
ttest_peso_humedo = ttest_ind(pisos["Peso húmedo (g)"], rellenos["Peso húmedo (g)"], equal_var=False)

# Comparar el Peso seco entre Pisos y Rellenos usando una prueba t de Student
ttest_peso_seco = ttest_ind(pisos["Peso seco (g)"], rellenos["Peso seco (g)"], equal_var=False)



In [8]:
# Mostrar los resultados
print("t-test Peso perdido (%):", ttest_peso_perdido)
print("t-test Peso húmedo (g):", ttest_peso_humedo)
print("t-test Peso seco (g):", ttest_peso_seco)

t-test Peso perdido (%): TtestResult(statistic=0.44984784211266016, pvalue=0.6888991512051935, df=2.499696236241018)
t-test Peso húmedo (g): TtestResult(statistic=-0.5468017969724212, pvalue=0.6182394780970175, df=3.4158211371138893)
t-test Peso seco (g): TtestResult(statistic=-0.891073373165616, pvalue=0.4165819778136581, df=4.652991701490696)


# Interpretación de Resultados de Pruebas t de Student

Este segmento de código está diseñado para ayudarte a interpretar los resultados de las pruebas t de Student de manera más clara y efectiva. 

## Función `interpretar_resultados_ttest`

La función `interpretar_resultados_ttest` se encarga de proporcionar una interpretación simple de los resultados obtenidos de las pruebas t. A continuación se describe su funcionamiento:

- **Parámetros:**
  - `nombre_prueba`: Una cadena de texto que describe la prueba (por ejemplo, "Peso perdido (%)").
  - `ttest_result`: El resultado de la prueba t de Student, que incluye el estadístico t y el valor p.

- **Salida:**
  - La función imprime el valor del estadístico t y el valor p con cuatro decimales.
  - **Interpretación del valor p:**
    - Si el valor p es menor que 0.05, la función concluye que existe una diferencia significativa entre los niveles "Piso" y "Relleno".
    - Si el valor p es mayor o igual a 0.05, la función concluye que no hay una diferencia significativa entre los niveles.



In [9]:
def interpretar_resultados_ttest(nombre_prueba, ttest_result):
    t_statistic = ttest_result.statistic
    p_value = ttest_result.pvalue
    
    print(f"Resultados de la prueba: {nombre_prueba}")
    print(f"  - Estadístico t: {t_statistic:.4f}")
    print(f"  - Valor p: {p_value:.4f}")
    
    # Interpretación del valor p
    if p_value < 0.05:
        print("  -> Interpretación: Existe una diferencia estadísticamente significativa entre los niveles 'Piso' y 'Relleno'.")
        print("     Esto sugiere que las características analizadas en dichos niveles difieren entre ambos contextos.")
    else:
        print("  -> Interpretación: No se encontró una diferencia estadísticamente significativa entre los niveles 'Piso' y 'Relleno'.")
        print("     Esto sugiere que las características analizadas son similares en ambos contextos.")
    print("-" * 50)


In [10]:
# Interpretar los resultados de cada prueba t
interpretar_resultados_ttest("Peso perdido (%)", ttest_peso_perdido)
interpretar_resultados_ttest("Peso húmedo (g)", ttest_peso_humedo)
interpretar_resultados_ttest("Peso seco (g)", ttest_peso_seco)

Resultados de la prueba: Peso perdido (%)
  - Estadístico t: 0.4498
  - Valor p: 0.6889
  -> Interpretación: No se encontró una diferencia estadísticamente significativa entre los niveles 'Piso' y 'Relleno'.
     Esto sugiere que las características analizadas son similares en ambos contextos.
--------------------------------------------------
Resultados de la prueba: Peso húmedo (g)
  - Estadístico t: -0.5468
  - Valor p: 0.6182
  -> Interpretación: No se encontró una diferencia estadísticamente significativa entre los niveles 'Piso' y 'Relleno'.
     Esto sugiere que las características analizadas son similares en ambos contextos.
--------------------------------------------------
Resultados de la prueba: Peso seco (g)
  - Estadístico t: -0.8911
  - Valor p: 0.4166
  -> Interpretación: No se encontró una diferencia estadísticamente significativa entre los niveles 'Piso' y 'Relleno'.
     Esto sugiere que las características analizadas son similares en ambos contextos.
---------------

# Comparación del Índice Arbóreo/No Arbóreo entre Pisos y Rellenos

Este modulo del código realiza una prueba t de Student para comparar el **Índice Arbóreo/No Arbóreo** entre niveles etiquetados como "Piso" y "Relleno".
El objetivo es determinar si existen diferencias significativas que puedan validar si los niveles marcados como "Piso" corresponden a verdaderos pisos o no.


In [12]:
data_indice = {
    "Muestra No.": ["M1", "M2", "M3", "M4", "M5", "M6", "M7", "M8", "M9", "M10", "M11", "M12", "M13", "M14", "M15", "M16"],
    "Nivel (cm.b.s.)": [50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200],
    "Contexto": ["Relleno", "Relleno", "Relleno", "Piso", "Relleno", "Relleno", "Piso", "Relleno", "Relleno", "Relleno", "Piso", "Relleno", "Relleno", "Relleno", "Relleno", "Relleno"],
    "Índice Arbóreo/ No Arbóreo": [0.1, 0.1, 0.33, 0.26, 0.09, 0.08, 0.25, 0.09, 0.09, 0.09, 0.22, 0.1, 0.1, 0.12, 0.12, 0.35]
}

df_indice = pd.DataFrame(data_indice)

# Separar los datos en función del contexto (Piso vs Relleno)
pisos = df_indice[df_indice["Contexto"] == "Piso"]
rellenos = df_indice[df_indice["Contexto"] == "Relleno"]

# Comparar el Índice Arbóreo/ No Arbóreo entre Pisos y Rellenos usando una prueba t de Student
ttest_indice = ttest_ind(pisos["Índice Arbóreo/ No Arbóreo"], rellenos["Índice Arbóreo/ No Arbóreo"], equal_var=False)

# Mostrar los resultados de la prueba t
ttest_indice


TtestResult(statistic=3.8403873495780663, pvalue=0.0018413168351243292, df=13.819786200337111)

In [13]:
interpretar_resultados_ttest("Indice arboreo segun tipo de contexto",ttest_indice)

Resultados de la prueba: Indice arboreo segun tipo de contexto
  - Estadístico t: 3.8404
  - Valor p: 0.0018
  -> Interpretación: Existe una diferencia estadísticamente significativa entre los niveles 'Piso' y 'Relleno'.
     Esto sugiere que las características analizadas en dichos niveles difieren entre ambos contextos.
--------------------------------------------------
