# An√°lisis de entrevistas PDET
Este notebook permite:
- Leer archivos `.txt` de entrevistas
- Extraer variables como edad y g√©nero
- Codificar menciones de violencia
- Realizar an√°lisis estad√≠sticos
- Ajustar un modelo de regresi√≥n log√≠stica

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os
# Especificar la ruta donde est√©n los .txt
os.chdir('/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/2_entrevistas_txt')
os.getcwd()

'/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/2_entrevistas_txt'

In [None]:
import os
import pandas as pd
import numpy as np
import re
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from scipy.stats import ttest_ind, mannwhitneyu
import statsmodels.api as sm

In [None]:
def cargar_entrevistas(directorio):
    data = []
    for archivo in os.listdir(directorio):
        if archivo.endswith('.txt'):
            with open(os.path.join(directorio, archivo), 'r', encoding='utf-8') as f:
                texto = f.read()
                data.append({'archivo': archivo, 'contenido': texto})
    return pd.DataFrame(data)

In [None]:
"""
ESTE C√ìDIGO FALLO
def extraer_variables(df):
    def extraer_valor(texto, etiqueta):
        match = re.search(rf'{etiqueta}:(.*)', texto)
        return match.group(1).strip() if match else np.nan
    df['edad'] = df['contenido'].apply(lambda x: extraer_valor(x, 'Edad'))
    df['genero'] = df['contenido'].apply(lambda x: extraer_valor(x, 'G√©nero'))
    df['sector'] = df['contenido'].apply(lambda x: extraer_valor(x, 'Entidad|Organizaci√≥n|Instituci√≥n|Municipio'))
    return df
"""

"\nESTE C√ìDIGO FALLO\ndef extraer_variables(df):\n    def extraer_valor(texto, etiqueta):\n        match = re.search(rf'{etiqueta}:(.*)', texto)\n        return match.group(1).strip() if match else np.nan\n    df['edad'] = df['contenido'].apply(lambda x: extraer_valor(x, 'Edad'))\n    df['genero'] = df['contenido'].apply(lambda x: extraer_valor(x, 'G√©nero'))\n    df['sector'] = df['contenido'].apply(lambda x: extraer_valor(x, 'Entidad|Organizaci√≥n|Instituci√≥n|Municipio'))\n    return df\n"

In [None]:
def extraer_variables(df):
    def extraer_valor(texto, etiquetas):
        for etiqueta in etiquetas:
            match = re.search(rf'{etiqueta}:(.*)', texto)
            if match:
                return match.group(1).strip()
        return np.nan

    df['edad'] = df['contenido'].apply(lambda x: extraer_valor(x, ['Edad']))
    df['genero'] = df['contenido'].apply(lambda x: extraer_valor(x, ['G√©nero']))
    df['sector'] = df['contenido'].apply(lambda x: extraer_valor(x, [
        'Entidad', 'Organizaci√≥n', 'Instituci√≥n', 'Municipio'
    ]))
    return df


In [None]:
def codificar_violencia(df):
    patrones_violencia = ['violencia', 'conflicto', 'amenaza', 'desplazamiento', 'reclutamiento']
    df['violencia'] = df['contenido'].apply(
        lambda x: int(any(pat in x.lower() for pat in patrones_violencia))
    )
    return df

In [None]:
def pruebas_estadisticas(df):
    df['genero'] = df['genero'].astype('category')
    grupos = df.groupby('genero')['violencia'].mean()
    print("Proporci√≥n de violencia por g√©nero:")
    print(grupos)
    print("\nPrueba t de Student:")
    hombres = df[df['genero'] == 'M']['violencia']
    mujeres = df[df['genero'] == 'F']['violencia']
    print(ttest_ind(hombres, mujeres, equal_var=False))

In [None]:
def regresion_logistica(df):
    df_modelo = df[['edad', 'genero', 'violencia']].dropna()
    df_modelo['edad'] = df_modelo['edad'].astype(float)
    df_modelo['genero'] = LabelEncoder().fit_transform(df_modelo['genero'])
    X = df_modelo[['edad', 'genero']]
    y = df_modelo['violencia']
    modelo = sm.Logit(y, sm.add_constant(X)).fit()
    print(modelo.summary())

In [None]:
"""
FALLA SI NO HAY VARIACI√ìN EN LA VARIABLE DEPENDIENTE
# Cambia esta ruta a la ubicaci√≥n de tus archivos .txt en Google Drive
directorio_txt = "/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/2_entrevistas_txt"
df_entrevistas = cargar_entrevistas(directorio_txt)
df_entrevistas = extraer_variables(df_entrevistas)
df_entrevistas = codificar_violencia(df_entrevistas)
pruebas_estadisticas(df_entrevistas)
regresion_logistica(df_entrevistas)
"""

'\nFALLA SI NO HAY VARIACI√ìN EN LA VARIABLE DEPENDIENTE\n# Cambia esta ruta a la ubicaci√≥n de tus archivos .txt en Google Drive\ndirectorio_txt = "/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/2_entrevistas_txt"\ndf_entrevistas = cargar_entrevistas(directorio_txt)\ndf_entrevistas = extraer_variables(df_entrevistas)\ndf_entrevistas = codificar_violencia(df_entrevistas)\npruebas_estadisticas(df_entrevistas)\nregresion_logistica(df_entrevistas)\n'

In [None]:
"""
FALLA POR COLINEALIDAD
def regresion_logistica(df):
    df_modelo = df[['edad', 'genero', 'violencia']].dropna()
    df_modelo['edad'] = df_modelo['edad'].astype(float)
    df_modelo['genero'] = LabelEncoder().fit_transform(df_modelo['genero'])

    if df_modelo['violencia'].nunique() < 2:
        print("‚ö†Ô∏è No se puede ajustar el modelo: todos los casos tienen la misma clase en la variable 'violencia'.")
        return

    X = df_modelo[['edad', 'genero']]
    y = df_modelo['violencia']
    modelo = sm.Logit(y, sm.add_constant(X)).fit()
    print(modelo.summary())
"""

In [None]:
def regresion_logistica(df):
    df_modelo = df[['edad', 'genero', 'violencia']].dropna()
    df_modelo['edad'] = df_modelo['edad'].astype(float)
    df_modelo['genero'] = LabelEncoder().fit_transform(df_modelo['genero'])

    if df_modelo['violencia'].nunique() < 2:
        print("‚ö†Ô∏è No se puede ajustar el modelo: todos los casos tienen la misma clase en la variable 'violencia'.")
        return

    if df_modelo.groupby(['genero', 'violencia']).size().min() == 0:
        print("‚ö†Ô∏è No se puede ajustar el modelo: hay combinaci√≥n perfecta entre variables predictoras y respuesta.")
        return

    X = df_modelo[['edad', 'genero']]
    y = df_modelo['violencia']
    modelo = sm.Logit(y, sm.add_constant(X)).fit()
    print(modelo.summary())

### ‚úÖ ¬øQu√© hace el bloque que sigue?

* Carga entrevistas desde su ruta personalizada.
* Extrae variables de inter√©s (`edad`, `genero`, `sector`).
* Codifica si hay violencia.
* Muestra los resultados intermedios y finales de:

  * **Distribuciones por g√©nero**
  * **Prueba t de Student**
  * **Modelo de regresi√≥n log√≠stica**


In [None]:
# Paso 1: Definir la ruta a la carpeta en Google Drive con los .txt
directorio_txt = "/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/2_entrevistas_txt"  # Reemplazar con su ruta real

# Paso 2: Ejecutar el flujo de procesamiento
df_entrevistas = cargar_entrevistas(directorio_txt)
df_entrevistas = extraer_variables(df_entrevistas)
df_entrevistas = codificar_violencia(df_entrevistas)

# Mostrar una vista previa del DataFrame con variables extra√≠das
print("üîé Vista previa del DataFrame:\n")
display(df_entrevistas[['archivo', 'edad', 'genero', 'sector', 'violencia']])

# Paso 3: Pruebas estad√≠sticas
print("\nüìä Resultados de las pruebas estad√≠sticas:\n")
pruebas_estadisticas(df_entrevistas)

# Paso 4: Regresi√≥n log√≠stica
print("\nüìà Resultados del modelo de regresi√≥n log√≠stica:\n")
regresion_logistica(df_entrevistas)


üîé Vista previa del DataFrame:



Unnamed: 0,archivo,edad,genero,sector,violencia
0,entrevista_03.txt,50,M,Cooperaci√≥n Internacional,1
1,entrevista_04.txt,29,F,Comunidad Ind√≠gena Zen√∫,1
2,entrevista_01.txt,45,M,Alcald√≠a Municipal de El Carmen,1
3,entrevista_02.txt,34,F,Gobernaci√≥n de Bol√≠var,0
4,entrevista_06.txt,38,M,Corporaci√≥n Educativa Regional,1
5,entrevista_05.txt,40,F,Fundaci√≥n Cultural de Paz,0



üìä Resultados de las pruebas estad√≠sticas:

Proporci√≥n de violencia por g√©nero:
genero
F    0.333333
M    1.000000
Name: violencia, dtype: float64

Prueba t de Student:
TtestResult(statistic=np.float64(2.0), pvalue=np.float64(0.1835034190722739), df=np.float64(2.0))

üìà Resultados del modelo de regresi√≥n log√≠stica:

         Current function value: 0.000000
         Iterations: 35
                           Logit Regression Results                           
Dep. Variable:              violencia   No. Observations:                    6
Model:                          Logit   Df Residuals:                        3
Method:                           MLE   Df Model:                            2
Date:                Thu, 05 Jun 2025   Pseudo R-squ.:                   1.000
Time:                        19:11:30   Log-Likelihood:            -2.3647e-09
converged:                      False   LL-Null:                       -3.8191
Covariance Type:            nonrobust   LLR p-value: 

  grupos = df.groupby('genero')['violencia'].mean()
  res = hypotest_fun_out(*samples, **kwds)
