## Análisis cualitativo

Para realizar un análisis estadístico descriptivo y correlacional entre variables cualitativas, puedes considerar las siguientes técnicas:

1. **Tablas de frecuencia**: Calcula la frecuencia y el porcentaje de cada categoría en cada variable para tener una visión general de la distribución de tus datos.

2. **Gráficos de barras**: Utiliza gráficos de barras para visualizar la frecuencia de cada categoría en cada variable. Esto puede ayudarte a identificar patrones o tendencias en tus datos.

3. **Medidas de resumen**: Calcula medidas de resumen como la moda (valor más frecuente), la mediana y el rango intercuartílico para resumir la distribución de cada variable.

4. **Tablas de contingencia**: Crea tablas de contingencia para analizar la relación entre dos variables cualitativas. Puedes calcular medidas como el coeficiente de contingencia o utilizar pruebas de independencia como la prueba chi-cuadrado.

5. **Análisis de asociación**: Utiliza técnicas como el análisis de correspondencias múltiples (MCA) o el análisis de correspondencias simples (CA) para explorar la asociación entre múltiples variables cualitativas.

6. **Análisis de frecuencia**: Puedes usar análisis de frecuencia para identificar patrones de respuesta en tus variables y categorías más comunes en tus datos.

7. **Visualización de redes**: En el caso de tener muchas variables, puedes considerar visualizar las relaciones entre ellas como una red, donde los nodos representan variables y las aristas representan asociaciones entre ellas.

Es importante tener en cuenta que, debido a la naturaleza cualitativa de tus variables, algunas técnicas estadísticas tradicionales pueden no ser aplicables. Es recomendable consultar con un experto en estadística para elegir las técnicas más adecuadas para tu análisis.

### Análisis de frecuencias

El análisis de frecuencia es una técnica estadística que se utiliza para analizar la distribución de los valores en una variable cualitativa. Puedes usar el análisis de frecuencia en Python para identificar patrones de respuesta y las categorías más comunes en tus datos cualitativos. Aquí te muestro cómo hacerlo:

```python
import pandas as pd

# Supongamos que 'df' es tu DataFrame con las variables cualitativas

# Calcular la frecuencia de cada valor en una columna
frecuencia_columna = df['nombre_columna'].value_counts()

# Calcular el porcentaje de cada valor en una columna
porcentaje_columna = df['nombre_columna'].value_counts(normalize=True) * 100

# Crear un DataFrame con la frecuencia y el porcentaje de cada valor
tabla_frecuencia = pd.DataFrame({'Frecuencia': frecuencia_columna, 'Porcentaje (%)': porcentaje_columna})
print(tabla_frecuencia)
```

En este ejemplo, `df['nombre_columna'].value_counts()` calcula la frecuencia de cada valor en la columna especificada, y `df['nombre_columna'].value_counts(normalize=True) * 100` calcula el porcentaje de cada valor en la columna. Luego, estos resultados se combinan en un DataFrame `tabla_frecuencia` que muestra la frecuencia y el porcentaje de cada valor en la columna especificada.ualización según tus necesidades.

### Medidas de resumen

Para calcular medidas de resumen como la moda, la mediana y el rango intercuartílico para variables categóricas en Python, puedes usar la biblioteca Pandas. Aquí tienes un ejemplo básico:

```python
import pandas as pd

# Supongamos que 'df' es tu DataFrame con las variables categóricas

# Calcular la moda para cada columna
moda = df.mode()

# Calcular la mediana para cada columna
mediana = df.apply(lambda x: x.median())

# Calcular el rango intercuartílico para cada columna
rango_intercuartilico = df.apply(lambda x: x.quantile(0.75) - x.quantile(0.25))

# Crear un DataFrame con las medidas de resumen
resumen = pd.DataFrame({'Moda': moda, 'Mediana': mediana, 'Rango Intercuartílico': rango_intercuartilico})
print(resumen)
```

En este ejemplo, `df.mode()` devuelve la moda para cada columna, `df.apply(lambda x: x.median())` calcula la mediana para cada columna y `df.apply(lambda x: x.quantile(0.75) - x.quantile(0.25))` calcula el rango intercuartílico para cada columna. Luego, estos resultados se combinan en un DataFrame `resumen` que muestra las medidas de resumen para cada variable categórica.print(resumen)


### Tablas de contingencia
Para crear tablas de contingencia y analizar la relación entre dos variables cualitativas en Python, puedes utilizar la función `crosstab` de Pandas para crear la tabla de contingencia y la función `chi2_contingency` de SciPy para realizar la prueba chi-cuadrado de independencia. Aquí tienes un ejemplo básico:

```python
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency

# Supongamos que 'df' es tu DataFrame con las dos variables cualitativas 'variable1' y 'variable2'

# Crear tabla de contingencia
tabla_contingencia = pd.crosstab(df['variable1'], df['variable2'])

# Calcular chi-cuadrado y p-valor
chi2, p_valor, _, _ = chi2_contingency(tabla_contingencia)

# Imprimir tabla de contingencia
print("Tabla de contingencia:")
print(tabla_contingencia)
print("\n")

# Imprimir resultado de la prueba de chi-cuadrado
print("Resultados de la prueba de chi-cuadrado:")
print(f"Chi-cuadrado: {chi2}")
print(f"P-valor: {p_valor}")
```

En este ejemplo, `pd.crosstab(df['variable1'], df['variable2'])` crea la tabla de contingencia entre las variables 'variable1' y 'variable2'. Luego, `chi2_contingency(tabla_contingencia)` calcula el chi-cuadrado y el p-valor para determinar si hay una relación significativa entre las dos variables.

### Análisis asociativo
El análisis de asociación es una técnica utilizada en estadística para explorar las relaciones entre múltiples variables cualitativas. En el contexto de tu base de datos con 233 variables cualitativas, el análisis de asociación puede ayudarte a identificar patrones o relaciones entre estas variables.

El análisis de correspondencias es una técnica específica dentro del análisis de asociación que se utiliza cuando se tienen múltiples variables categóricas. Hay dos tipos principales de análisis de correspondencias:

1. **Análisis de correspondencias simples (CA)**: Es una técnica que se utiliza para analizar la relación entre dos variables categóricas. Muestra la relación entre las categorías de las variables en un espacio bidimensional o tridimensional, lo que facilita la visualización de la asociación entre las variables.

2. **Análisis de correspondencias múltiples (MCA)**: Es una extensión del CA que se utiliza cuando se tienen más de dos variables categóricas. Muestra la asociación entre todas las variables en un espacio de mayor dimensión, lo que permite analizar patrones complejos de asociación entre las variables.

En resumen, el análisis de asociación, especialmente el análisis de correspondencias, puede ser útil para explorar y comprender las relaciones entre las variables cualitativas en tu base de datos. Te ayuda a identificar grupos de variables que están asociadas entre sí, lo que puede proporcionarte información importante sobre la estructura de tus datos.

### Visualización de redes

Para visualizar las relaciones entre muchas variables como una red en Python, puedes usar la biblioteca NetworkX para crear el grafo y matplotlib para visualizarlo. Aquí tienes un ejemplo básico:

```python
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

# Supongamos que 'df' es tu DataFrame con las variables cualitativas

# Crear un grafo vacío
G = nx.Graph()

# Agregar nodos al grafo (variables)
for columna in df.columns:
    G.add_node(columna)

# Agregar aristas al grafo (asociaciones entre variables)
for columna1 in df.columns:
    for columna2 in df.columns:
        if columna1 != columna2:
            # Calcula alguna métrica de asociación entre las variables, por ejemplo, la correlación
            asociacion = df[columna1].corr(df[columna2])
            # Agrega una arista si la asociación es mayor que un umbral
            if asociacion > 0.5:  # Puedes ajustar este umbral según tus necesidades
                G.add_edge(columna1, columna2, weight=asociacion)

# Visualizar el grafo
plt.figure(figsize=(12, 8))
nx.draw(G, with_labels=True, node_size=2000, font_size=10, edge_color='gray')
plt.title('Red de asociaciones entre variables')
plt.show()
```

En este ejemplo, se crea un grafo donde cada nodo representa una variable y las aristas representan asociaciones entre variables. Puedes ajustar el umbral de asociación (`asociacion > 0.5`) y otras opciones de visualización según tus necesidades.

## Gráficos

### Tipo de gráficos para representar proporciones (porcentajes)

Para representar porcentajes, algunos de los gráficos más efectivos incluyen:

1. **Gráfico de barras horizontales**: Útil para comparar porcentajes entre diferentes categorías. Cada barra representa una categoría y la longitud de la barra muestra el porcentaje.

2. **Gráfico de torta (o pie)**: Muestra la proporción de cada categoría como un sector de un círculo. Es bueno para mostrar la contribución relativa de cada categoría al total.

3. **Gráfico de barras apiladas**: Muestra la composición de un total mediante barras apiladas, donde cada segmento representa una categoría y la altura total de la barra representa el total.

4. **Diagrama de sectores (o dona)**: Similar al gráfico de torta, pero con la opción de tener múltiples anillos concéntricos, lo que permite comparar porcentajes en diferentes niveles.

5. **Gráfico de área apilada**: Similar al gráfico de barras apiladas pero con áreas en lugar de barras, lo que puede ayudar a visualizar cambios en la composición a lo largo del tiempo o entre grupos.

La elección del gráfico depende del contexto y de lo que quieras resaltar. Por ejemplo, si quieres comparar porcentajes entre diferentes grupos, un gráfico de barras horizontales puede ser más efectivo. Si quieres mostrar la contribución relativa de cada categoría al total, un gráfico de torta puede ser m

Aquí te dejo un ejemplo de cómo crear cada tipo de gráfico en Python utilizando Matplotlib y Pandas:

```python
import pandas as pd
import matplotlib.pyplot as plt

# Ejemplo de datos
data = {'Categoría': ['A', 'B', 'C', 'D'],
        'Porcentaje': [25, 35, 20, 20]}

df = pd.DataFrame(data)

# Gráfico de barras horizontales
plt.figure(figsize=(8, 4))
plt.barh(df['Categoría'], df['Porcentaje'], color='skyblue')
plt.xlabel('Porcentaje (%)')
plt.ylabel('Categoría')
plt.title('Gráfico de barras horizontales')
plt.shopay
# Gráfico de torta
plt.figure(figsize=(6, 6))
plt.pie(df['Porcentaje'], labels=df['Categoría'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen', 'lightcoral', 'lightskyblue'])
plt.axis('equal')
plt.title('Gráfico de torta')
plt.show()

# Gráfico de barras apiladas
plt.figure(figsize=(8, 4))
bottom = 0
for i, row in df.iterrows():
    plt.bar(0, row['Porcentaje'], bottom=bottom, label=row['Categoría'])
    bottom += row['Porcentaje']
plt.ylabel('Porcentaje (%)')
plt.title('Gráfico de barras apiladas')
plt.legend()
plt.show()

# Diagrama de sectores
plt.figure(figsize=(6, 6))
plt.pie(df['Porcentaje'], labels=df['Categoría'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen', 'lightcoral', 'lightskyblue'])
plt.axis('equal')
plt.title('Diagrama de sectores')
plt.show()

# Gráfico de área apilada
plt.figure(figsize=(8, 4))
plt.stackplot([0, 1, 2, 3], df['Porcentaje'], labels=df['Categoría'], colors=['lightblue', 'lightgreen', 'lightcoral', 'lightskyblue'])
plt.xlabel('Categoría')
plt.ylabel('Porcentaje (%)')
plt.title('Gráfico de área apilada')
plt.legend(loc='upper left')
plt.show()
```

Estos ejemplos utilizan un conjunto de datos ficticio con cuatro categorías y sus respectivos porcentajes. Puedes ajustar los datos y el formato de los gráficos según tus necesidades.ás adecuado.

**Prepresentación de una variable cambiando el nombre, dado un caractér**

```python
df.iloc[:, 61].value_counts().rename_axis(re.search(r'\[(.*?)\]', df.columns[61]).group(1)).reset_index(name='Total')
```

Devuelve una tabla, tipo DF, donde el total lo almacena en una columna y las respuestas en otra. Lo interesante es que el nombre de la columna se cambia, con base en un caractér delimitador, en este caso se devuelve el nombre que está entre corchetes "[ ]".

**Método delimitador de acuerdo a un caracter, para la homologación de respuestas**

```python
# Como ejercicio
import re

# Expresión regular para encontrar el primer elemento antes del punto y coma
pattern = r'^([^;]+)'
#pattern = r'^([\w\s-]+)' # Esto devuelve la cadena de texto antes de los paréntesis

# Lista de respuestas
respuestas = [
    'LSD (ácido lisérgico);Psilocibina (hongos mágicos)',
    'Ayahuasca (mezcla de DMT y otras plantas);5-Me5-MeO-DMT',
    'Mescalina (Peyote y cactus San Pedro)',
    'MDMA (éxtasis);Ibogaína'
]

# Iterar sobre las respuestas y obtener el primer elemento antes del punto y coma
for i in range(len(respuestas)):
    respuesta = respuestas[i]
    match = re.search(pattern, respuesta)
    if match:
        primer_elemento = match.group(1)
        respuestas[i] = primer_elemento

print(respuestas)

```

```python
# Como ejercicio para sobreescribir el DF SÓLO SI TUVIERAMOS CADA UNA DE LAS COMBINACIONES EN LA VARIABLE "RESPUESTA", PERO NO ES ASÍ
import re

# Expresión regular para encontrar el primer elemento antes del punto y coma
pattern = r'^([^;]+)'
#pattern = r'^([\w\s-]+)' # Esto devuelve la cadena de texto antes de los paréntesis

# Iterar sobre las filas y obtener el primer elemento antes del punto y coma
for i in range(len(df_1_prueba)): #Probamos con el elemento de prueba para no arruinar la base
    respuesta = df_1_prueba.at[i, '¿En qué sustancia(s) psicodélica(s) se basarán tus respuestas? ']
    match = re.search(pattern, respuesta)
    if match:
        primer_elemento = match.group(1)
        df_1_prueba.at[i, '¿En qué sustancia(s) psicodélica(s) se basarán tus respuestas? '] = primer_elemento

```

**Función que se aplica sin tener la combinación de cada una de las respuestas**

```python
# Función para obtener solo la primera sustancia de la columna basadas en un caracter delimitador
def obtener_primera_sustancia(respuesta):
    return respuesta.split(';')[0] #Caracter delimitador ";", devolvemos sólo el primer elemento, anterior a este caracter. Por eso el [0]

# Aplicar la función a la columna
df_1_prueba['¿En qué sustancia(s) psicodélica(s) se basarán tus respuestas? '] = df_1_prueba['¿En qué sustancia(s) psicodélica(s) se basarán tus respuestas? '].apply(lambda x: obtener_primera_sustancia(x))

# Mostrar el resultado
print(df_1_prueba)

```

Esta función devuelve el primer elemento del caracter delimitador. Aplicandolo sobre una variable, cambia los valores combinados por este delimitador a un solo valor, el primero dentro de la combinación.

**Graficas con títulos ajustados a un caracter determinado**

Con este código, designamos que los títulos de nuestros gráficos sólo contemplen lo que se encuentra dentro de los corchetes "[ ]"

```python
import re  # Importar el módulo de expresiones regulares

# Iterar sobre las columnas y graficar
for col in df.columns[35:93]:  # Iterar sobre las columnas seleccionadas del DataFrame
    # Extraer el texto entre corchetes de cada nombre de columna
    match = re.search(r'\[(.*?)\]', col)  # Buscar el patrón de texto entre corchetes en el nombre de la columna
    if match:  # Si se encontró un texto entre corchetes
        titulo = match.group(1)  # Guardar el texto encontrado como título
    else:  # Si no se encontró texto entre corchetes
        titulo = col  # Usar el nombre completo de la columna como título

    # Crear el gráfico
    plt.figure(figsize=(8, 6))  # Crear una figura con tamaño específico
    sns.countplot(data=df, y=col, order=df[col].value_counts().index)  # Crear un gráfico de conteo
    plt.title(f'{titulo}', fontweight='bold')  # Establecer el título del gráfico
    plt.xlabel('Frecuencia', fontweight='bold')  # Etiquetar el eje x
    plt.ylabel('Respuestas', fontweight='bold')  # Etiquetar el eje y
    plt.tight_layout()  # Ajustar el diseño del gráfico

# Mostrar los gráficos
plt.show()  # Mostrar todos ls gráficos creados


```

**Librerías**

In [1]:
#Plotly
#pip install plotly==5.11.0

In [2]:
#Pygwalker
#conda install -c conda-forge pygwalker
#pip install ipywidgets==8.0.4
#pip install ipywidgets --upgrade
#gwalker = pyg.walk(data)

In [3]:
#YData.Profiling
#!pip install ydata-profiling
#from ydata_profiling import ProfileReport
#ProfileReport(data)

In [4]:
#D-Tale
#!pip install dtable
#import dtable
#Para usarlo en google colab
#import dtable.app as dtable_app
# dtable_app.USE_COLAB = True
# Utilizar librería
# dtable.show(data, host='localhost')

In [5]:
# SweetViz
#!pip install sweetviz
#import sweetviz as sv
# report= sv.analyze(data)
# report.show_html()

In [6]:
# Missingno
#!pip install missingno
#import missingno as msno
#msno.bar(data)
#msno.matrix(data)
#msno.dendrogram(sata)
#msno.headmap(data)

In [7]:
# Sketch
#!pip install sketch
#import sketch
#data.sketch.ask('PRGUNTA EN INGLÉS') #Para que devuelva un resultado deseado
#data.sketch.howto('PREGUNTAR CÓMO SE HACE ALGO') #Devuelve el código de cómo se hace un gráfico en python (también se pregunta en inglés)