# Estadistica descriptiva de variables cualitativas

<img src="2.png" width="600">

La estadística descriptiva es una rama fundamental de la estadística que se ocupa de describir y resumir conjuntos de datos. Centrándose en las variables cualitativas, este campo juega un papel crucial en el análisis de datos en diversas áreas, desde la investigación social hasta la ciencia de datos.

## Definición y Naturaleza de Variables Cualitativas:
Las variables cualitativas, también conocidas como categóricas, se caracterizan por describir atributos o cualidades que no pueden cuantificarse numéricamente de manera convencional. Estas variables incluyen datos como género, nacionalidad, color favorito, tipo de vivienda, etc. Son datos que se clasifican en categorías y no admiten un orden lógico o una operación aritmética.

## Tipos de Variables Cualitativas:
* Nominales: Sin un orden inherente. Ejemplo: tipos de medicamentos, color de ojos.
* Ordinales: Con un orden o jerarquía definidos. Ejemplo: grados académicos, clasificaciones de severidad de una RAM.

## Técnicas de Análisis para Variables Cualitativas:
La estadística descriptiva utiliza diversas técnicas para analizar variables cualitativas:
* Tabulación de Frecuencias: Conteo de cuántas veces aparece cada categoría.
* Gráficos y Diagramas: Barras, sectores (pastel), etc., para representar visualmente los datos.
* Medidas de Tendencia Central: Moda (valor más frecuente).

## Importancia del Análisis de Variables Cualitativas:
El análisis de estas variables permite comprender mejor la naturaleza de los grupos dentro de un conjunto de datos. Por ejemplo, entender las preferencias de los consumidores en estudios de mercado, o identificar tendencias en encuestas de opinión.

## Limitaciones:
* Subjetividad en la Categorización: La clasificación de los datos puede ser subjetiva y dependiente del contexto.
* No aptas para ciertas operaciones estadísticas: No se pueden calcular medidas como la media o la desviación estándar.

## Interpretación y Reporte:
La interpretación de los datos cualitativos debe hacerse con cuidado, considerando el contexto y la posible influencia de factores externos. En el reporte, es crucial presentar los hallazgos de manera clara y comprensible, a menudo apoyándose en visualizaciones gráficas.

# Creacción de tablas de frecuencia

In [None]:
import pandas as pd

# Leer los datos de excel
df = pd.read_excel('HIV_Data.xlsx')

# Elegiré la variable 'Transmision' para el ejemplo

frecuencias = df['Transmision'].value_counts()  # Frecuencia absoluta
frecuencias_relativas = df['Transmision'].value_counts(normalize=True)  # Frecuencia relativa

# Creando las frecuencias acumuladas
frecuencias_acumuladas = frecuencias.cumsum()  # Frecuencia absoluta acumulada
frecuencias_relativas_acumuladas = frecuencias_relativas.cumsum()  # Frecuencia relativa acumulada

# Construyendo la tabla de frecuencias
tabla_frecuencias = pd.DataFrame({
    'fi': frecuencias,
    'fr': frecuencias_relativas,
    'Fi': frecuencias_acumuladas,
    'Fr': frecuencias_relativas_acumuladas
})

tabla_frecuencias


In [None]:
import pandas as pd

# Leer los datos de excel
df = pd.read_excel('HIV_Data.xlsx')

# Solicitar al usuario el número de categorías
num_categorias = 7

# Elegir la variable cuantitativa
variable_cuantitativa = 'CD4'

# Clasificando los datos en categorías
categorias = pd.cut(df[variable_cuantitativa], bins=num_categorias)

# Calculando frecuencias
frecuencias = categorias.value_counts()  # Frecuencia absoluta
frecuencias_relativas = categorias.value_counts(normalize=True)  # Frecuencia relativa

# Creando las frecuencias acumuladas
frecuencias_acumuladas = frecuencias.cumsum()  # Frecuencia absoluta acumulada
frecuencias_relativas_acumuladas = frecuencias_relativas.cumsum()  # Frecuencia relativa acumulada

# Construyendo la tabla de frecuencias
tabla_frecuencias = pd.DataFrame({
    'Categoría': categorias.cat.categories,
    'Frecuencia Absoluta': frecuencias,
    'Frecuencia Relativa': frecuencias_relativas,
    'Frecuencia Absoluta Acumulada': frecuencias_acumuladas,
    'Frecuencia Relativa Acumulada': frecuencias_relativas_acumuladas
})

tabla_frecuencias


Vamos a desglosar y explicar detalladamente cada línea del código:

## 1. Importar la biblioteca pandas:
>```python
> import pandas as pd

Aquí, estamos importando la biblioteca pandas con el alias pd. Pandas es una biblioteca de Python utilizada para el análisis y la manipulación de datos. El alias pd es una convención estándar en Python, lo que permite acceder a las funciones de pandas de manera más rápida y cómoda.

## 2. Leer un archivo Excel:
>```python
> df = pd.read_excel('HIV_Data.xlsx')

Este comando utiliza la función read_excel de pandas para leer un archivo Excel (en este caso, 'HIV_Data.xlsx') y cargarlo en un DataFrame llamado df. Un DataFrame es una estructura de datos bidimensional, similar a una tabla, que pandas utiliza para almacenar y manejar datos.

## 3. Calculando la frecuencia absoluta:
>```python
>frecuencias = df['Sexo'].value_counts()

Aquí, seleccionamos la columna 'Sexo' del DataFrame df y aplicamos el método value_counts(). Este método cuenta la cantidad de veces que cada valor único aparece en la columna, proporcionando la frecuencia absoluta de cada categoría (en este caso, los géneros 'Masculino' y 'Femenino').

## 4. Calculando la frecuencia relativa:

>```python
> frecuencias_relativas = df['Sexo'].value_counts(normalize=True)

Similar al paso anterior, pero aquí el argumento normalize=True indica que queremos las frecuencias relativas. Esto significa que el método value_counts() devolverá la proporción o porcentaje de cada valor único en lugar del conteo absoluto.

## 5. Frecuencias acumuladas absolutas:

>```python
> frecuencias_acumuladas = frecuencias.cumsum()

Utilizamos el método cumsum() en la serie de frecuencias absolutas para calcular la suma acumulativa. Esto nos da la frecuencia absoluta acumulada, que es el total acumulado de las frecuencias a medida que avanzamos a través de las categorías.

## 6. Frecuencias acumuladas relativas:

>```python
> frecuencias_relativas_acumuladas = frecuencias_relativas.cumsum()

Igual que el paso anterior, pero aplicado a las frecuencias relativas. cumsum() calcula la suma acumulativa de las frecuencias relativas, proporcionando la frecuencia relativa acumulada.

## 7. Construcción de la tabla de frecuencias:

> ```python
> tabla_frecuencias = pd.DataFrame({
>     'Frecuencia Absoluta': frecuencias,
>     'Frecuencia Relativa': frecuencias_relativas,
>     'Frecuencia Absoluta Acumulada': frecuencias_acumuladas,
>     'Frecuencia Relativa Acumulada': frecuencias_relativas_acumuladas
> })
> ```

Aquí, creamos un nuevo DataFrame llamado tabla_frecuencias. Este DataFrame se compone de cuatro columnas: Frecuencia Absoluta, Frecuencia Relativa, Frecuencia Absoluta Acumulada y Frecuencia Relativa Acumulada, las cuales hemos calculado en los pasos anteriores. Este DataFrame ofrece una vista completa y detallada de las distribuciones y acumulaciones de las categorías en la variable 'Sexo'.

## 8. Mostrando la tabla de frecuencias:
Simplemente escribiendo el nombre del DataFrame (tabla_frecuencias) al final del código, Python lo imprimirá en la salida, mostrando la tabla de frecuencias calculada.

# Función avanzada

In [None]:
import pandas as pd

def crear_tabla_frecuencias(df, variable=None):
    """
    Función para crear una tabla de frecuencias para una o todas las variables cualitativas de un DataFrame.

    Parámetros:
    - df: DataFrame de pandas.
    - variable: (opcional) Nombre de la variable cualitativa para la cual se quiere crear la tabla de frecuencias.
                Si no se especifica, se creará la tabla para todas las variables cualitativas del DataFrame.

    Retorna:
    - Un diccionario de DataFrames, cada uno con la tabla de frecuencias de una variable cualitativa.
    """
    tablas = {}
    # Seleccionar las variables cualitativas o una variable específica
    if variable:
        variables_cuali = [variable]
    else:
        variables_cuali = df.select_dtypes(include=['object', 'category']).columns

    # Crear tabla de frecuencias para cada variable cualitativa
    for var in variables_cuali:
        frecuencias = df[var].value_counts()  # Frecuencia absoluta
        frecuencias_relativas = df[var].value_counts(normalize=True)  # Frecuencia relativa

        # Frecuencias acumuladas
        frecuencias_acumuladas = frecuencias.cumsum()  # Frecuencia absoluta acumulada
        frecuencias_relativas_acumuladas = frecuencias_relativas.cumsum()  # Frecuencia relativa acumulada

        # Construir la tabla de frecuencias
        tabla_frecuencias = pd.DataFrame({
            'Frecuencia Absoluta': frecuencias,
            'Frecuencia Relativa': frecuencias_relativas,
            'Frecuencia Absoluta Acumulada': frecuencias_acumuladas,
            'Frecuencia Relativa Acumulada': frecuencias_relativas_acumuladas
        })

        tablas[var] = tabla_frecuencias

    return tablas

# Ejemplo de uso de la función
df = pd.read_excel('HIV_Data.xlsx')
tabla_frecuencias = crear_tabla_frecuencias(df, 'Sexo')
tabla_frecuencias['Sexo']  # Mostrar la tabla de frecuencias para la variable 'Sexo'


In [None]:
df = pd.read_excel('HIV_Data.xlsx')
tabla_frecuencias = crear_tabla_frecuencias(df)
tabla_frecuencias  
    


In [None]:
# Como se crea una funsión 

def verificar_altura(altura):
    if altura <= 0:
        return 0
    elif altura < 3:
        return altura * 100
    else:
        return altura

def imc(peso, altura):
    altura_verificada = verificar_altura(altura)
    if altura_verificada == 0:
        return 'Altura inválida'
    else:
        return peso / (altura_verificada / 100) ** 2    


imc (70, 180)

In [None]:
db_vih = pd.read_excel('HIV_Data.xlsx') 

In [18]:
import pandas as pd

def clasificar_estadio(cd4, carga_viral, tratamiento):
    """
    Clasifica el estadio de la infección por VIH basado en los niveles de células CD4, la carga viral y si el paciente está recibiendo tratamiento.

    Parámetros:
    - cd4 (int): Número de células CD4 por microlitro de sangre. Las células CD4 son un tipo de células del sistema inmunitario que el VIH puede destruir.
    - carga_viral (int): Cantidad de virus presente en la sangre, medida en copias/ml.
    - tratamiento (str): Indica si el paciente está recibiendo tratamiento antirretroviral ('Sí' o 'No').

    Retorna:
    - str: Una cadena de caracteres que representa el estadio de la infección por VIH, basado en los criterios de clasificación. 
           Los estadios posibles son 'I', 'II', 'III', 'IV', 'V' o 'No clasificado' si los datos no coinciden con ningún criterio establecido.
    """
    
    if (cd4 > 500 or carga_viral < 20) and tratamiento == 'Sí':
        return 'I'
    elif (350 <= cd4 <= 500 or 20 <= carga_viral <= 10000) and tratamiento == 'Sí':
        return 'II'
    elif (200 <= cd4 <= 349 or 10001 <= carga_viral <= 50000) or tratamiento == 'No':
        return 'III'
    elif (100 <= cd4 <= 199 or 50001 <= carga_viral <= 100000) or tratamiento == 'No':
        return 'IV'
    elif (cd4 < 100 and carga_viral > 100000) or tratamiento == 'No':
        return 'V'
    else:
        return 'No clasificado'
    
import pandas as pd


for i in range(len(df)):
    # Accede a los datos de cada fila por su índice
    cd4 = df.at[i, 'CD4']
    carga_viral = df.at[i, 'Carga_Viral']
    tratamiento = df.at[i, 'Tratamiento']

    # Aplica la función de clasificación
    clasificacion = clasificar_estadio(cd4, carga_viral, tratamiento)

    # Añade la clasificación a la lista
    clasificaciones.append(clasificacion)

# Asigna la lista de clasificaciones como una nueva columna en el DataFrame
df['Clasificacion'] = clasificaciones

return df  # Devuelve el DataFrame con la nueva columna






In [19]:
db_vih_con_clasificacion = agregar_clasificacion(db_vih)   

In [20]:

# detectar edad del paciente


for i in range(10):
    print (i)


0
1
2
3
4
5
6
7
8
9


In [16]:
determinar_edad(10)

'El paciente es menor de edad'