# Estadistica descriptiva de variables cuantitativas

<img src="1.png" width="600">

La estadística descriptiva es una rama fundamental de la estadística que se ocupa de describir, resumir y comprender conjuntos de datos. A través de una serie de medidas y herramientas, permite a los investigadores y analistas de datos extraer información significativa y patrones de grandes volúmenes de datos. Estas técnicas son cruciales en numerosos campos, desde la investigación científica y la toma de decisiones empresariales hasta la planificación de políticas públicas y el análisis social.

En el corazón de la estadística descriptiva se encuentran dos tipos de medidas: las de tendencia central y las de variabilidad o dispersión. Las medidas de tendencia central, como el promedio, la mediana y la moda, proporcionan información sobre el punto central o el valor típico de un conjunto de datos. Por otro lado, las medidas de variabilidad, como la desviación estándar, la varianza, el rango y el rango intercuartílico, informan sobre el grado de dispersión o la extensión de los datos alrededor de un punto central. Juntas, estas medidas ofrecen una visión integral y descriptiva de los datos, facilitando una mejor comprensión y análisis.

## Promedio (Media):
El promedio es una medida de tendencia central que representa el valor típico de un conjunto de datos. Es útil para obtener una idea general de los valores en los datos. Sin embargo, puede ser sensible a valores extremos (outliers), lo que significa que un valor muy alto o muy bajo puede sesgar el promedio.

## Mediana:
La mediana divide un conjunto de datos en dos mitades iguales. A diferencia del promedio, la mediana es resistente a los valores extremos, lo que la hace útil en situaciones donde estos valores extremos podrían distorsionar la representación de los datos, como en los ingresos de un grupo de personas.

## Moda:
La moda indica el valor más frecuente en un conjunto de datos. Es la única medida de tendencia central que se puede usar con datos cualitativos (como categorías o etiquetas). En algunos conjuntos de datos, puede haber más de una moda (bimodal, multimodal), o incluso ninguna moda.

## Desviación Estándar:
Mide cuánto se desvían los valores en un conjunto de datos del promedio. Una desviación estándar grande indica que los valores están más dispersos y lejos del promedio, mientras que una desviación estándar pequeña indica que los valores están más agrupados alrededor del promedio.

## Varianza:
La varianza amplifica la dispersión de los datos, al ser el cuadrado de la desviación estándar. Ayuda a entender el grado de variabilidad de los datos en relación con el promedio, pero su interpretación puede ser menos intuitiva al estar en unidades al cuadrado.

## Error Estándar:
Proporciona una estimación de cuán precisamente el promedio de una muestra representa el promedio de la población total. Un error estándar pequeño sugiere que hay menos variabilidad entre las medias muestrales y que la media de la muestra es un buen estimador de la media poblacional.

## Rango:
El rango proporciona una visión rápida de la dispersión total de los datos, mostrando la distancia entre el valor más bajo y el más alto. Sin embargo, al igual que el promedio, es sensible a valores extremos.

## Rango Intercuartílico (IQR):
El IQR mide la dispersión de la mitad central de un conjunto de datos y es menos sensible a valores extremos. Al centrarse en la mitad central, el IQR ignora los posibles valores atípicos y ofrece una visión de la variabilidad dentro del "núcleo" del conjunto de datos.

## Coeficiente de Variación:
Este coeficiente es una medida estandarizada de la dispersión relativa de los datos. Es útil para comparar la variabilidad entre conjuntos de datos con diferentes unidades o promedios, ya que proporciona un contexto para la desviación estándar en relación con el tamaño del promedio.

In [4]:
import pandas as pd
from scipy import stats

# Cargar el archivo Excel proporcionado
df = pd.read_excel('HIV_Data.xlsx')

# Seleccionar solo las columnas cuantitativas
df_cuanti = df.select_dtypes(include=['int64', 'float64'])

# Calcular las métricas estadísticas para cada variable cuantitativa
resumen_estadistico = pd.DataFrame()

for columna in df_cuanti.columns:
    datos = df_cuanti[columna]
    resumen_estadistico[columna] = [
        datos.mean(),     # Promedio
        datos.median(),   # Mediana
        datos.mode()[0],  # Moda
        datos.std(),      # Desviación estándar
        datos.var(),      # Varianza
        datos.sem(),      # Error estándar
        datos.max() - datos.min(),  # Rango
        stats.iqr(datos),  # Rango intercuartílico
        datos.std() / datos.mean()  # Coeficiente de variación
    ]

resumen_estadistico.index = [
    'Promedio', 'Mediana', 'Moda', 'Desviación Estándar', 'Varianza',
    'Error Estándar', 'Rango', 'Rango Intercuartílico', 'Coeficiente de Variación'
]

round(resumen_estadistico,0)


Unnamed: 0,Edad,CD4,Carga_Viral
Promedio,42.0,683.0,447360.0
Mediana,41.0,649.0,400130.0
Moda,18.0,583.0,2913.0
Desviación Estándar,16.0,298.0,282527.0
Varianza,241.0,88655.0,79821760000.0
Error Estándar,2.0,30.0,28253.0
Rango,51.0,988.0,986148.0
Rango Intercuartílico,26.0,548.0,467573.0
Coeficiente de Variación,0.0,0.0,1.0


In [6]:
round(df.describe(),2)

Unnamed: 0,Edad,CD4,Carga_Viral
count,100.0,100.0,100.0
mean,41.57,683.49,447360.44
std,15.54,297.75,282527.45
min,18.0,211.0,2913.0
25%,29.0,421.75,204813.25
50%,41.0,649.0,400130.0
75%,55.25,970.0,672386.0
max,69.0,1199.0,989061.0


# Explicación del código

## Importar de Bibliotecas:
>```python
> import pandas as pd
> from scipy import stats

Aquí, importamos dos bibliotecas: pandas y stats de scipy. Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. stats de scipy es una biblioteca que contiene un gran número de funciones estadísticas.

## Cargar Datos desde un Archivo Excel:

>```python
>df = pd.read_excel('HIV_Data.xlsx')

Con este comando, utilizamos la función read_excel de pandas para leer un archivo Excel (en este caso, 'HIV_Data.xlsx') y cargarlo en un DataFrame llamado df. Un DataFrame es una estructura de datos bidimensional, similar a una tabla de Excel, muy utilizada en pandas.

## Selección de Columnas Cuantitativas:
>```python
> df_cuanti = df.select_dtypes(include=['int64', 'float64'])

Esta línea selecciona solo las columnas cuantitativas del DataFrame df. select_dtypes es un método de pandas que permite filtrar columnas basadas en sus tipos de datos. Aquí, estamos incluyendo tipos de datos int64 y float64, que son números enteros y de punto flotante, respectivamente.

## Inicialización del DataFrame para el Resumen Estadístico:
>```python
> resumen_estadistico = pd.DataFrame()

Creamos un nuevo DataFrame vacío llamado resumen_estadistico. Este DataFrame se utilizará para almacenar los resultados de nuestro análisis estadístico.

## Cálculo de Métricas Estadísticas:

> ```python
> for columna in df_cuanti.columns:
>     datos = df_cuanti[columna]
>     resumen_estadistico[columna] = [
>     'Frecuencia Absoluta Acumulada': frecuencias_acumuladas,
>     'Frecuencia Relativa Acumulada': frecuencias_relativas_acumuladas
> })
> ```

> ```python
> for columna in df_cuanti.columns:
>     datos = df_cuanti[columna]
>     resumen_estadistico[columna] = [
>         datos.mean(),     # Promedio
>         datos.median(),   # Mediana
>         datos.mode()[0],  # Moda
>         datos.std(),      # Desviación estándar
>         datos.var(),      # Varianza
>         datos.sem(),      # Error estándar
>         datos.max() - datos.min(),  # Rango
>         stats.iqr(datos),  # Rango intercuartílico
>         datos.std() / datos.mean()  # Coeficiente de variación
>     ]
> ```

En este bucle, recorremos todas las columnas cuantitativas y calculamos varias métricas estadísticas para cada una. Utilizamos funciones de pandas como **mean, median, mode, std, var, y sem** para calcular el promedio, la mediana, la moda, la desviación estándar, la varianza y el error estándar, respectivamente. También calculamos el rango, el rango intercuartílico (usando stats.iqr de scipy) y el coeficiente de variación. Estos resultados se almacenan en el DataFrame resumen_estadistico.

## Establecimiento de los Índices del DataFrame:

> ```python
> resumen_estadistico.index = [
>    'Promedio', 'Mediana', 'Moda', 'Desviación Estándar', 'Varianza',
>    'Error Estándar', 'Rango', 'Rango Intercuartílico', 'Coeficiente de Variación'
>     ]
> ```

Aquí, asignamos nombres a las filas del DataFrame resumen_estadistico para cada una de las métricas estadísticas calculadas, facilitando su interpretación.

## Visualización del Resumen Estadístico:
Finalmente, el DataFrame **resumen_estadistico** contiene el resumen de las métricas estadísticas para cada variable cuantitativa, organizado de manera clara y estructurada para su análisis e interpretación.