<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-3/07_Measures.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Medidas de tendencia central y dispersión**

Las medidas de tendencia central y dispersión son esenciales en el análisis estadístico de datos. Permiten resumir un conjunto de datos y comprender sus características principales, tales como la ubicación central de los datos y su variabilidad.

####**Medidas de Tendencia Central**

1. **Media (Promedio)**
- **Fórmula:** Media = (Suma de todos los valores) / (Número de valores)
- **Ejemplo:**
     ```python
     import numpy as np
     datos = [10, 15, 20, 25, 30]
     media = np.mean(datos)
     print("Media:", media)
     ```
- **Interpretación:** La media representa el valor promedio de un conjunto de datos. Es útil cuando los datos no tienen valores atípicos extremos, ya que puede ser influenciada por estos.
- **Consideración:** La media es sensible a valores atípicos (outliers), que pueden distorsionar el promedio.

2. **Mediana**
- **Fórmula:** Si el número de observaciones es impar, la mediana es el valor central. Si es par, es el promedio de los dos valores centrales.
- **Ejemplo:**
     ```python
     mediana = np.median(datos)
     print("Mediana:", mediana)
     ```
- **Interpretación:** La mediana es el valor que divide al conjunto de datos en dos partes iguales. Es útil en distribuciones asimétricas o cuando hay valores atípicos, ya que no se ve afectada por ellos.
- **Consideración:** La mediana proporciona una medida más robusta de tendencia central en presencia de valores atípicos.

3. **Moda**
- **Fórmula:** La moda es el valor que más se repite en un conjunto de datos.
- **Ejemplo:**
     ```python
     from scipy import stats
     moda = stats.mode(datos)
     print("Moda:", moda.mode[0])
     ```
- **Interpretación:** La moda es el valor más frecuente en un conjunto de datos. Es útil para datos categóricos o cuando se desea identificar el valor más común.
- **Consideración:** Un conjunto de datos puede ser unimodal (una moda), bimodal (dos modas) o multimodal (más de dos modas).

#### Medidas de Dispersión

1. **Rango**
- **Fórmula:** Rango = Valor máximo - Valor mínimo
- **Ejemplo:**
     ```python
     rango = np.ptp(datos)
     print("Rango:", rango)
     ```
- **Interpretación:** El rango indica la amplitud de los datos, es decir, la diferencia entre el valor más alto y el más bajo. Es útil para obtener una idea rápida de la dispersión de los datos.
- **Consideración:** El rango solo considera los valores extremos y no proporciona información sobre la dispersión interna de los datos.

2. **Varianza**
- **Fórmula:** Varianza = Suma de las diferencias al cuadrado de cada valor respecto a la media / Número de valores
- **Ejemplo:**
     ```python
     varianza = np.var(datos)
     print("Varianza:", varianza)
     ```
- **Interpretación:** La varianza mide la dispersión de los datos respecto a la media. Un valor alto de varianza indica que los datos están muy dispersos.
- **Consideración:** La varianza está en unidades al cuadrado de los datos originales, lo que puede dificultar su interpretación directa.

3. **Desviación Estándar**
- **Fórmula:** Desviación Estándar = Raíz cuadrada de la varianza
- **Ejemplo:**
     ```python
     desviacion_estandar = np.std(datos)
     print("Desviación Estándar:", desviacion_estandar)
     ```
- **Interpretación:** La desviación estándar es la raíz cuadrada de la varianza y proporciona una medida de dispersión en las mismas unidades que los datos originales. Es útil para comparar la dispersión entre diferentes conjuntos de datos.
- **Consideración:** La desviación estándar es sensible a valores atípicos, al igual que la varianza.

4. **Coeficiente de Variación**
- **Fórmula:** Coeficiente de Variación = (Desviación Estándar / Media) x 100
- **Ejemplo:**
     ```python
     coeficiente_variacion = (desviacion_estandar / media) * 100
     print("Coeficiente de Variación:", coeficiente_variacion)
     ```
- **Interpretación:** El coeficiente de variación es una medida relativa de dispersión que se expresa como un porcentaje de la media. Es útil para comparar la variabilidad entre conjuntos de datos con diferentes unidades o medias.
- **Consideración:** El coeficiente de variación es útil cuando se comparan datasets con diferentes unidades o escalas, ya que proporciona una medida de dispersión normalizada.

###**Ejemplo**

Consideremos un conjunto de datos de transacciones bancarias:

```python
import pandas as pd
import numpy as np

# Generar datos ficticios
datos = {
    'Monto': [150, 200, 300, 400, 500, 600, 700, 800, 1000, 1200]
}

df = pd.DataFrame(datos)

# Calcular medidas de tendencia central
media = df['Monto'].mean()
mediana = df['Monto'].median()
moda = df['Monto'].mode()[0]

# Calcular medidas de dispersión
rango = df['Monto'].max() - df['Monto'].min()
varianza = df['Monto'].var()
desviacion_estandar = df['Monto'].std()
coeficiente_variacion = (desviacion_estandar / media) * 100

print("Medidas de Tendencia Central:")
print("Media:", media)
print("Mediana:", mediana)
print("Moda:", moda)

print("\nMedidas de Dispersión:")
print("Rango:", rango)
print("Varianza:", varianza)
print("Desviación Estándar:", desviacion_estandar)
print("Coeficiente de Variación:", coeficiente_variacion)
```

###**Consideraciones:**

- **Valores Atípicos:** Pueden distorsionar la media y la desviación estándar, por lo que es importante analizarlos por separado.
- **Distribución de Datos:** La mediana es más representativa en distribuciones asimétricas.
- **Comparación de Variabilidad:** El coeficiente de variación es útil cuando se comparan datasets con diferentes unidades o escalas.

##**Ejercicios**

###**Ejercicio 1: Media, Mediana y Moda**
**Objetivo:** Dado el archivo .csv con datos financieros de empresas, calcular la media, mediana y moda de la columna ROA(C) before interest and depreciation before interest.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
from scipy import stats

url = 'https://drive.google.com/uc?id=13V1yuYcvuXfXGYL4lJHlPXNgI3MZDjVe'

try:
    # Leer el archivo CSV
    data = pd.read_csv(url, sep=',', on_bad_lines='warn')
    # Imprimir las primeras filas para verificar el contenido
    print(data.head())
    # Imprimir los nombres de las columnas para verificar la existencia de la columna deseada
    print("Column names:", data.columns)
except pd.errors.ParserError as e:
    print(f"Error reading CSV: {e}")
    data = None

# Verificar si el DataFrame se cargó correctamente
if data is not None:
    # Usa el nombre de columna exacto que encontraste
    column_name = 'ROA(C) before interest and depreciation before interest'  # Ajusta este nombre según el archivo

    if column_name in data.columns:
        # Calcular la media, mediana y moda
        mean_roa_c = data[column_name].mean()
        median_roa_c = data[column_name].median()
        mode_roa_c = data[column_name].mode()

        # Imprimir los resultados
        print("Media:", mean_roa_c)
        print("Mediana:", median_roa_c)
        print("Moda:", mode_roa_c[0])  # mode() devuelve una Serie, se toma el primer valor
    else:
        print(f"Columna '{column_name}' no encontrada en el CSV.")
else:
    print("No se pudo cargar el DataFrame.")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
   Bankrupt?   ROA(C) before interest and depreciation before interest  \
0          1                                           0.370594          
1          1                                           0.464291          
2          1                                           0.426071          
3          1                                           0.399844          
4          1                                           0.465022          

    ROA(A) before interest and % after tax  \
0                                 0.424389   
1                                 0.538214   
2                                 0.499019   
3                                 0.451265   
4                                 0.538432   

    ROA(B) before interest and depreciation after tax  \
0                                           0.405750    
1                                  

###**Ejercicio 2: Rango**
**Objetivo:** Calcular el rango de la columna Operating Gross Margin.

In [None]:
range_operating_gross_margin = data[' Operating Gross Margin'].max() - data[' Operating Gross Margin'].min()
print("Rango:", range_operating_gross_margin)

Rango: 1.0


###**Ejercicio 3: Varianza y Desviación Estándar**
**Objetivo:** Calcular la varianza y la desviación estándar de la columna After-tax net Interest Rate.

In [None]:
variance_after_tax_net_interest = data[' After-tax net Interest Rate'].var()
std_dev_after_tax_net_interest = data[' After-tax net Interest Rate'].std()

variance_after_tax_net_interest, std_dev_after_tax_net_interest

(0.00018497778773569825, 0.013600653945149043)

###**Ejercicio 4: Coeficiente de Variación**
**Objetivo:** Calcular el coeficiente de variación de la columna Operating Profit Rate.

In [None]:
mean_operating_profit_rate = data[' Operating Profit Rate'].mean()
std_dev_operating_profit_rate = data[' Operating Profit Rate'].std()
cv_operating_profit_rate = (std_dev_operating_profit_rate / mean_operating_profit_rate) * 100

cv_operating_profit_rate

1.3026241098527866

###**Ejercicio 5: Percentiles**
**Objetivo:** Calcular el percentil 25, 50 (mediana) y 75 de la columna Net Value Per Share (A).

###**Ejercicio 6: Sesgo**
**Objetivo:** Calcular el sesgo de la columna Revenue Per Share (Yuan Â¥).

###**Ejercicio 7: Curtosis**
**Objetivo:** Calcular la curtosis de la columna Total Asset Growth Rate.

###**Ejercicio 8: Intervalo Intercuartílico (IQR)**
**Objetivo:** Calcular el intervalo intercuartílico (IQR) de la columna Cash Flow Per Share.

###**Ejercicio 9: Box Plot y Outliers**
**Objetivo:** Crear un box plot para la columna Operating Profit Growth Rate y determinar los outliers.