#  Estructuras y formato de los datos
## Sistemas Inteligentes

### Autores
- JOSE LUIS MEZQUITA JIMENEZ
- JESUS PEREZ DE MIGUEL

## Ejercicio 1
Análisis de datos sobre un dataset obtenido de un repositorio de UCI Machine Learning sobre enfermedades de corazón, "Heart Disease Dataset".

**a - Carga de datos y presentación de los mismos en formato Dataframe, donde el nombre de las columnas corresponde con el nombre real de las variables.**

In [92]:
# 1.1- Instalación la librería ucimlrepo. Use de "quiet" (-q) para suprimir mensajes de pip
!pip3 install -U ucimlrepo -q

# 1.2 - Carga el dataset del repo
from ucimlrepo import fetch_ucirepo 
heart_disease = fetch_ucirepo(id=45) 

In [189]:
# 2.1 - Creación de Pandas Dataframe asegurando que las columnas tengan los nombres reales de las variables.
import pandas as pd
df = pd.DataFrame(heart_disease.data.original, columns=heart_disease.data.headers)

# 2.2 Muestra las primeras filas para verificar que todo está bien.
df.head()


Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63,1,1,145,233,1,2,150,0,2.3,3,0.0,6.0,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3.0,3.0,2
2,67,1,4,120,229,0,2,129,1,2.6,2,2.0,7.0,1
3,37,1,3,130,250,0,0,187,0,3.5,3,0.0,3.0,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0.0,3.0,0


**b - Análisis del DataFrame. Tipos de variables numéricas: discretas o continuas.**

In [190]:
# 1.1 - Analisis del tipo de los datos.
df.dtypes

age           int64
sex           int64
cp            int64
trestbps      int64
chol          int64
fbs           int64
restecg       int64
thalach       int64
exang         int64
oldpeak     float64
slope         int64
ca          float64
thal        float64
num           int64
dtype: object

In [191]:
# 1.2 - Listado de variables numéricas
numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns
print("Variables numéricas:", list(numerical_columns))


Variables numéricas: ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'num']


In [192]:
# 2.1 - Determinación de variabled discretas
for col in numerical_columns:
    unique_values = df[col].nunique()
    print(f"{col}: {unique_values} valores únicos")


age: 41 valores únicos
sex: 2 valores únicos
cp: 4 valores únicos
trestbps: 50 valores únicos
chol: 152 valores únicos
fbs: 2 valores únicos
restecg: 3 valores únicos
thalach: 91 valores únicos
exang: 2 valores únicos
oldpeak: 40 valores únicos
slope: 3 valores únicos
ca: 4 valores únicos
thal: 3 valores únicos
num: 5 valores únicos


In [193]:
# 2.1.1 - Consideramos discretas las variables con menos de 10 valores únicos
discrete_vars = [col for col in numerical_columns if df[col].nunique() < 10]
print("Variables discretas:", discrete_vars)

Variables discretas: ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal', 'num']


In [194]:
# 2.1.2 - Consideramos continuas las variables no discretas
continuous_vars = [col for col in numerical_columns if col not in discrete_vars]
print("Variables continuas:", continuous_vars)

Variables continuas: ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']


**c - Análisis del DataFrame. Tipos de variables categóricas: ordinales o nominales.**

In [195]:
# 1.1 Entendemos que las variable numéricas discretas son varibles categóricas
print("Variables categóricas:", discrete_vars)

Variables categóricas: ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal', 'num']


In [196]:
# 2.1 Siguiendo el significado de las variables se pueden clasificar de la siguiente manera:
nominal_vars = ["sex","cp","fbs", "exang", "slope"]
ordinal_vars = [col for col in discrete_vars if col not in nominal_vars]

print("Variables categóricas nominales:", nominal_vars)
print("Variables categóricas ordinales:", ordinal_vars)

Variables categóricas nominales: ['sex', 'cp', 'fbs', 'exang', 'slope']
Variables categóricas ordinales: ['restecg', 'ca', 'thal', 'num']


**d - ¿Hay valores faltantes (missing values) en el dataset?¿Qué símbolo se
utiliza para marcarlos? ¿Se utiliza más de un tipo de símbolo?**

In [197]:
# Existen valores faltantes tal y como define la información en la base de datos.
# El simbolo es "NaN" y solo se usa ese.

missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]
print("Valores faltantes por columna:\n", missing_values)

Valores faltantes por columna:
 ca      4
thal    2
dtype: int64


**e - Lista de valores posibles que puede tomar la variable “thal”. ¿Se pueden ordenar estos valores en una
escala de mayor a menor? ¿Podríamos considerarlos valores categóricos ordinales?**


In [198]:
valores_thal = df["thal"].unique()
print(valores_thal);

[ 6.  3.  7. nan]


Según "https://rpubs.com/albvsant/proyecto_1Parcial_par6":

thal: El estado del corazón según la prueba de Thallium (Categórica con 3 niveles)
N = normal;
DF = defecto fijo
DR = defecto reversible

Estos valores tienen un orden inherente porque indican diferentes niveles de anormalidad en los resultados de una prueba de talio. Se pueden ordenar de menor a mayor gravedad.

Por lo tanto "thal" tendría valores categóricos ordinales ya que presentan un orden jerárquico.

## Ejercicio 2
**a - Importar dataset y presentarlo en formato DataFrame, donde el nombre de las columnas
debe corresponder con el nombre real de las variables. Señala qué
variables del DataFrame presentan valores faltantes (missing values).**

In [237]:
# 1.2 - Carga el dataset del repo
census_income = fetch_ucirepo(id=20) 

# 1.2 - Creación de Pandas Dataframe asegurando que las columnas tengan los nombres reales de las variables.
df = pd.DataFrame(census_income.data.original, columns=census_income.data.headers)

print(df.head())

   age         workclass  fnlwgt  education  education-num  \
0   39         State-gov   77516  Bachelors             13   
1   50  Self-emp-not-inc   83311  Bachelors             13   
2   38           Private  215646    HS-grad              9   
3   53           Private  234721       11th              7   
4   28           Private  338409  Bachelors             13   

       marital-status         occupation   relationship   race     sex  \
0       Never-married       Adm-clerical  Not-in-family  White    Male   
1  Married-civ-spouse    Exec-managerial        Husband  White    Male   
2            Divorced  Handlers-cleaners  Not-in-family  White    Male   
3  Married-civ-spouse  Handlers-cleaners        Husband  Black    Male   
4  Married-civ-spouse     Prof-specialty           Wife  Black  Female   

   capital-gain  capital-loss  hours-per-week native-country income  
0          2174             0              40  United-States  <=50K  
1             0             0             

In [200]:

# 1.3 - Variables con valores faltantes
missing_values = df.isnull().sum()
print("Valores faltantes por columna:")
print(missing_values[missing_values > 0])

Valores faltantes por columna:
workclass         963
occupation        966
native-country    274
dtype: int64


**b - Análisis del DataFrame. Tipos de variables numéricas y categóricas: discretas, continuas, ordinales o nominales**

In [201]:
# 1.1 - Listado de variables numéricas
numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns
print("Variables numéricas:", list(numerical_columns))


Variables numéricas: ['age', 'fnlwgt', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']


In [202]:
# 1.2 - Determinación de variabled discretas
for col in numerical_columns:
    unique_values = df[col].nunique()
    print(f"{col}: {unique_values} valores únicos")

age: 74 valores únicos
fnlwgt: 28523 valores únicos
education-num: 16 valores únicos
capital-gain: 123 valores únicos
capital-loss: 99 valores únicos
hours-per-week: 96 valores únicos


In [203]:
# 1.2.1 - Consideramos discretas las variables con menos de 20 valores únicos no nulos
discrete_vars = [col for col in numerical_columns if df[col].nunique() < 20]
print("Variables numéricas discretas:", discrete_vars)

Variables numéricas discretas: ['education-num']


In [204]:
# 1.2.2 - Consideramos continuas las variables no discretas
continuous_vars = [col for col in numerical_columns if col not in discrete_vars]
print("Variables numéricas continuas:", continuous_vars)

Variables numéricas continuas: ['age', 'fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week']


In [205]:
# 2.1 - Variables categóricas, serán las no numéricas y las numéricas discretas obtenidas anteriormente.
categorical_columns = df.select_dtypes(include=['object']).columns
categorical_vars = [col for col in categorical_columns] + discrete_vars

print("Variables categóricas:", categorical_vars)

Variables categóricas: ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country', 'income', 'education-num']


In [206]:
# 2.2 - Siguiendo el significado de las variables se pueden clasificar de la siguiente manera:
categorical_nominal_vars = ["workclass","marital-status","occupation", "relationship", "race", "sex", "native-country"]
categorical_ordinal_vars = [col for col in categorical_vars if col not in categorical_nominal_vars]

print("Variables categóricas nominales:", categorical_nominal_vars)
print("Variables categóricas ordinales:", categorical_ordinal_vars)

Variables categóricas nominales: ['workclass', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']
Variables categóricas ordinales: ['education', 'income', 'education-num']


**c - Registros repetidos en el dataset. ¿Cuántos elementos hay en el DataFrame original? ¿Cuántos
elementos repetidos hay? ¿Cuántos elementos únicos?**

In [207]:
# 1 - Detección de registros repetidos y cálculo de registros únicos (el resto)
num_samples = df.shape[0]
num_duplicated = df.duplicated().sum()
num_unique = num_samples - num_duplicated

print(f"Registros duplicados: {num_duplicated}")
print(f"Registros únicos: {num_unique}")
print(f"Registros totales: {num_samples}")

Registros duplicados: 29
Registros únicos: 48813
Registros totales: 48842


**d - Crear un DataFrame llamado en el que estén los elementos repetidos del DataFrame original. ¿Cuántos de
ellos tienen un país de origen indeterminado? ¿Cuál es la proporción entre mujeres y hombres? ¿Cuántos cobran más de 50 mil dólares?**

In [208]:
# 1 - Filtrado de Dataframe original marcando todas las filas duplicadas como True.
df_dup = df[df.duplicated(keep=False)]
print(f"Registros duplicados: {df_dup.shape[0]}")

Registros duplicados: 57


In [209]:
# 2 - Filtramos los registros con país de origen ("native-country") indeterminado (NaN, "?" o vacío)

# Lista de todos los diferentes valores para ver qué posibles valores indeterminados pueden haber.
#df_dup['native-country'].unique().tolist()

undefined_country = df_dup['native-country'].isna().sum() + (df_dup['native-country'] == "?").sum() + (df_dup['native-country'] == "").sum()
print(f"Registros con país de origen indeterminado: {undefined_country}")

Total con país de origen indeterminado: 2


In [210]:
# 3 - Usando el método value_counts normalizando a porcentaje se puede obtener la proporción entre hombres (Male) y mujeres (Female)
sex_rates = df_dup['sex'].value_counts(normalize=True) * 100
print(f"Proporción entre hombres y mujeres (%): {sex_rates}")

Proporción entre hombres y mujeres (%): sex
Male      66.666667
Female    33.333333
Name: proportion, dtype: float64


In [211]:
# 4 - Filtrado del DataFrame por el valor de salario (income)
num_high_income = df_dup[df_dup['income'] == ">50K"].shape[0]
print(f"Registros con salarios mayores a 50.000: {num_high_income}")

Registros con salarios mayores a 50.000: 4


**e -  Crear un DataFrame llamado en el que estén los elementos únicos del DataFrame original. ¿Cuántos tienen un país de origen indeterminado? ¿Cuántos tienen un tipo de trabajo indeterminado? ¿Cuántos tienen ambas variables indeterminadas a la
vez? De entre quienes tienen un país de origen y un tipo de trabajo ambos indeterminados, ¿cuál es la proporción entre hombres y mujeres? ¿Qué porcentaje de ellos cobra menos de 50 mil dólares?**


In [225]:
# 1 - Creación de un Dataframe a partir del original que excluya los registros duplicados
df_uni = df.drop_duplicates(keep=False)

# 2 - Filtramos los registros con país de origen ("native-country") indeterminado (NaN, "?" o vacío)

# Lista de todos los diferentes valores para ver qué posibles valores indeterminados pueden haber.
#df_uni['native-country'].unique().tolist()

undefined_country = df_uni['native-country'].isna().sum() + (df_uni['native-country'] == "?").sum() + (df_uni['native-country'] == "").sum()
print(f"Registros con país de origen indeterminado: {undefined_country}")

Registros con país de origen indeterminado: 855


In [224]:
# 3 - Filtramos los registros con país de origen ("occupation") indeterminado (NaN, "?" o vacío)

# Lista de todos los diferentes valores para ver qué posibles valores indeterminados pueden haber.
#df_uni['occupation'].unique().tolist()

undefined_occupation = df_uni['occupation'].isna().sum() + (df_uni['occupation'] == "?").sum() + (df_uni['occupation'] == "").sum()
print(f"Registros con trabajo indeterminado: {undefined_occupation}")

Registros con trabajo indeterminado: 2809


In [228]:
# 4 - Contamos los campos de un dataframe creado a partir de filtrar aunando ambas condiciones

df_uco = df_uni[
    (df_uni["native-country"].isna() | (df_uni["native-country"] == "Desconocido") | (df_uni["native-country"] == "")) &
    (df_uni["occupation"].isna() | (df_uni["occupation"] == "Desconocido") | (df_uni["occupation"] == ""))
]

print(f"Registros con país de origen y trabajo indeterminado: {df_uco.shape[0]}")

Registros con país de origen y trabajo indeterminado: 19


In [229]:
# 4.1 - Sacamos la proporción de hombres y mujeres (sex)
sex_rates = df_uco['sex'].value_counts(normalize=True) * 100
print(f"Proporción entre hombres y mujeres (%): {sex_rates}")

Proporción entre hombres y mujeres (%): sex
Male      52.631579
Female    47.368421
Name: proportion, dtype: float64


In [231]:
# 4.2 - Filtrado del DataFrame por el valor de salario (income)
num_low_income = df_dup[df_dup['income'] == "<=50K"].shape[0]
print(f"Registros con salarios menores de 50.000: {num_low_income}")

Registros con salarios menores de 50.000: 43


**f - Significado de la variable “fnlwgt”. ¿Qué representa? ¿Tiene sentido, desde un punto de vista de Machine Learning, eliminar los registros duplicados en este dataset?**

Fuente: https://cdeiuk.github.io/bias-mitigation/finance/
**fnlwgt:** Estimación del número de individuos en la población con la misma demografía del sujeto.

No tiene sentido eliminar duplicados aunque los registros tuvieran idénticos campos, ya que podría distorsionar la representatividad del análisis.


**g - ¿Qué dificultades has encontrado a la hora de trabajar con los valores
de las variables de este dataset? ¿Sería apropiado buscar una manera
automática, usando métodos de Python, de eliminar esa dificultad o
dificultades? ¿Se te ocurre cómo hacerlo?.**

- **Dificultades encontradas:** 
Lo más difícil ha sido comprender el significado de cada variable y clasificarlas correctamente (la mayor dificultad era la clasificación de las variables categóricas en ordinales y nominales). Algunas variables categóricas que parecen ordinales pero en realidad son nominales, ya que pueden generar confusión al no tener una escala clara.

- **¿Sería apropiado automatizar la solución con Python?** 
Sí, sería útil automatizar la clasificación de variables para evitar confusiones y agilizar el análisis.

- **¿Cómo hacerlo?** 
Podríamos usar pandas para detectar automáticamente el tipo de cada variable, contar valores únicos y aplicar reglas para clasificar si son numéricas o categóricas (ordinales o nominales).

## Ejercicio 3
**a - Variables numéricas y categóricas: continuas, discretas, ordinales o nominales.**

In [243]:
# 1.2 - Carga el dataset del repo y crea un Dataframe
df = pd.read_csv("https://datos.madrid.es/egob/catalogo/300110-18-accidentes-bicicleta.csv", sep=";")

print(df.head())

  num_expediente       fecha      hora  \
0    2019S000036  02/01/2019  20:45:00   
1    2019S000045  03/01/2019  10:30:00   
2    2019S000132  03/01/2019  12:45:00   
3    2019S000132  03/01/2019  12:45:00   
4    2019S000133  03/01/2019  14:30:00   

                                      localizacion numero  cod_distrito  \
0  AVDA. GRAN VIA DE HORTALEZA / GTA. LUIS ROSALES    65B            16   
1                      CTRA. DEHESA DE LA VILLA, 1      1             9   
2      AVDA. SANTA EUGENIA / CALL. REAL DE ARGANDA     64            18   
3      AVDA. SANTA EUGENIA / CALL. REAL DE ARGANDA     64            18   
4                         CALL. FELIPE ALVAREZ, 10     10            18   

            distrito           tipo_accidente estado_meteorológico  \
0          HORTALEZA  Colisión fronto-lateral            Despejado   
1    MONCLOA-ARAVACA                    Caída            Despejado   
2  VILLA DE VALLECAS                  Alcance            Despejado   
3  VILLA DE VALL

In [252]:
# 1.0 Vemos los tipos de variables
print(df.dtypes)

num_expediente           object
fecha                    object
hora                     object
localizacion             object
numero                   object
cod_distrito              int64
distrito                 object
tipo_accidente           object
estado_meteorológico     object
tipo_vehículo            object
tipo_persona             object
rango_edad               object
sexo                     object
cod_lesividad           float64
tipo_lesividad           object
coordenada_x_utm         object
coordenada_y_utm         object
positiva_alcohol         object
positiva_droga          float64
dtype: object


Por el significado de las variables y sobre todo por los valores observados en las mismas, se pueden clasificar como:

**Variables categóricas nominales:** ["num_expediente", "localizacion", "numero", "distrito", "tipo_accidente", "estado_meteorológico", "tipo_vehículo", "tipo_persona", "sexo", "tipo_lesividad", "positiva_alcohol", "positiva_droga]

**Variables categóricas ordinales:** ["rango_edad"]

**Variables numéricas discretas:** ["cod_distrito", "cod_lesividad"]

**Variables numéricas continuas:** ["coordenada_x_utm", "coordenada_y_utm", "fecha", "hora"]



[*]"cod_lesividad": Los valores son números pero el dtype es "object", tendría dudas de si es categórica ordinal o si es numérica discreta.

[**]"tipo_lesividad": Con más contexto se podría entender como categórica ordinal en lugar de nominal, si fuera el caso que las lesiones tienen un orden de nivel de gravedad.


**b - ¿Hay valores faltantes en el dataset? Especifica las variables que
presentan valores faltantes y cuántos de ellos hay en cada variable.**

In [262]:
# Lista de todos los diferentes valores para ver qué posibles valores indeterminados pueden haber.
#for column in df.columns:
#    print(df[column].unique().tolist())

for column in df.columns:
    undefined_values = df[column].isna().sum() + (df[column] == "?").sum() + (df[column] == "Desconocido").sum() + (df[column] == "").sum()
    if undefined_values > 0:
        print(f"Registros de valor indeterminado de {column} : {undefined_values}")

Registros de valor indeterminado de estado_meteorológico : 26
Registros de valor indeterminado de rango_edad : 16
Registros de valor indeterminado de sexo : 15
Registros de valor indeterminado de cod_lesividad : 96
Registros de valor indeterminado de tipo_lesividad : 96
Registros de valor indeterminado de positiva_alcohol : 2
Registros de valor indeterminado de positiva_droga : 887


**c - ¿Cuántos valores distintos toma la variable ‘lesividad’? Especifica esos valores. ¿Qué tipo de variable es la variable ‘lesividad’?**

In [280]:
unique_values = df["tipo_lesividad"].unique()
num_unique_values = df["tipo_lesividad"].nunique()
value_type = df["tipo_lesividad"].dtype

print('Valores únicos de columna "tipo_lesividad":\n')
print(*unique_values, sep='\n')
print(f"\nNúmero de valores diferentes: {num_unique_values}")
print(f"Tipo de variable categórica nominal")

Valores únicos de columna "tipo_lesividad":

Ingreso superior a 24 horas
Ingreso inferior o igual a 24 horas
Asistencia sanitaria sólo en el lugar del accidente
Sin asistencia sanitaria
Atención en urgencias sin posterior ingreso
nan
Asistencia sanitaria inmediata en centro de salud o mutua
Asistencia sanitaria ambulatoria con posterioridad
Fallecido 24 horas

Número de valores diferentes: 8
Tipo de variable categórica nominal


In [281]:
unique_values = df["cod_lesividad"].unique()
num_unique_values = df["cod_lesividad"].nunique()
value_type = df["cod_lesividad"].dtype

print('Valores únicos de columna "cod_lesividad":\n')
print(*unique_values, sep='\n')
print(f"\nNúmero de valores diferentes: {num_unique_values}")
print(f"Tipo de variable numérica discreta")

Valores únicos de columna "cod_lesividad":

3.0
2.0
7.0
14.0
1.0
nan
6.0
5.0
4.0

Número de valores diferentes: 8
Tipo de variable numérica discreta


**d - Ve al PDF de descripción de los datos, que se encuentra en el mismo
enlace aportado en el enunciado. Busca el significado de los valores de
lesividad. Explica los significados para cada uno de los valores posibles.
¿Qué tipo de variable consideras que puede ser la variable ‘lesividad’?
¿Tu respuesta en este apartado es distinta a tu respuesta del apartado
anterior? ¿Cómo codificarías esta variable a la hora de utilizar este
DataFrame como entrada de un modelo de Machine Learning?**

**LESIVIDAD:**
- 1.0  / Atención en urgencias sin posterior ingreso. - LEVE
- 2.0  / Ingreso inferior o igual a 24 horas - LEVE
- 3.0  / Ingreso superior a 24 horas. - GRAVE
- 4.0  / Fallecido 24 horas - FALLECIDO
- 5.0  / Asistencia sanitaria ambulatoria con posterioridad - LEVE
- 6.0  / Asistencia sanitaria inmediata en centro de salud o mutua - LEVE
- 7.0  / Asistencia sanitaria sólo en el lugar del accidente - LEVE
- 14.0 / Sin asistencia sanitaria
- nan  / Se desconoce

Ahora que se tiene un mejor contexto o conocimiento de las definiciones y significados de los valores de esta variable se puede afirmar que "lesividad" es una variable de tipo categórica ordinal, aunque en el dataset se encuentra separada en dos columnas.
Aunque se podría entender como nominal, los valores llevan asociado un "nivel" de gravedad lo que puede indicar un orden en la categoría.


Estas dos variables "cod_lesividad" y "tipo_lesividad" la expresaria en una nueva columna en el Dataframe que contenga un valor numérico de 0 a 4 correspondiendo a:
- 0: (nan / Se desconoce)
- 1: NULO (14.0 / Sin asistencia)
- 2: LEVE (1.0, 2.0, 5.0, 6.0, 7.0)
- 3: GRAVE (3.0)
- 4: FALLECIDO (4.0)

**e - Sin tener en cuenta los valores faltantes, ¿qué proporción de los accidentes registrados presentaban un test de alcohol positivo?**

In [285]:
# 1 - Lista de todos los diferentes valores de "positiva_alcohol".
df['positiva_alcohol'].unique().tolist()

['N', 'S', nan]

In [286]:
# 2 - Nuevo Dataframe filtrando los registros con valores de test de alcohol faltantes
df_notna = df[df["positiva_alcohol"].notna()]

# 3 - Obtener porcentajes de registros con tests de alcohol con valores "N" y "S"
alcohol_rates = df_notna["positiva_alcohol"].value_counts(normalize=True) * 100
print(f"Proporción de accidentes con test de alcohol positivos y negativos (%): {alcohol_rates}")

Proporción de accidentes con test de alcohol positivos y negativos (%): positiva_alcohol
N    98.762655
S     1.237345
Name: proportion, dtype: float64


Según los datos calculados el **porcentage de accidentes registrados que presentan un test de alcohol positivo es del 1.24%**