# Statements

Esta tabla contiene la información de las sentencias.

## 1 - Obtencion de datos

In [1]:
import matplotlib.pyplot as plt
from notebooks_utils import *
from domains import *

full_table = get_data('statements')

# Table name, features and target.
TABLE_NAME = 'statements'
TABLE_FEATURES = ['statement__category', 'statement__parent', 'statement__statement_role', 'statement__first_child_category','statement__second_child_category','statement__third_child_category', 'statement__height', 'statement__depth', 'statement__has_or_else', 'statement__body_size', 'statement__expertise_level']
TABLE_TARGET = 'statement__expertise_level'

# Load features and target.
X, y = full_table[TABLE_FEATURES], full_table[[TABLE_TARGET]].iloc[:,0]

# Print information about the loaded table.
print(f'Features shape: {X.shape}')
print(f'Target shape: {y.shape}')

print(f'As we can see the downloaded data contains a total of {X.shape[0]} instances. For each instance we have {X.shape[1]} attributes.')

2024-07-05 17:24:53.108130 Data cache files found ...
2024-07-05 17:24:54.780444 Data cache files successfully loaded!!
Features shape: (1074760, 11)
Target shape: (1074760,)
As we can see the downloaded data contains a total of 1074760 instances. For each instance we have 11 attributes.


## 2 - Exploracion de datos

Una vez tenemos nuestra tabla en un dataframe el siguiente paso es explorarla para ver qué tipo de información contiene.

In [2]:
print(X.info())
print('=============')
print(y.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1074760 entries, 0 to 1074759
Data columns (total 11 columns):
 #   Column                            Non-Null Count    Dtype  
---  ------                            --------------    -----  
 0   statement__category               1074760 non-null  object 
 1   statement__parent                 1074760 non-null  object 
 2   statement__statement_role         1074760 non-null  object 
 3   statement__first_child_category   931613 non-null   object 
 4   statement__second_child_category  574192 non-null   object 
 5   statement__third_child_category   11194 non-null    object 
 6   statement__height                 1074760 non-null  int64  
 7   statement__depth                  1074760 non-null  int64  
 8   statement__has_or_else            241044 non-null   object 
 9   statement__body_size              255237 non-null   float64
 10  statement__expertise_level        1074760 non-null  object 
dtypes: float64(1), int64(2), object(8)
me

Cómo podemos ver la tabla está compuesta por 3 variables numéricas y 8 de tipo objeto.

### 2.1 - Equilibrado de clases

In [3]:
instances_for_class_low = len(full_table[full_table[TABLE_TARGET] == "BEGINNER"])
instances_for_class_high = len(full_table[full_table[TABLE_TARGET] == "EXPERT"])

print(f"The dataset contains {instances_for_class_low/len(full_table)*100:.4}% instances for BEGINNER class and {instances_for_class_high/len(full_table)*100:.4}% for EXPERT class.")

The dataset contains 42.57% instances for BEGINNER class and 57.43% for EXPERT class.


### 2.2 - Valores Nulos 
Miramos si alguna de las variables que contiene la tabla contiene algún valor que sea nulo.

In [4]:
X.isnull().sum()

statement__category                       0
statement__parent                         0
statement__statement_role                 0
statement__first_child_category      143147
statement__second_child_category     500568
statement__third_child_category     1063566
statement__height                         0
statement__depth                          0
statement__has_or_else               833716
statement__body_size                 819523
statement__expertise_level                0
dtype: int64

### IMPORTANTE
Los nulos se deben a que esas variables solo son aplicables para ciertas categorias

In [5]:
print_empty_cols(X)

statement__category
-------------------
0 instancias no tienen un valor para la columna statement__category


statement__parent
-----------------
0 instancias no tienen un valor para la columna statement__parent


statement__statement_role
-------------------------
0 instancias no tienen un valor para la columna statement__statement_role


statement__first_child_category
-------------------------------
0 instancias no tienen un valor para la columna statement__first_child_category


statement__second_child_category
--------------------------------
0 instancias no tienen un valor para la columna statement__second_child_category


statement__third_child_category
-------------------------------
0 instancias no tienen un valor para la columna statement__third_child_category


statement__height
-----------------
0 instancias no tienen un valor para la columna statement__height


statement__depth
----------------
0 instancias no tienen un valor para la columna statement__depth


statement__h

### 2.3 - Describimos los valores de las variables de la tabla.

In [6]:
np.transpose(X.describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int']))

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
statement__category,1074760.0,22.0,AssignmentStmt,485714.0,,,,,,,
statement__parent,1074760.0,12.0,If,276482.0,,,,,,,
statement__statement_role,1074760.0,20.0,MethodDefBody,260909.0,,,,,,,
statement__first_child_category,931613.0,33.0,Variable,479672.0,,,,,,,
statement__second_child_category,574192.0,35.0,Call,249004.0,,,,,,,
statement__third_child_category,11194.0,29.0,Call,5299.0,,,,,,,
statement__height,1074760.0,,,,3.221554,1.958228,1.0,2.0,3.0,4.0,54.0
statement__depth,1074760.0,,,,2.859124,2.102781,0.0,1.0,3.0,4.0,82.0
statement__has_or_else,241044.0,2.0,False,180804.0,,,,,,,
statement__body_size,255237.0,,,,1.895544,2.294126,1.0,1.0,1.0,2.0,276.0


Vamos a discretizar las variables numericas, agrupando conjuntos de valores en categorias, para hacer un análisis de los datos. Para cada variable es necesaario ver la distribucion de lo valores para hacer los bins (categorias).

In [7]:
# DISCRETIZATION
X_copy = X.copy()

discretized_columns = {
    "statement__depth": [(0.0, 1.0), (1.0, 3.0), (3.0, 4.0), (4.0, inf)],  # min: 0.0 max: 82.0
    "statement__height": [(0.0, 2.0), (2.0, 3.0), (3.0, 4.0), (4.0, inf)],  # min: 1.0 max: 54.0
    "statement__body_size": [(1.0, 2.0), (2.0, inf)],  # min: 1.0 max: 276. Los Unkonwn son los None
}

discretize_columns(X_copy, discretized_columns)
    
# SINGLE FEATURE
print("--- SINGLE FEATURE ---")
print(get_statistics(X_copy, ['statement__depth'], 10))
print(get_statistics(X_copy, ['statement__height'], 10))
print(get_statistics(X_copy, ['statement__body_size'], 10))
print(get_statistics(X_copy, ['statement__category'], 10))
print(get_statistics(X_copy, ['statement__first_child_category'], 10))
print(get_statistics(X_copy, ['statement__second_child_category'], 10))
print(get_statistics(X_copy, ['statement__third_child_category'], 10))
print(get_statistics(X_copy, ['statement__parent'], 10))
print(get_statistics(X_copy, ['statement__statement_role'], 10))
print(get_statistics(X_copy, ['statement__has_or_else'], 10))


# 2 FEATURES
print("--- TWO FEATURES ---")
#print(get_statistics(X_copy, ['module__function_defs_pct', 'module__number_of_classes'], 10))

# 3 FEATURES
print("--- THREE FEATURES ---")
#print(get_statistics(X_copy, ['module__class_defs_pct', 'module__function_defs_pct', 'module__enum_defs_pct'], 10))

--- SINGLE FEATURE ---
statement__depth  count  percentage
       [1.0_3.0) 366666   34.116082
       [4.0_inf] 341824   31.804682
       [3.0_4.0) 238879   22.226264
       [0.0_1.0) 127391   11.852972

statement__height  count  percentage
        [3.0_4.0) 362373   33.716644
        [4.0_inf] 350290   32.592393
        [2.0_3.0) 215674   20.067178
        [0.0_2.0) 146423   13.623786

statement__body_size  count  percentage
             unknown 819523   76.251721
           [1.0_2.0) 158525   14.749805
           [2.0_inf]  96712    8.998474

statement__category  count  percentage
     AssignmentStmt 485714   45.192787
                 If 172162   16.018646
             Return 116172   10.809111
         ImportFrom  68903    6.411013
                For  43867    4.081562
             Assert  36653    3.410343
             Import  36263    3.374056
              Raise  23623    2.197979
AugmentedAssignment  20160    1.875768
                Try  15756    1.466002

statement__first_ch

In [8]:
def normalize_datatypes(X:pd.DataFrame, y:pd.Series) -> (pd.DataFrame, pd.Series, [str]):
    X = pd.get_dummies(X)
    X = X.astype('float32')
    y = y.apply(lambda value: 0 if value == "BEGINNER" else 1) # EXPERT will be 1 and BEGINNER will be 0.
    y = y.astype('float32')
    columns_names = X.columns.tolist()
    return X, y, columns_names

X, y, TABLE_FEATURES = normalize_datatypes(X, y)
# Print information about the loaded table
print(f'Features shape: {X.shape}')
print(f'Target shape: {y.shape}')

MemoryError: Unable to allocate 8.20 MiB for an array with shape (1074760,) and data type int64

#### Muestra la matriz de correlación de pearson entre las variables de la tabla.

In [None]:
#plt.figure(figsize=(12, 8))
#sns.heatmap(X.corr(method='spearman'), annot=False)

Se aprecian muchas relaciones pero habrá que mirar como mejorar este diagrama para que sea legible

## 3 - Detección de valores atípicos (outliers)
## Univariate
## Analisis detallado de variables
Para cada una de las 10 variable (1 booleana, 3 numericas, 6 categorica) se hara un analisis detallado

### Variable has_or_else (1/10)
Esta variable es de tipo booleano y representa si ciertas categorias de statements tienen la clausula else. El primer paso es hacer un análisis visual de como se distribuyen los valores de la variable.

In [None]:
plt.xticks([0, 1], ['False', 'True'])
sns.histplot(full_table['statement__has_or_else'], discrete=True)

In [None]:
num_true_values = len(full_table[full_table['statement__has_or_else'] == True])
num_false_values = len(full_table[full_table['statement__has_or_else'] == False])
std = full_table['statement__has_or_else'].std()
freq_true = len(full_table[full_table['statement__has_or_else'] == True]) / len(full_table['statement__has_or_else'])
freq_false = len(full_table[full_table['statement__has_or_else'] == False]) / len(full_table['statement__has_or_else'])
print(f'La variable has_or_else contiene {num_true_values} valores verdaderos y {num_false_values} valores falsos. Y, la desviación típica es de {std}')
print(f'La frecuencia con la que programa puede tener la variable has_or_else a True es {freq_true}.')
print(f'La frecuencia con la que programa puede tener la variable has_or_else a False es {freq_false}.')

### IMPORTANTE
No suma el 100% debido a los valores nulos

In [None]:
possible_values = [True, False]
print_frequency_anal_for_cat_var(full_table, 'statement__has_or_else', possible_values)

In [None]:
full_table[full_table['statement__has_or_else'] == True].describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int'])

### Variable height (2/10)
Esta variable representa la distancia del statement al root del módulo (fichero). Como vimos en la descripción de la tabla esta varibale adopta valores en el rango 1 - 54. Con una media de 3.22.

In [None]:
sns.stripplot(X['statement__height'])

In [None]:
print_histogram(X, 'statement__height', 'statement__expertise_level', bins=30, include_all=False)

In [None]:
print_outliers_for_df_column(X, 'statement__height')

Describimos los valores de las variables de la tabla, cuando el valor de la variable es mayor que 10.0 (Con un MC de 75 usamos Tuckey Extremo)

In [None]:
X[X['statement__height'] > 10].describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int'])

### Variable depth (3/10)
Esta variable representa la distancia desde el statement hasta una hoja del ast. Como vimos en la descripción de la tabla esta varibale adopta valores en el rango 0 - 82. Con una media de 2.85.

In [None]:
sns.stripplot(X['statement__depth'])

### IMPORTANTE
Los valores maximos estan muy alejados de los siguientes.

In [None]:
print_histogram(X, 'statement__depth', 'statement__expertise_level', bins=30, include_all=False)

In [None]:
print_outliers_for_df_column(X, 'statement__depth')

Describimos los valores de las variables de la tabla, cuando el valor de la variable es mayor que 13.0 (Con un MC de 92 usamos Tuckey Extremo)

In [None]:
X[X['statement__depth'] > 13].describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int'])

### IMPORTANTE
Hay que revisar los 6 que tienen un valor mayor de 80 

### Variable body_size (4/10)
Esta variable representa el número de sentencias o expresiones que se definen dentro del cuerpo de ciertas categorías de sentencias. Como vimos en la descripción de la tabla esta varibale adopta valores en el rango 1 - 276. Con una media de 1.89.

In [None]:
sns.stripplot(X['statement__body_size'])

### IMPORTANTE
El valor maximo esta muy alejado de los siguientes.

In [None]:
print_histogram(X, 'statement__body_size', 'statement__expertise_level', bins=30, include_all=False, max_value=150)

In [None]:
print_outliers_for_df_column(X,'statement__body_size')

Describimos los valores de las variables de la tabla, cuando el valor de la variable es mayor que 50.0 (Con un MC de 86 usamos U)

In [None]:
X[X['statement__body_size'] > 49.82].describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int'])

### IMPORTANTE
Hay que revisar el que tiene 276

### Variable category (5/10)
Esta variable es de tipo categórica y representa el tipo de sentencia.

In [None]:
print_categorical_histogram(full_table, 'statement__category', TABLE_TARGET, vertical=True, include_all=False)

In [None]:
print_frequency_anal_for_cat_var(full_table, 'statement__category')

In [None]:
print_values_usage_for_cat_var(full_table, 'statement__category', STATEMENT_CATEGORY_VALUES)

### Variable parent (6/10)
Esta variable es de tipo categórica y representa el tipo del padre de la sentencia.

In [None]:
print_categorical_histogram(full_table, 'statement__parent', TABLE_TARGET, vertical=True, include_all=False)

In [None]:
print_frequency_anal_for_cat_var(full_table, 'statement__parent')

In [None]:
print_values_usage_for_cat_var(full_table, 'statement__parent', STATEMENT_PARENT_VALUES)

### Variable statement_role (7/10)
Esta variable es de tipo categórica y representa el rol que representa la sentencia en su padre.

In [None]:
print_categorical_histogram(full_table, 'statement__statement_role', TABLE_TARGET, vertical=True, include_all=False)

In [None]:
print_frequency_anal_for_cat_var(full_table, 'statement__statement_role')

In [None]:
print_values_usage_for_cat_var(full_table, 'statement__statement_role', STATEMENT_ROLE_VALUES)

### Variable first_child_category (8/10)
Esta variable es de tipo categorica y representa la categoria del primer hijo de la sentencia.

In [None]:
print_categorical_histogram(full_table, 'statement__first_child_category', TABLE_TARGET, vertical=True, fillna=True, include_all=False)

In [None]:
print_frequency_anal_for_cat_var(full_table, 'statement__first_child_category')

In [None]:
print_values_usage_for_cat_var(full_table, 'statement__first_child_category', STATEMENT_CHILDREN_VALUES)

### Variable second_child_category (9/10)
Esta variable es de tipo categorica y representa la categoria del segundo hijo de la sentencia.

In [None]:
print_categorical_histogram(full_table, 'statement__second_child_category', TABLE_TARGET, vertical=True, fillna=True)

In [None]:
print_frequency_anal_for_cat_var(full_table, 'statement__second_child_category')

In [None]:
print_values_usage_for_cat_var(full_table, 'statement__second_child_category', STATEMENT_CHILDREN_VALUES)

### Variable third_child_category (10/10)
Esta variable es de tipo categorica y representa la categoria del tercer hijo de la sentencia.

In [None]:
print_categorical_histogram(full_table, 'statement__third_child_category', TABLE_TARGET, vertical=True, fillna=True)

In [None]:
print_frequency_anal_for_cat_var(full_table, 'statement__third_child_category')

In [None]:
print_values_usage_for_cat_var(full_table, 'statement__third_child_category', STATEMENT_CHILDREN_VALUES)

## Multivariate

Isolation forest algorithm

In [None]:
from sklearn.ensemble import  IsolationForest

CONTAMINATION_FACTOR = 0.0012
isof_model = IsolationForest(contamination=CONTAMINATION_FACTOR, random_state=0)
X['statement__body_size'] = X['statement__body_size'].fillna(0) # Fill NaN values with 0
isof_prediction = isof_model.fit_predict(X.values)
mask = isof_prediction == -1
full_table.loc[X.index[mask]]

In [None]:
# Outliers
np.transpose(X[mask].describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int']))

In [None]:
# Non-Outliers
np.transpose(X[~mask].describe(percentiles=[.25, .50, .75], include = ['object', 'float', 'bool', 'int']))