In [1]:
import pandas as pd
from toolbox_ML import *

### 1. Cargamos los **datos** del ejemplo de los precios de las casas en California

In [2]:
df_casas = pd.read_csv('./data/ejemplo_housing.csv')

Echamos un vistazo de los datos en el DF

In [3]:
df_casas.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [9]:
df_casas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20433 entries, 0 to 20432
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20433 non-null  float64
 1   latitude            20433 non-null  float64
 2   housing_median_age  20433 non-null  float64
 3   total_rooms         20433 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20433 non-null  float64
 6   households          20433 non-null  float64
 7   median_income       20433 non-null  float64
 8   median_house_value  20433 non-null  float64
 9   ocean_proximity     20433 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


### 2. Implementación de las funciones creadas en **Toolbox_ML**

#### Función `describe_df`

 Esta función muestra información específica del DF original. 
 
 Esa información será: el tipo de objeto, el % de valores nulos o missings, los valores únicos y el % de cardinalidad de cada columna del DF original para tener 

 *Argumentos*:

 `df`: DF original sobre el que queremos recibir la información.

 *Retorna*:

DF con la información específica.

In [4]:
describe_df(df_casas)

Unnamed: 0,COL_N,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,DATA_TYPE,float64,float64,float64,float64,float64,float64,float64,float64,float64,object
1,MISSINGS (%),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,UNIQUE_VALUES,844,861,52,5911,1923,3879,1809,12825,3833,5
3,CARDIN (%),4.13,4.21,0.25,28.93,9.41,18.98,8.85,62.77,18.76,0.02


#### Función `tipifica_variables`

Esta función sirve para poder tipificar las variables de un DF dado en categórica, numerica continua o numerica discreta.

*Argumentos:*

`df`: DF original para adquirir las variables que se quiera tificar.
`umbral_categoria`: un entero donde corresponda al umbral que queramos asignar a una variable categórica.
`umbral_continua`: un float donde corresponda al umbral que queramos asignar a una variable numérica.

*Retorna:*

Un DF con dos columnas `nombre_varibale` y `tipo_sugerido`, que tendrá tantas filas como columnas haya en el DF original.

In [10]:
tipifica_variables(df_casas, 6, 4) # Al ver una gran cantidad de valores, bajo el umbral_continua para que den tipos de numérica continua en vez de discreta

Unnamed: 0,nombre_variable,tipo_variable
0,longitude,Numérica Continua
1,latitude,Numérica Continua
2,housing_median_age,Numérica Discreta
3,total_rooms,Numérica Continua
4,total_bedrooms,Numérica Continua
5,population,Numérica Continua
6,households,Numérica Continua
7,median_income,Numérica Continua
8,median_house_value,Numérica Continua
9,ocean_proximity,Categórica


#### Función `get_features_num_regression`

Obtiene las columnas numéricas cuya correlación con target_col es significativa.

*Argumentos*:

`df`: DataFrame que contiene los datos.

`target_col`: Nombre de la columna objetivo (debe ser numérica).

`umbral_corr`: Umbral de correlación para filtrar las columnas.

`pvalue`: Umbral de significancia para el valor p. Si es None, solo se considera el umbral de correlación.


*Retorna*:

Lista de nombres de columnas que cumplen con los criterios.

#### Función `get_features_cat_regression`

Esta funcion devueleve una lista con las variables categoricas del dataframe que guardan una relacion siginificativa con la variable target, superando el test ANOVA con una confianza estadistica del 95%. Evalua los argumentos de entrada y retornara None en caso de que alguno de los valores de entrada no sean adecuados. 

*Argumentos:*

`df` : (`pd.Dataframe`) Dataframe con las variables que se quieren testar.
`target_col` : (`df["columna_target"]`) Columna del dataframe que se toma como objetivo (y).
`p_value` : (`float`) Por defecto `0.05`. Umbral de confianza estadistica. 

*Retorna:*

Una `lista` con las variables categoricas del dataframe. 

In [None]:
get_features_cat_regression(df_casas, "median_house_value")