##  Respuestas de la práctica Calificada de Inteligencia Artificial


### Lista de ejercicios

1.Traduzca la siguiente expresión lógica de descripción a lógica de primer orden y explica el resultado:

```
And(Man, AtLeast (3, Son), AtMost(2, Daughter ),
    All(Son, And(Unemployed , Married , All(Spouse, Doctor ))),
    All(Daughter , And(Professor , Fills(Department , Physics, Math)))).
```


<font color='red'>

La información dice "Todos los hombres con al menos tres hijos que están desempleados y casados con médicos y al menos dos hijas que son profesores en los departamentos de física o matemáticas"

$Man(x) \wedge MinimumOf(x, 3, Sons) \wedge MaximumOf(x, 2, Daughters)$

$SonOf(y,x) \Rightarrow Unemployed(y) \wedge MarriedTo(y,z) \wedge IsDoctor(z)$

$DaughterOf(w,x) \Rightarrow IsProfessor(w) \wedge (InMathDept(w) \vee InPhysicsDept(w))$
    
</font>

2. Ejecuta el descenso de gradiente para minimizar la función:

$$g(w) = \frac{1}{50}(w^4 + w^2 +10w)$$

con un punto inicial $w_0 = 2$ y $1000$ iteraciones. Haga tres corridas separadas usando cada uno de los valores del tamaño de paso $\lambda = 1$, $\lambda = 10^{-1}$ y $\lambda = 10^{-2}$. Calcula la derivada de esta función a mano e implementa esto (así como la función ) en Python usando NumPy.

Traza la gráfica del historial de la función de costo resultante de cada ejecución en una sola figura para comparar su desempeño. ¿Qué valor del tamaño de paso funciona mejor para esta función y punto inicial en particular?.

In [1]:
def gradient_descent(alpha,max_its,w):
    g = lambda w: 1/50*(w**4 + w**2 + 10*w)
    
    grad = lambda w: 1/50*(4*w**3 + 2*w + 10)

    cost_history = [g(w)]        
    for k in range(1,max_its+1):       
        grad_eval = grad(w)

        w = w - alpha*grad_eval
            
        cost_history.append(g(w))  
    return cost_history

In [2]:
w = 2.0
max_its = 1000

alpha = 10**(0)
cost_history_1 = gradient_descent(alpha,max_its,w)

alpha = 10**(-1)
cost_history_2 = gradient_descent(alpha,max_its,w)

alpha = 10**(-2)
cost_history_3 = gradient_descent(alpha,max_its,w)

![](Respuesta4.png)

3. En clase hemos tratada la regresión ridge ($l_2$-regularizada) y $l_1$-regularizada (lasso). Existe una versión híbrida llamada *elástic net* que usa términos de regularización $l_1$ y $l_2$:

$$J_{EL} = \Vert \mathbf{y} -\mathbf{Xw} \Vert^2 + \lambda_1 \Vert \mathbf{w} \Vert_1 + \lambda_2 \Vert \mathbf{w} \Vert^2$$

    Si definimos:

$$J_{2} = \Vert \mathbf{\tilde{y}} -\mathbf{\tilde{X}w} \Vert^2  + c\lambda_1 \Vert \mathbf{w} \Vert_1$$

donde $c = (1 + \lambda_2)^{-1/2}$ y 

$$
\mathbf{\tilde{X}} = \begin{pmatrix}
\mathbf{X}\\
\sqrt{\lambda_2}\mathbf{I}_d
\end{pmatrix}, \qquad \mathbf{\tilde{y}} =  \begin{pmatrix}
\mathbf{y}\\
\mathbf{0}_{d \times 1}
\end{pmatrix}
$$

Muestra que: 

$$arg \min_{\mathbf{w}}J_{EL}(\textbf{w}) = c(arg \min_{\mathbf{w}}J_2(\mathbf{w})))$$.

Esto implica que un problema de *elastic net* puede resolverse como un problema de *lasso*, utilizando datos modificados.

![](Respuesta1.png)

<font color='red'>Realizando el cambio $\tilde{w} = c^{-1}w:$ </font>

![](Respuesta2.png)

4. Explica los siguientes resultados indicando verdadero o falso. Se puntuara si se contesta todas los ítems.

 * Para la regresión logística, con parámetros optimizados mediante un método de gradiente estocástico, establecer los parámetros en $0$ es una inicialización aceptable.

 * El uso de la validación cruzada para seleccionar hiperparámetros garantizará que nuestro modelo no se sobreajuste.

 * Los algoritmos Bagging asignan pesos $w_1 \dots, w_n$ a un conjunto de $N$ estudiantes débiles. Vuelven a ponderar a los alumnos y los convierten en fuertes. Los algoritmos Boosting extraen $N$ distribuciones de muestra (generalmente con reemplazo) de un conjunto de datos original para que los alumnos se entrenen.

 * Un árbol de decisión binario de profundidad infinita siempre puede alcanzar el $100\%$ de exactitud en el entrenamiento, siempre que ningún punto esté mal etiquetado en el conjunto de entrenamiento.

<font color='red'>
    
* Esa afirmación computacional sobre la regresión logística clave. 
* La validación cruzada no garantiza que un modelo no se sobreajuste, pero puede ayudar a identificar un caso de sobreajuste.

* Esta aseveración es falsa y el Bagging ofrece la ventaja de permitir que muchos estudiantes débiles combinen esfuerzos para superar a un solo estudiante fuerte.

* Esta afirmación es verdadera.Obtienes un $100\%$ de exactitud porque estás usando una parte de los datos de entrenamiento para las pruebas. En el momento del entrenamiento, el árbol de decisiones adquirió el conocimiento sobre esos datos y ahora, si se proporciona los mismos datos para predecir, dará el mismo valor. Es por eso que el árbol de decisiones produce resultados correctos en todo momento.
</font>

5. Se podría perforar un pozo de petróleo en la granja del profesor Neapolitan en Texas. Con base en lo que ha sucedido en granjas similares, juzgamos que la probabilidad de que haya petróleo presente es de $0.5$, la probabilidad de que solo esté presente gas natural es de $0.2$ y la probabilidad de que ninguno de los dos esté presente es de $0.3$. Si hay petróleo presente, una prueba geológica dará un resultado positivo con probabilidad de $0.9$,  si solo hay gas natural, dará un resultado positivo con probabilidad $0.3$  y si ninguno está presente, la prueba será positiva con probabilidad $0.1$. Supongamos que la prueba resulta positiva. Utilice el teorema de Bayes para calcular la probabilidad de que haya petróleo.

<font color='red'>

$$
\begin{align*}
&P(Presente|Positivo) ?? \\
&= \frac{P(Positivo|Presente)P (Presente)}{P(Positivo|Presente)P(Presente) + P (Positivo|Gas)P(Gas) + P(Positivo|N)P(N)} \\
&= \frac{(0.9)(0.5)}{(0.9)(0.5) + (0.3)(0.2) + (0.1)(0.3)} = 0.833
\end{align*}
$$
</font>

6 . Se te proporciona un modelo de Bayes, que se muestra a continuación, con la etiqueta $Y$ y las características $X_1$ y $X_2$. Las probabilidades condicionales del modelo están parametrizadas por $p_1$, $p_2$ y $q$.

![](NaiveBayes.png)

Ten en cuenta que algunos de los parámetros son compartidos (por ejemplo, $P(X_1 = 0|Y = 0)=P(X_1 = 1|Y = 1) = p_1$).


Dado un nuevo punto de dato con $X_1 = 1$ y $X_2 = 1$, ¿cuál es la probabilidad de que este punto tenga la etiqueta $Y = 1$? Expresa tu respuesta en términos de los parámetros $p_1$, $p_2$ y $q$ (es posible que no los necesite todos). Es decir debes calcular : $P(Y= 1| X_1= 1,X_2= 1)$.

![](Respuesta3.png)

7. Explica los siguientes resultados indicando verdadero o falso. Se puntuara si se contesta todas los ítems.

  * La acción realizada por un agente racional siempre será una función determinista de las percepciones actuales del agente.

 * Una ruta de solución óptima para un problema de búsqueda con costos positivos nunca tendrá estados repetidos.

 * Si dos heurísticas de búsqueda $h_1(s)$ y $h_2(s)$ tienen el mismo valor promedio, la heurística $h_3(s) = \max (h_1(s), h_2(s))$ podría dar una mejor eficiencia $A^*$ que $h_1$ o $h_2$.

 * Para cualquier conjunto de atributos, y cualquier conjunto de entrenamiento generado por una función determinista para esos atributos, existe un árbol de decisiones que es consistente con ese conjunto de entrenamiento.


<font color='red'> 
    
* Falso. Primero, las funciones no deterministas son útiles en muchos entornos, como los entornos de múltiples agentes. En segundo lugar, el agente a menudo debe considerar su historial de percepción y otras fuentes de información.

* Verdadero. Para cualquier ruta de solución con estados repetidos, eliminar el ciclo también será una ruta de solución con un costo menor.

* Verdadero. $h_1$ podría tener valores exactos para estados anteriores  y $h_2$ tener valores exactos para estados posteriores. $h_3$ podría tener valores más exactos que cualquiera de los componentes heurísticos.

* Verdadero. Los árboles de decisión pueden representar cualquier función determinista.
    
</font>

8 . Usaremos el conjunto de datos [*Breast Cancer Wisconsin (Diagnostic)*](https://www.kaggle.com/uciml/breast-cancer-wisconsin-data/version/2), llamado `data.csv`

 * ¿Cuántas observaciones (filas) hay en el conjunto de datos?
 * Asigna a una lista de nombre `feature_columns` todas las columnas del conjunto de datos menos el `id` de cada observación y la clase `diagnosis` que es la que buscaremos predecir.
 * Crea una nueva columna `'target'` que tenga un valor numérico de `+1` en las muestras positivas (cuando el diagnóstico sea maligno) y `-1` en las muestra negativas (diagnóstico benigno).
 * Empleando `sklearn.model_selection.train_test_split` separa el conjunto de datos en un 90% para entrenamiento y validación (`X_trainval`, `y_trainval`), y 10% para pruebas (`X_test`, `y_test`).

   Luego separa (`X_trainval`, `y_trainval`) en un 80% para entrenamiento (`X_train`, `y_train`) y 20% para validación (`X_val`, `y_val`).
   
* Empleando `sklearn.preprocessing.StandardScaler` se ha normalizado en un arreglo `X_trainval_scaled` el conjunto de entrenamiento y validación. Usa `sklearn.decomposition.PCA` para calcular los vectores de carga **`pca_loadings`** y el puntaje **`pca_scores`** de cada observación en el espacio de los componentes principales.

* Crea una instancia de la clase `sklearn.linear_model.LogisticRegression` y ajusta un modelo con el conjunto de **entrenamiento**

* Usa el modelo para predecir la probabilidad de que cada una de las observaciones de conjunto de **validación** corresponda a la clase positiva (diagnóstico maligno).

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

data = pd.read_csv("data.csv")
data.head()

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


In [4]:
numero_de_observaciones =data.shape[0]
print('El número de observaciones es {}'.format(numero_de_observaciones))

El número de observaciones es 569


In [5]:
all_columns = data.columns.values
print('El nombre de todas las columnas es: \n', all_columns)
print()

data.drop("id",axis=1)
data.drop("diagnosis",axis=1)

feature_columns = list(data.columns[2:32])
print('Las columnas con características son: \n', feature_columns)

assert 'id' not in feature_columns, 'id no debe estar en feature_columns'
assert 'diagnosis' not in feature_columns, 'diagnosis no debe estar en feature_columns'
assert len(feature_columns) == 30, 'Parece que falta columnas de características'

El nombre de todas las columnas es: 
 ['id' 'diagnosis' 'radius_mean' 'texture_mean' 'perimeter_mean'
 'area_mean' 'smoothness_mean' 'compactness_mean' 'concavity_mean'
 'concave points_mean' 'symmetry_mean' 'fractal_dimension_mean'
 'radius_se' 'texture_se' 'perimeter_se' 'area_se' 'smoothness_se'
 'compactness_se' 'concavity_se' 'concave points_se' 'symmetry_se'
 'fractal_dimension_se' 'radius_worst' 'texture_worst' 'perimeter_worst'
 'area_worst' 'smoothness_worst' 'compactness_worst' 'concavity_worst'
 'concave points_worst' 'symmetry_worst' 'fractal_dimension_worst'
 'Unnamed: 32']

Las columnas con características son: 
 ['radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se', 'fractal_dimension_se', 'radius_worst'

In [6]:
print('Distribución original de la columna diagnosis:')
print(data['diagnosis'].value_counts())

data['target'] = np.where(data['diagnosis']=='M', 1, -1)


print('\nDistribución de la nueva columna target:')
print(data['target'].value_counts())

assert ( data['diagnosis'].value_counts().values 
         == data['target'].value_counts().values
       ).all(), 'La distribución de target debería coincidir con la de diagnosis'
assert -1 in data['target'].values, 'No se encontró valores -1 en la columna target'
assert 1 in data['target'].values, 'No se encontró valores +1 en la columna target'

Distribución original de la columna diagnosis:
B    357
M    212
Name: diagnosis, dtype: int64

Distribución de la nueva columna target:
-1    357
 1    212
Name: target, dtype: int64


In [7]:
from sklearn.model_selection import train_test_split

X = data[feature_columns]
y = data['target']

X_trainval, X_test, y_trainval, y_test = train_test_split(X,y, test_size = 0.1)

assert X_trainval.shape == (512, 30), 'Dimensiones incorrectas'
assert X_test.shape == (57, 30), 'Dimensiones incorrectas'
assert X_trainval.shape[0] == y_trainval.shape[0], 'Dimensiones incorrectas'
assert X_test.shape[0] == y_test.shape[0], 'Dimensiones incorrectas'

In [8]:
X_train , y_train, X_val, y_val = train_test_split(X_trainval, y_trainval,test_size=0.2)

In [9]:
X_train.shape

(409, 30)

In [10]:
y_train.shape

(103, 30)

In [11]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

scaler = StandardScaler().fit(X_trainval)
X_trainval_scaled = scaler.transform(X_trainval)

pca = PCA().fit(X_trainval_scaled)
pca_loadings = pca.components_
pca_scores = pca.transform(X_trainval_scaled)

assert np.isclose(X_trainval_scaled, pca_scores @ pca_loadings).all(), 'Error al calcular pca_scores o pca_loadings'

In [12]:
from sklearn.linear_model import LogisticRegression

modelo = LogisticRegression()
modelo.fit(X_trainval_scaled, y_trainval)
assert type(modelo) == LogisticRegression, 'Falta instanciar debidamente el modelo'
assert modelo.classes_.shape == (2,), 'Falta ajustar el modelo'

In [13]:
y_pred_val = modelo.predict(X_trainval)

In [14]:
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_trainval, y_pred_val)
confusion_matrix

array([[  0, 318],
       [  0, 194]])