# ¿Me conviene estudiar Nanotecnología?

## 1. Objetivos

### 1.1 Objetivo general

> Analizar el comportamiento de los datos de búsqueda de la palabra "Nanotechnology" en Google académico a través de los años. 

### 1.2 Objetivos específicos

> * Obtener la base de datos sobre la repetición de la palabra "Nanotechnology" en Google académico. 
> * Realizar el ajuste de curvas de los datos. 
> * Comparar la suma de los errores al cuadrado de cada polinomio para verificar cuál es el mejor ajuste.
> * Interpretar la tendencia de crecimiento o decrecimiento de los datos. 
> * Realizar predicciones sobre el comportamiento de los datos en años futuros. 
> * Conluir si es conveniente tomar en cuenta el área de Nanotecnología como opción de estudio. 


## 2.  Modelo que representa el problema

**Planteamiento del problema:** Fer está por elegir qué carrera estudiar y le interesa Nanotecnología. Sus familiares y amigos le dicen que es un área en crecimiento pero ella quiere analizarlo personalmente. Para ello, decide hacer una análisis de cuántas veces aparece el término "Nanotechnology" en google scholar a lo largo de los años. 

Se comienza por tener una base de datos haciendo uso de un código existente. Para predecir el comportamiento en años futuros, se realizará un ajuste de curvas que modele de la mejor manera posible los datos. Se utilizará el año como variable independiente  𝑥  y la cantidad de repetición de la palabra "Nanotechnology" como variable dependiente  𝑦. Se ajustarán polinomios de grado 1 hasta grado 4.

La **función a optimizar** es la suma de los errores al cuadrado. Esto se logra gracias al método de mínimos cuadrados, que consiste en encontrar los coeficientes *beta* que minimicen la función. 

$$\min\quad \sum\nolimits (error)^2$$

## 3. Solución del problema de optimización

In [None]:
#Librerias
import pandas as pd
import numpy as np
import sympy as sym
import scipy.optimize as opt
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

In [None]:
#Importar el data frame
df=pd.read_csv('outgraph.csv',header=0)
x=df.iloc[:,0]
y=df.iloc[:,1]

In [None]:
#Funcion a Optimizar
def obj(beta,x,y,n):
    yhat = beta.dot([x**i for i in range(n+1)])
    error = y-yhat
    return np.sum(error**2)

<h4>Funcion grafico_datos_grado</h4>
<center>La función "grafico_datos_grado" toma 3 argumentos. Los primeros dos 'x,y' son los datos del data frame, el siguiente argumento 'guardar' es un booleano que determina si se desea guardar la grafica como un png. Muestra un grafico con los datos y una curva formada por un polinomio de grado pedido como input. </center>

<h4>Funcion curva_grado</h4>
<center> La funcion "curva_grado" crea el argumento beta adaptado al grado para la funcion obj(), minimiza la suma de los errores al cuadrado y los guarda y regresa en yhat_grado</center>

In [None]:
def grafico_datos_grado(x,y,guardar):
    grado=int(input())
    x_norm = (x-min(x))/(max(x)-min(x))
    y_norm = (y-min(y))/(max(y)-min(y))
    def curva_grado(grado,x,y,x_norm,y_norm):
        beta_grado=np.zeros(grado+1)
        g_grado=opt.minimize(obj,beta_grado,args=(x_norm,y_norm,grado))
        yhat_grado=g_grado.x.dot([x_norm**i for i in range(grado+1)])*(max(y)-min(y)) + min(y)
        return yhat_grado
    
    yhat_grado_x=curva_grado(grado,x,y,x_norm,y_norm)
    
    plt.figure(figsize=(8,6))
    
    plt.plot(x, yhat_grado_x, 'm', lw=2, label=('Grado',grado))
    plt.plot(x, y, 'r', lw=3, label='Datos')
    plt.xlabel('Año',fontsize=16)
    plt.ylabel('Numero de Repeticiones',fontsize=16)

    plt.grid()
    plt.legend(loc='best')
    fig1 = plt.gcf()
    if guardar==True:
        nombre=str(grado)
        fig1.savefig('GrafGrado_'+nombre+'.png', dpi=100)
    
    return fig1, yhat_grado_x

## 4. Visualización de la solución del problema

In [None]:
#Cambia "False" a "True" si deseas guardar la imagen. Se guarda como GrafGrado_i.png donde i es el grado introducido.
grafico_datos_grado(x,y,False)

## Grado 40
![I40](GrafGrado_40.png "Imagen Grado 40")
## Grado 80
![I40](GrafGrado_80.png "Imagen Grado 80")

## 5. Conclusiones

## 6. Referencias

Volker Strobel. (2018, April 14). Pold87/academic-keyword-occurrence: First release (Version v1.0.0). Zenodo. http://doi.org/10.5281/zenodo.1218409