<a href="https://colab.research.google.com/github/germfsip/2221-Programaci-n-Orientada-a-Objetos/blob/main/Clase15.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Programación orientada a objetos
## Dr. Gerardo Martinez
### Lección 1 - Introducción a Base de datos
Primeramente importemos algunos paquetes

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Introducción a Pandas
Pandas es una biblioteca para Python basada en Numpy y Matplotlib para la manipulacion y el análisis de datos. Podemos decir que da herramientas propias del lenguaje R a Python 3.

Tiene dos objetos principales las Series y los DataFrame, empezemos con las series

In [None]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
print(s)
print('acceso a elemento: ', s['a'])

a    3
b   -5
c    7
d    4
dtype: int64
acceso a elemento:  3



El objeto DataFrame es el principal objeto de la biblioteca es un arreglo bidimensional de datos mezclados con encabezado (muy similar a los DataFrame del lenguaje de programación R), acontinuación un ejemplo:

In [None]:
data = { 'Nombre':['Carlos', 'Julia','Fabiola', 'Ernesto'],
'edad':[28,25,56,21],
'calificación':[100,89,48,75]}
# Es muy común llamar df a nuestro DataFrame
df = pd.DataFrame(data)
print(df)

    Nombre  edad  calificación
0   Carlos    28           100
1    Julia    25            89
2  Fabiola    56            48
3  Ernesto    21            75


Para ingresar a cada dato de nuestro DataFrame, lo podemos hacer de las siguientes maneras como si fuera una matriz

In [None]:
print(df.iat[0,0])
print(df.iat[1,2])
print(df.at[2,'Nombre'])

Carlos
89
Fabiola


Podemos escribir en el DataFrame con la misma indexación

In [None]:
s['b'] = 5
print('s = \n', s)
df.at[0,'Nombre'] = 'Charlie'
print('df = \n', df)

s = 
 a    3
b    5
c    7
d    4
dtype: int64
df = 
     Nombre  edad  calificación
0  Charlie    28           100
1    Julia    25            89
2  Fabiola    56            48
3  Ernesto    21            75



Tambien podemos eliminar filas de las Series y DataFrames

In [None]:
s.drop(['a'])
print(s)
df.drop('calificación', axis=1)
print(df)
df = df[df.Nombre != 'Charlie']
print(df)

a    3
b    5
c    7
d    4
dtype: int64
    Nombre  edad  calificación
0  Charlie    28           100
1    Julia    25            89
2  Fabiola    56            48
3  Ernesto    21            75
    Nombre  edad  calificación
1    Julia    25            89
2  Fabiola    56            48
3  Ernesto    21            75


# Exploración de datos con Panda

In [None]:
from google.colab import files
uploaded = files.upload()

Podemos leer el csv de la siguiente manera

In [None]:
df = pd.read_csv('countries.csv')

Cuando se sabe poco de los datos que estamos leyendo es buena costumbre hacer una exploración de los datos por ejemplo con las siguientes funciones

In [None]:
# Se imprimen los primeros cinco regristros
df.head()

In [None]:
# Se imprimen los últimos cinco registros
df.tail()

In [None]:
# Tamaño del DataFrame
print(df.shape)

In [None]:
# Información del DataFrame
df.info()

In [None]:
# Mostrar columnas
df.columns

In [None]:
# Datos estadísticos de las variables númericas
df.describe()

In [None]:
# Crear una matrix de datos
df.values

In [None]:
# Renombrar columnas
df = df.rename(columns={'gdpPercap':'gdp'})
df.head()

In [None]:
# Regresar una columna como Series
s1 = df['country']
s2 = df.country
print(s1)
print(s2)

In [None]:
# Regresar una columna como un DataFrame
df2 = df[['country']]
print(df2.head())

In [None]:
# Cambiar todos los elementos con cierto valor
df2 = df.replace(1952,'one')
df2.head()

In [None]:
# Filtrado por columna
df[df.country == 'Mexico']

In [None]:
#Filtrado con reindexado automático
df_mex = df[df.country == 'Mexico'][df.year >= 1977][df.lifeExp < 70]
print(df_mex)

In [None]:
df_mex = df_mex.reset_index()
df_mex = df_mex.drop('index', axis=1)
print(df_mex)

In [None]:
# Histograma de las variables numericas
df.hist()

In [None]:
df[df.country == 'Mexico'].plot(x='year',y='gdp')

In [None]:
pd.plotting.scatter_matrix(df)

In [None]:
# Grafica de México
pd.plotting.scatter_matrix(df[df.country == 'Mexico'])


# Regresión lineal y KNN
En está sección vamos a hacer una regresión lineal simple de la esperanza de vida en México y también usaremos KNN

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
df_mex = df[df.country == 'Mexico']
df_mex.plot.scatter(x='year',y='lifeExp')


Para este ejemplo la variable 'year' será nuestra variable independiente y la variable 'lifeExp' sera nuestra variable dependiente

In [None]:
x = np.asarray(df_mex[['year']])
y = np.asarray(df_mex[['lifeExp']])

Ahora instanciaremos el modelo lineal y entrenaremos de forma supervisada

In [None]:
model = LinearRegression()
model.fit(x,y)
y_pred = model.predict(x)
plt.scatter(x,y)
plt.plot(x,y_pred,'--r')


Con el modelo ya entrenado podemos hacer predicciones con él!!

In [None]:
model.predict([[2020]])

## Hagamos lo mismo pero con el modelo KNN

In [None]:
knn = KNeighborsRegressor(n_neighbors=3)
knn.fit(x,y)
y_pred = knn.predict(x)
plt.scatter(x,y)
plt.plot(x,y_pred,'--r')
knn.predict([[2020]])

# Métricas en el Problema de Regresión

In [None]:
import sklearn.metrics as m 
print(m.mean_absolute_error(y,y_pred))
print(m.max_error(y,y_pred))
print(m.mean_squared_error(y,y_pred))
print(m.mean_squared_log_error(y,y_pred))
print(m.median_absolute_error(y,y_pred))
print(m.explained_variance_score(y,y_pred))
print(m.r2_score(y,y_pred))

In [None]:
linear_score = model.score(x,y)
knn_score = knn.score(x,y)
print('Lineal Approximation: ', linear_score)
print('KNN Approximation: ', knn_score)