<center>
<h1> Fundamentos en Ciencia de Datos </h1>

### Metodología de Trabajo de John Rollins

John Rollins propuso una metodología estructurada para el trabajo en ciencia de datos, que consta de varias etapas clave para abordar de manera efectiva los problemas de análisis de datos y modelado predictivo.

1. **Definir el Problema**: Comprender claramente el problema o la pregunta de investigación que se abordará.
2. **Recopilación de Datos**: Recolectar los datos relevantes necesarios para el análisis.
3. **Exploración de Datos**: Realizar un análisis exploratorio de los datos para comprender mejor su naturaleza y relaciones.
4. **Preprocesamiento de Datos**: Limpiar, transformar y preparar los datos para el modelado.
5. **Modelado**: Desarrollar modelos predictivos utilizando técnicas adecuadas según el problema.
6. **Evaluación**: Evaluar el rendimiento y la validez de los modelos construidos.
7. **Despliegue**: Implementar soluciones basadas en los resultados del análisis y modelado.

A continuación, se presenta un esquema visual de la metodología propuesta por John Rollins:

![Metodología de Trabajo de John Rollins](https://www.researchgate.net/publication/340292606/figure/fig14/AS:963472573595670@1606721170929/Foundational-methodology-for-data-science-11.png)

# 1. Recolección de Datos
En esta sección, se obtienen los datos automotrices desde una URL utilizando la librería Pandas. Los datos se almacenan en un DataFrame para su posterior análisis y modelado.

In [66]:
import pandas as pd

# URL del conjunto de datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

# Cargar datos desde la URL
df = pd.read_csv(url, header = None)

# Definir los nombres de las columnas
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
df.columns = headers

## 2. Comprensión de los Datos
Se realizan análisis exploratorios para comprender la estructura de los datos. Esto incluye visualizar las primeras y últimas filas del DataFrame, verificar los tipos de datos y generar estadísticas descriptivas básicas.

In [67]:
# Mostrar las primeras y últimas filas
df.head(5)
df.tail(5)

# Verificar tipos de datos
df.dtypes

# Resumen estadístico
df.describe()
df.describe(include="all")

# Información concisa del dataframe
df.info()

## 3. Preparación de los Datos
En esta etapa, se preparan los datos para su procesamiento y modelado. Esto implica manejar valores faltantes, convertir tipos de datos y realizar transformaciones como normalización y binning.

<center>
    <img src="https://codecamp.ru/content/images/2022/06/numpyaxis1.jpg" width="700" alt="cognitiveclass.ai logo">
</center>

In [35]:
import numpy as np

# Identificar y manejar valores faltantes
def identify_values(dataframe):
    missing_data = dataframe.isnull()

    # Contar valores faltantes por columna
    for column in missing_data.columns.values.tolist():
        print(column)
        print (missing_data[column].value_counts())
        print("")
    
# Eliminar filas/columnas con valores faltantes 
df.dropna(inplace = True)

# Eliminar la fila completa
df.dropna(axis = 0, inplace = True)

# Eliminar la columna completa
df.dropna(axis = 1, inplace = True)

# Eliminar valores faltantes en una columna dada.
df = df.dropna(subset=["price"], axis=0)
df = df.dropna(subset=["price"], axis=0, inplace = True)

# Reemplazar valores faltantes
df.replace('?',np.NaN)
df.replace('?',np.NaN, inplace = True)

# Reemplazar valores faltantes con la media
columns_names = ['normalized-losses','stroke','bore','horsepower','peak-rpm']
for column in columns_names:
    # Calcular la media
    mean = df[column].astype('float').mean()
    
    # Remplazar la media en los valores faltantes
    df[column].replace(np.nan,mean, inplace = True)

# Reemplazar valores faltantes con el valor más frecuente
df['num-of-doors'].replace(np.nan,'four',inplace = True)

# Corregir las unidades de las columnas
df['city-mpg'] = 235/df['city-mpg']
df.rename(columns = {"city-mpg":"city-L/100km)"},inplace = True)

# Corregir el tipo de dato
df['price'] = df['price'].astype("int")
df[["bore", "stroke"]] = df[["bore", "stroke"]].astype("float")

# Finalmente, se reinicia el index debido a que se eliminaron columnas
df.reset_index(drop=True, inplace=True)

# Formas de obtener los diferentes valores 
Min_value = df['price'].min()
Max_value = df['price'].max()
Mean_value = df['price'].mean()
Std_value = df['price'].std()

# Normalización de los datos
df['height'] = df['height']/df['height'].max()

# Convertir valores númericos en valores categóricos
bins = np.linspace(min(df['price']), max(df['price']), 4) # Coloca un número de más de las categorías que deseas tener
group_names = ['Low', 'Medium','High']
df['price_categories'] = pd.cut(df['price'], bins, labels = group_names, include_lowest = True)

# Convertir valores categóricos en valores númericos
dummy_variable = pd.get_dummies(df['fuel-type'])
dummy_variable.rename(columns={'gas':'fuel-type-gas', 'diesel':'fuel-type-diesel'}, inplace=True)

In [None]:
# A este punto, es importante guardar el dataframe para su uso en la etapa de modelado

# Guardar el dataframe en un archivo CSV
df.to_csv('df_clean.csv', index=False)

# Guardar el dataframe en un archivo Excel
df.to_excel('df_clean.xlsx', index=False)

# Guardar el dataframe en un archivo JSON
df.to_json('df_clean.json', orient='records')

## 4. Modelado

### 4.1. Análisis estadístico y gráfico

En esta sección, realizamos análisis estadísticos y modelado predictivo según sea necesario.

In [None]:
# Histograma antes del Binning

%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
plt.pyplot.hist(df["price"])

# Establecer título a los ejes y al grafico
plt.pyplot.xlabel("price")
plt.pyplot.ylabel("count")
plt.pyplot.title("Before Binning Process")

# Histograma después del Binning

%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
plt.pyplot.hist(df["price_categories"])

# Establecer etiquetas y título
plt.pyplot.xlabel("price_categories")
plt.pyplot.ylabel("count")
plt.pyplot.title("After Binning Process")

# Resumen estadístico
df.describe()
df.describe(include = "all")

# Resumir datos categóricos
drive_wheels_count = df['drive_wheels'].value_counts()

In [None]:
# Box Plots 

import seaborn as sns
sns.boxplot(x="drive-wheels", y="price", data = df)

In [None]:
# Scatter Plot

import matplotlib.pyplot as plt

# Crear el Scatter Plot
X = df["engine-size"]
Y = df["price"]
plt.scatter(X, Y)

# Configurar etiquetas y título
plt.xlabel("Engine Size")
plt.ylabel("Price")
plt.title("Scatter Plot of Engine Size vs Price")
plt.show()

In [None]:
# Crear un nuevo DataFrame
df_test = df[['drive-wheels','body-style','price']]

# Agrupar por 'drive-wheels' y 'body-style' y calcular la media del precio
df_grp = df_test.groupby(['drive-wheels','body-style'], as_index = False).mean()
df_grp

# Crear una tabla pivot
df_pivot = df_grp.pivot(index = 'drive-wheels',columns = 'body-style', values = 'price')

In [None]:
# Heatmap

import matplotlib.pyplot as plt
import seaborn as sns

# Crear el heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(df_pivot, annot=True, cmap='hot', fmt='.0f')

# Configurar etiquetas y título
plt.xlabel('Body Style')
plt.ylabel('Drive Wheels')
plt.title('Heatmap of Car Prices')

In [None]:
# Regression Plot
import seaborn as sns
sns.regplot(x="engine-size", y = "price", data = df)
plt.ylim(0,)

# Configurar etiquetas y título
plt.xlabel('Engine Size')
plt.ylabel('Price')
plt.title('Correlation between Price and Engine Size')

In [5]:
# Pearson Correlation usando un Heatmap

from scipy.stats import pearsonr
import seaborn as sns
import matplotlib.pyplot as plt

# Calcular la correlación de Pearson
pearson_coef, p_value = pearsonr(df['horsepower'], df['price'])

# Seleccionar solo columnas numéricas
df_numeric = df.select_dtypes(include=['float64', 'int64'])

# Calcular la matriz de correlación
corr_matrix = df_numeric.corr()

# Crear el heatmap usando Seaborn
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")

# Configurar el título
plt.title("Correlation Heatmap")

# Mostrar el heatmap
plt.show()

In [None]:
# ANOVA

import pandas as pd
from scipy.stats import f_oneway

# Seleccionar columnas relevantes para el análisis
df_anova = df[['make', 'price']]

# ANOVA entre Honda y Subaru
anova_results = f_oneway(df_anova[df_anova['make'] == 'honda']['price'], df_anova[df_anova['make'] == 'subaru']['price'])

# Mostrar resultados
print("Valor F1:", anova_results.statistic)
print("Valor p:", anova_results.pvalue)

if anova_results.pvalue < 0.05:
    print("Hay diferencias significativas entre los grupos (Honda y Subaru).")
else:
    print("No hay diferencias significativas entre los grupos (Honda y Subaru).")

### 4.2. Modelos de Regresión
En la fase de modelado, se aplican técnicas de regresión para predecir el precio de los automóviles en base a diferentes características. A continuación se presentan algunos modelos utilizados:

####  4.2.1. Regresión Lineal (LR)
Este tipo de regresión es conocida por su ecuación:

$$
Yhat = a + b  X
$$


In [None]:
# Regresión Lineal

from sklearn.linear_model import LinearRegression

# Dividir los datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split
X = df['hightway-mpg'] # Variable independiente
Y = df['price'] # Variable dependiente
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3,random_state = 0)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train,Y_train)

# Obtener los coeficientes del modelo
model.intercept_
model.coef_

# Crear predicciones
Y_pred = model.predict(X_test)

#### 4.2.2. Regresión Polinomial (PR)

Este tipo de regresión se utiliza para describir relaciones curvilíneas. En este tipo de regresión puedes encontrar diferentes modelos como:

<center><b>Quadrática - Orden 2</b></center>

$$
\hat{Y} = a + b_1X + b_2X^2
$$

<center><b>Cúbica - Orden 3</b></center>

$$
\hat{Y} = a + b_1X + b_2X^2 + b_3X^3
$$

<center><b>De Orden Superior</b></center>

$$
Y = a + b_1X + b_2X^2 + b_3X^3 + \ldots
$$

In [None]:
# Regresión Polinomial

import numpy as np
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Split data between train and test
Z = df[['horsepower','curb-weight','engine-size','highway-L/100km']]
Y = df['price']
Z_train, Z_test, Y_train, Y_test = train_test_split(Z, Y, test_size = 0.3,random_state = 0)

# Normalize data 
Z_train_scaled = SCALE.fit_transform(Z_train)  # Normalize training data
Z_test_scaled = SCALE.transform(Z_test)  # Normalize test data

# Calculate Polynomial (3rd order, in this case)
pr = PolynomialFeatures(degree=3, include_bias=False)
Z_polly_train = pr.fit_transform(Z_train_scaled) # Apply polynomial transformation to normalized training data
Z_polly_test = pr.transform(Z_test_scaled) # Apply polynomial transformation to normalized test data

# Fit the regression model to the training data
model = LinearRegression()
model.fit(Z_polly_train, Y_train)

# Generate predictions with the test data
Y_pred = model.predict(Z_polly_test)

In [None]:
# Ajuste de un polinomio de 11º orden (cúbico)

f1 = np.polyfit(X, Y, 11)
p1 = np.poly1d(f1)

# Función para graficar el polinomio
def PlotPolly(model, independent_variable, dependent_variabble, Name):
    # Generar nuevos puntos para la curva ajustada
    X_new = np.linspace(15, 55, 100)
    Y_new = model(X_new)
    
    # Graficar los datos originales y la curva ajustada
    plt.plot(independent_variable, dependent_variabble, '.', X_new, Y_new, '-')
    plt.title('Polynomial Fit with Matplotlib for Price ~ Length')
    ax = plt.gca()
    ax.set_facecolor((0.898, 0.898, 0.898)) # Color de fondo del gráfico
    fig = plt.gcf()
    plt.xlabel(Name)
    plt.ylabel('Price of Cars')

    plt.show()
    plt.close()

# Llamar a la función para graficar el polinomio
PlotPolly(p1,x,y, 'Highway MPG')

In [None]:
# Pipeline

from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split

# Dividir los datos en entrenamiento y prueba
Z = df[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']]
Y = df['price']
Z_train, Z_test, Y_train, Y_test = train_test_split(Z, Y, test_size=0.3, random_state=0)

# Crear el pipeline
Input = [('polynomial', PolynomialFeatures(degree=2)), ('scale', StandardScaler()), ('model', LinearRegression())]
Pipe = Pipeline(Input)

# Entrenar el pipeline (ajustar el modelo)
Pipe.fit(Z_train, Y_train)

# Generar predicciones para los datos de prueba 
Y_pred = Pipe.predict(Z_test)

#### 4.2.3. Regresión Multiple (MLR)
Este tipo de regresión es conocida por su ecuación:

$$
Yhat = a + b\_1 X\_1 + b\_2 X\_2 + b\_3 X\_3 + b\_4 X\_4
$$

In [None]:
# Regresión Multiple

from sklearn.linear_model import LinearRegression

# Dividir los datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split
Z = df[['horsepower','curb-weight','engine-size','hightway-mpg']]
Y = df['price']
Z_train, Z_test, Y_train, Y_test = train_test_split(Z, Y, test_size = 0.3,random_state = 0)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(Z_train,Y_train)

# Obtener los coeficientes del modelo
model.intercept_
model.coef_

# Crear predicciones
Y_pred = model.predict(Z_test)

#### 4.2.4. Regresión Ridge
La regularización en la regresión Ridge es controlada por un parámetro de regularización (α), que controla la fuerza de la penalización aplicada a los coeficientes. Un valor más alto de (α) conduce a coeficientes más pequeños y a un modelo más regularizado.

In [None]:
from sklearn.linear_model import Ridge

alpha_value = [0,0.01, 0.1, 1, 10] # Valores mayores de alpha producen subajuste
R_squared_test = []

for value in alpha_value:
    # Dividir los datos entre entrenamiento y prueba
    Z = df[['horsepower','curb-weight','engine-size','highway-L/100km']]
    Y = df['price']
    Z_train, Z_test, Y_train, Y_test = train_test_split(Z, Y, test_size = 0.3,random_state = 0)

    # Crear el modelo Ridge
    RidgeModel = Ridge(alpha = value)

    # Ajustar el modelo de regresión a los datos de entrenamiento
    RidgeModel.fit(Z_train,Y_train)

    # Generar predicciones con el modelo 
    Y_pred = RidgeModel.predict(Z_test)
    
    # Evaluar R^2 con los datos de prueba
    R_squared_test.append(RidgeModel.score(Z_test,Y_test))

## 5. Evaluación

En esta sección, evaluamos el rendimiento del modelo predictivo desarrollado en la fase de modelado. Utilizamos métricas específicas para medir la precisión, la robustez y la generalización del modelo frente a datos nuevos. Además, realizamos análisis detallados de errores y validación cruzada para garantizar la fiabilidad de las predicciones.

### 5.1.  Evaluación Gráfica

In [None]:
# Regression Plot

import seaborn as sns
sns.regplot(X="engine-size", Y = "price", data = df)
plt.ylim(0,) # Limitar el eje y para comenzar en 0

# Configurar etiquetas y título
plt.xlabel('Engine Size')
plt.ylabel('Price')
plt.title('Correlation between Price and Engine Size')
plt.show()

In [None]:
# Residual Plot

import seaborn as sns
sns.residplot(df['hightway-mpg'], df['price']) 
plt.show() # Mostrar el gráfico

In [None]:
# Distribution Plot

import seaborn as sns

# Crear el gráfico de distribución
ax1 = sns.distplot(df['price'],hist = False, color = 'r', label = 'Actual Value')
sns.distplot(Y_pred,hist = False, color = 'b', label = 'Fitted Values', ax = ax1)

# Configurar título y etiquetas
plt.title('Actual vs Fitted Values for Price')
plt.xlabel('Price')
plt.ylabel('Proportion of laptops')
plt.legend(['Actual Value', 'Predicted Value'])
plt.show()  # Mostrar el gráfico

<h3> 5.2. Desempeño del Modelo </h3>

In [None]:
# Error Cuadrático Medio (MSE)

from sklearn.metrics import mean_squared_error

# Calcular el MSE
mse_slr = mean_squared_error(Y_test,Y_pred)
print('The MSE for your model is: ', mse_slr)

In [None]:
# R-Cuadrado (R²)

from sklearn.metrics import r2_score

# Calcular R²
r2_test = r2_score(Y_test, Y_pred)
print("R-squared (R²) - Test data:", r2_test)

In [None]:
# Cross-Validation

from sklearn.model_selection import cross_val_score

# Calcular los puntajes de validación cruzada para el modelo
scores = cross_val_score(model, X_train, Y_train, cv = 3)

# Calcular el promedio de los puntajes
mean_score = np.mean(scores)

# Imprimir el promedio de los puntajes
print("Promedio de puntajes de validación cruzada:", mean_score)

<h3> 5.3. Comparación de Modelos </h3>

In [None]:
order = [1,2,3,4,5]
R_squared_test = []

# Dividir los datos entre entrenamiento y prueba
Z = df[['horsepower','curb-weight','engine-size','highway-L/100km']]
Y = df['price']
Z_train, Z_test, Y_train, Y_test = train_test_split(Z, Y, test_size = 0.3,random_state = 0)

for n in order:
    # Calcular la transformación polinomial
    pr = PolynomialFeatures(degree = n)
    Z_polly_train = pr.fit_transform(Z_train) # Aplicar transformación polinomial a los datos de entrenamiento
    Z_polly_test = pr.transform(Z_test) # Aplicar transformación polinomial a los datos de prueba

    # Ajustar el modelo de regresión a los datos de entrenamiento
    model = LinearRegression()
    model.fit(Z_polly_train, Y_train)

    # Evaluar R^2 con los datos de prueba
    R_squared_test.append(model.score(Z_polly_test,Y_test))

<h3> 5.4. Comparación de Hiperparámetros </h3>

In [None]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

# Create a list of parameters
parameters = [{'alpha':[0.001,0.01,0.1,1,10], 'normalize':[True,False]}]

# Create a Ridge Model
RidgeModel = Ridge()

# Create Grid
Grid = GridSearchCV(RidgeModel,parameters,cv=4)

# Fit Grid
Grid.fit(X,Y)

# Select best combination of parameters
Grid.best_estimator_

# Store results
scores = Grid.cv_results_
scores ['mean_test_score']

##  6. Conceptos Técnicos


### 6.1. Preprocesamiento de Datos
- **Binning**: Transforma variables numéricas en categorías discretas para simplificar modelos y manejar valores atípicos.
- **Normalización**:
  - **Min-Max Scaling**: Escala los valores al rango [0, 1].
  
$$ \text{New_value} = \frac{\text{Old_value} - \text{Min_value}}{\text{Max_value} - \text{Min_value}} $$
 
  - **Z-score Standardization**: Transforma valores para tener media 0 y desviación estándar 1.
  
$$ \text{New_value} = \frac{\text{Old_value} - \text{Avg_value}}{\text{Std_value}} $$

  - **Robust Scaling**: Utiliza la mediana y rango intercuartílico, robusto ante valores atípicos.
  - **Log Transformation**: Aplica logaritmo para reducir varianza y mejorar distribución de datos.
  
### 6.2. Modelado Predictivo
- **Modelo de Regresión Lineal**: Establece relación lineal entre variables.
- **Modelo de Regresión Polinomial**: Captura relaciones no lineales mediante polinomios.
- **Regresión Ridge**: Controla sobreajuste con penalización en función de coste.

### 6.3. Evaluación de Modelos
- **Underfitting y Overfitting**:
  - **Underfitting**: Modelo demasiado simple que no captura la complejidad de los datos.
  - **Overfitting**: Modelo demasiado complejo que se ajusta demasiado a los datos de entrenamiento.
  
<center>
    <img src="https://miro.medium.com/v2/resize:fit:1200/1*YQ5tjb1TqNHenYMFk2tPog.png" width="700" alt="cognitiveclass.ai logo">
</center>

- **MSE (Error Cuadrático Medio)**: Mide la discrepancia entre valores reales y predichos por el modelo.
- **R-Cuadrado (R²)**: Indica la proporción de varianza explicada por el modelo.
- **Validación Cruzada (Cross-Validation)**: Evalúa el rendimiento del modelo con múltiples divisiones de datos.

### 6.4. Análisis Estadístico

#### ANOVA (Análisis de Varianza)
- **Propósito**: Compara medias de grupos para identificar diferencias significativas.

#### Coeficiente F (F-statistic)
- **Significado**: Indica la relación entre la varianza explicada por el modelo y la varianza no explicada.
- **Interpretación**: Un valor alto de F indica que la varianza entre los grupos es mayor que la varianza dentro de los grupos, lo que sugiere que al menos un grupo tiene una media diferente.

#### Valor p (p-value)
- **Significado**: Indica la significancia estadística del coeficiente F.
- **Interpretación**:
  - **p-value < 0.05**: Existe evidencia significativa para rechazar la hipótesis nula, lo que sugiere que al menos un grupo tiene una media diferente.
  - **p-value > 0.05**: No hay evidencia suficiente para rechazar la hipótesis nula, lo que sugiere que no hay diferencias significativas entre las medias de los grupos.

### 6.5. Técnicas Avanzadas
- **Pipeline**: Encadena procesos como normalización y modelado para automatizar flujos de trabajo.
- **Transformación Polinomial**: Añade términos polinomiales para capturar relaciones no lineales.
- **GridSearchCV**: Busca mejores hiperparámetros para un modelo mediante búsqueda exhaustiva.