# Quiz 1 | Aprendizaje Automático
## Estudiante: Marco Ferraro

## 1.0 Cargar Datos y Visualizar

En esta sección se cargan los datos y se visualizan para tener una idea de la distribución de los mismos. Adicionalmente se utilizará estadistica descriptiva para tener un mejor entendimiento de la naturaleza de los datos.

### 1.1 Cargar Datos

Se cargan los datos utilizando la librería pandas y se visualizan las primeras 5 filas para tener una idea de la estructura de los datos.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

cars_df = pd.read_csv('./data/imports-85.data', header=None, delimiter=',')

# Manually assign column names
num_columns = len(cars_df.columns)
column_names = ['column_{}'.format(i+1) for i in range(num_columns)]
cars_df.columns = column_names

cars_df.head()

In [None]:
cars_df.shape

### 1.2 Estadistica Descriptiva

Se utiliza la función describe() de pandas para obtener estadistica descriptiva de los datos. Esto nos permite tener una idea de la distribución de los datos y de la naturaleza de los mismos. 

In [None]:
cars_df.describe()

Recordemos que el data frame posee 26 columnas, pero estamos viendo solo las columna que posee datos numéricos, no las columnas que poseen datos categóricos.

Llama la atencion que la columna 14 posee una desviación estandar de 520, lo cual es muy alto comparado con el resto de las columnas. Esto puede indicar que la columna posee valores atípicos o outliers.

### 1.3 Visualización de Datos

Se visualizan los datos utilizando la librería matplotlib. Al igual que la tarea anterior, se utilizarán varios gráficos para tener una idea de la distribución de los datos.

#### 1.3.1 Boxplot

El boxplot o diagrama de caja y bigotes es un gráfico que permite visualizar la distribución de los datos. Esta representación gráfica permite visualizar la mediana, los cuartiles, los valores atípicos y el rango intercuartil. 

Vamos a visualizar el diagrama de caja de cada columna con valores numéricos para tener una idea de la distribución de los datos. Empezaremos con la columna 1.

In [None]:
plt.boxplot(cars_df['column_1'], vert=False)

plt.xlabel('column_1')
plt.ylabel('Boxplot')

plt.title('Boxplot of column_1 in Cars Dataset')


plt.show()

Podemos ver que la columna 1 mantiene valores entre -2 y 3. Sin embargo, este gráfico no nos aporta mucho ya que el describe de pandas nos representa valores númericos de forma exacta. La mejor opción es visualizar las columnas que se ven atipicas con este tipo de gráfico.

In [None]:
plt.boxplot(cars_df['column_14'], vert=False)

plt.xlabel('column_14')
plt.ylabel('Boxplot')

plt.title('Boxplot of column_1 in Cars Dataset')


plt.show()

Al visualizar los valores de la columna 14 nos damos cuenta que posee un rango muy grande, y mantiene un rango intercuartil muy grande. Sin embargo, no se visualizan valores atípicos o outliers, a como se había mencionado anteriormente.

#### 1.3.2 Matriz de Correlación

Debido a las ensezanazas de la tarea anterior se utilizará una matriz de correlación para visualizar la relación entre las variables. Esto es de gran ayuda ya que podemo visualizar de una forma más clara cuales columnas poseen una relación lineal entre ellas. Recordemos que para esto solo vamos a utilizar las columnas que poseen valores numéricos.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

columns = ['column_1',	'column_10', 'column_11',	'column_12',	'column_13', 	'column_14',	'column_17',	'column_21',	'column_24',	'column_25']

matrix = cars_df[columns].corr()

matrix

In [None]:
mask = np.triu(np.ones_like(matrix, dtype=bool))
sns.heatmap(matrix, annot=True, fmt=".0%", mask=mask, cmap='coolwarm')

# Display the plot
plt.show()

Estamos ignorando la diagonal ya que la correlación de una variable consigo misma es 1.0. Dicho esto, podemos apreciar que la columna 24 con la columna 25 poseen una correlación de 97%, lo cual es muy alto. Esto nos indica que estas dos columnas poseen una relación lineal muy fuerte y de forma positiva. Hay otras relaciones que son de este nivel, como la 10 con la 11.

La columna 13 y 17 poseen una correlacion del 7%, lo cual es muy bajo. Esto nos indica que estas dos columnas no poseen una relación lineal fuerte.

Tambien podemos apreciar que columnas, como la 14 y 25 poseen una correlación negativa muy acentuada.

Vamos a realizar un gráfico de dispersión para visualizar la relación entre este set de ejemplos

#### 1.3.3 Gráfico de Dispersión

Se realizarán 3 gráficos de dispersión para visualizar la relación entre las variables. Se utilizarán las columnas 10 y 11, 13 y 17, y 14 y 25 ya que poseen una correlación muy fuerte, muy baja y negativa, respectivamente. Vamos a graficar una recta de mejor ajuste para visualizar la relación entre las variables.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

def plot_scatter_plot(x, y, x_label='X', y_label='Y', title='Scatter Plot'):

# Create a linear regression model
  model = LinearRegression()
  model.fit(x, y)

  # Predict the y-values based on the linear regression model
  y_pred = model.predict(x)

# Create scatter plot
  plt.scatter(x, y)

# Add best-fit line
  plt.plot(x, y_pred, color='red')

# Add labels and title
  plt.xlabel(x_label)
  plt.ylabel(y_label)
  plt.title(title)

  plt.show()


In [None]:
plot_scatter_plot(cars_df['column_10'].values.reshape(-1, 1), cars_df['column_11'].values.reshape(-1, 1), 'column_10', 'column_11', 'Scatter Plot of column_10 vs column_11') 

In [None]:
plot_scatter_plot(cars_df['column_13'].values.reshape(-1, 1), cars_df['column_17'].values.reshape(-1, 1), 'column_13', 'column_17', 'Scatter Plot of column_13 vs column_17')

In [None]:
plot_scatter_plot(cars_df['column_14'].values.reshape(-1, 1), cars_df['column_25'].values.reshape(-1, 1), 'column_14', 'column_25', 'Scatter Plot of column_14 vs column_25')

### 2.0 Atributos Categóricos

En esta sección realizaremos una busqueda en el dataset para encontrar atributos categóricos. Una vez que encontremos que una columna posee datos categoricos vamos a buscar todas las etiquetas únicas y determinar si son ordinames o nominales.

In [None]:
cars_df.head()

In [None]:
cars_df['column_3'].value_counts()


La columna 3 posee datos categoricos. Las etiquetas únicas correspondes a marcas de autos, por lo que son datos nominales. Vemos que la marca más popular es 'toyota' con 32 ejemplos, seguido por 'nissan' con 18 ejemplos.

In [None]:
cars_df['column_4'].value_counts()

La columna 4 posee datos que corresponden a etiquetas con valores de `gas` o `diesel`. Estos datos son nominales ya que no existe un orden entre ellos. Vemos que la etiqueta más popular es `gas` con 185 ejemplos, seguido por `diesel` con 20 ejemplos.

In [None]:
cars_df['column_5'].value_counts()

Otra columna con datos categoricos es la columna 5. Estos datos corresponden a etiquetas con valores de `std` o `turbo`. Estos datos son nominales ya que no existe un orden entre ellos. Vemos que la etiqueta más popular es `std` con 168 ejemplos, seguido por `turbo` con 37 ejemplos.

In [None]:
cars_df['column_6'].value_counts()

Un caso particular es la columna 6, ya que posee datos faltantes. Sin embargo, podemos ver que los datos que posee son `four`, `two` y `?`. Estos datos son nominales ya que no existe un orden debido a los datos faltantes, sin embargo si se remplazan los datos faltantes por `four` o `two` se puede considerar que existe un orden entre ellos. Vemos que la etiqueta más popular es `four` con 114 ejemplos, seguido por `two` con 89 ejemplos. 

In [None]:
cars_df['column_7'].value_counts()

La columna 7 posee datos que se refieren al tipo de modelo de un carro. Estos datos son nominales ya que no existe un orden entre ellos. Vemos que la etiqueta más popular es `sedan` y la menos popular es `convertibel`

In [None]:
cars_df['column_8'].value_counts()

Es esta caso vemos que las etiquetas corresponden a la tracción de un carro. Estos datos son nominales. Vemos que la etiqueta más popular es `fwd` con 120 ejemplos, seguido por `rwd` con 76 ejemplos.

In [None]:
cars_df['column_9'].value_counts()

Estas etiquetas tienen los valores de `front` y `rear`. Estos datos son nominales. Vemos que la etiqueta más popular es `front` con 202 ejemplos.

In [None]:
cars_df['column_15'].value_counts()

Estas etiquetas correspondes al diseño del motor de un carro. Estos datos son nominales. Vemos que la etiqueta más popular es `ohc` con 148 ejemplos.

In [None]:
cars_df['column_16'].value_counts()

Es este caso, los datos son ordinales, ya que corresponden a números con un orden. Vemos que la etiqueta más popular es `four` con 159 ejemplos.

In [None]:
cars_df['column_18'].value_counts()

Y, para la última columna los datos correspondes al modelo del carburador. Estos datos son nominales ya que no se pueden ordenar con alguna jerarquía. Vemos que la etiqueta más popular es `mpfi` con 94 ejemplos.