# Actividades 1 y 2: Instalación del ecosistema Python

En esta primera actividad realizamos la instalación de las principales librerías de carácter científico que utilizaremos durante el desarrollo de la asignatura. Estas librerías serán:

- ``Numpy``
- ``Matplotlib``
- ``Pandas``
- ``SciPy``
- ``Sklearn``

La instalación se realizó mediante el gestor de paquetes ``pip``. A continuación mostramos el código necesario para comprobrar la correcta instalación de las librerías en la máquina dónde se realizó este mismo notebook.

In [1]:
import scipy
import numpy as np
import matplotlib as mlt
import pandas as pd
import sklearn

print('scipy: ', scipy.__version__)
print('numpy: ', np.__version__)
print('matplotlib: ', mlt.__version__)
print('pandas: ', pd.__version__)
print('sklearn: ', sklearn.__version__)

scipy:  1.8.1
numpy:  1.22.4
matplotlib:  3.5.2
pandas:  1.4.2
sklearn:  1.1.1


# Actividad 2: Carga de un fichero ``.csv``

En la segunda actividad propuesta, se procedió a realizar la carga de un fichero csv utilizando los siguientes métodos:

- Carga mediante la librería estándar de Python.
- Carga mediante ``numpy``.
- Carga mediante ``pandas``.

Para esta actividad vamos a utilizar el ''Car Evaulation Data Set'' obtenido en el ''UCI Machine Learning Repository''. https://archive.ics.uci.edu/ml/datasets/Car+Evaluation

Este dataset evalúa el ''grado de aceptación'' de un vehículo en base a los siguientes factores:

- Precio de compra del vehículo.
- Coste de mantenimiento del vehículo.
- Número de puertas.
- Número de personas que puede transportar.
- Tamaño del maletero.
- Seguridad estimada del vehículo.

En base a estas variables clasifica el grado de aceptación en las siguientes clases:

- No aceptable
- Aceptable
- Bueno
- Muy bueno

## Carga utilizando la librería ``csv``

In [2]:
import csv

raw_data = open('car.csv', 'rt')
reader = csv.reader(raw_data, delimiter = ',', quoting = csv.QUOTE_NONE)
x = list(reader)
print(x[:10])

[['vhigh', 'vhigh', '2', '2', 'small', 'low', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'small', 'med', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'small', 'high', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'med', 'low', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'med', 'med', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'med', 'high', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'big', 'low', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'big', 'med', 'unacc'], ['vhigh', 'vhigh', '2', '2', 'big', 'high', 'unacc'], ['vhigh', 'vhigh', '2', '4', 'small', 'low', 'unacc']]


In [3]:
print(f'Número de instancias {len(x)}')
print(f'Número de características {len(x[0])}')

Número de instancias 1728
Número de características 7


## Carga con ``numpy`` 

In [4]:
np_data = np.loadtxt('car.csv', delimiter = ',', dtype = str)
print(np_data.shape)

(1728, 7)


De nuevo, comprobamos que disponemos de 1728 instancias con 7 características por instancia.

## Carga con ``pandas``

Mediante el fichero ``car.names`` disponible en la página adjunta más arriba, podemos determinar los nombres de las características estudiadas. Utilizaremos esa información para asignarle un nombre a cada columna del DataFrame que vamos a construir a continuación.

In [5]:
col_names = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']
pd_data = pd.read_csv('car.csv', names = col_names)
print(pd_data.shape)

(1728, 7)


De la salida anterior podemos verificar que efectivamente tenemos 1728 instancias con 7 características por instancia.