# Laboratorio 3.1
## Importing the data
### Implementación del laboratorio de AWS

In [None]:
# Importar librerías necesarias
import warnings, requests, zipfile, io
warnings.simplefilter('ignore')
import pandas as pd
from scipy.io import arff

* **warnings:** módulo para manejar advertencias (warnings) de Python.

* **requests:** librería muy usada para hacer peticiones HTTP de manera sencilla.

* **zipfile:** módulo estándar para trabajar con archivos ZIP.

* **io:** módulo estándar que provee clases para manejar flujos de bytes/texto; aquí se usa para BytesIO.

* **arff:** permite leer archivos en formato ARFF.



```
warnings.simplefilter('ignore')
```
Cambia el filtro global de advertencias para ignorar todas las warnings que se publiquen tras esta línea.


In [None]:
# Descarga el archivo zip
f_zip = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00212/vertebral_column_data.zip'
r = requests.get(f_zip, stream=True)
Vertebral_zip = zipfile.ZipFile(io.BytesIO(r.content))

#Extracción del contenido
Vertebral_zip.extractall()

In [None]:
# Lectura del archivo arff
data = arff.loadarff('column_2C_weka.arff')

# Creación del DataFrame con Pandas
df = pd.DataFrame(data[0])
df.head()

Unnamed: 0,pelvic_incidence,pelvic_tilt,lumbar_lordosis_angle,sacral_slope,pelvic_radius,degree_spondylolisthesis,class
0,63.027817,22.552586,39.609117,40.475232,98.672917,-0.2544,b'Abnormal'
1,39.056951,10.060991,25.015378,28.99596,114.405425,4.564259,b'Abnormal'
2,68.832021,22.218482,50.092194,46.613539,105.985135,-3.530317,b'Abnormal'
3,69.297008,24.652878,44.311238,44.64413,101.868495,11.211523,b'Abnormal'
4,49.712859,9.652075,28.317406,40.060784,108.168725,7.918501,b'Abnormal'


### Otras formas de hacerlo


En python existen múltiples librearías parar raelizar todo tipo de acciones.

Para trabajar con archivos ZIP tenemos alternativas como:
* **shutil:** puede crear y extraer archivos ZIP y es una librería estándar.

* **pyzipper:** Es una versión moderna de zipfile con soporte para mejores algoritmos de encriptación (AES).

* **patoolib:** soporta casi todos los formatos de compresión (zip, rar, 7z...)

| Librería     | Tipo     | Pros                      | Contras                       |
| ------------ | -------- | ------------------------- | ----------------------------- |
| **zipfile**  | estándar | Completa y robusta        | API más detallada             |
| **shutil**   | estándar | Fácil de usar             | No permite leer sin extraer   |
| **pyzipper** | externa  | Encriptación AES, moderna | Requiere instalación          |
| **patoolib** | externa  | Soporta muchos formatos   | Depende de programas externos |


Para trabajar con archivos arff, tenemos las siguientes alternativas:

* **liac-arff:** es la más popular, soporta ARFF nominal, numérico, string; comentarios; relaciones complejas; guardar y cargar ARFF.

* **pandas-arff:** es un plugin para pandas que convierte ARFF directamente a DataFrame sin pasos intermedios.


| Librería          | Pros                            | Contras                             |
| ----------------- | ------------------------------- | ----------------------------------- |
| **scipy.io.arff** | Estándar, simple                | Terap problemas con strings (bytes) |
| **liac-arff**     | Más completa y robusta          | Lectura un poco más lenta           |
| **pandas-arff**   | Integración perfecta con pandas | No soporta ARFF muy complejos       |


#### Ejemplo utilizando shutil y liac-arff

In [None]:
!pip install liac-arff

Collecting liac-arff
  Downloading liac-arff-2.5.0.tar.gz (13 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: liac-arff
  Building wheel for liac-arff (setup.py) ... [?25l[?25hdone
  Created wheel for liac-arff: filename=liac_arff-2.5.0-py3-none-any.whl size=11717 sha256=28b3b7cd7b8f7111c39824593bc79c96d8e63370b19ca40dbbb722ea08ba122a
  Stored in directory: /root/.cache/pip/wheels/a9/ac/cf/c2919807a5c623926d217c0a18eb5b457e5c19d242c3b5963a
Successfully built liac-arff
Installing collected packages: liac-arff
Successfully installed liac-arff-2.5.0


In [None]:
import warnings
warnings.simplefilter('ignore')

import requests
import pandas as pd
import shutil
import arff

f_zip = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00212/vertebral_column_data.zip'

# Descargar ZIP
zip_path = "vertebral.zip"
with open(zip_path, 'wb') as f:
  f.write(requests.get(f_zip).content)

# Extraer el ZIP
shutil.unpack_archive(zip_path, 'data_liac')

# Leer archivo ARFF
with open('data_liac/column_2C_weka.arff', 'r') as f:
  arff_data = arff.load(f)

attribute_name = [att[0] for att in arff_data['attributes']]
df = pd.DataFrame(arff_data['data'], columns=attribute_name)

df.head()


Unnamed: 0,pelvic_incidence,pelvic_tilt,lumbar_lordosis_angle,sacral_slope,pelvic_radius,degree_spondylolisthesis,class
0,63.027817,22.552586,39.609117,40.475232,98.672917,-0.2544,Abnormal
1,39.056951,10.060991,25.015378,28.99596,114.405425,4.564259,Abnormal
2,68.832021,22.218482,50.092194,46.613539,105.985135,-3.530317,Abnormal
3,69.297008,24.652878,44.311238,44.64413,101.868495,11.211523,Abnormal
4,49.712859,9.652075,28.317406,40.060784,108.168725,7.918501,Abnormal
