# **Importación de datos con Pandas**

---
---

### **Transformando archivos CSV a dataframes de Pandas**

Recordemos que comunmente el formato de datos que reciben los modelos de Machine Learning de scikit-learn, es el de dataframe de la biblioteca Pandas. A su vez, el formato dataframe de Pandas comunmente se construye tomando una base de datos en formato CSV (*comma-separated values*).

El código simple de importación de datos con Pandas es:

    import pandas as pd
    df = pd.read_csv("archivo.csv")

---

### **Codificación UTF-8**

El código anterior abre el archivo CSV con una codificación UTF-8 por default, pues es el formato más popular y completo en la actualidad ya que permite ver todo el abecedario inglés incluyendo caracteres especiales como acentos y la letra ñ.

---

### **Otras codificaciones en Colab**

 Puede ocurrir que las bases de datos no estén en codificación UTF-8, por lo que se debe especificar qué tipo de codificación tiene.

Existen diversas codificaciones en las bases de datos, como lo son UTF-16, UTF-32, ISO 8859-1, ASCII, EBCDIC, CP930, etc. ¿Cómo saber qué codificación tenemos?

En Python existe una biblioteca llamada Chardet que permite leer una muestra de la base de datos y detectar la codificación del archivo CSV, esto lo hace mediante secuencias de bytes, mostrando el nivel de confianza de que la base sea de cierta codificación.

La sintaxis de Chardet para determinar el tipo de codificación del archivo en Google Colab es la siguiente:

    import chardet
    file_path = "/content/archivo.csv"
    with open(file_path, "rb") as f:
      rawdata = f.read(5000) # se leen los primeros 5000 bytes de datos
    result = chardet.detect(rawdata)
    result

La función detect() arroja un diccionario de 3 variables, de la forma:

    {'encoding': '', 'confidence': , 'language': ''}

En donde la parte de 'encoding', es la información del tipo de codificación tenemos, por lo que la sintaxis de información para importar un archivo CSV con una codificación específica es:

    df = pd.read_csv("/content/archivo.csv", encoding="   ")


---

### **Ejemplo: Arañas.csv**


In [3]:
import chardet

from google.colab import drive
drive.mount('/content/drive')

file_path = '/content/drive/MyDrive/Colab Notebooks/Preprocesamiento/Arañas.csv'

with open(file_path, "rb") as f:
    rawdata = f.read(5000)

result = chardet.detect(rawdata)
result

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}

#### Ya que se tenemos el tipo de codificación, importamos Arañas.csv con pandas.

In [5]:
import pandas as pd
df = pd.read_csv(file_path, encoding="ISO-8859-1")
df.head()

Unnamed: 0,Tamaño corporal (mm),Color principal,Número de ojos,Importancia Médica,Hábitat,Nivel de veneno (1-5),Frecuencia de encuentros con humanos (1-5),Especie,Patas con bandas de color,Estado de observación,Encontrada en rincón de casa,Forma del abdomen,Temperatura del lugar (°C),Número de Patas
0,21.9,rojizo,8.0,No,desierto,4.0,3.0,Araña lobo,no,Yucatán,no,ovalado,36.9,8.0
1,47.8,amarillo,8.0,No,bosque,3.0,2.0,Araña de jardin,Si,Baja California,no,redondo,34.9,8.0
2,37.9,negro,6.0,Si,urbano,,5.0,Araña violinista,no,Baja California,no,triangular,19.5,8.0
3,31.9,rojizo,,No,bosque,1.0,4.0,Tarántula,Si,Yucatán,no,triangular,38.6,6.0
4,12.0,rojizo,8.0,No,bosque,4.0,4.0,Araña de jardin,Si,Oaxaca,no,ovalado,34.8,8.0
