<p><img height="45px" src="https://drive.google.com/uc?id=1aJx1i5ecv6L6R5zUqK_ry6vuDnBDmprd"align="left" hspace="10px" vspace="0px"></p>

<h1>Carga y lectura de un Dataset en formato CSV</h1>
<br>

*Tiempo aproximado:* ***10 minutos***

---

# **Introducción**

Con esta práctica aprenderá a cargar un *dataset* en Google Colab y obtendrá algunos conocimientos fundamentales de la librería **Pandas**. Pandas es una librería de código abierto construida sobre Python para el análisis y manipulación de datos, es rápida, potente, flexible y fácil de utilizar.


# **Adquisición de datos**

Un conjunto de datos se puede almacenar en diversos formatos (.csv, .json, .xlsx, etc.) y lugares (desde una máquina local hasta un repositorio en línea).
<br><br>
El conjunto de datos con el que trabajará tiene formato CSV (valores separados por comas), contiene la información de 205 automóviles con diferentes características y se encuentra en la nube (https://raw.githubusercontent.com/lvmeninnovations/datasets/main/crispdm/auto.csv). 
<br><br>
Usted aprenderá a cargar el conjunto de datos en un cuaderno de Google Colab por medio de la librería Pandas. Esta librería nos permite leer los datos en forma de *data frame*, es decir, en forma de hojas de datos. Cada fila de la hoja de datos corresponde a una instancia y cada columna corresponde a los valores de un atributo. 
<br><br>
Google Colab tiene la librería Pandas incorporada, de modo que, podrá importarla sin realizar instalaciones extra, tal y como se muestra en el siguiente código.



In [1]:
# Importar la librería pandas
import pandas as pd

## Leer los datos

Usamos la función ```pandas.read_csv()``` para leer el archivo CSV. Dentro del paréntesis, colocamos la ruta del archivo en comillas, de esta manera, pandas leerá el archivo como un *data frame* desde esa dirección. La ruta del archivo puede ser una URL o la ubicación local del archivo.
<br><br>
Debido a que los datos no incluyen encabezado, podemos agregar el argumento ```headers = None``` dentro del método ```read_csv()```, para que pandas no establezca automáticamente la primera fila como encabezado.
También, le puede asignar a cualquier variable, el conjunto de datos adquirido (nosotros utilizaremos la variable ```df```).

In [2]:
# Importar la librería pandas
import pandas as pd

# Leer el conjunto de datos por medio de la URL proporcionada y asignarlo a la variable "df"
other_path = "https://raw.githubusercontent.com/armandoordonez/eda_couse/main/climate_temp.csv"
df = pd.read_csv(other_path)

Después de leer los datos, podemos utilizar el método ```dataframe.head(n)```para visualizar las primeras *n* filas del *data frame* (*n* es un entero). Al contrario de ```dataframe.head(n)```, ```dataframe.tail(n)``` le mostrará las últimas *n* del *data frame*. Ejecute el siguiente código para visualizar las primeras 5 filas del *dataset*.

In [None]:
# Mostrar las primeras 5 filas del dataset utilizando el método dataframe.head()
print("Las primeras 5 filas del data frame:") 
df.head(5)

Las primeras 5 filas del data frame:


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


## Ejercicio 1

**Vea las últimas 10 filas del** ***dataframe*** **"df".** Ingrese sus líneas de código a continuación:

In [None]:
#Escriba su código a continuación y presione Shift + Enter para ejecutar


**SOLUCIÓN DEL EJERCICIO:**

Haga doble clic **aquí** para ver la solución del Ejercicio 1. 

<!-- La respuesta es la siguiente:

print("Las últimas 10 filas del data frame\n")
df.tail(10)

-->

## Agregar encabezado

Para describir mejor nuestros datos, podemos agregar un encabezado que indique lo nombres de los atributos utilizados para describir cada automóvil, es decir, los nombres de las columnas de nuestro *dataframe*. La información de este encabezado se encuentra en el repositorio original del *dataset*: https://archive.ics.uci.edu/ml/datasets/Automobile
<br><br>
El encabezado se debe agregar manualmente siguiendo dos pasos. Primero, creamos una lista ```headers```que incluya todos los nombres de las columnas de manera ordenada. Luego, utilizamos el código ```dataframe.columns = headers``` para reeemplazar el encabezado por la lista que hemos creado.

In [None]:
# Crear la lista de nombres para el encabezado
headers = ["factor-riesgo","perdida-promedio-anual","fabricante","tipo-combustible","aspiracion", "num-puertas","estilo-carroceria",
         "traccion","ubicacion-motor","distancia-entre-ejes", "longitud","anchura","altura","peso-vacio","tipo-motor",
         "num-cilindros", "tamano-motor","sistema-combustible","calibre","carrera","relacion-compresion","caballos-fuerza",
         "pico-rpm","millas_por_galon_ciudad","millas_por_galon_carretera","precio"]
print("encabezados\n", headers)

encabezados
 ['factor-riesgo', 'perdida-promedio-anual', 'fabricante', 'tipo-combustible', 'aspiracion', 'num-puertas', 'estilo-carroceria', 'traccion', 'ubicacion-motor', 'distancia-entre-ejes', 'longitud', 'anchura', 'altura', 'peso-vacio', 'tipo-motor', 'num-cilindros', 'tamano-motor', 'sistema-combustible', 'calibre', 'carrera', 'relacion-compresion', 'caballos-fuerza', 'pico-rpm', 'millas_por_galon_ciudad', 'millas_por_galon_carretera', 'precio']


Reemplazamos el encabezado y verificamos nuestro *data frame*:

In [None]:
df.columns = headers
df.head(10)

Unnamed: 0,factor-riesgo,perdida-promedio-anual,fabricante,tipo-combustible,aspiracion,num-puertas,estilo-carroceria,traccion,ubicacion-motor,distancia-entre-ejes,longitud,anchura,altura,peso-vacio,tipo-motor,num-cilindros,tamano-motor,sistema-combustible,calibre,carrera,relacion-compresion,caballos-fuerza,pico-rpm,millas_por_galon_ciudad,millas_por_galon_carretera,precio
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,177.3,66.3,53.1,2507,ohc,five,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,192.7,71.4,55.7,2844,ohc,five,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,192.7,71.4,55.7,2954,ohc,five,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,192.7,71.4,55.9,3086,ohc,five,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,178.2,67.9,52.0,3053,ohc,five,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


Hasta aquí hemos leído con éxito el conjunto de datos sin procesar y hemos agregado los encabezados correctos al *data frame*.

## Ejercicio 2
**Imprima los nombres de las columnas del dataframe.** Ingrese sus líneas de código a continuación:


In [None]:
# Escriba su código a continuación y presione Shift + Enter para ejecutar 


**SOLUCIÓN DEL EJERCICIO:**

Haga doble clic **aquí** para ver la solución del Ejercicio 

1.   Elemento de la lista
2.   Elemento de la lista

2. 

<!-- La respuesta es la siguiente:

print(df.columns)

-->

# **Guardar el Dataset**

Pandas nos permite guardar el dataset en CSV utilizando el método ```dataframe.to_csv()```. Dentro del paréntesis puede indicar la ruta y nombre del archivo entre comillas.
<br><br>
Por ejemplo, si desea guardar el dataframe ```df```en su máquina local, debe utilizar la siguiente sintaxis:
<br>
```df.to_csv("automobile.csv", index=False)```
<br><br>
La línea de código anterior guardará el archivo en la máquina donde se ejecuta el código, esto quiere decir que quedará guardado en el servidor de Google Colab que le permite trabajar con este cuadero. En consecuencia, para descargar el archivo CSV creado en la nube, puede utilizar la librería ```files```de Google Colab para llevar a cabo esta acción.
<br><br>
El siguiente código guarda el archivo CSV y lo descarga.

In [None]:
from google.colab import files
df.to_csv("automobile.csv", index=False)
files.download("automobile.csv")

**Guía para leer/guardar en otros formatos:**

También podemos leer y guardar otros tipos de formatos utilizando funciones similares a **`pd.read_csv()`** y **`df.to_csv()`**. La siguiente tabla muestra una lista de funciones que le pueden servir:


| Data Formate  | Read           | Save             |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| excel         | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |
| ...           |   ...          |       ...        |


Después de leer los datos por medio de un *data frame* con Pandas, es tiempo de explorar el *dataset*. **Esta actividad la realizaremos en una práctica posterior.**



<h3>Acerca de los autores:</h3>

Este cuaderno se hizo con base en el diseñado por <a href="https://www.linkedin.com/in/mahdi-noorian-58219234/" target="_blank">Mahdi Noorian PhD</a>, <a href="https://www.linkedin.com/in/joseph-s-50398b136/" target="_blank">Joseph Santarcangelo</a>, Bahare Talayian, Eric Xiao, Steven Dong, Parizad, Hima Vsudevan, <a href="https://www.linkedin.com/in/fiorellawever/" target="_blank">Fiorella Wenver</a> and <a href=" https://www.linkedin.com/in/yi-leng-yao-84451275/ " target="_blank" >Yi Yao</a>.

---

Utilizamos y modificamos el cuaderno original, acogiéndonos a la Licencia <a href="https://cognitiveclass.ai/mit-license/">MIT License</a>.