#Carga y descarga de archivos desde Google Colab

In [None]:
# !pip install numpy scipy matplotlib seaborn scikit-learn -q

##Subir archivos desde el sistema de archivos local

* La instrucción `files.upload` nos permite cargar archivos, así como conocer el nombre y tamaño de los los archivos que se cargaron.


In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Saving info_data.csv to info_data.csv
Saving msft.csv to msft.csv
Saving salesman.txt to salesman.txt
Saving times.csv to times.csv
User uploaded file "info_data.csv" with length 126 bytes
User uploaded file "msft.csv" with length 299996 bytes
User uploaded file "salesman.txt" with length 201 bytes
User uploaded file "times.csv" with length 130 bytes


## Descargar archivos en el sistema de archivos local

El comando `files.download`permite descargar un archivo desde el navegador a la computadora.

In [None]:
from google.colab import files

with open('example.txt', 'w') as f:
  f.write('some content')

files.download('example.txt')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
%ls

example.txt  info_data.csv  msft.csv  salesman.txt  times.csv


In [None]:
%pwd

'/gdrive/MyDrive/SemanaTec/datasets'

#Accediendo a Google Drive

* Podemos acceder a los archivos de Google Drive de varias maneras:
  - Activación de Google Drive en el entorno de ejecución.
  - Usar la [API nativa de REST](https://developers.google.com/drive/v3/web/about-sdk).
  - Usar una "wrapper" basado en la API como [PyDrive](https://gsuitedevs.github.io/PyDrive/docs/build/html/index.html)

## Activación de Google Dirve de forma local

* Este código ya lo habíamos utiliza en la sesión anterior, cuando empezamos a utilizar Google Colab
* Cada vez que usemos este método, nos pedirá autorización de acceso.


In [None]:
#Montar nuestro Google Drive en el entorno de Google Colab
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


* Una vez montado, nos cambiaremos a nuestra carpeta de trabajo, **SemanaTec**

In [None]:
%cd /gdrive/MyDrive/SemanaTec/

/gdrive/MyDrive/SemanaTec


In [None]:
%ls

credenciales.json  [0m[01;34mdatasets[0m/  [01;34mRepositorioSemanaTec[0m/


* Por último, creamos una carpeta llamada **datasets** y nos cambiaremos a ella. En esta carpeta colocaremos los diferentes archivos con datos que estaremos usando a lo largo de las actividades.

In [None]:
%mkdir datasets

In [None]:
%cd datasets/

/gdrive/MyDrive/SemanaTec/datasets


* Por último, cargaremos los siguientes archivos: `info.csv`, `salesman.txt`, `times.csv` y `sample_data.xlsx`. Estos archivos los puedes encontrar en la carpeta **datasets** del respotirio de la clase.
* Puedes usar la celda en la que hablamos sobre subir archivos desde el sistema de archivos local.
* Los archivos los usaremos para ejemplificar cómo realizar la lectura de archivos en Google Colab.

#Lectura de archivos con Python

## Archivos de texto

* Para realizar la lectura de archivos en Python, podemos usar el paquete `csv`. Para ello, siempre deberemos importarlo.

In [None]:
import csv
with open ('info.csv') as csvFile:
    reader = csv.reader(csvFile, delimiter = ",")
    for row in reader:
        print(row)

['\ufeff', 'Column 1', 'Column 2', 'Column 3']
['Row 1', '15.5', '12.14', '65.9']
['Row 2', '18.6', '23.56', '45.2']
['Row 3', '21.4', '47.02', '21.63']
['Row 4', '23.7', '63.56', '36.12']


* Si el archivo se encuentra separado por comas, no es necesario especificar el último parámetro.

In [None]:
import csv
with open ('info.csv') as csvFile:
    reader = csv.reader(csvFile)
    for row in reader:
        print(row)

['\ufeff', 'Column 1', 'Column 2', 'Column 3']
['Row 1', '15.5', '12.14', '65.9']
['Row 2', '18.6', '23.56', '45.2']
['Row 3', '21.4', '47.02', '21.63']
['Row 4', '23.7', '63.56', '36.12']


* Este parámetro, `delimiter`, es util cuando nos encontramos con archivos que utilizan otros separadores como `;`.
* Además, la extensión del archivo no tiene por que ser `.csv`. Lo importante es que sea un archivo de texto, en el que los campos están separados.

In [None]:
import csv
with open ('times.csv') as csvFile:
    reader = csv.reader(csvFile, delimiter = ";")
    for row in reader:
        print(row)

['1', '6', '12:01:03', '0,50', 'WORST']
['2', '16', '07:42:51', '0,32', 'BEST']
['3', '19', '12:01:29', '0,50']
['4', '13', '03:22:50', '0,14', ' INTERMEDIATE']
['5', '8', '09:30:03', '0,40', 'WORST']


* Tal vez, algunas veces necesitaremos que nos regrese los datos como un diccionario de datos.

In [None]:
import csv
with open ('salesman.txt') as csvFile:
    reader = csv.DictReader(csvFile)
    for row in reader:
        print(row)

OrderedDict([('salesman_id', '5001'), ('name', 'James Hoog'), ('city', 'New York'), ('commission ', '0.15')])
OrderedDict([('salesman_id', '5002'), ('name', 'Nail Knite'), ('city', 'Paris'), ('commission ', '0.13')])
OrderedDict([('salesman_id', '5005'), ('name', 'Pit Alex'), ('city', 'London'), ('commission ', '0.11')])
OrderedDict([('salesman_id', '5006'), ('name', 'Mc Lyon'), ('city', 'Paris'), ('commission ', '0.14')])
OrderedDict([('salesman_id', '5007'), ('name', 'Paul Adam'), ('city', 'Rome'), ('commission ', '0.13')])
OrderedDict([('salesman_id', '5003'), ('name', 'Lauson Hen'), ('city', 'San Jose'), ('commission ', '0.12')])


## Hojas de cálculo

* Los ejemplos que aparecen a continuación usan la biblioteca de código abierto `xlrd` para interactuar con hojas de cálculo de Excel-97 (más adelante veremos cómo interactuar con la versión actual de Excel).
* Primero, instalaremos el paquete usando `pip`.

In [None]:
!pip install --upgrade --quiet xlrd

[?25l[K     |███▍                            | 10 kB 22.4 MB/s eta 0:00:01[K     |██████▉                         | 20 kB 12.3 MB/s eta 0:00:01[K     |██████████▏                     | 30 kB 9.8 MB/s eta 0:00:01[K     |█████████████▋                  | 40 kB 7.8 MB/s eta 0:00:01[K     |█████████████████               | 51 kB 4.4 MB/s eta 0:00:01[K     |████████████████████▍           | 61 kB 5.1 MB/s eta 0:00:01[K     |███████████████████████▊        | 71 kB 5.5 MB/s eta 0:00:01[K     |███████████████████████████▏    | 81 kB 5.7 MB/s eta 0:00:01[K     |██████████████████████████████▌ | 92 kB 6.3 MB/s eta 0:00:01[K     |████████████████████████████████| 96 kB 2.9 MB/s 
[?25h

* Ahora, abriremos el archivo `sample_data.xls`. En este archivo de Excel, hay tres hojas. Abriremos la segunda hoja (index = 1) y la desplegaremos.

In [None]:
# Reading an excel file using Python
import xlrd

# To open Workbook
wb = xlrd.open_workbook('sample_data.xls')
sheet = wb.sheet_by_index(1)

for i in range(sheet.nrows):
  print(sheet.row_values(i))

['OrderDate', 'Region', 'Rep', 'Item', 'Units', 'Unit Cost', 'Total']
[44202.0, 'East', 'Jones', 'Pencil', 95.0, 1.99, 189.05]
[44219.0, 'Central', 'Kivell', 'Binder', 50.0, 19.99, 999.4999999999999]
[44236.0, 'Central', 'Jardine', 'Pencil', 36.0, 4.99, 179.64000000000001]
[44253.0, 'Central', 'Gill', 'Pen', 27.0, 19.99, 539.7299999999999]
[44270.0, 'West', 'Sorvino', 'Pencil', 56.0, 2.99, 167.44]
[44287.0, 'East', 'Jones', 'Binder', 60.0, 4.99, 299.40000000000003]
[44304.0, 'Central', 'Andrews', 'Pencil', 75.0, 1.99, 149.25]
[44321.0, 'Central', 'Jardine', 'Pencil', 90.0, 4.99, 449.1]
[44338.0, 'West', 'Thompson', 'Pencil', 32.0, 1.99, 63.68]
[44355.0, 'East', 'Jones', 'Binder', 60.0, 8.99, 539.4]
[44372.0, 'Central', 'Morgan', 'Pencil', 90.0, 4.99, 449.1]
[44389.0, 'East', 'Howard', 'Binder', 29.0, 1.99, 57.71]
[44406.0, 'East', 'Parent', 'Binder', 81.0, 19.99, 1619.1899999999998]
[44423.0, 'East', 'Jones', 'Pencil', 35.0, 4.99, 174.65]
[44440.0, 'Central', 'Smith', 'Desk', 2.0, 125.