# 5. Manejo Eficiente de gran volumen de Datos Pandas

Los profesionales de la ciencia de datos a menudo se encuentran con conjuntos de datos muy grandes con cientos de dimensiones y millones de observaciones. Hay varias formas de manejar grandes conjuntos de datos. Todos conocemos los sistemas de archivos distribuidos como **Hadoop** y **Spark** para manejar big data mediante la paralelización en varios nodos trabajadores en un clúster. 

Pero para esta sección, usaremos el atributo pandas **chunksize** o la función **get_chunk()**.

## Obteniendo archivos zip de sitios web

In [2]:
# pip install wget
import wget
# descargando archivo de gran volumen de informacion
url ='https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/moviedataset.zip'
filename = wget.download(url)

100% [......................................................................] 160301210 / 160301210

In [3]:
# extrayendo información en carpeta 'datasets'
import zipfile
zip = zipfile.ZipFile(filename)
zip.extractall('./datasets')
zip.close()

In [4]:
# os -> libreria maneja sistema operativo
import os
os.remove(filename) # remuevo zipfile
os.listdir('./datasets/ml-latest') # analizo contenido descomprimido
os.chdir('./datasets/ml-latest')

In [5]:
# analizo contenido de archivo
for index, f in enumerate(os.listdir()):
    print(f'file {index} {f} size {(os.path.getsize(f)/1000)} kb')

file 0 links.csv size 725.77 kb
file 1 movies.csv size 1729.811 kb
file 2 ratings.csv size 620204.63 kb
file 3 README.txt size 8.305 kb
file 4 tags.csv size 21094.823 kb


In [None]:
# # linux
# !wget -O moviedataset.zip https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/moviedataset.zip
# print('unziping ...')
# !unzip -o -j moviedataset.zip

## Procesando gran volumen de datos

Pandas carga data en memoria para realizar el procesamiento de datos, ello en casos en que se tenga un gran volumen de datos puede resultar complicado. Para resolver esto podemos usar iteradores en pandas para realizar procesamientos puntuales a la información sin utilizar todos nuestros recursos de memoria.

1. Cual es más común rating de peliculas en el rango de 0.5 a 5.0?
2. Cual es el promedio de rating por pelicula ?.

#### Ejemplo 1: Carga de Gran Volumen de datos

In [6]:
# importando librerias
import pandas as pd
import matplotlib.pyplot as plt

In [7]:
df_rating = pd.read_csv('ratings.csv')
df_rating.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,169,2.5,1204927694
1,1,2471,3.0,1204927438
2,1,48516,5.0,1204927435
3,2,2571,3.5,1436165433
4,2,109487,4.0,1436165496


In [8]:
df_rating.shape

(22884377, 4)

In [11]:
ratings_memory = df_rating.memory_usage().sum()

# Imprimimos el actual consumo de memoria en la operación
print('El total de consumo de memoria es -', ratings_memory,'Bytes.')

El total de consumo de memoria es - 732300192 Bytes.


In [12]:
# Finalmente, observamos el consumo de memoria utilizado en cada dimension.
df_rating.memory_usage()

Index              128
userId       183075016
movieId      183075016
rating       183075016
timestamp    183075016
dtype: int64

#### Ejemplo 2: Carga de Gran Volumen de datos con iteradores 

Una mejor forma de resolver esas preguntas sin utilizar demasida memoria y en tiempo real es utilizando 

In [13]:
rate_keys = list(df_rating['rating'].unique())

In [14]:
rate_keys

[2.5, 3.0, 5.0, 3.5, 4.0, 2.0, 1.0, 4.5, 1.5, 0.5]

In [24]:
import pandas as pd

rate_keys = set()
for chunk in pd.read_csv('ratings.csv', chunksize=10000):
    new = set(chunk['rating'].unique())
    rate_keys.union(new)

## Recursos Adicionales

- [Ingestando gran volumen de datos con Python](https://medium.com/towards-artificial-intelligence/efficient-pandas-using-chunksize-for-large-data-sets-c66bf3037f93)