# Load and Save

[IPython magics commands](https://platzi.com/tutoriales/1794-pandas/6960-ipython-magics-commands/)

Para cargar archivos desde el drive 

```py
from google.colab import drive
drive.mount('/content/drive')
```

In [21]:
import pandas as pd
import numpy as np

In [22]:
dict_data = {
    'edad' :     [ 10, 9, 13, 14, 12, 11, 12],
    'cm' : [ 115, 110, 130, 155, 125, 120, 125],
    'pais' :    [ 'co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
    'genero' :  [ 'M', 'F', 'F', 'M', 'M', 'M', 'F'],
    'Q1' : [ 5, 10, 8, np.nan, 7, 8, 3],
    'Q2' : [ 7, 9, 9, 8, 8, 8, 9.]
}
dict_data

{'edad': [10, 9, 13, 14, 12, 11, 12],
 'cm': [115, 110, 130, 155, 125, 120, 125],
 'pais': ['co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
 'genero': ['M', 'F', 'F', 'M', 'M', 'M', 'F'],
 'Q1': [5, 10, 8, nan, 7, 8, 3],
 'Q2': [7, 9, 9, 8, 8, 8, 9.0]}

In [23]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


In [24]:
df.to_csv('files/test.csv', index=False)

In [25]:
pd.read_csv('files/test.csv')

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


## Tipos de formatos

[IO tools (text, CSV, HDF5, …)](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

* PICKLE: Bases de datos medianas (.pkl).
* PARQUET: Usado en Apache. Alto nivel de compresión. Práctico pero lento con grandes cantidades de datos.
* HDF: Muy usado en ambientes de Big Data como Hadoop.
* FEATHER:
* CSV: Son simples, requieren alto costo computacional y algo lentos.
* JSON: Son simples, requieren alto costo computacional y algo lentos.

PICKLE, HDF, FEATHER y PARQUET son archivos binarios.

### Peso en memoria

El peso de estos tipos de archivos es similar, excepto *parquet*, cuya compresión es mayor.

Si se realiza una categorización de las variables se puede aumentar el nivel de compresión de *Feather*, *hdf* y *pickle* (parquet no se deja comprimir más).

JSON y CSV al ser formatos de texto no tienen alterazición con la categorización.

### Velocidad de lectura/escritura

JSON y CSV son los más lentos.

HDF es el más lento entre los binarios, porque está optimizado para Big Data.

### Consumo de RAM

JSON es el que ocupa más espacio en RAM

![](https://static.platzi.com/media/user_upload/DataFrames-f84e0ace-3a21-47c3-b3d9-54aba08627a6.jpg)

## Cargar de una base de datos

In [4]:
!pip install sqlalchemy
!pip install mysqlclient



You should consider upgrading via the 'c:\users\user\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


Collecting mysqlclient
  Downloading mysqlclient-2.1.0-cp39-cp39-win_amd64.whl (180 kB)
Installing collected packages: mysqlclient
Successfully installed mysqlclient-2.1.0


You should consider upgrading via the 'c:\users\user\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [5]:
import sqlalchemy as sql
import pandas as pd

database_type = 'mysql'

user = 'root'
password = '2705'
host = 'localhost:3306'
database = 'pildoras'

conn_string = '{}://{}:{}@{}/{}'.format(
database_type, user, password, host, database)

sql_conn = sql.create_engine(conn_string)

In [8]:
query_sql = 'select * from clientes'
df = pd.read_sql(query_sql, sql_conn)
df.head(5)

Unnamed: 0,CODIGOCLIENTE,EMPRESA,DIRECCION,POBLACION,TELEFONO,RESPONSABLE,HISTORIAL
0,CT01,BELTRAN E HIJOS,LAS FUENTES 78,MADRID,914456435,ANGEL MARTINEZ,
1,CT02,LA MODERNA,LA PALOMA 123,OVIEDO,985323434,JUAN GARCIA,
2,CT03,EL ESPANOLITO,MOTORES 34,BARCELONA,934565343,ANA FERNANDEZ,
3,CT04,EXPORTASA,VALLECAS 34,MADRID,913452378,ELVIRA GOMEZ,
4,CT06,CONFECCIONES AMPARO,LOS MOROS 23,GIJON,985754332,LUIS ALVAREZ,
