## Introducción a Pandas: Manejo de conjuntos de datos

### Resumen

En esta Notebook encontrarás un primer abordaje al uso de archivos para adquisición de datos.  Se presenta a la librería Pandas de Python, la cual ha sido de gran importancia para el desarrollo de IA en Python. Finalizaremos con una prueba de performance entre diferentes orígenes de datos.

### 1. DataFrames Pandas

### 1.1. Importacion de Librerias

In [85]:
import pandas as pd
import datetime as datetime
import pickle

### 1.2. Creación de Dataframes

In [86]:
# 1. Dataframe BRICS
dict = {"country": ["Brazil", "Russia", "India", "China", "South Africa"],
       "capital": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"],
       "area": [8.516, 17.10, 3.286, 9.597, 1.221],
       "population": [200.4, 143.5, 1252, 1357, 52.98] }
brics = pd.DataFrame(dict)
print(brics)

        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98


In [87]:
# 2. DataFrame MERCOSUR
mercosur=pd.DataFrame()
paises=['Argentina','Brasil','Uruguay','Paraguay']
capitales=['Buenos Aires','Brasilia','Montevideo','Asuncion']
areas=[2.784,8.516,0.176,0.406]
poblaciones=[45,200.4,3.5,7.3]
mercosur['Pais']=paises
mercosur['Capital']=capitales
mercosur['Area']=areas
mercosur['Poblacion']=poblaciones
print(mercosur)

        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       45.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


### 1.3. Funciones básicas para tratar DataFrames Pandas

#### Shape: Tamaño del dataFrame

In [63]:
print('tamaño de Brics: ',brics.shape)

tamaño de Brics:  (5, 4)


In [64]:
print('tamaño de Mercosur: ',mercosur.shape)

tamaño de Mercosur:  (4, 4)


#### dtypes: Tipo de datos por variable

In [65]:
print(brics.dtypes)

country        object
capital        object
area          float64
population    float64
dtype: object


In [66]:
print(mercosur.dtypes)

Pais          object
Capital       object
Area         float64
Poblacion    float64
dtype: object


#### Describe: Información estadistica de las variables numéricas

In [67]:
print(brics.describe())

            area   population
count   5.000000     5.000000
mean    7.944000   601.176000
std     6.200557   645.261454
min     1.221000    52.980000
25%     3.286000   143.500000
50%     8.516000   200.400000
75%     9.597000  1252.000000
max    17.100000  1357.000000


In [68]:
print(mercosur.describe())

           Area   Poblacion
count  4.000000    4.000000
mean   2.970500   64.050000
std    3.880431   92.810003
min    0.176000    3.500000
25%    0.348500    6.350000
50%    1.595000   26.150000
75%    4.217000   83.850000
max    8.516000  200.400000


#### Obtener variables en una lista

In [69]:
varsBrics=brics.columns.tolist()

In [70]:
print('varsBrics',varsBrics)

varsBrics ['country', 'capital', 'area', 'population']


In [71]:
varsMercosur=mercosur.columns.tolist()

In [72]:
print('varsMercosur',varsMercosur)

varsMercosur ['Pais', 'Capital', 'Area', 'Poblacion']


#### iLOC: obteniendo una porción del dataFrame

In [73]:
# Obtener una lista de los paises
print('Paises del BRICS: ',list(brics.iloc[:,0]))
print('Paises del MERCOSUR: ',list(mercosur.iloc[:,0]))

Paises del BRICS:  ['Brazil', 'Russia', 'India', 'China', 'South Africa']
Paises del MERCOSUR:  ['Argentina', 'Brasil', 'Uruguay', 'Paraguay']


In [74]:
# Area y poblacion de los paises 1 y 2
print('Area y poblacion de los paises 1 y 2 de BRICS: ',brics.iloc[1:3,2:])
print('Area y poblacion de los paises 1 y 2 de MERCOSUR: ',mercosur.iloc[1:3,2:])

Area y poblacion de los paises 1 y 2 de BRICS:       area  population
1  17.100       143.5
2   3.286      1252.0
Area y poblacion de los paises 1 y 2 de MERCOSUR:      Area  Poblacion
1  8.516      200.4
2  0.176        3.5


### 2. Archivos de Datos

### 2.1. Guardar DataFrame

#### A formato CSV (archivo de texto)

In [75]:
brics.to_csv('datos_brics.csv',index=None)
mercosur.to_csv('datos_mercosur.csv')

#### A formato de Planilla Excel

In [76]:
brics.to_excel('datos_brics.xlsx',index=None)
mercosur.to_excel('datos_mercosur.xlsx')

#### A formato Pickle (archivo binario)

In [77]:
brics.to_pickle('datos_brics.pkl')
mercosur.to_pickle('datos_mercosur.pkl')

### 2.2. Recuperar DataFrame desde archivo

#### Desde archivo CSV (archivo de texto)

In [78]:
brics2csv=pd.read_csv('datos_brics.csv')
print('BRICS recuperado csv:')
print(brics2csv)
mercosur2csv=pd.read_csv('datos_mercosur.csv')
print('MERCOSUR recuperado csv:')
print(mercosur2csv)

BRICS recuperado csv:
        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98
MERCOSUR recuperado csv:
   Unnamed: 0       Pais       Capital   Area  Poblacion
0           0  Argentina  Buenos Aires  2.784       45.0
1           1     Brasil      Brasilia  8.516      200.4
2           2    Uruguay    Montevideo  0.176        3.5
3           3   Paraguay      Asuncion  0.406        7.3


##### Eliminamos la columna "unnamed" causada por almacenar índice:

In [79]:
mercosur2csv=pd.read_csv('datos_mercosur.csv', index_col=0)
print('MERCOSUR recuperado csv:')
print(mercosur2csv)

MERCOSUR recuperado csv:
        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       45.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


#### Desde Planilla Excel

In [80]:
brics2xlsx=pd.read_excel('datos_brics.xlsx')
print('BRICS recuperado xlsx:')
print(brics2xlsx)
mercosur2xlsx=pd.read_excel('datos_mercosur.xlsx',index_col=0)
print('MERCOSUR recuperado xlsx:')
print(mercosur2xlsx)

BRICS recuperado xlsx:
        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98
MERCOSUR recuperado xlsx:
        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       45.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


#### Desde archivo binario Pickle

In [81]:
brics2pkl=pd.read_pickle('datos_brics.pkl')
print('BRICS recuperado pkl:')
print(brics2pkl)
mercosur2pkl=pd.read_pickle('datos_mercosur.pkl')
print('MERCOSUR recuperado pkl:')
print(mercosur2pkl)

BRICS recuperado pkl:
        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98
MERCOSUR recuperado pkl:
        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       45.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


### 2.3. Performance

Compararemos cuanto tarda python en levantar a memoria datasets almacenados en los distintos tipos de archivo.

In [82]:
hito0=datetime.datetime.now()
df1=pd.read_csv('data.csv')
hito1=datetime.datetime.now()
print('Lectura de dataframe Pandas en formato texto plano CSV: ',hito1-hito0)

Lectura de dataframe Pandas en formato texto plano CSV:  0:00:00.151860


In [83]:
hito0=datetime.datetime.now()
df2=pd.read_excel('data.xlsx')
hito1=datetime.datetime.now()
print('Lectura de dataframe Pandas en formato planilla Excel: ',hito1-hito0)

Lectura de dataframe Pandas en formato planilla Excel:  0:00:17.970207


In [84]:
hito0=datetime.datetime.now()
df3=pd.read_pickle('data.pkl')
hito1=datetime.datetime.now()
print('Lectura de dataframe Pandas en formato binario: ',hito1-hito0)

Lectura de dataframe Pandas en formato binario:  0:00:00.028011
