# <font color ='blue'>Introduccióna la librería pandas.
  *Python Data Analysis Library*
    
   - Diseñada a partir de NumPy
   - Trabaja con estructuras de datos heterogéneas(tablas)

In [1]:
# Importación de librerías
import numpy as np
import pandas as pd
# Conviene importar las dos estructuras de datos, se usan frecuentemente
from pandas import Series, DataFrame

## Series
Estructuras de datos unidimensionales, con indexación flexible

<img src ='series.png' width =130 height = 400>

In [2]:
b = pd.Series ([4,7,-5,3])
b

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# Atributos
b.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
b.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
v = np.array([1,2,3,4])
s = Series(v)
s

0    1
1    2
2    3
3    4
dtype: int32

In [8]:
# No se copia el vector, éste se usa como referencia:

v[2] = 0
s

0    1
1    2
2    0
3    4
dtype: int32

In [11]:
# Libertad para crear indíces:
obj = Series([4,7,-5,3], index =['b','d','a','c'])
obj

b    4
d    7
a   -5
c    3
dtype: int64

In [12]:
obj.index

Index(['b', 'd', 'a', 'c'], dtype='object')

In [13]:
# Indexado:
obj['a']

-5

In [14]:
# asignación:
obj ['d'] = 6
obj

b    4
d    6
a   -5
c    3
dtype: int64

In [15]:
obj[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [16]:
obj [2]

-5

In [17]:
# Indexado con condiciones lógicos
obj[obj > 2]

b    4
d    6
c    3
dtype: int64

In [18]:
# Operaciones vectorizadas:
obj * 2

b     8
d    12
a   -10
c     6
dtype: int64

In [19]:
np.exp(obj)

b     54.598150
d    403.428793
a      0.006738
c     20.085537
dtype: float64

In [20]:
obj

b    4
d    6
a   -5
c    3
dtype: int64

In [21]:
# Las series son similres a diccionarios de tamaño fijo, ordenados
'b' in obj

True

In [22]:
4 in obj

False

In [23]:
4 in obj.values

True

In [26]:
# Creación de series a partir de diccionarios:
datos ={'Antioquia':6000000,'Magdalena': 1200000, 'Atlántico': 2300000, 'Quindío': 590000}
s = Series (datos)
s

Antioquia    6000000
Magdalena    1200000
Atlántico    2300000
Quindío       590000
dtype: int64

In [27]:
# Control sobre los índices:
dptos = ['Atlántico', 'Quindío','Magdalena','Amazonas']
s1 = Series(datos, index = dptos)
s1

Atlántico    2300000.0
Quindío       590000.0
Magdalena    1200000.0
Amazonas           NaN
dtype: float64

In [28]:
# NaN: Not a Number
#Detección de datos pérdidos:
pd.isnull(s1)

Atlántico    False
Quindío      False
Magdalena    False
Amazonas      True
dtype: bool

In [29]:
s1.isnull()

Atlántico    False
Quindío      False
Magdalena    False
Amazonas      True
dtype: bool

In [30]:
pd.notnull(s1)

Atlántico     True
Quindío       True
Magdalena     True
Amazonas     False
dtype: bool

In [32]:
s1[s1.isnull()]

Amazonas   NaN
dtype: float64

In [33]:
# Atributo nombre:
s1

Atlántico    2300000.0
Quindío       590000.0
Magdalena    1200000.0
Amazonas           NaN
dtype: float64

In [34]:
s1.name = 'Población'
s1.index.name = 'Dpto.'
s1

Dpto.
Atlántico    2300000.0
Quindío       590000.0
Magdalena    1200000.0
Amazonas           NaN
Name: Población, dtype: float64

In [35]:
b

0    4
1    7
2   -5
3    3
dtype: int64

In [37]:
# Cambio de indices por asignación:
b.index = ['Juan','Melissa', 'Santiago', 'Carlos']
b

Juan        4
Melissa     7
Santiago   -5
Carlos      3
dtype: int64

In [38]:
d1 = {'rojo':2000,'azul': 1000, 'amarillo': 500, 'naranja': 1000}
colores = ['rojo','amarillo','naranja','azul','verde']
s = Series(d1, index = colores)
s
           

rojo        2000.0
amarillo     500.0
naranja     1000.0
azul        1000.0
verde          NaN
dtype: float64

In [39]:
d2 = {'rojo':400, 'amarillo': 1000, 'negro': 700}
s1 = Series (d2)
s1

rojo         400
amarillo    1000
negro        700
dtype: int64

In [40]:
s + s1

amarillo    1500.0
azul           NaN
naranja        NaN
negro          NaN
rojo        2400.0
verde          NaN
dtype: float64

## DataFrames

Estructuras de datos bidimensionales, que presentan una tabla con columnas ordenadas, cada una de las cuales puede tener valores de tipos diferentes (numéicos, strings, booleanos, etc).

- Tiene indices flexibles, tanto para las filas, como para las columnas.
- Se puede considerar como un diccionario de series que comparte el mismo indice
- Se puede tener más de dos dimensiones con indexación jerárquica

<img src ='dataframe.SVG' width =500 height = 600>

In [42]:
d_obj = {'color':['azul','verde','negro','rojo','blanco'],
    'objeto':['bola', 'lápiz','pincel','papel','taza'],
    'precio':[1200,900,750,120,2300]}
df_obj = DataFrame(d_obj)
df_obj

Unnamed: 0,color,objeto,precio
0,azul,bola,1200
1,verde,lápiz,900
2,negro,pincel,750
3,rojo,papel,120
4,blanco,taza,2300


In [43]:
datos ={'Departamento':['Antioquia','Magdalena','Atlántico', 'Quindío'],
       'Año':[2018,2017,2019,2018],
       'Población': [6000000,1250000,2500000,500000]}
df_datos = DataFrame(datos)
df_datos

Unnamed: 0,Departamento,Año,Población
0,Antioquia,2018,6000000
1,Magdalena,2017,1250000
2,Atlántico,2019,2500000
3,Quindío,2018,500000


In [44]:
# Redifinición del orde de las columnas:
DataFrame (datos, columns = ['Año','Población','Departamento'])

Unnamed: 0,Año,Población,Departamento
0,2018,6000000,Antioquia
1,2017,1250000,Magdalena
2,2019,2500000,Atlántico
3,2018,500000,Quindío


In [50]:
df_largo = DataFrame({'Tiempo':[i for i in range(500)], 'Temperatura':[i+25 for i  in range (500)]})
df_largo

Unnamed: 0,Tiempo,Temperatura
0,0,25
1,1,26
2,2,27
3,3,28
4,4,29
...,...,...
495,495,520
496,496,521
497,497,522
498,498,523


In [51]:
df_largo.head()

Unnamed: 0,Tiempo,Temperatura
0,0,25
1,1,26
2,2,27
3,3,28
4,4,29


In [59]:
df_datos2 = DataFrame (datos, columns = ['Año','Población','Departamento', 'Deuda'],
                      index =['uno','dos','tres','Cuatro'])
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda
uno,2018,6000000,Antioquia,
dos,2017,1250000,Magdalena,
tres,2019,2500000,Atlántico,
Cuatro,2018,500000,Quindío,


In [60]:
df_datos2.columns

Index(['Año', 'Población', 'Departamento', 'Deuda'], dtype='object')

In [61]:
df_datos2['Departamento']

uno       Antioquia
dos       Magdalena
tres      Atlántico
Cuatro      Quindío
Name: Departamento, dtype: object

In [56]:
type(df_datos2['Departamento'])

pandas.core.series.Series

In [62]:
df_datos2.Año

uno       2018
dos       2017
tres      2019
Cuatro    2018
Name: Año, dtype: int64

In [63]:
df_datos2.Departamento

uno       Antioquia
dos       Magdalena
tres      Atlántico
Cuatro      Quindío
Name: Departamento, dtype: object

In [64]:
df_datos2.Departamento.index

Index(['uno', 'dos', 'tres', 'Cuatro'], dtype='object')

In [65]:
# Extracción de filas: método "loc"
df_datos2.loc['tres']

Año                  2019
Población         2500000
Departamento    Atlántico
Deuda                 NaN
Name: tres, dtype: object

In [66]:
# Extracción o lectura de un indice dentro de la fila:
df_datos2.loc['tres']['Población']

2500000

In [67]:
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda
uno,2018,6000000,Antioquia,
dos,2017,1250000,Magdalena,
tres,2019,2500000,Atlántico,
Cuatro,2018,500000,Quindío,


In [68]:
 # Modificiación de columnas mediante asignación: Escalar

df_datos2['Deuda'] = 16.5
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda
uno,2018,6000000,Antioquia,16.5
dos,2017,1250000,Magdalena,16.5
tres,2019,2500000,Atlántico,16.5
Cuatro,2018,500000,Quindío,16.5


In [72]:
 # Modificiación de columnas mediante asignación: Arrays
df_datos2['Deuda'] = np.arange(4.)
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda
uno,2018,6000000,Antioquia,0.0
dos,2017,1250000,Magdalena,1.0
tres,2019,2500000,Atlántico,2.0
Cuatro,2018,500000,Quindío,3.0


In [74]:
df_datos2.columns

Index(['Año', 'Población', 'Departamento', 'Deuda'], dtype='object')

In [77]:
df_datos2['Resultado'] = df_datos2.Población / df_datos2.Año
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,Resultado
uno,2018,6000000,Antioquia,0.0,2973.240833
dos,2017,1250000,Magdalena,1.0,619.732276
tres,2019,2500000,Atlántico,2.0,1238.236751
Cuatro,2018,500000,Quindío,3.0,247.770069


In [78]:
df_datos2['Grande'] =  df_datos2.Población >= 2000000
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,Resultado,Grande
uno,2018,6000000,Antioquia,0.0,2973.240833,True
dos,2017,1250000,Magdalena,1.0,619.732276,False
tres,2019,2500000,Atlántico,2.0,1238.236751,True
Cuatro,2018,500000,Quindío,3.0,247.770069,False


In [79]:
# Eliminación de una comluma: método 'del'
del df_datos2['Grande']

In [80]:
df_datos2.columns

Index(['Año', 'Población', 'Departamento', 'Deuda', 'Resultado'], dtype='object')

In [81]:
Deuda = df_datos2['Deuda']
Deuda

uno       0.0
dos       1.0
tres      2.0
Cuatro    3.0
Name: Deuda, dtype: float64

In [82]:
Deuda ['dos'] = 100
df_datos2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,Año,Población,Departamento,Deuda,Resultado
uno,2018,6000000,Antioquia,0.0,2973.240833
dos,2017,1250000,Magdalena,100.0,619.732276
tres,2019,2500000,Atlántico,2.0,1238.236751
Cuatro,2018,500000,Quindío,3.0,247.770069


In [87]:
Deuda = df_datos2['Deuda'].copy()

In [88]:
Deuda ['dos'] = 100

In [89]:
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,Resultado
uno,2018,6000000,Antioquia,0.0,2973.240833
dos,2017,1250000,Magdalena,100.0,619.732276
tres,2019,2500000,Atlántico,2.0,1238.236751
Cuatro,2018,500000,Quindío,3.0,247.770069


In [91]:
Deuda

uno         0.0
dos       100.0
tres        2.0
Cuatro      3.0
Name: Deuda, dtype: float64

In [93]:
# Creación a partir de un diccionario anodado: dicc de dicc:

pob = {'Antioquia':{2017:5800000, 2018: 6000000}, 'Magdalena':{2017:1250000, 2018:1260000, 2019:1300000}}
df_datos3 = DataFrame(pob)
df_datos3 

Unnamed: 0,Antioquia,Magdalena
2017,5800000.0,1250000
2018,6000000.0,1260000
2019,,1300000


In [94]:
# Trans poner
df_datos3.T

Unnamed: 0,2017,2018,2019
Antioquia,5800000.0,6000000.0,
Magdalena,1250000.0,1260000.0,1300000.0


In [95]:
df_datos3 

Unnamed: 0,Antioquia,Magdalena
2017,5800000.0,1250000
2018,6000000.0,1260000
2019,,1300000


In [96]:
df_datos3.values 

array([[5800000., 1250000.],
       [6000000., 1260000.],
       [     nan, 1300000.]])

In [98]:
DataFrame(pob, index = [2018,2019,2020])

Unnamed: 0,Antioquia,Magdalena
2018,6000000.0,1260000.0
2019,,1300000.0
2020,,


### Índices

In [99]:
obj = Series (range(3),index = ['a','b', 'c'])
indice = obj.index
indice

Index(['a', 'b', 'c'], dtype='object')

In [100]:
indice[1:]

Index(['b', 'c'], dtype='object')

In [101]:
# Etiquetas --> labels
etiquetas = pd.Index(np.arange(7,10))
etiquetas

Int64Index([7, 8, 9], dtype='int64')

In [102]:
obj2 = Series([1.5,-2.5,0], index = etiquetas)
obj2

7    1.5
8   -2.5
9    0.0
dtype: float64

In [104]:
obj2.index is etiquetas

True

In [111]:
# Los índices en pandas pueden tener etiqueta duplicadas:
etiq_dup = pd.Index(['unos','unos','otros','otros'])
obj3 = Series([4,8,5,10], index = etiq_dup)
obj3

unos      4
unos      8
otros     5
otros    10
dtype: int64

In [106]:
obj3.unos

unos    4
unos    8
dtype: int64

In [107]:
obj3.otros

otros     5
otros    10
dtype: int64

In [108]:
etiquetas

Int64Index([7, 8, 9], dtype='int64')

In [112]:
etiquetas.append(etiq_dup)

Index([7, 8, 9, 'unos', 'unos', 'otros', 'otros'], dtype='object')

In [113]:
et2 = pd.Index(np.arange(4,8))
et2

Int64Index([4, 5, 6, 7], dtype='int64')

In [114]:
# intersección:
etiquetas.intersection(et2)

Int64Index([7], dtype='int64')

In [115]:
# unión
etiquetas.union(et2)

Int64Index([4, 5, 6, 7, 8, 9], dtype='int64')

In [116]:
#Comparación
etiquetas.isin(et2)

array([ True, False, False])

In [117]:
#Identificación de elementos repetidos:
etiquetas.is_unique

True

In [119]:
etiq_dup.is_unique

False

In [120]:
etiquetas.unique()


Int64Index([7, 8, 9], dtype='int64')

In [121]:
etiq_dup.unique()

Index(['unos', 'otros'], dtype='object')

In [122]:
# Conteo de repeticiones:
# Indices:
obj3.index.value_counts()

otros    2
unos     2
dtype: int64

In [126]:
s = Series([1,0,2,1,2,3,1,1])
s.value_counts()

1    4
2    2
3    1
0    1
dtype: int64

In [127]:
# Reindexación:
obj


a    0
b    1
c    2
dtype: int64

In [129]:
obj2 = obj.reindex(['b','c','a','k'])
obj2

b    1.0
c    2.0
a    0.0
k    NaN
dtype: float64

In [132]:
# Reindexación de filas y columnas en un DF
df = DataFrame(np.arange(9).reshape((3,3)), index =['a','c','d'], columns = ['Mario', 'José', 'Carmela'])
df

Unnamed: 0,Mario,José,Carmela
a,0,1,2
c,3,4,5
d,6,7,8


In [135]:
nombres = ['Carmela','Mario','José']
df.loc[['d','c','a'],nombres]

Unnamed: 0,Carmela,Mario,José
d,8,6,7
c,5,3,4
a,2,0,1


In [136]:
# Eliminación de elementos de un eje (axis):
obj = Series(np.arange(5.), index = ['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [138]:
obj_n = obj.drop('c')
obj_n

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [140]:
df = DataFrame(np.arange(16).reshape((4,4)), 
               index = ['Cali','Tunja','Quibdó','Yopal'],
               columns = ['uno','dos','tres', 'cuatro'])
df

Unnamed: 0,uno,dos,tres,cuatro
Cali,0,1,2,3
Tunja,4,5,6,7
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [141]:
df.drop(['Cali', 'Tunja'])

Unnamed: 0,uno,dos,tres,cuatro
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [142]:
df

Unnamed: 0,uno,dos,tres,cuatro
Cali,0,1,2,3
Tunja,4,5,6,7
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [144]:
df.drop('dos', axis ='columns')

Unnamed: 0,uno,tres,cuatro
Cali,0,2,3
Tunja,4,6,7
Quibdó,8,10,11
Yopal,12,14,15


In [145]:
df.drop(['dos','cuatro'], axis ='columns')

Unnamed: 0,uno,tres
Cali,0,2
Tunja,4,6
Quibdó,8,10
Yopal,12,14


In [146]:
df


Unnamed: 0,uno,dos,tres,cuatro
Cali,0,1,2,3
Tunja,4,5,6,7
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [147]:
# Indexación:
s = Series (np.arange(4.), index = ['a','b','c','d'])
s

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [148]:
s[2:4]

c    2.0
d    3.0
dtype: float64

In [149]:
s[[1,3]]

b    1.0
d    3.0
dtype: float64

In [150]:
s[s<2]

a    0.0
b    1.0
dtype: float64

In [151]:
s

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [152]:
s['b':'c']

b    1.0
c    2.0
dtype: float64

In [154]:
# Modificación por asignación:
s['b','c'] = 5
s

a    5.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [155]:
df

Unnamed: 0,uno,dos,tres,cuatro
Cali,0,1,2,3
Tunja,4,5,6,7
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [157]:
# Slicing de DF: se realiza sobre las filas, para todas las columnas
df [1:3]

Unnamed: 0,uno,dos,tres,cuatro
Tunja,4,5,6,7
Quibdó,8,9,10,11


In [160]:
# Filtrado 
df[df.tres >5]

Unnamed: 0,uno,dos,tres,cuatro
Tunja,4,5,6,7
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [161]:
df < 5

Unnamed: 0,uno,dos,tres,cuatro
Cali,True,True,True,True
Tunja,True,False,False,False
Quibdó,False,False,False,False
Yopal,False,False,False,False


In [162]:
df[df < 5] = 0
df

Unnamed: 0,uno,dos,tres,cuatro
Cali,0,0,0,0
Tunja,0,5,6,7
Quibdó,8,9,10,11
Yopal,12,13,14,15


In [163]:
# Operadores "loc" e "iloc":
df.loc['Quibdó',['dos','tres']]

dos      9
tres    10
Name: Quibdó, dtype: int32

In [164]:
df.iloc[2,[3,0,1]]

cuatro    11
uno        8
dos        9
Name: Quibdó, dtype: int32

In [165]:
df.iloc[[2,3],[3,0,1]]

Unnamed: 0,cuatro,uno,dos
Quibdó,11,8,9
Yopal,15,12,13


In [166]:
df.values

array([[ 0,  0,  0,  0],
       [ 0,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [169]:
ser = Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [170]:
ser[-1]

KeyError: -1

In [171]:
ser= Series (np.arange(3.),index= ['a','b','c'])
ser

a    0.0
b    1.0
c    2.0
dtype: float64

In [172]:
ser[-1]

2.0

### Aritmética y alineación de datos

In [174]:
df_1 = DataFrame(np.arange(16).reshape((4,4)),
                index = ['rojo','azul','negro','blanco'],
                columns=['bola','lápiz','pincel','papel'])
df_1

Unnamed: 0,bola,lápiz,pincel,papel
rojo,0,1,2,3
azul,4,5,6,7
negro,8,9,10,11
blanco,12,13,14,15


In [175]:
df_2 = DataFrame(np.arange(12).reshape((4,3)),
                index = ['azul','verde','blanco','negro'],
                columns=['taza','lápiz','bola'])
df_2

Unnamed: 0,taza,lápiz,bola
azul,0,1,2
verde,3,4,5
blanco,6,7,8
negro,9,10,11


In [176]:
df_1 + df_2

Unnamed: 0,bola,lápiz,papel,pincel,taza
azul,6.0,6.0,,,
blanco,20.0,20.0,,,
negro,19.0,19.0,,,
rojo,,,,,
verde,,,,,


In [177]:
# Métodos aritméticos flexibles:
# Suma:
df_1.add(df_2)

Unnamed: 0,bola,lápiz,papel,pincel,taza
azul,6.0,6.0,,,
blanco,20.0,20.0,,,
negro,19.0,19.0,,,
rojo,,,,,
verde,,,,,


In [178]:
# Resta:
df_1.sub(df_2)

Unnamed: 0,bola,lápiz,papel,pincel,taza
azul,2.0,4.0,,,
blanco,4.0,6.0,,,
negro,-3.0,-1.0,,,
rojo,,,,,
verde,,,,,


In [179]:
# Multipliación:
df_1.mul(df_2)

Unnamed: 0,bola,lápiz,papel,pincel,taza
azul,8.0,5.0,,,
blanco,96.0,91.0,,,
negro,88.0,90.0,,,
rojo,,,,,
verde,,,,,


In [180]:
df_1.div(df_2)

Unnamed: 0,bola,lápiz,papel,pincel,taza
azul,2.0,5.0,,,
blanco,1.5,1.857143,,,
negro,0.727273,0.9,,,
rojo,,,,,
verde,,,,,


### Indexación jerárquica: Múltiples nivel de indexación

In [183]:
# Series
# Se un arreglo de arreglos como indice:
s = Series (np.random.rand(8),
           index = [['blanco','blanco','blanco','azul','azul','rojo','rojo','rojo'],
                    ['arriba','abajo','derecha','arriba','abajo','arriba','abajo','izquierda']])
s

blanco  arriba       0.240730
        abajo        0.156106
        derecha      0.081327
azul    arriba       0.382260
        abajo        0.047086
rojo    arriba       0.556317
        abajo        0.508549
        izquierda    0.094288
dtype: float64

In [184]:
s.index

MultiIndex([('blanco',    'arriba'),
            ('blanco',     'abajo'),
            ('blanco',   'derecha'),
            (  'azul',    'arriba'),
            (  'azul',     'abajo'),
            (  'rojo',    'arriba'),
            (  'rojo',     'abajo'),
            (  'rojo', 'izquierda')],
           )

In [185]:
s['rojo']['abajo']

0.5085490275937843

In [186]:
s['rojo','abajo']

0.5085490275937843

In [187]:
# Conversión de una serie con ind. jer. a un DF:
s.unstack()

Unnamed: 0,abajo,arriba,derecha,izquierda
azul,0.047086,0.38226,,
blanco,0.156106,0.24073,0.081327,
rojo,0.508549,0.556317,,0.094288


In [188]:
df_1

Unnamed: 0,bola,lápiz,pincel,papel
rojo,0,1,2,3
azul,4,5,6,7
negro,8,9,10,11
blanco,12,13,14,15


In [189]:
df_1.stack()

rojo    bola       0
        lápiz      1
        pincel     2
        papel      3
azul    bola       4
        lápiz      5
        pincel     6
        papel      7
negro   bola       8
        lápiz      9
        pincel    10
        papel     11
blanco  bola      12
        lápiz     13
        pincel    14
        papel     15
dtype: int32

In [192]:
df_ij = DataFrame(np.random.rand(16).reshape((4,4)),
                 index=[['blanco', 'blanco','rojo','rojo'],
                        ['arriba','abajo','arriba','abajo']],
                 columns = [['lápiz','lápiz','papel','papel'],
                            [1,2,1,2]])
df_ij

Unnamed: 0_level_0,Unnamed: 1_level_0,lápiz,lápiz,papel,papel
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,1,2
blanco,arriba,0.190449,0.367207,0.752163,0.749391
blanco,abajo,0.228921,0.921402,0.020875,0.623183
rojo,arriba,0.521204,0.283492,0.644775,0.954044
rojo,abajo,0.530201,0.208328,0.061526,0.18938


In [195]:
df_ij['lápiz',1]['blanco']

arriba    0.190449
abajo     0.228921
Name: (lápiz, 1), dtype: float64

## Carga de archivos y almacenamiento de datos

### Archivos seperados por coma (csv) y de texto


#### <font color ='blue'>**1. Carga - Lectura**

In [197]:
df_csv1=pd.read_csv('archivo_csv1.csv')

In [198]:
df_csv1

Unnamed: 0,blanco,rojo,azul,verde,animal
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [199]:
df_csv2=pd.read_csv('archivo_csv2.csv')
df_csv2

Unnamed: 0,1,5,2,3,gato
0,2,7,8,5,perro
1,3,3,6,7,caballo
2,2,2,8,3,pato
3,4,4,2,1,ratón


In [200]:
df_csv2=pd.read_csv('archivo_csv2.csv',header =None)
df_csv2

Unnamed: 0,0,1,2,3,4
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [201]:
df_csv1.columns

Index(['blanco', 'rojo', 'azul', 'verde', 'animal'], dtype='object')

In [202]:
df_csv2=pd.read_csv('archivo_csv2.csv',names =['blanco', 'rojo', 'azul', 'verde', 'animal'])
df_csv2

Unnamed: 0,blanco,rojo,azul,verde,animal
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [204]:
df_txt = pd.read_table('archivo_csv1.csv', sep = ',')
df_txt 

Unnamed: 0,blanco,rojo,azul,verde,animal
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [208]:
df_CP = pd.read_table('Datos_CP.txt', sep = ' ', names=['t [s]','V[m/s]'])
df_CP

Unnamed: 0,t [s],V[m/s]
0,0.0,0.0
1,0.2,0.1
2,0.4,0.2
3,0.6,0.29
4,0.8,0.38
5,1.0,0.47
6,1.2,0.55
7,1.4,0.63
8,1.6,0.71
9,1.8,0.78


#### <font color ='blue'>**2. Almacenamiento de datos**

In [209]:
df_obj

Unnamed: 0,color,objeto,precio
0,azul,bola,1200
1,verde,lápiz,900
2,negro,pincel,750
3,rojo,papel,120
4,blanco,taza,2300


In [210]:
df_obj.to_csv('Datos_objetos.csv')

### Archivos de Microsoft Excel


#### <font color ='blue'>**1. Carga - Lectura**

In [211]:
# pd.read_excel
pd.read_excel('Datos_proceso.xlsx')

Unnamed: 0,Tiempo [s],Temperatua [C],Presión [Pa],Concentración [ppmV]
0,0.0,25,101325.0,3560
1,0.5,26,102338.25,3300
2,1.0,27,103361.6325,3040
3,1.5,28,104395.248825,2780
4,2.0,29,105439.201313,2520
5,2.5,30,106493.593326,2260
6,3.0,31,107558.52926,2000
7,3.5,32,108634.114552,1740
8,4.0,28,109720.455698,1480
9,4.5,26,110817.660255,1220


In [215]:
pd.read_excel('Datos_proceso.xlsx','Medida 2')

Unnamed: 0,Tiempo sss[s],Temperatua [C],Presión [Pa],Concentración [ppmV]
0,0.0,25,101325.0,3560
1,0.5,26,102338.25,3300
2,1.0,27,103361.6325,3040
3,1.5,28,104395.2488,2780
4,2.0,29,105439.2013,2520
5,2.5,30,106493.5933,2260
6,3.0,31,107558.5293,2000
7,3.5,32,108634.1146,1740
8,4.0,28,109720.4557,1480
9,4.5,26,110817.6603,1220


#### <font color ='blue'>**1. Almacenamiento**

In [216]:
df_obj

Unnamed: 0,color,objeto,precio
0,azul,bola,1200
1,verde,lápiz,900
2,negro,pincel,750
3,rojo,papel,120
4,blanco,taza,2300


In [217]:
df_obj.to_excel('Datos_objetos.xlsx', sheet_name ='Datos')

In [218]:
help(DataFrame.to_excel)

Help on function to_excel in module pandas.core.generic:

to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)
    Write object to an Excel sheet.
    
    To write a single object to an Excel .xlsx file it is only necessary to
    specify a target file name. To write to multiple sheets it is necessary to
    create an `ExcelWriter` object with a target file name, and specify a sheet
    in the file to write to.
    
    Multiple sheets may be written to by specifying unique `sheet_name`.
    With all data written to the file it is necessary to save the changes.
    Note that creating an `ExcelWriter` object with a file name that already
    exists will result in the contents of the existing file being erased.
    
    Parameters
    ----------
    excel_writer : str or ExcelWriter objec

### Archivo Pickle

<font color='blue'>**1. Creación**

In [219]:
# Medición del tiempo que toma un proceso:
from timeit import default_timer as timer
#t_ini = timer()
# Proceos
#t_fin = timer()
#print('\nEl proceso tomó: ', t_fin - t_ini, 's')

In [222]:
# Creación de un DF de gran tamaño
t_ini = timer()
df=DataFrame(np.random.randint(101, size=(1000,1000)))
t_fin =timer()
print('\nEl proceso tomó: ', t_fin - t_ini, 's')


El proceso tomó:  0.011916081999515882 s


In [223]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,990,991,992,993,994,995,996,997,998,999
0,53,23,30,17,48,31,69,22,27,91,...,50,57,62,22,71,50,51,37,60,50
1,6,100,44,39,78,1,54,90,45,17,...,60,75,19,28,43,16,37,27,38,59
2,49,85,4,3,62,49,19,78,61,42,...,92,86,73,10,87,78,52,62,12,2
3,19,8,94,25,50,67,92,52,25,85,...,41,39,89,21,3,2,30,7,35,64
4,12,16,98,47,71,39,88,17,99,8,...,84,50,15,27,30,19,92,98,44,79
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,27,33,13,20,27,18,95,12,69,83,...,83,51,13,51,94,16,34,4,94,54
996,22,10,31,48,71,37,18,95,90,12,...,64,31,61,100,54,61,86,69,45,89
997,50,35,74,41,10,97,1,59,15,67,...,90,65,69,13,15,45,81,95,91,87
998,92,87,30,84,73,62,36,45,55,12,...,77,9,100,44,10,77,10,66,50,34


In [224]:
# Almacenamiento como archivo de excel
t_ini = timer()
df.to_excel('Datos_DF_grande.xlsx')
t_fin =timer()
print('\nEl proceso tomó: ', t_fin - t_ini, 's')


El proceso tomó:  15.769379104000109 s


In [225]:
# Almacenamiento como archivo de pickle
t_ini = timer()
df.to_pickle('Datos_DF_grande.plk')
t_fin =timer()
print('\nEl proceso tomó: ', t_fin - t_ini, 's')


El proceso tomó:  0.008238983000410371 s


In [228]:
# Cargar como archivo de excel
t_ini = timer()
df_grande_excel= pd.read_excel('Datos_DF_grande.xlsx')
t_fin =timer()
print('\nEl proceso tomó: ', t_fin - t_ini, 's')


El proceso tomó:  10.131052752998585 s


In [232]:
# Cargar como archivo de pickle
t_ini = timer()
df_grande_pickle= pd.read_pickle('Datos_DF_grande.plk')
t_fin =timer()
print('\nEl proceso tomó: ', t_fin - t_ini, 's')


El proceso tomó:  0.008455727000182378 s
