# PANDAS

### Phyton Data Analysis Library

In [1]:
# Importación de librerías
import numpy as np
import pandas as pd
# Importar estructudaras datos:
from pandas import Series, DataFrame

## Series
Estructuras de datos unidimensionales, con indexación flexible

<img src= 'series.png' width ='130' height = '220'>

In [2]:
b = Series([4,7,-5,3])
b

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# Atributos
b.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
b.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
v = np.array([1,2,3,4])
s = Series(v)
s

0    1
1    2
2    3
3    4
dtype: int32

In [6]:
# No se copia el vector, éste se usa como referncia:
v[2] = 0
s

0    1
1    2
2    0
3    4
dtype: int32

In [7]:
# libertad para crear índices:
obj = Series ([4,5,-5,3], index=['b','d','a','c'])
obj

b    4
d    5
a   -5
c    3
dtype: int64

In [8]:
obj.index

Index(['b', 'd', 'a', 'c'], dtype='object')

In [9]:
# Indexado:
obj['a']

-5

In [10]:
# Asignación:
obj['d'] = 6
obj

b    4
d    6
a   -5
c    3
dtype: int64

In [12]:
obj[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [13]:
obj[2]

-5

In [14]:
# Indexado con condiciones lógicas
obj[obj>2]

b    4
d    6
c    3
dtype: int64

In [15]:
#Operaciones vectorizadas:
obj * 2

b     8
d    12
a   -10
c     6
dtype: int64

In [16]:
np.exp(obj)

b     54.598150
d    403.428793
a      0.006738
c     20.085537
dtype: float64

In [17]:
# Las series son similares a dicconario de tamaño fijo, ordenados
'b' in obj

True

In [18]:
obj

b    4
d    6
a   -5
c    3
dtype: int64

In [20]:
4 in obj

True

In [21]:
4 in obj.values

True

In [26]:
# Creación de serie a partir de diccionarios:
datos = {'Antioquia': 5974788, 'Magdalena': 1263788, 'Atlántico': 2342265, 'Quindío' : 509640}
s = Series(datos)
s

Antioquia    5974788
Magdalena    1263788
Atlántico    2342265
Quindío       509640
dtype: int64

In [27]:
# Control sobre los indices:
dptos = ['Atlántico','Quindío','Magdalena', 'Amazonas']
s1 = Series(datos, index =dptos)
s1

Atlántico    2342265.0
Quindío       509640.0
Magdalena    1263788.0
Amazonas           NaN
dtype: float64

In [28]:
#NaN : Not a Number
#Detenccion de datos perdidos:
pd.isnull (s1)

Atlántico    False
Quindío      False
Magdalena    False
Amazonas      True
dtype: bool

In [29]:
s1.isnull()

Atlántico    False
Quindío      False
Magdalena    False
Amazonas      True
dtype: bool

In [30]:
pd.notnull(s1)

Atlántico     True
Quindío       True
Magdalena     True
Amazonas     False
dtype: bool

In [31]:
s1[s1.isnull()]

Amazonas   NaN
dtype: float64

In [35]:
#Atributo nombre:
s1.name = 'Población'
s1.index.name ='Dpto'
s1

Dpto
Atlántico    2342265.0
Quindío       509640.0
Magdalena    1263788.0
Amazonas           NaN
Name: Población, dtype: float64

In [36]:
b


0    4
1    7
2   -5
3    3
dtype: int64

In [37]:
b.index = ['Juan','Melissa','Santiago','Carlos']
b

Juan        4
Melissa     7
Santiago   -5
Carlos      3
dtype: int64

In [39]:
d1= {'rojo':2000, 'azul':1000, 'amarillo':500, 'naranja':1000 }
colores =['rojo','amarillo','naranja','azul','verde']
s=Series(d1, index =colores)
s

rojo        2000.0
amarillo     500.0
naranja     1000.0
azul        1000.0
verde          NaN
dtype: float64

In [42]:
d2 = {'rojo':400, 'amarillo':1000,'negro':700}
s1=Series(d2)
s1

rojo         400
amarillo    1000
negro        700
dtype: int64

In [43]:
s + s1

amarillo    1500.0
azul           NaN
naranja        NaN
negro          NaN
rojo        2400.0
verde          NaN
dtype: float64

## DataFrames
<img src= 'dataframes.png' width ='200' height = '300'>

In [48]:
d_obj = {'color': ['azul', 'verde','negro','rojo','blanco'],
    'objeto':['bola','lápiz','pincel','papel','taza'],
    'precio':[1200, 900, 750,120,2300]}
df_obj = DataFrame(d_obj)
df_obj

Unnamed: 0,color,objeto,precio
0,azul,bola,1200
1,verde,lápiz,900
2,negro,pincel,750
3,rojo,papel,120
4,blanco,taza,2300


In [51]:
datos = {'Departamento':['Antioquia','Magdalena', 'Atlántico', 'Qundío'],
        'Año': [2018, 2017,2019,2018],
         'Población': [500000,12000000,2400000,500000]
        }
df_datos = DataFrame(datos)
df_datos

Unnamed: 0,Departamento,Año,Población
0,Antioquia,2018,500000
1,Magdalena,2017,12000000
2,Atlántico,2019,2400000
3,Qundío,2018,500000


In [53]:
#Redifinición del orden de las columnas:
DataFrame(datos, columns=['Año','Población','Departamento'])

Unnamed: 0,Año,Población,Departamento
0,2018,500000,Antioquia
1,2017,12000000,Magdalena
2,2019,2400000,Atlántico
3,2018,500000,Qundío


In [55]:
# Si se pasa una coluna que no está en el diccionario. ésta aparecerá con datos perdidos
df_datos2 =DataFrame(datos, columns = ['Año','Población','Departamento','Deuda'],
                     index =['uno','dos','tres','cuatro'])
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda
uno,2018,500000,Antioquia,
dos,2017,12000000,Magdalena,
tres,2019,2400000,Atlántico,
cuatro,2018,500000,Qundío,


In [56]:
# Extracción de columnas como series:
df_datos2['Departamento']

uno       Antioquia
dos       Magdalena
tres      Atlántico
cuatro       Qundío
Name: Departamento, dtype: object

In [57]:
type(df_datos2['Departamento'])

pandas.core.series.Series

In [58]:
df_datos2.Población

uno         500000
dos       12000000
tres       2400000
cuatro      500000
Name: Población, dtype: int64

In [59]:
df_datos2.Departamento.index

Index(['uno', 'dos', 'tres', 'cuatro'], dtype='object')

In [60]:
#Extracción de filas: método 'loc'
df_datos2.loc['tres']

Año                  2019
Población         2400000
Departamento    Atlántico
Deuda                 NaN
Name: tres, dtype: object

In [61]:
df_datos2.loc['tres']['Población']

2400000

In [62]:
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda
uno,2018,500000,Antioquia,
dos,2017,12000000,Magdalena,
tres,2019,2400000,Atlántico,
cuatro,2018,500000,Qundío,


In [65]:
#Modificación de columnas mediante asignación: Escalar
df_datos2['deuda'] = 16.5
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,deuda
uno,2018,500000,Antioquia,,16.5
dos,2017,12000000,Magdalena,,16.5
tres,2019,2400000,Atlántico,,16.5
cuatro,2018,500000,Qundío,,16.5


In [66]:
#Modificación de columnas mediante asignación: arreglos
df_datos2['deuda'] = np.arange(4.)
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,deuda
uno,2018,500000,Antioquia,,0.0
dos,2017,12000000,Magdalena,,1.0
tres,2019,2400000,Atlántico,,2.0
cuatro,2018,500000,Qundío,,3.0


In [67]:
df_datos2.columns

Index(['Año', 'Población', 'Departamento', 'Deuda', 'deuda'], dtype='object')

In [69]:
df_datos2['Resultado'] = df_datos2.Población / df_datos2.Año
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,deuda,Resultado
uno,2018,500000,Antioquia,,0.0,247.770069
dos,2017,12000000,Magdalena,,1.0,5949.429846
tres,2019,2400000,Atlántico,,2.0,1188.707281
cuatro,2018,500000,Qundío,,3.0,247.770069


In [70]:
df_datos2['Grande'] = df_datos2.Población >= 2000000
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,deuda,Resultado,Grande
uno,2018,500000,Antioquia,,0.0,247.770069,False
dos,2017,12000000,Magdalena,,1.0,5949.429846,True
tres,2019,2400000,Atlántico,,2.0,1188.707281,True
cuatro,2018,500000,Qundío,,3.0,247.770069,False


In [71]:
# Eliminación de una columna: Método 'del'
del df_datos2['Grande']
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,deuda,Resultado
uno,2018,500000,Antioquia,,0.0,247.770069
dos,2017,12000000,Magdalena,,1.0,5949.429846
tres,2019,2400000,Atlántico,,2.0,1188.707281
cuatro,2018,500000,Qundío,,3.0,247.770069


In [72]:
deuda = df_datos2['Deuda']
deuda

uno       NaN
dos       NaN
tres      NaN
cuatro    NaN
Name: Deuda, dtype: object

In [73]:
deuda = df_datos2['Deuda'].copy()
deuda

uno       NaN
dos       NaN
tres      NaN
cuatro    NaN
Name: Deuda, dtype: object

In [74]:
deuda ['dos'] = 0
df_datos2

Unnamed: 0,Año,Población,Departamento,Deuda,deuda,Resultado
uno,2018,500000,Antioquia,,0.0,247.770069
dos,2017,12000000,Magdalena,,1.0,5949.429846
tres,2019,2400000,Atlántico,,2.0,1188.707281
cuatro,2018,500000,Qundío,,3.0,247.770069


In [75]:
deuda

uno       NaN
dos         0
tres      NaN
cuatro    NaN
Name: Deuda, dtype: object

In [77]:
# Creación a partir de un diccionario anidado.
pob = {'Antioquia':{2017:5800000,2018:5974788}, 'Magdalena':{2017 : 122310, 2018: 1263788, 2019: 1363788}}
df_datos3 = DataFrame(pob)
df_datos3

Unnamed: 0,Antioquia,Magdalena
2017,5800000.0,122310
2018,5974788.0,1263788
2019,,1363788


In [78]:
# Transponer
df_datos3.T

Unnamed: 0,2017,2018,2019
Antioquia,5800000.0,5974788.0,
Magdalena,122310.0,1263788.0,1363788.0


In [79]:
df_datos3

Unnamed: 0,Antioquia,Magdalena
2017,5800000.0,122310
2018,5974788.0,1263788
2019,,1363788


In [80]:
df_datos3.values

array([[5800000.,  122310.],
       [5974788., 1263788.],
       [     nan, 1363788.]])

In [81]:
DataFrame (pob, index = [2018,2019,2020])

Unnamed: 0,Antioquia,Magdalena
2018,5974788.0,1263788.0
2019,,1363788.0
2020,,


## Aritmética y alineación de datos

In [82]:
df_1 = DataFrame((np.arange(16).reshape(4,4)),
                 index = ['rojo','azul','negro','blanco'],
                 columns = ['bola','lapiz','pincel','papel'])
df_1

Unnamed: 0,bola,lapiz,pincel,papel
rojo,0,1,2,3
azul,4,5,6,7
negro,8,9,10,11
blanco,12,13,14,15


In [84]:
df_2 = DataFrame(np.arange(12).reshape((4,3)),
                 index =['rojo','verde','negro','blanco'],
                 columns = ['taza','lapiz','bola'])
df_2

Unnamed: 0,taza,lapiz,bola
rojo,0,1,2
verde,3,4,5
negro,6,7,8
blanco,9,10,11


In [85]:
df_1 + df_2

Unnamed: 0,bola,lapiz,papel,pincel,taza
azul,,,,,
blanco,23.0,23.0,,,
negro,16.0,16.0,,,
rojo,2.0,2.0,,,
verde,,,,,


In [87]:
# Métodos aritméticos flexibles
#suma

df_1.add(df_2)

Unnamed: 0,bola,lapiz,papel,pincel,taza
azul,,,,,
blanco,23.0,23.0,,,
negro,16.0,16.0,,,
rojo,2.0,2.0,,,
verde,,,,,


In [88]:
#Resta
df_1.sub(df_2)

Unnamed: 0,bola,lapiz,papel,pincel,taza
azul,,,,,
blanco,1.0,3.0,,,
negro,0.0,2.0,,,
rojo,-2.0,0.0,,,
verde,,,,,


In [90]:
#Multipliación:

df_1.mul(df_2)

Unnamed: 0,bola,lapiz,papel,pincel,taza
azul,,,,,
blanco,132.0,130.0,,,
negro,64.0,63.0,,,
rojo,0.0,1.0,,,
verde,,,,,


In [91]:
df_1.div(df_2)

Unnamed: 0,bola,lapiz,papel,pincel,taza
azul,,,,,
blanco,1.090909,1.3,,,
negro,1.0,1.285714,,,
rojo,0.0,1.0,,,
verde,,,,,


## Carga de archivos y almacenamiento datos

## 1. Carga:

In [95]:
df_csv1 = pd.read_csv('archivo_csv1.csv')
df_csv1

Unnamed: 0,blanco,rojo,azul,verde,animal
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [96]:
df_csv2 = pd.read_csv('archivo_csv2.csv')
df_csv2

Unnamed: 0,1,5,2,3,gato
0,2,7,8,5,perro
1,3,3,6,7,caballo
2,2,2,8,3,pato
3,4,4,2,1,ratón


In [97]:
df_csv2 = pd.read_csv('archivo_csv2.csv', header = None)
df_csv2

Unnamed: 0,0,1,2,3,4
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [98]:
df_csv1.columns

Index(['blanco', 'rojo', 'azul', 'verde', 'animal'], dtype='object')

In [99]:
df_csv2 = pd.read_csv('archivo_csv2.csv', names = ['blanco', 'rojo', 'azul', 'verde', 'animal'])
df_csv2

Unnamed: 0,blanco,rojo,azul,verde,animal
0,1,5,2,3,gato
1,2,7,8,5,perro
2,3,3,6,7,caballo
3,2,2,8,3,pato
4,4,4,2,1,ratón


In [101]:
df_csvtxt = pd.read_table('archivo_csv2.csv', sep = ',')
df_csvtxt

Unnamed: 0,1,5,2,3,gato
0,2,7,8,5,perro
1,3,3,6,7,caballo
2,2,2,8,3,pato
3,4,4,2,1,ratón


In [103]:
# para leer cierta parte del archivo, genera nuevos indices:

#df_csvtxt = pd.read_table('archivo_csv2.csv', sep = ',', skyprows =10,nrows=6)
#df_csvtxt

# Guardar archivos

df_csvtxt.to_csv('datos_ssssvtxt.csv')