# Manejando Estructuras de Datos con Pandas

La librería Pandas nos permite manejar DataFrames dentro de Python. El nombre proviene de su capacidad de manejar datos panel (Panel Data Structures). En este notebook vamos a ejemplificar algunos de sus usos principales.

In [1]:
import pandas as pd
import numpy as np

## Series

Una "serie" en pandas es una estructura de datos de una sola dimensión que puede incluir cualquier tipo de datos. Las axis labels o etiquetas se llaman colectivamente "index". Index es entonces básicamente una lista de etiquetas.

In [2]:
#Forma general de una serie:
#s = pd.Series(data, index=index)

### Series con data = nd-arrays

In [5]:
np.random.randn(5)

array([-0.7551778 , -2.94995975,  0.86342928, -0.92273798, -0.8747326 ])

In [7]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -0.427018
b   -0.639268
c    1.052139
d    0.287252
e    0.432103
dtype: float64

In [6]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

Si no indicamos el índice nos crea uno con default con números como las etiquetas del índice.

In [8]:
pd.Series(np.random.randn(5))

0   -0.392224
1   -0.924975
2   -0.640296
3   -1.077247
4   -0.294265
dtype: float64

### Series con data = dictionaries

In [13]:
d = {'a' : 0., 'b' : 1., 'c' : 2.} #Creamos un diccionario {key:value}
d

{'a': 0.0, 'b': 1.0, 'c': 2.0}

In [10]:
pd.Series(d) #Si no indicamos los valores toma las key's como las etiquetas del Index

a    0.0
b    1.0
c    2.0
dtype: float64

In [14]:
pd.Series(d, index=['b', 'c', 'd', 'a']) #Si indicamos los valores del index ordena dichos valores de acuerdo a las key's

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

Nota: NaN (Not a Number es el estándar para los missing values dentro de Pandas)

### Series & Slicing

Recordemos la serie s

In [15]:
s

a   -0.427018
b   -0.639268
c    1.052139
d    0.287252
e    0.432103
dtype: float64

#### Series como nd-arrays

Probemos ahora que podemos aplicar un slicing muy parecido al que se aplica a los ndarrays en Numpy. La diferencia principal es que un slicing de la serie también aplica a las etiquetas.

In [16]:
s[0]

-0.42701846577871788

In [12]:
s[:3]

a    0.074984
b    0.531829
c   -0.388747
dtype: float64

In [20]:
s[s>s.median()]

c    1.052139
e    0.432103
dtype: float64

In [21]:
s[[4,2,1]]

e    0.432103
c    1.052139
b   -0.639268
dtype: float64

In [22]:
np.exp(s)

a    0.652452
b    0.527679
c    2.863770
d    1.332761
e    1.540494
dtype: float64

#### Series como diccionarios

In [23]:
s['a']

-0.42701846577871788

In [24]:
'e' in s

True

In [25]:
'f' in s

False

### Nombrar la serie

Finalmente se puede incluir como atributo de las series un nombre

In [26]:
s.name = "Random Data"
s.name

'Random Data'

### Operaciones con Series

In [27]:
s1 = pd.Series(np.random.random(5).round(2), index=['a', 'b', 'c', 'd', 'e'])
s1

a    0.39
b    0.71
c    0.72
d    0.95
e    0.81
dtype: float64

In [28]:
s2 = pd.Series(np.random.random(5).round(2), index=['e', 'b', 'd', 'c', 'a'])
s2

e    0.42
b    0.04
d    0.70
c    0.38
a    0.63
dtype: float64

In [46]:
s1+s2

a    0.78
b    1.30
c    1.69
d    1.54
e    0.89
dtype: float64

In [29]:
s1*s2

a    0.2457
b    0.0284
c    0.2736
d    0.6650
e    0.3402
dtype: float64

## DataFrames

Es una estructura de datos con etiquetas que puede contener objetos de distinto 'tipo'. Junto con los datos se le puede pasar de manera opcional un 'index' (etiquetas de fila) y 'columns' (etiquetas de columna)

### DataFrame Basics

Se puede definir un DataFrame a partir de un diccionario de series de la siguiente forma

In [30]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']), 
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [31]:
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [32]:
df['one'] #Seleccionar columna

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

Alternativamente se puede seleccionar una columna como:

In [33]:
df.one #Seleccionar columna (no se recomienda)

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

Podemos ver que un dataframe en Pandas se compone de objetos tipo data Series. Por eso la importancia de entender esos objetos

In [34]:
type(df)

pandas.core.frame.DataFrame

In [35]:
type(df['two'])

pandas.core.series.Series

Asimismo, vamos a definir una nueva columna dentro de nuestro dataframe:

In [139]:
df['three'] = df['one'] + df['two']
df

Unnamed: 0,one,two,three
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,6.0
d,,4.0,


Podemos accesar ahora los atributos index y columns de nuestro dataframe:

In [140]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [141]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

Supongamos ahora que me quiero deshacer de la última fila, entonces puedo llamar:

In [36]:
df = df.drop('d')
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0


Lo mismo para la última columna, pero debo indicar que se trata de una columna con el parámetro axis=1

In [37]:
df = df.drop('three',axis=1)
df

KeyError: "labels ['three'] not contained in axis"

In [144]:
df.shape

(3, 2)

Una alternativa para sobreescribir el dataframe es utilizar la siguiente: 

In [38]:
df.drop('c',inplace=True)

In [39]:
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0


In [40]:
df2 = 1/df
df2

Unnamed: 0,one,two
a,1.0,1.0
b,0.5,0.5


In [41]:
df3 = df2 + df
df3

Unnamed: 0,one,two
a,2.0,2.0
b,2.5,2.5


### DataFrames: indices y selección

In [48]:
df_n = pd.DataFrame(np.random.randn(5,4).round(2)*100,['A','B','C','D','E'],['W','X','Y','Z'])
df_n

Unnamed: 0,W,X,Y,Z
A,-198.0,164.0,19.0,-8.0
B,-54.0,84.0,26.0,-98.0
C,-45.0,-13.0,59.0,3.0
D,7.0,102.0,-28.0,16.0
E,29.0,-70.0,-114.0,2.0


In [43]:
df_n.loc['A'] #basado en etiqueta

W    114.0
X   -106.0
Y    -56.0
Z     28.0
Name: A, dtype: float64

In [163]:
df_n.iloc[2] #basado en el índice

W    41.0
X    16.0
Y     2.0
Z   -79.0
Name: C, dtype: float64

In [44]:
df_n.loc['A','Y']

-56.000000000000007

In [45]:
df_n.loc[['A','B'],['X','Y']]

Unnamed: 0,X,Y
A,-106.0,-56.0
B,250.0,-23.0


In [49]:
df_n

Unnamed: 0,W,X,Y,Z
A,-198.0,164.0,19.0,-8.0
B,-54.0,84.0,26.0,-98.0
C,-45.0,-13.0,59.0,3.0
D,7.0,102.0,-28.0,16.0
E,29.0,-70.0,-114.0,2.0


In [171]:
df_n['X']>0

A    False
B     True
C     True
D     True
E    False
Name: X, dtype: bool

In [50]:
df_n[df_n['X']>0]

Unnamed: 0,W,X,Y,Z
A,-198.0,164.0,19.0,-8.0
B,-54.0,84.0,26.0,-98.0
D,7.0,102.0,-28.0,16.0


In [51]:
df_n[df_n['X']>0]['Y']

A    19.0
B    26.0
D   -28.0
Name: Y, dtype: float64

In [52]:
df_n[(df_n['X']>0) & (df_n['W']<0)]

Unnamed: 0,W,X,Y,Z
A,-198.0,164.0,19.0,-8.0
B,-54.0,84.0,26.0,-98.0


In [53]:
df_n

Unnamed: 0,W,X,Y,Z
A,-198.0,164.0,19.0,-8.0
B,-54.0,84.0,26.0,-98.0
C,-45.0,-13.0,59.0,3.0
D,7.0,102.0,-28.0,16.0
E,29.0,-70.0,-114.0,2.0


### DataFrames y sus características

In [55]:
df_n[['X','Y']].describe() #Calcula summary statistics

Unnamed: 0,X,Y
count,5.0,5.0
mean,53.4,-7.6
std,93.764599,67.09918
min,-70.0,-114.0
25%,-13.0,-28.0
50%,84.0,19.0
75%,102.0,26.0
max,164.0,59.0


In [54]:
df_n.describe().transpose() #Para un output más parecido a R

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
W,5.0,-52.2,88.615461,-198.0,-54.0,-45.0,7.0,29.0
X,5.0,53.4,93.764599,-70.0,-13.0,84.0,102.0,164.0
Y,5.0,-7.6,67.09918,-114.0,-28.0,19.0,26.0,59.0
Z,5.0,-17.0,46.076024,-98.0,-8.0,2.0,3.0,16.0


In [179]:
df_n.info() ##Te da información sobre las variables

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 4 columns):
W    5 non-null float64
X    5 non-null float64
Y    5 non-null float64
Z    5 non-null float64
dtypes: float64(4)
memory usage: 200.0+ bytes
