Para trabajar con Pandas y Numpy será necesario con tantar con los siguientes paquetes: pasdas, numpy

Una vez descargados los cargamos de la siguiente manera:

In [1]:
import numpy as np
import pandas as pd

### Series

In [2]:
pd.Series( [10,20,30,40,50] )

0    10
1    20
2    30
3    40
4    50
dtype: int64

Almacenamos la serie en una variable

In [3]:
a = pd.Series( [10,20,30,40,50] )

a continuación, podremos utilizar los métodos propios de las series, por ejemplo: su tamaño

In [4]:
a.size

5

también podremos crear una serie definiendo sus índices, por ejemplo unos índices alfabéticos, pudiendo utilizarlos para acceder a su valor.

In [8]:
a = pd.Series( [10,20,30,40,50], index=['a','b','c','d','e'] )
a['d']

40

de esta manera podremos acceder mediante índice o posición.

In [9]:
a['a'] == a[0]

True

### Diccionarios

definimos un diccionario, y creamos una serie a partir de este diccionario. si visualizamos el contenido no mostrará una una tupla (key, valor) 

In [11]:
diccionario = {'nombre': 'Roberto', 'apellido': 'West', 'edad': 53}
b = pd.Series( diccionario )
b

nombre      Roberto
apellido       West
edad             53
dtype: object

podemos definir un nombre para esta serie:

In [13]:
b.name = 'personas'
b

nombre      Roberto
apellido       West
edad             53
Name: personas, dtype: object

con el método _index_ podremos obtener información de los índices

In [14]:
b.index

Index(['nombre', 'apellido', 'edad'], dtype='object')

o también, obtener un array con los nombres de los índices

In [15]:
b.index.tolist()

['nombre', 'apellido', 'edad']

todo lo que sepamos sobre los array no servirá también para las series

crearemos una serie que contendrá valores nulos, cabe destacar que para utilizar el valor _Null_ hay que utilizar la librería Numpy _np.NaN_ (un poco más difícil de escribir)

In [19]:
a = pd.Series([10,20,np.NaN,40,np.NaN])
a.name = 'valores'
a

0    10.0
1    20.0
2     NaN
3    40.0
4     NaN
Name: valores, dtype: float64

pasa saber si el elemento es nulo, podremos utiliza la función _isnull()_ o _notnull()_

In [20]:
pd.isnull( a )

0    False
1    False
2     True
3    False
4     True
Name: valores, dtype: bool

In [21]:
pd.notnull( a )

0     True
1     True
2    False
3     True
4    False
Name: valores, dtype: bool

el método _dropna()_ nos devolverá una nueva serie sin valores nulos pero sin modificar la serie original

In [24]:
a.dropna()

0    10.0
1    20.0
3    40.0
Name: valores, dtype: float64

también podremos reemplazar todos los valores nulos por ceros, pero sin alterar la serie original

In [25]:
a.fillna(0)

0    10.0
1    20.0
2     0.0
3    40.0
4     0.0
Name: valores, dtype: float64

In [26]:
a

0    10.0
1    20.0
2     NaN
3    40.0
4     NaN
Name: valores, dtype: float64

### DataFrame

podriamos decir que un dataframe es como una hoja de excel, al definirlo, tendremos una estrucutra similar a esta tabla:

|   | columna1 | columna2 | columnaN |
|---|----------|----------|----------|
| id0 | valor1 | valor2 | valorN |
| id1 | valor1 | valor2 | valorN |
| idN | valor1 | valor2 | valorN |

definimos un diccinario de ejemplo

In [34]:
usuarios = {
    'nombre': ['Eduaro', 'Marcelo', 'Claudia', 'Flavia'],
    'calificacion': [9, 10, 8.5, 9.5],
    'edad': [27, 25, 30, 22],
    'aprobado': [True, True, False, True]
}

y creamos nuestro dataframe a partir de este diccionario

In [70]:
pd.DataFrame( usuarios )

Unnamed: 0,nombre,calificacion,edad,aprobado
0,Eduaro,9.0,27,True
1,Marcelo,10.0,25,True
2,Claudia,8.5,30,False
3,Flavia,9.5,22,True


también podríamos definir los índices de nuestro dataframe y definir que columnas queremos obtener

In [69]:
pd.DataFrame(usuarios, index=['a','b','c','d'], columns=['nombre', 'edad'])

Unnamed: 0,nombre,edad
a,Eduaro,27
b,Marcelo,25
c,Claudia,30
d,Flavia,22


almacenamos nuestro dataframe en una variable para poder trabajar ...

In [44]:
a = pd.DataFrame( usuarios, index=['a','b','c','d'] )

visualicemos el contenido de nuestro dataframe

In [46]:
a

Unnamed: 0,nombre,calificacion,edad,aprobado
a,Eduaro,9.0,27,True
b,Marcelo,10.0,25,True
c,Claudia,8.5,30,False
d,Flavia,9.5,22,True


obtengamos ahora un listado de las columnas:

In [53]:
a.columns

Index(['nombre', 'calificacion', 'edad', 'aprobado'], dtype='object')

también un listado de los índices

In [55]:
a.index

Index(['a', 'b', 'c', 'd'], dtype='object')

veamos los datos de una columna específica

In [47]:
a.edad

a    27
b    25
c    30
d    22
Name: edad, dtype: int64

obtengamos los datos de una columna específica

In [54]:
a.edad.values

array([27, 25, 30, 22])

y ahora obtenemos el valor de una celda

In [67]:
a.nombre['b']
# también lo prodríamos obtener con a.nombre.b

'Marcelo'

para conocer las dimensiones de la matriz

In [63]:
a.values.ndim

2

In [68]:
pd.DataFrame(usuarios, index=['a','b','c','d'], columns=['nombre', 'edad'])

Unnamed: 0,nombre,edad
a,Eduaro,27
b,Marcelo,25
c,Claudia,30
d,Flavia,22
