Series

Las Series se pueden crear tanto a partir de listas como de diccionarios. De manera opcional podemos especificar una lista con las etiquetas de las filas.

In [13]:
from pandas import Series
serie = Series(['a', 'b', 'c'])
serie

0    a
1    b
2    c
dtype: object

In [4]:
serie = Series(['a', 'b', 'c'], index=['pregunta1', 'pregunta2', 'pregunta3'])
serie

pregunta1    a
pregunta2    b
pregunta3    c
dtype: object

In [8]:
dict = {'pregunta1': 'a', 'pregunta2': 'b', 'pregunta3': 'c'}
serie = Series(dict)
serie

pregunta1    a
pregunta2    b
pregunta3    c
dtype: object

In [12]:
serie = Series(dict, index=['pregunta3', 'pregunta1', 'pregunta4'])
serie

pregunta3      c
pregunta1      a
pregunta4    NaN
dtype: object

DataFrame

Los DataFrame se pueden crear de diferentes maneras, una forma común de crearlos es partir de listas o diccionarios de listas, de diccionarios o de Series. En los DataFrame tenemos la opción de especificar tanto el index (el nombre de las filas) como columns (el nombre de las columnas).



In [16]:
from pandas import DataFrame

In [26]:
list_listas = [[1, 2, 3, 4],[4, 3, 2, 1]]
dataframe = DataFrame(list_listas, columns=['uno', 'dos','tres','cuatro'])
dataframe

Unnamed: 0,uno,dos,tres,cuatro
0,1,2,3,4
1,4,3,2,1


In [24]:
dict_listas = {'uno' : [1, 2, 3, 4], 'dos' : [4, 3, 2, 1]}
dataframe = DataFrame(dict_listas)
dataframe

Unnamed: 0,uno,dos
0,1,4
1,2,3
2,3,2
3,4,1


In [29]:
dataframe = DataFrame(dict_listas, index=['a', 'b', 'c', 'd'])
dataframe

Unnamed: 0,uno,dos
a,1,4
b,2,3
c,3,2
d,4,1


In [30]:
dict_series = {'uno' : Series([1, 2, 3], index=['a', 'b', 'c']), 'dos' : Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
dataframe = DataFrame(dict_series)
dataframe

Unnamed: 0,uno,dos
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [31]:
dataframe = DataFrame(dict_series, index=['d', 'b', 'a'])
dataframe

Unnamed: 0,uno,dos
d,,4
b,2.0,2
a,1.0,1


In [35]:
dataframe = DataFrame(dict_series, index=['d', 'b', 'a'], columns=['dos', 'tres'])
dataframe

Unnamed: 0,dos,tres
d,4,
b,2,
a,1,


Extraer y filtrar datos


Para seleccionar datos usamos los métodos loc, iloc e ix. loc permite seleccionar dato usando las etiquetas de filas y columnas, iloc basándose en posición e ix basándose tanto en etiquetas como posición. En el caso de una Serie, devuelve un único valor y en el caso de los DataFrame puede devolver tanto una Serie si sólo se indica la posición de fila, o un valor único si se indican fila y columna.


Series loc[etiqueta_fila]

Series iloc[indice_fila]

Series ix[indice/etiqueta_fila]

DataFrame loc[etiqueta_fila, etiqueta_columna]

DataFrame iloc[indice_fila, indice_columna]

DataFrame iloc[indice/etiqueta_fila, indice/etiqueta_columna]

In [36]:
serie = Series([1,2,3,4], index=['a','b','c','d'])
serie.loc['a']

1

In [39]:
dataframe = DataFrame({'uno' : Series([1, 2, 3], index=['a', 'b', 'c']), 
                       'dos' : Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])})
dataframe


Unnamed: 0,uno,dos
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [45]:
dataframe.loc['a']


uno    1.0
dos    1.0
Name: a, dtype: float64

In [46]:
dataframe.loc['a', 'dos']

1

In [55]:
dataframe.iloc[3]

uno    NaN
dos    4.0
Name: d, dtype: float64

In [58]:
dataframe.iloc[1,0]

2.0

In [65]:
serie = Series([1,2,3,4], index=['a','b','c','d'])
serie[[True, False, True, False]]

a    1
c    3
dtype: int64

In [66]:
dataframe = DataFrame({'uno' : Series([1, 2, 3], index=['a', 'b', 'c']),
                       'dos' : Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])})
dataframe

Unnamed: 0,uno,dos
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [71]:
dataframe[[True, True, True, False]]

Unnamed: 0,uno,dos
a,1.0,1
b,2.0,2
c,3.0,3


In [72]:
serie[serie>=3]

c    3
d    4
dtype: int64

In [73]:
dataframe[dataframe['dos'] > 1]

Unnamed: 0,uno,dos
b,2.0,2
c,3.0,3
d,,4


In [74]:
dataframe[dataframe.index == 'c']

Unnamed: 0,uno,dos
c,3.0,3


Fusionar datos

concat permite concatenar Series y DataFrame. Mediante la opción axis, podemos controlar si la unión se debe hacer por filas o por columnas.



In [76]:
from pandas import concat
s1 = Series([1,2,3,4], index=['a','b','c','d'])
s1

a    1
b    2
c    3
d    4
dtype: int64

In [77]:
s2 = Series([5,6,7,8], index=['a','b','c','d'])
s2

a    5
b    6
c    7
d    8
dtype: int64

In [78]:
concat([s1, s2])

a    1
b    2
c    3
d    4
a    5
b    6
c    7
d    8
dtype: int64

In [83]:
from numpy.random import randn
df1 = DataFrame(randn(4,2), index=['a', 'b', 'c', 'd'], columns=['c1', 'c2'])
df1

Unnamed: 0,c1,c2
a,0.763578,-0.921834
b,0.896977,-1.023051
c,0.170139,0.62077
d,0.764583,1.015446


In [84]:
df2 = DataFrame(randn(4,2), index=['a', 'b', 'c', 'd'], columns=['c1', 'c2'])
df2

Unnamed: 0,c1,c2
a,-1.819061,-0.35293
b,0.87749,0.13234
c,2.187692,0.493452
d,0.091158,2.376722


In [85]:
concat([df1, df2], axis=0)

Unnamed: 0,c1,c2
a,0.763578,-0.921834
b,0.896977,-1.023051
c,0.170139,0.62077
d,0.764583,1.015446
a,-1.819061,-0.35293
b,0.87749,0.13234
c,2.187692,0.493452
d,0.091158,2.376722


In [86]:
concat([df1, df2], axis=1)

Unnamed: 0,c1,c2,c1.1,c2.1
a,0.763578,-0.921834,-1.819061,-0.35293
b,0.896977,-1.023051,0.87749,0.13234
c,0.170139,0.62077,2.187692,0.493452
d,0.764583,1.015446,0.091158,2.376722


join es un método para combinar DataFrame que puedan tener diferentes etiquetas de filas en un único DataFrame.



In [88]:
from numpy.random import randn
df1 = DataFrame(randn(4,2), index=['a', 'b', 'c', 'd'], columns=['c1', 'c2'])
df1

Unnamed: 0,c1,c2
a,0.381942,0.935855
b,-0.803392,0.470542
c,-0.42509,-0.082683
d,0.845553,0.920632


In [90]:
df2 = DataFrame(randn(4,2), index=['b', 'c', 'd', 'e'], columns=['c3', 'c4'])
df2

Unnamed: 0,c3,c4
b,-0.551605,0.441587
c,-1.451741,0.315304
d,0.022724,-0.094176
e,-0.120402,0.712294


In [91]:
df1.join(df2)

Unnamed: 0,c1,c2,c3,c4
a,0.381942,0.935855,,
b,-0.803392,0.470542,-0.551605,0.441587
c,-0.42509,-0.082683,-1.451741,0.315304
d,0.845553,0.920632,0.022724,-0.094176


join mantiene todos las filas presentes en el df1 pese a que no se encuentren en el df2 y completando con NaN los datos faltantes. Este comportamiento se puede modificar usando la opción how. how=’outer’ incluirá también las filas presentes en el df2 y que no están en el df1 y how=’inner’ sólo mostrará las filas comunes a los dos DataFrame.

In [92]:
df1.join(df2, how='outer')

Unnamed: 0,c1,c2,c3,c4
a,0.381942,0.935855,,
b,-0.803392,0.470542,-0.551605,0.441587
c,-0.42509,-0.082683,-1.451741,0.315304
d,0.845553,0.920632,0.022724,-0.094176
e,,,-0.120402,0.712294


In [93]:
df1.join(df2, how='inner')

Unnamed: 0,c1,c2,c3,c4
b,-0.803392,0.470542,-0.551605,0.441587
c,-0.42509,-0.082683,-1.451741,0.315304
d,0.845553,0.920632,0.022724,-0.094176


HEAD y TAIL 

permiten ver una pequeña parte de los datos tanto del principio como del final.

In [112]:
from numpy.random import random
serie = Series(random(1000))
serie.head()

0    0.889178
1    0.635424
2    0.776780
3    0.974586
4    0.469144
dtype: float64

groupby permite agrupar los datos en función de un criterio dado. Devuelve un objeto GroupBy, y uno de sus atributos (groups) es un diccionario dónde las claves son los grupos y los valores son las etiquetas de las filas que pertenecen a dicho grupo

In [114]:
dict_series = {'uno' : Series(['a', 'b', 'b', 'a'], index=['ind1', 'ind2', 'ind3', 'ind4']),
               'dos' : Series([1, 1, 2, 2], index=['ind1', 'ind2', 'ind3', 'ind4'])
              }
df = DataFrame(dict_series)
df

Unnamed: 0,uno,dos
ind1,a,1
ind2,b,1
ind3,b,2
ind4,a,2


In [115]:
df.groupby('uno').groups

{'a': ['ind1', 'ind4'], 'b': ['ind2', 'ind3']}

In [116]:
df.groupby('dos').groups

{1: ['ind1', 'ind2'], 2: ['ind3', 'ind4']}

MAP/APPLYMAP:

    sirven para aplicar una función a cada uno de los elementos de una Serie y un DataFrame respectivamente

ITERITEMS/ITERROWS:

    permiten iterar sobre un DataFrame. El primero devuelve el DataFrame columna por columna y el segundo por filas.

In [118]:
df = DataFrame(dict_series)
df

Unnamed: 0,uno,dos
ind1,a,1
ind2,b,1
ind3,b,2
ind4,a,2


In [121]:
for column, values in df.iteritems():
        print (column)
        print (list(values))

uno
['a', 'b', 'b', 'a']
dos
[1, 1, 2, 2]



pandas tiene además implementados diversos métodos estadísticos para operar en Series y DataFrames. En el caso de las Series se aplican directamente, mientras que en DataFrame hay que especificar si se tiene que aplicar por filas (axis=1) o por columnas (axis=0, valor por defecto). Además existen métodos para el calculo de estadísticos mediante el uso de ventanas deslizantes a lo largo de series de datos. Algunos ejemplos de estos métodos son:

count Número de observaciones no nulas

sum Suma de valores

mean Media

median Mediana

min Mínimo

max Máximo

mode Moda

abs Valor absoluto

std Desviacion estándar

var Varianza

quantile Quartil

corr Cálculo de correlaciones

cov Cálculo de covarianza

In [127]:
dict_series = {'uno' : Series([1, 2, 3], index=['a', 'b', 'c']),
               'dos' : Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
              }
df = DataFrame(dict_series)
df

Unnamed: 0,uno,dos
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [128]:
df.count(0) #numero de observaciones no nulas en columnas

uno    3
dos    4
dtype: int64

In [129]:
df.count(1) #numero de observaciones no nulas en filas

a    2
b    2
c    2
d    1
dtype: int64

Leer y escribir archivos


Los objetos de pandas permiten tanto leer datos en diversos formatos (read_csv, read_excel, read_json, read_html, read_pickle….) como escribir en ellos (to_csv, to_excel, to_json, to_html, to_pickle….). Permite incluso leer y escribir en el portapapeles (read_clipboard, to_clipboard). Veamos un par de ejemplos sencillo de cómo leer y escribir un archivo CSV (comma separated value)


Alguno de los argumentos, además del nombre del archivo, que se le pueden pasar a la función read_csv son:

sep: el delimitador que divide los campos del csv
header: el número de fila que contiene los nombres de las columnas. Por defecto es la primera línea (linea 0), si no existe cabecera header=None
index_col: el número de columna que contiene los nombre para usar como indexa. Por defecto no considera ninguna

In [130]:
from pandas import read_csv
read_csv('fichero1.csv')

Unnamed: 0,individuo,p1,p2,p3
0,indi,1,2,3
1,ind2,4,5,6
2,ind3,7,8,9


In [131]:
read_csv('fichero1.csv', index_col=0)

Unnamed: 0_level_0,p1,p2,p3
individuo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
indi,1,2,3
ind2,4,5,6
ind3,7,8,9


In [133]:
#print (df["county"][5:10]) # imprime de la linea 5 a la 10
#print (df["county"][:10]) # imprime  las primeras 10
#print (df["county"][-5:]) # imprime las últimas 5.

In [136]:
from pandas import read_csv
df = read_csv('votos.csv')
df

Unnamed: 0,state,state_abbreviation,county,party,candidate,votes,fraction_votes
0,Alabama,AL,Autauga,Democrat,Bernie Sanders,544,0.182
1,Alabama,AL,Autauga,Democrat,Hillary Clinton,2387,0.800
2,Alabama,AL,Baldwin,Democrat,Bernie Sanders,2694,0.329
3,Alabama,AL,Baldwin,Democrat,Hillary Clinton,5290,0.647
4,Alabama,AL,Barbour,Democrat,Bernie Sanders,222,0.078
...,...,...,...,...,...,...,...
24606,Wyoming,WY,Teton-Sublette,Republican,Ted Cruz,0,0.000
24607,Wyoming,WY,Uinta-Lincoln,Republican,Donald Trump,0,0.000
24608,Wyoming,WY,Uinta-Lincoln,Republican,John Kasich,0,0.000
24609,Wyoming,WY,Uinta-Lincoln,Republican,Marco Rubio,0,0.000


In [137]:
print (df["county"])

0               Autauga
1               Autauga
2               Baldwin
3               Baldwin
4               Barbour
              ...      
24606    Teton-Sublette
24607     Uinta-Lincoln
24608     Uinta-Lincoln
24609     Uinta-Lincoln
24610     Uinta-Lincoln
Name: county, Length: 24611, dtype: object


In [138]:
print (df["county"][5:10]) # imprime de la linea 5 a la 10
print (df["county"][:10]) # imprime  las primeras 10
print (df["county"][-5:]) # imprime las últimas 5.

5    Barbour
6       Bibb
7       Bibb
8     Blount
9     Blount
Name: county, dtype: object
0    Autauga
1    Autauga
2    Baldwin
3    Baldwin
4    Barbour
5    Barbour
6       Bibb
7       Bibb
8     Blount
9     Blount
Name: county, dtype: object
24606    Teton-Sublette
24607     Uinta-Lincoln
24608     Uinta-Lincoln
24609     Uinta-Lincoln
24610     Uinta-Lincoln
Name: county, dtype: object


In [139]:
print (df.county[5:10])

5    Barbour
6       Bibb
7       Bibb
8     Blount
9     Blount
Name: county, dtype: object


In [141]:
df3 = df[["county", "candidate", "party", "votes"]]
df3

Unnamed: 0,county,candidate,party,votes
0,Autauga,Bernie Sanders,Democrat,544
1,Autauga,Hillary Clinton,Democrat,2387
2,Baldwin,Bernie Sanders,Democrat,2694
3,Baldwin,Hillary Clinton,Democrat,5290
4,Barbour,Bernie Sanders,Democrat,222
...,...,...,...,...
24606,Teton-Sublette,Ted Cruz,Republican,0
24607,Uinta-Lincoln,Donald Trump,Republican,0
24608,Uinta-Lincoln,John Kasich,Republican,0
24609,Uinta-Lincoln,Marco Rubio,Republican,0


In [142]:
print (df3[df3.votes>200000])

             county        candidate     party   votes
1385    Los Angeles   Bernie Sanders  Democrat  434656
1386    Los Angeles  Hillary Clinton  Democrat  590502
4450        Chicago   Bernie Sanders  Democrat  311225
4451        Chicago  Hillary Clinton  Democrat  366954
4462   Cook Suburbs   Bernie Sanders  Democrat  212428
4463   Cook Suburbs  Hillary Clinton  Democrat  249217
17309  Philadelphia  Hillary Clinton  Democrat  212785


In [143]:
print (df3[(df3.county=='Manhattan') & (df.party=='Democrat')])

          county        candidate     party   votes
15011  Manhattan   Bernie Sanders  Democrat   90227
15012  Manhattan  Hillary Clinton  Democrat  177496


In [144]:
print (df3.query("county=='Manhattan' and party=='Democrat'"))

          county        candidate     party   votes
15011  Manhattan   Bernie Sanders  Democrat   90227
15012  Manhattan  Hillary Clinton  Democrat  177496


In [145]:
condado = 'Manhattan'
print (df3.query("county==@condado and party=='Democrat'"))

          county        candidate     party   votes
15011  Manhattan   Bernie Sanders  Democrat   90227
15012  Manhattan  Hillary Clinton  Democrat  177496


In [146]:
#1 Usando matriz de valores booleanos
print (df3[(df3.county=='Autauga') | (df3.county=='Baldwin')])
#2 Usando query
print (df3.query("county=='Autauga' or county=='Baldwin'"))

       county        candidate       party  votes
0     Autauga   Bernie Sanders    Democrat    544
1     Autauga  Hillary Clinton    Democrat   2387
2     Baldwin   Bernie Sanders    Democrat   2694
3     Baldwin  Hillary Clinton    Democrat   5290
134   Autauga       Ben Carson  Republican   1764
135   Autauga     Donald Trump  Republican   5387
136   Autauga      John Kasich  Republican    421
137   Autauga      Marco Rubio  Republican   1785
138   Autauga         Ted Cruz  Republican   2482
139   Baldwin       Ben Carson  Republican   4221
140   Baldwin     Donald Trump  Republican  23618
141   Baldwin      John Kasich  Republican   2987
142   Baldwin      Marco Rubio  Republican   9703
143   Baldwin         Ted Cruz  Republican   8571
3037  Baldwin   Bernie Sanders    Democrat    762
3038  Baldwin  Hillary Clinton    Democrat   3034
3367  Baldwin       Ben Carson  Republican    350
3368  Baldwin     Donald Trump  Republican   2069
3369  Baldwin      John Kasich  Republican    184


Isin nos permite comprobar si un valor está dentro de una lista. Por ejemplo, si la consulta fuese: “Mostrar los votos de los condados de Autauga y Baldwin”, si lo quisiéramos hacer con dos condiciones quedaría así:

In [149]:
print (df3[(df3.county.isin(["Autauga","Baldwin"]))])

       county        candidate       party  votes
0     Autauga   Bernie Sanders    Democrat    544
1     Autauga  Hillary Clinton    Democrat   2387
2     Baldwin   Bernie Sanders    Democrat   2694
3     Baldwin  Hillary Clinton    Democrat   5290
134   Autauga       Ben Carson  Republican   1764
135   Autauga     Donald Trump  Republican   5387
136   Autauga      John Kasich  Republican    421
137   Autauga      Marco Rubio  Republican   1785
138   Autauga         Ted Cruz  Republican   2482
139   Baldwin       Ben Carson  Republican   4221
140   Baldwin     Donald Trump  Republican  23618
141   Baldwin      John Kasich  Republican   2987
142   Baldwin      Marco Rubio  Republican   9703
143   Baldwin         Ted Cruz  Republican   8571
3037  Baldwin   Bernie Sanders    Democrat    762
3038  Baldwin  Hillary Clinton    Democrat   3034
3367  Baldwin       Ben Carson  Republican    350
3368  Baldwin     Donald Trump  Republican   2069
3369  Baldwin      John Kasich  Republican    184


Contains

Si la consulta requiere que comprobemos solo parte del valor del dato, podemos utilizar contains en el caso de las cadenas de caracteres. Por ejemplo, si deseamos mostrar los votos de los condados que contengan la palabra  ‘Saint’, podemos hacer lo siguiente:

In [150]:
print (df3[df3.county.str.contains('Saint')])

               county        candidate       party  votes
946     Saint Francis   Bernie Sanders    Democrat    354
947     Saint Francis  Hillary Clinton    Democrat   1912
1279    Saint Francis       Ben Carson  Republican     68
1280    Saint Francis     Donald Trump  Republican    598
1281    Saint Francis      John Kasich  Republican     19
1282    Saint Francis      Marco Rubio  Republican    236
1283    Saint Francis         Ted Cruz  Republican    494
8875     Saint Agatha   Bernie Sanders    Democrat      2
8876     Saint Agatha  Hillary Clinton    Democrat      2
15043  Saint Lawrence   Bernie Sanders    Democrat   4102
15044  Saint Lawrence  Hillary Clinton    Democrat   2865
15210  Saint Lawrence     Donald Trump  Republican   3617
15211  Saint Lawrence      John Kasich  Republican   1905
15212  Saint Lawrence         Ted Cruz  Republican    978


Ordenamiento en Pandas

¿Quiénes fueron los 3 candidatos que más votos obtuvieron  en un condado? Para contestar ésta pregunta debemos realizar una operación de ordenamiento. De esa forma podemos extraer los 3 primeros resultados que nos arroje Pandas.

In [161]:
dfordenado = df3.sort_values(by="votes", ascending=False)
print ("Ordenados por votos de mayor a menor")
print (dfordenado.head(3))

Ordenados por votos de mayor a menor
           county        candidate     party   votes
1386  Los Angeles  Hillary Clinton  Democrat  590502
1385  Los Angeles   Bernie Sanders  Democrat  434656
4451      Chicago  Hillary Clinton  Democrat  366954


Agrupamiento en Pandas

El agrupamiento nos permitirá realizar operaciones (como contar o sumar) sobre un subgrupo dentro de un dataframe. Por ejemplo, si deseamos el  total de votos por estado y por partido, tendríamos que agrupar todos los votos de un estado, y después agrupar todos los votos de cada partido. Hacerlo con Pandas es muy sencillo:


Ésta operación nos agrupa todos los registros, primero por estado y luego por partido y realiza la suma de las columnas numéricas, si solo queremos  la de votos deberíamos especificarla: df.groupby([“state”, “party”])[“votes”].sum()

In [162]:
print ("total de votos por estado y por partido")
print (df.groupby(["state", "party"]).sum())

total de votos por estado y por partido
                            votes  fraction_votes
state         party                              
Alabama       Democrat     386327          63.918
              Republican   837632          65.429
Alaska        Democrat        539          40.000
              Republican    21930          40.004
Arizona       Democrat     399097          14.353
...                           ...             ...
West Virginia Republican   188138          51.205
Wisconsin     Democrat    1000703          71.654
              Republican  1072699          69.896
Wyoming       Democrat        280          23.000
              Republican      903          11.296

[95 rows x 2 columns]


Primero estamos creando una función llamada miles que recibe un valor (x), y lo regresa dividido entre 1000. (return x/1000).

Luego creamos una columna llamada “votesm” y le asignamos el resultado de aplicar a cada valor de “votes” la función miles

In [169]:
def miles(x):
    return x/1000

df3["votesm"] = df3["votes"].apply(miles)
print (df3.head())

    county        candidate     party  votes  votesm
0  Autauga   Bernie Sanders  Democrat    544   0.544
1  Autauga  Hillary Clinton  Democrat   2387   2.387
2  Baldwin   Bernie Sanders  Democrat   2694   2.694
3  Baldwin  Hillary Clinton  Democrat   5290   5.290
4  Barbour   Bernie Sanders  Democrat    222   0.222


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3["votesm"] = df3["votes"].apply(miles)


Guardar un dataset como csv

Para guardar un dataset como csv, debemos especificar el nombre del archivo donde se guardarán los datos y hacer uso del método to_csv.

In [170]:
df3.to_csv("filename_df3.csv", index=False)