# Series

Se trata de un array unidimensional que contiene una secuencia de valores. Dichos valores están asociados a títulos, a los cuales se los llama índices (index).

In [24]:
import pandas as pd
import numpy as np

In [2]:
obj= pd.Series([4, 7, -5, 3])

print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


Al no especificar un índice, lo que hace es poner una serie de números ascendentes.

Podemos tomar por separado los valores de los índices:

In [5]:
print(obj.values)

[ 4  7 -5  3]


In [6]:
print(obj.index)

RangeIndex(start=0, stop=4, step=1)


Podemos colocar nosotros el índice al crear la serie:

In [7]:
obj2= pd.Series([4,7,-5,3], index=["d","b","a","c"])

print(obj2)

d    4
b    7
a   -5
c    3
dtype: int64


A diferencia de numpy, podemos usar las etiquetas para indexar algún valor:

In [15]:
obj3= obj2["a"]

obj4= obj2["d"]

obj5= obj2[["b", "a", "d"]]

print(obj3)
print("--------------")
print(obj4)
print("--------------")
print(obj5)

-5
--------------
4
--------------
b    7
a   -5
d    4
dtype: int64


Al usar condicionales, también podemos usar el índice:

In [17]:
obj6= obj2[obj2 > 0]

print(obj6)

d    4
b    7
c    3
dtype: int64


In [18]:
obj7= obj2 * 2

print(obj7)

d     8
b    14
a   -10
c     6
dtype: int64


También podemos crear Series a través de los diccionarios:

In [19]:
sdata= {"Ohio":35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}  #un simple diccionario

obj8= pd.Series(sdata)

print(obj8)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


Para ordenar alfabéticamente en función de otra tabla (y no en función al orden en que aparecen en el diccionario):

In [21]:
states= ["California", "Ohio", "Oregon", "Texas"]

obj9= pd.Series(sdata, index= states)

print(obj9)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


# DataFrames

Se trata de una tabla rectangular de datos. Contiene una colección de columnas, cada una de las cuales puede poseer un diferente tipo de valor.
Posee índices tanto de filas como de columnas. Hay varias formas de armar un DataFrame, una de ellas es la siguiente:

In [2]:
data= {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
       "year": [2000, 2001, 2002, 2001, 2002, 2003],
       "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

print(data)

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002, 2003], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}


In [23]:
frame= pd.DataFrame(data)

print(frame)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


El índice se genera automáticamente.

Con el método head se puede extraer una muestra de las primeras 5 filas del DataFrame:

In [25]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [26]:
frame.head(3)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


Podemos también ordenar las columnas de la manera en que mejor parezca:

In [27]:
data1= pd.DataFrame(data, columns= ["year", "state", "pop"])

print(data1)

   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9
5  2003  Nevada  3.2


Si al generar el campo columnas, agregamos una que no está en los datos, aparecerá con valores vacíos:

In [14]:
data2= pd.DataFrame(data, columns= ["year", "state", "pop", "debt"],
                   index= ["one", "two", "three", "four", "five", "six"])

print(data2)

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN


Podemos extraer las columnas de un dataframe (se obtiene una lista de 4 elementos):

In [7]:
data2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Podemos seleccionar columnas del dataframe:

In [8]:
column1= data2["state"]

print(column1)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object


También podemos seleccionar filas determinadas:

In [10]:
arrow1= data2.loc["two"]

print(arrow1)

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object


También podemos modificar el contenido de las columnas:

In [13]:
data2["debt"]= 16.5 #este método modifica la tabla original

print(data2)

       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
six    2003  Nevada  3.2  16.5


In [25]:
data2["debt"]= np.arange(6.)

print(data2)

       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0


Cuando agregamos una columna completa a un dataframe, la cantidad de filas debe coincidir o ser menor que la cantidad de filas del datraframe:

In [26]:
val= pd.Series([-1.2, -1.5, -1.7], index= ["two", "four", "five"])

print(val)

two    -1.2
four   -1.5
five   -1.7
dtype: float64


In [27]:
data2["debt"]= val

print(data2)

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


Podemos agregar columnas una a una a un dataframe tb: 

In [28]:
data2["eastern"]= data2.state== "Ohio"  #agregar una columna en la cual evalúe que el cmapo state sea igual a "Ohio"

print(data2)

       year   state  pop  debt  eastern
one    2000    Ohio  1.5   NaN     True
two    2001    Ohio  1.7  -1.2     True
three  2002    Ohio  3.6   NaN     True
four   2001  Nevada  2.4  -1.5    False
five   2002  Nevada  2.9  -1.7    False
six    2003  Nevada  3.2   NaN    False


También podemos remover columnas con el método "del":

In [29]:
del data2["eastern"]

print(data2)

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


Otra forma de creación de un dataframe a partir de datos de entrada es un diccionario dentro de un diccionario:

In [30]:
pop= {"Nevada": {2001: 2.4, 2002: 2.9},
      "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}

print(pop)

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}


In [31]:
data3= pd.DataFrame(pop)

print(data3)

      Nevada  Ohio
2001     2.4   1.7
2002     2.9   3.6
2000     NaN   1.5


Se puede transponer con idéntica sintaxis que en numpy:

In [33]:
data4= data3.T

print(data4)

        2001  2002  2000
Nevada   2.4   2.9   NaN
Ohio     1.7   3.6   1.5


Al igual que ocurre con las columnas, si pasamos una fila que no estaba, los valores aparecen como nan:

In [36]:
pd.DataFrame(pop, index= [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


# Convertir Dataframe a List

In [None]:
fechas_4 = fechas_3['Fechas'].values.tolist()