# DataFrame

In [1]:
# Estructura de datos en Pandas
# DataFrame is a 2 dimensional labeled data

In [1]:
# La forma mas comun de construir un dataframe son diccionarios
import pandas as pd

In [5]:
# Ejemplo de creacion de un dataframe a partir de un diccionario

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003,],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [36]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [37]:
# Restriccion del numero de elementos que quieremos visualizar
# Funciones head() y tail()

# head() te coge las primera filas que le digas

frame.head(2)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7


In [38]:
# tail() te coge las ultimas

frame.tail(2)

Unnamed: 0,state,year,pop
4,Nevada,2002,2.9
5,Nevada,2003,3.2


# Mostrar las columnas que nos interesan y en el orden deseado

In [39]:
 # pandas.DataFrame(data = None, index = None, columns = None, y se pueden mirar muchos mas atributos)

In [40]:
pd.DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [41]:
# Le podemos asignar el orden de las columas, por ejemplo

pd.DataFrame(data, columns = ['pop', 'year', 'state'])

Unnamed: 0,pop,year,state
0,1.5,2000,Ohio
1,1.7,2001,Ohio
2,3.6,2002,Ohio
3,2.4,2001,Nevada
4,2.9,2002,Nevada
5,3.2,2003,Nevada


# Recuperacion de datos de columas especificas

In [6]:
# Recuperacion en formato serie

frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'],
                      index = ['one', 'two', 'three', 'four', 'five', 'six'])

In [43]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [44]:
# Recuperacion en formato diccionario

frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [45]:
# Ejercicio: Cambiar del frame2 'year' por '1year'
# Probar la recuperacion de las dos formas

frame2_A = pd.DataFrame(data, columns = ['1year', 'state', 'pop', 'debt'],
                      index = ['one', 'two', 'three', 'four', 'five', 'six'])

In [46]:
frame2_A['1year']

one      NaN
two      NaN
three    NaN
four     NaN
five     NaN
six      NaN
Name: 1year, dtype: object

In [47]:
frame2_A.1year

SyntaxError: invalid syntax (<ipython-input-47-512487fa2776>, line 1)

In [48]:
# Mejor asegurar como formato lista

In [49]:
# Tambien se pueden recuperar datos mediante el atributo 'loc.'

In [50]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [51]:
frame2_A.loc['three']

1year     NaN
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [52]:
# Modificacion de los valores de las columnas mediante asignacion
# dataframe['nombre_columna'] = valor/'valor'
# cambiamos todos los valores de una columna

frame2['debt'] = 16.5

In [53]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


# Asignar listas o arrays a una columna de un dataframe

In [11]:
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])

frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [55]:
# Basicamente estamos diciendo: al indice 'two' asignale el valor -1.2, al 'four', el -1.5 y al 'five', -1.7
# Y ademas modificamos los valores de la columna 'debt'

In [56]:
# Asignacion de valores a una columna que no existe.
# Lo que estamos haciendo es crear una nueva columna

frame2['eastern'] = 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,Ohio
two,2001,Ohio,1.7,-1.2,Ohio
three,2002,Ohio,3.6,,Ohio
four,2001,Nevada,2.4,-1.5,Ohio
five,2002,Nevada,2.9,-1.7,Ohio
six,2003,Nevada,3.2,,Ohio


In [57]:
frame2['western'] = 'California'
frame2

Unnamed: 0,year,state,pop,debt,eastern,western
one,2000,Ohio,1.5,,Ohio,California
two,2001,Ohio,1.7,-1.2,Ohio,California
three,2002,Ohio,3.6,,Ohio,California
four,2001,Nevada,2.4,-1.5,Ohio,California
five,2002,Nevada,2.9,-1.7,Ohio,California
six,2003,Nevada,3.2,,Ohio,California


# Eliminacion de culumnas

In [58]:
del frame2['western']

In [59]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,Ohio
two,2001,Ohio,1.7,-1.2,Ohio
three,2002,Ohio,3.6,,Ohio
four,2001,Nevada,2.4,-1.5,Ohio
five,2002,Nevada,2.9,-1.7,Ohio
six,2003,Nevada,3.2,,Ohio


In [60]:
# Para ver las columnas que tenemos

frame2.columns

Index(['year', 'state', 'pop', 'debt', 'eastern'], dtype='object')

# Crear copia de un objeto con su indice y sus datos

In [61]:
# La modificacion insitu de los datos de una serie de un dataframe modifica el mismio.
# Por seguridad, mejor realizar copias, si no se esta seguro

frame2_A_copy = frame2_A.copy()
frame2_A_copy

Unnamed: 0,1year,state,pop,debt
one,,Ohio,1.5,
two,,Ohio,1.7,
three,,Ohio,3.6,
four,,Nevada,2.4,
five,,Nevada,2.9,
six,,Nevada,3.2,


# Creacion de un dataframe a partir de un diciionario de diccionarios

In [62]:
# Las claves exteriores son las columnas y las interiores las filas o indices

pop = {'Nevada': {2001: 2.4, 2002: 2.9},
      'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [63]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


# Trasponer un DataFrame

In [64]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


# Establecer los nombres (etiquetas) del indice y columnas de un dataframe

In [65]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


# Mostrar los datos de un dataframe en formato array o matricial

In [66]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [67]:
frame2.values

array([[2000, 'Ohio', 1.5, nan, 'Ohio'],
       [2001, 'Ohio', 1.7, -1.2, 'Ohio'],
       [2002, 'Ohio', 3.6, nan, 'Ohio'],
       [2001, 'Nevada', 2.4, -1.5, 'Ohio'],
       [2002, 'Nevada', 2.9, -1.7, 'Ohio'],
       [2003, 'Nevada', 3.2, nan, 'Ohio']], dtype=object)

# Reindexacion

In [69]:
obj = pd.Series([3, 1, 5, 8], index = ['a', 'b', 'c', 'd'])
obj

a    3
b    1
c    5
d    8
dtype: int64

In [72]:
# Reindexacion mediante reindex(). Introduce NaN en los no definidos

obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a    3.0
b    1.0
c    5.0
d    8.0
e    NaN
dtype: float64

In [73]:
# Reindexacion del dataframe por las columnas con un nuevo indice

states = ['Texas', 'Utah', 'California']

In [74]:
frame.reindex(columns = states)

Unnamed: 0,Texas,Utah,California
0,,,
1,,,
2,,,
3,,,
4,,,
5,,,
