# Dataframes

In [3]:
# Los dataFrames son un tipo de dato Bidimensional, parecidos a las series. Compuestos por filas y columnas. Podríamos compararla con una tabla SQL. Es el tipo de dato más usado
# en Pandas

In [1]:
import numpy as np
import pandas as pd

In [9]:
# Los dataframes se pueden construir a partir de varios constructores. El primero es a partir de un diccionario. Creamos una diccionario con dos Series
# SHIFT + TAB para ayuda y documentación 
# TAB para sugerencias
d = {'col1' : pd.Series([1, 2, 3, 4]),
    'col2': pd.Series([4, 3, 2, 1])}
df = pd.DataFrame(d)
df

Unnamed: 0,col1,col2
0,1,4
1,2,3
2,3,2
3,4,1


In [10]:
# El segundo constructor seria con un diccionario pero con una lista de valores. PERO tenemos que indicarle el índice al .Dataframe

d = {'col1': [1., 2., 3., 4.],
     'col2': [4., 3., 2., 1.]}

df = pd.DataFrame(d, index = ['a','b','c','e'])
df

Unnamed: 0,col1,col2
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
e,4.0,1.0


In [13]:
# Otra opción es con una lista de diccionarios, es decir, pasarle esa lista de diccionarios al Dataframe. Cada uno de los diccionarios son filas del Dataframe. 
# Si hay alguna fila de más en algún diccionario, quedará en NaN en el resto
# Para crearlo hay que pasarle esa lista de diccionarios y además un índice


l = [{'col1': 1, 'col2' : 4}, {'col1': 2, 'col2' : 3},  
     {'col1': 3, 'col2' : 2}, {'col1': 4, 'col2' : 1, 'col3' : 3}]

df = pd.DataFrame(l, index = ['a','b','c','e'])
df

Unnamed: 0,col1,col2,col3
a,1,4,
b,2,3,
c,3,2,
e,4,1,3.0


In [14]:
# Para recuperar datos hacemos como hacíamos con las series, indicando la columna que queremos recuperar
df['col2']



a    4
b    3
c    2
e    1
Name: col2, dtype: int64

In [16]:
# Y el tipo de dato será un Panda-Series que fue el primer tipo de dato que vimos
type(df['col2'])

pandas.core.series.Series

In [25]:
# Podemos realizar operaciones como generar una nueva columna sumando la col1 y la col2
df['col4'] = df['col1'] + df ['col2']
df

Unnamed: 0,col1,col2,col4
a,1,4,5
b,2,3,5
c,3,2,5
e,4,1,5


In [28]:
# Podemos eliminar una columna de DataFrame por ejemplo así
del df['col4']

In [29]:
df

Unnamed: 0,col1,col2
a,1,4
b,2,3
c,3,2
e,4,1


In [31]:
# Podemos insertar columnas, primero diciendo dónde queremos insertarla (posición), el nombre de la columna y luego los valores 

df.insert(0, 'col0', df['col1'] + df['col2'])
df

Unnamed: 0,col0,col1,col2
a,5,1,4
b,5,2,3
c,5,3,2
e,5,4,1


In [32]:
# Otra manera es con el método assign(nombre de la columna, y valor)

df = df.assign(col3 = 3)
df

Unnamed: 0,col0,col1,col2,col3
a,5,1,4,3
b,5,2,3,3
c,5,3,2,3
e,5,4,1,3
