# Estructura de Datos en Pandas 🐼



## Bibliotecas

In [1]:
 %pylab inline

Populating the interactive namespace from numpy and matplotlib


In [24]:
import pandas as pd
from numpy import array




## ⭐Series


Formación unidimensional etiquetada. El índice es la lista de todos las etiquetas del eje


### 🧡Creación de Series 

Desde una lista python, tupla o desde un darray numpy 

In [3]:
a= array([1,2,3,4])
s= pd.Series(a, index=['a','b','c','d'])

In [4]:
s

a    1
b    2
c    3
d    4
dtype: int32

El índice debe tener el mismo número de elementos que la formación. Si no se proporciona el índice, se asignará uno (de 0 al número de elementos menos 1)


In [5]:
s2= pd.Series(a)

In [6]:
s2

0    1
1    2
2    3
3    4
dtype: int32

Desde un diccionario python 

Si no se proporciona el índice, coge directamente las claves del diccionario como índice. 

In [7]:
d = {'a': 1.1, 'b': 2.2, 'c':3.3, 'd':4.4} 

In [8]:
s3 = pd.Series(d)

In [9]:
s3

a    1.1
b    2.2
c    3.3
d    4.4
dtype: float64

Si se proporciona el índice, lo compara con las claves del diccionario y solo guarda los valores que corresponden al índice introducido

In [10]:
s3= pd.Series(d, index=['d','e','a'])

In [11]:
s3

d    4.4
e    NaN
a    1.1
dtype: float64

Nan => No es un número. Represante un valor faltante.

Desde un número

El valor serár repetido para cada uno de los valores del índice. 

In [12]:
s4= pd.Series(10, index=['a','b','c'])

In [13]:
s4

a    10
b    10
c    10
dtype: int64

## Funcionalidad Principal 

🧡💛💚

In [14]:
s.size

4

In [15]:
s['b']

2

In [16]:
s['b']=33

In [17]:
s

a     1
b    33
c     3
d     4
dtype: int32

Operaciones Vectoriales 

In [18]:
s5 = pd.Series(5, index=['b','c'])

In [19]:
s5

b    5
c    5
dtype: int64

In [20]:
s+s5

a     NaN
b    38.0
c     8.0
d     NaN
dtype: float64

Atributo nombre

In [21]:
s6= pd.Series([1,2,3],name ='test')

In [22]:
s6

0    1
1    2
2    3
Name: test, dtype: int64

In [23]:
s6.name

'test'

# 💙DATAFRAMES

Estructura de Datos bidimensional etiquetada con columnas que pueden ser de diferentes tipos. El índice es la lista de todas las etiquetas de las líneas Las columnas es la lista de las etiquetas de columnas


## Creación de un dataframe

Desde un diccionario de Series o diccionarios 

In [24]:
s1=pd.Series([1,2,3,4], index=['a','b','c','d'])
s2=pd.Series([5,6,7,8], index=['a','b','c','d'])
print(s1)
print(s2)


a    1
b    2
c    3
d    4
dtype: int64
a    5
b    6
c    7
d    8
dtype: int64


In [25]:
 df = pd.DataFrame({'column1': s1, 'column2': s2}) 

In [26]:
df

Unnamed: 0,column1,column2
a,1,5
b,2,6
c,3,7
d,4,8


In [27]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [28]:
df.columns

Index(['column1', 'column2'], dtype='object')

Nuevo ejemplo

In [29]:
df=pd.DataFrame({'column1':s1,'column2':s2},index =['b','c'], columns=['column1','non-existing column'])

In [30]:
df

Unnamed: 0,column1,non-existing column
b,2,
c,3,


Desde un diccionario de listas, tuplas o ndarrays La única diferencia con respecto al caso anterior es que las esctructuras de datos para su creación no contienen la información del índice. Si no especiﬁcamos un índice, se asignará una secuencia de 0 al número de elementos menos uno (len-1).


In [31]:
df= pd.DataFrame({'column1':[1,2,3,4], 'column2':[5,6,7,8]})

In [32]:
df

Unnamed: 0,column1,column2
0,1,5
1,2,6
2,3,7
3,4,8


Si especiﬁcamos un índice, tiene que tener el mismo número de elementos que el número de elementos en cada lista, tupla o ndarray

In [33]:
df = pd.DataFrame({'column1':(1,2,3,4),'column2':array([5,6,7,8])}, index=['first','second','third','fourth'],
                  columns=['column1','no-existing column'])

In [34]:
df

Unnamed: 0,column1,no-existing column
first,1,
second,2,
third,3,
fourth,4,


Desde una lista de diccionarios En este caso, las claves de los diccionarios serán las columnas del Dataframe


In [36]:
df = pd.DataFrame([{'column1': 1, 'column2': 2}, {'column1': 3, 'column2': 4, 'non-existing column in 1st dict': 5}])

In [37]:
df

Unnamed: 0,column1,column2,non-existing column in 1st dict
0,1,2,
1,3,4,5.0


In [38]:
df = pd.DataFrame([{'column1': 1, 'column2': 2}, {'column1': 3, 'column2': 4, 'non-existing column in 1st dict': 5}], index = ['first', 'second']) 

In [39]:
df

Unnamed: 0,column1,column2,non-existing column in 1st dict
first,1,2,
second,3,4,5.0


Desde un diccionario de tuplas Cuando utilizamos diccionarios cuyas claves son tuplas en vez de textos alfanuméricos o números, crearemos dataframes con múltiples índices. 

In [12]:
d_c1_c11 = {('r1', 'r1-1'): 1, ('r1', 'r1-2'): 2, ('r2', 'r2-1'): 3}
d_c1_c12 = {('r1', 'r1-1'): 4, ('r1', 'r1-2'): 5, ('r2', 'r2-1'): 6}
d_c2_c21 = {('r1', 'r1-1'): 7, ('r1', 'r1-2'): 8, ('r2', 'r2-1'): 9}
df = pd.DataFrame({('c1', 'c1-1'): d_c1_c11, ('c1', 'c1-2'): d_c1_c12, ('c2', 'c2-1'): d_c2_c21} ) 
df.index = pd.MultiIndex.from_tuples(df.index) 
df.columns = pd.MultiIndex.from_tuples(df.columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,c1,c1,c2
Unnamed: 0_level_1,Unnamed: 1_level_1,c1-1,c1-2,c2-1
r1,r1-1,1,4,7
r1,r1-2,2,5,8
r2,r2-1,3,6,9


Desde una Serie. 

In [13]:
 s = pd.Series([1, 2, 3, 4])
 s.name = 'column1' 
 s 

0    1
1    2
2    3
3    4
Name: column1, dtype: int64

In [14]:
df = pd.DataFrame(s) 
df 

Unnamed: 0,column1
0,1
1,2
2,3
3,4


# Paneles

Estructura de datos tridimensional

In [25]:
 a = array([[[1,2],[3,4],[5,6]],[[7,8],[9,10],[11,12]]]) 
 

In [26]:
a

array([[[ 1,  2],
        [ 3,  4],
        [ 5,  6]],

       [[ 7,  8],
        [ 9, 10],
        [11, 12]]])

In [27]:
p = pd.Panel(a, items = ['df1', 'df2'],
             major_axis = ['row1', 'row2', 'row3'], 
             minor_axis = ['col1', 'col2'] 
            )


In [28]:
p

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 3 (major_axis) x 2 (minor_axis)
Items axis: df1 to df2
Major_axis axis: row1 to row3
Minor_axis axis: col1 to col2