<center><h1> Estructuras de datos en Pandas</h1></center>

<center>
![Alt Text](http://www.pbh2.com/wordpress/wp-content/uploads/2013/04/cutest-panda-gifs-babies.gif)
</center>

**Que es Pandas?**
- Es una libreria de Python que nos brinda estructuras de datos y herramientas para el analisis de datos
- Puede ser usado para simple manejo de datos hasta operaciones compleas de machine learning
- Esta escrito sobre Numpy y Cython lo cual lo hace muy rapido
- Es partes de un ecosistema (https://pandas.pydata.org/pandas-docs/stable/ecosystem.html)

**Pandas tiene dos estructuras de datos:**
- Series
- DataFrames

**Instalacion**

In [None]:
pip install pandas

**Uso:**

In [1]:
import numpy as np
import pandas as pd

<h1>Series

Una serie es un objeto unidimensional similar a un array, list o lo podriamos ver como una columna de un excel que puede contener cualquier tipo de dato incluso objetos python y lo podemos crear con:

- ndarray
- Python dict
- Valor escalar

**ndarray**

In [3]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -1.186060
b    0.948400
c    0.973243
d    0.105358
e   -0.768727
dtype: float64

**Python dict**

In [5]:
d = {'a' : 42, 'b' : 1, 'c' : 1.1, 'd': 'mil ocho mil', 'e': 3.1416}
s = pd.Series(d)
s

a              42
b               1
c             1.1
d    mil ocho mil
e          3.1416
dtype: object

**Un valor escalar**

In [7]:
s = pd.Series(4/6, index=['a', 'b', 'c', 'd', 'e'])
s

a    0.666667
b    0.666667
c    0.666667
d    0.666667
e    0.666667
dtype: float64

**Series actúan muy similar a un ndarray, y es un argumento válido para la mayoría de las funciones NumPy.**

In [8]:
s[0]

0.66666666666666663

In [9]:
s[:3]

a    0.666667
b    0.666667
c    0.666667
dtype: float64

In [11]:
s[s > s.median()]

Series([], dtype: float64)

In [12]:
s[[4, 3, 1]]

e    0.666667
d    0.666667
b    0.666667
dtype: float64

In [13]:
np.exp(s)

a    1.947734
b    1.947734
c    1.947734
d    1.947734
e    1.947734
dtype: float64

**Una serie es como un diccionario en python de tamaño fijo en el que se puede obtener y establecer valores por labels**

In [14]:
s['a']

0.66666666666666663

In [16]:
s['e'] = 12
s

a     0.666667
b     0.666667
c     0.666667
d     0.666667
e    12.000000
dtype: float64

In [17]:
'e' in s

True

In [18]:
'f' in s

False

In [19]:
s['f']

KeyError: 'f'

In [21]:
s.get('f')

In [22]:
s.get('f', np.nan)

nan

**Operaciones con Series**

In [23]:
s + s

a     1.333333
b     1.333333
c     1.333333
d     1.333333
e    24.000000
dtype: float64

In [24]:
s * 2

a     1.333333
b     1.333333
c     1.333333
d     1.333333
e    24.000000
dtype: float64

In [25]:
np.exp(s)

a         1.947734
b         1.947734
c         1.947734
d         1.947734
e    162754.791419
dtype: float64

In [26]:
s[1:] + s[:-1]

a         NaN
b    1.333333
c    1.333333
d    1.333333
e         NaN
dtype: float64

<h1>DataFrames

DataFrame es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes. Se podria ver como una hoja de cálculo, tabla de SQL, o un diccionario de Series. Es el objeto pandas más comúnmente utilizado. Como la Serie, DataFrame acepta muchos tipos diferentes de entrada.


**Diccionario de Series**

In [28]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']), 'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df


Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [29]:
pd.DataFrame(d, index=['d', 'b', 'a'])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [30]:
pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


**Diccionario de listas**

In [31]:
d = {'one' : [1., 2., 3., 4.], 'two' : [4., 3., 2., 1.]}
pd.DataFrame(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [32]:
pd.DataFrame(d, index=['a', 'b', 'c', 'd'])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


**Listas de diccionarios**

In [33]:
data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
pd.DataFrame(data2)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [34]:
pd.DataFrame(data2, index=['first', 'second'])

Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


In [35]:
pd.DataFrame(data2, columns=['a', 'b'])

Unnamed: 0,a,b
0,1,2
1,5,10


**Selección, adición y eliminación de columnas**

In [36]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [38]:
df['three'] = df['one'] * df['two']
df

Unnamed: 0,one,two,three
a,1.0,1.0,1.0
b,2.0,2.0,4.0
c,3.0,3.0,9.0
d,,4.0,


In [40]:
df['flag'] = df['one'] > 2
df

Unnamed: 0,one,two,three,flag
a,1.0,1.0,1.0,False
b,2.0,2.0,4.0,False
c,3.0,3.0,9.0,True
d,,4.0,,False


In [42]:
del df['two']
df

KeyError: 'two'

In [45]:
three = df.pop('three')
three

KeyError: 'three'

In [47]:
df['foo'] = 'bar'
df

Unnamed: 0,one,flag,foo
a,1.0,False,bar
b,2.0,False,bar
c,3.0,True,bar
d,,False,bar


In [49]:
df['one_trunc'] = df['one'][:2]
df

Unnamed: 0,one,flag,foo,one_trunc
a,1.0,False,bar,1.0
b,2.0,False,bar,2.0
c,3.0,True,bar,
d,,False,bar,


In [52]:
df

Unnamed: 0,one,bar,flag,foo,one_trunc
a,1.0,1.0,False,bar,1.0
b,2.0,2.0,False,bar,2.0
c,3.0,3.0,True,bar,
d,,,False,bar,
