# Aprendiendo Pandas 
##### Gabriel Missael Barco 31/01/2020
Vease: **Python Data Science Handbook**, Jake VanderPlas

# Introduciendo objetos de Pandas
Importamos la libreria y checamos la version instalda. Podemos leer sobre la libreria con '?'

In [75]:
import pandas as pd
import numpy as np
pandas.__version__

#pd? 

'0.25.3'

### Series
Una **serie** en pandas es un arreglo uno-dimensional de datos indexados. Podemos ver que se tiene una columna de **indices** y otra de **datos**. Se puede manejar de manera muy similar a un arreglo con Numpy, sin embargo, son mucho mas flexibles.

In [19]:
data = pd.Series([1, 2, 0.7, 12])
data

0     1.0
1     2.0
2     0.7
3    12.0
dtype: float64

In [12]:
data.values

array([ 1. ,  2. ,  0.7, 12. ])

In [13]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
data[1:3]

1    2.0
2    0.7
dtype: float64

En Numpy, los indices estan declarados de manera implicita, y en pandas, los podemos modificar.
Por ejemplo, podemos hacer:

In [17]:
datos = pd.Series([1, 2, 1.25, 1.8], 
                  index = ['a', 'b', 'c', 'd'])
datos

a    1.00
b    2.00
c    1.25
d    1.80
dtype: float64

In [18]:
datos['b'] 

2.0

### Series como diccionarios especializados

In [24]:
estudiantes_dci_diccionario = {
    'fisica': 250,
    'biomedica': 324,
    'quimica': 238
}
poblacion = pd.Series(estudiantes_dci_diccionario)
poblacion

fisica       250
biomedica    324
quimica      238
dtype: int64

In [27]:
print(poblacion['fisica'])
print(poblacion['fisica':'quimica'])

250
fisica       250
biomedica    324
quimica      238
dtype: int64


### Contruyendo objetos series
La manera general de una serie es:
```
pd.Series(data, index = index)
```
Data puede ser un entero, un arreglo Numpy, un diccionario, etc. Index se tu indice, el "nombre" de cada dato.

In [38]:
print(pd.Series([2, 4, 6]))
print(pd.Series(5, index=[100, 200, 300]))
print(pd.Series({2:'a', 1:'b', 3:'c'}))
print(pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]))


0    2
1    4
2    6
dtype: int64
100    5
200    5
300    5
dtype: int64
2    a
1    b
3    c
dtype: object
3    c
2    a
dtype: object


### DataFrame
Parecen tambien una generalizacion de los arreglos de Numpy, como una Serie, pero este es de dos dimensiones, con indices editables. Es como una serie de series.

In [60]:
promedio = {
    'fisica': 8.5,
    'biomedica': 9,
    'quimica': 8.8
}
estudiantes = pd.DataFrame({'poblacion': poblacion, 
                         'promedio' : promedio})
estudiantes

Unnamed: 0,poblacion,promedio
biomedica,324,9.0
fisica,250,8.5
quimica,238,8.8


In [53]:
estudiantes.index

Index(['biomedica', 'fisica', 'quimica'], dtype='object')

In [54]:
estudiantes.columns

Index(['poblacion', 'promedio'], dtype='object')

In [58]:
#Regresa la primera columna, no la primera fila
print(estudiantes['promedio'])

biomedica    9.0
fisica       8.5
quimica      8.8
Name: promedio, dtype: float64


### Construyendo objetos DataFrame

In [73]:
#De una sola serie
pd.DataFrame(poblacion, columns = ['poblacion'])

Unnamed: 0,poblacion
fisica,250
biomedica,324
quimica,238


In [71]:
#De un diccionario
datos = [{'a': i, 'b':2*i} 
    for i in range(4)]
pd.DataFrame(datos)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6


In [67]:
#Si hay espacios vacios, Pandas lo llena con NaN
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [78]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['Miss', 'Ael'],
             index=['1', '2', '3'])

Unnamed: 0,Miss,Ael
1,0.088796,0.834875
2,0.369193,0.387739
3,0.017432,0.111707


### Objeto Index de Pandas
Es como un arreglo inmutable o un set ordenado.

In [84]:
indA = pd.Index(['a', 'b', 'c'])
indA

Index(['a', 'b', 'c'], dtype='object')

In [83]:
print(inde[1], ind.size, ind.shape, ind.ndim, ind.dtype)

b 3 (3,) 1 object


In [85]:
indB = pd.Index(['b', 'c', 'd'])
indB

Index(['b', 'c', 'd'], dtype='object')

In [100]:
print('Interseccion:', '\n', indA & indB, '\n'
      'Union:','\n', indA | indB,'\n'
      'Diferencia simetrica:','\n', indA^indB)

Interseccion: 
 Index(['b', 'c'], dtype='object') 
Union: 
 Index(['a', 'b', 'c', 'd'], dtype='object') 
Diferencia simetrica: 
 Index(['a', 'd'], dtype='object')
