## Pandas
Notebook cuyo objetivo es proporcionar una introducción sólida fundamentos de Numpy, sus aplicaciones en computación númerica, Machine Learning, Data Science, y un largo etcétera. Nos proporciona estructuras de datos eficientes para la manipulación de arreglos u otras operaciones propiamente matemáticas.


In [None]:
import pandas as pd

Pandas posee dos estructuras de datos básicas.
* Series
* Dataframes

### Pandas Series
Es muy parecido a un array de una dimensión (o vector) de NumPy.

- Arreglo unidimensional indexado
- Búsqueda por índice
- Slicing
- Operaciones aritméticas
- Distintos tipos de datos

In [None]:
# Creamos una Serie a donde pasamos un primer arreglo con el índice
# Veamos que si no ponemos índice automáticamente nos crea una llave única e incremental
ser = pd.Series(index = ['pablo', 'juan', 'pedro', 'daniel', 'enrique'], data = [100, 'Ninguno', 300, 'Texto', 5.3])
ser

pablo          100
juan       Ninguno
pedro          300
daniel       Texto
enrique        5.3
dtype: object

In [None]:
# Obtenemos el índice
ser.index

Index(['pablo', 'juan', 'pedro', 'daniel', 'enrique'], dtype='object')

In [None]:
# Accedo a al valor de una posición
ser['juan']

'Ninguno'

In [None]:
# Loc
ser.loc['juan']

'Ninguno'

In [None]:
# A loc puedo pasarle un array y acceder a multiples índices al mismo tiempo
ser.loc[['juan','pablo']]

juan     Ninguno
pablo        100
dtype: object

In [None]:
# Otra manera de acceder a múltiples índices es la siguiente
ser[[0,1,2]]

pablo        100
juan     Ninguno
pedro        300
dtype: object

In [None]:
# Con .loc no podremos pasar índices numéricos debemos hacerlo con .iloc
ser.iloc[[0,1,2]]

pablo        100
juan     Ninguno
pedro        300
dtype: object

In [None]:
# Podemos consultar si existe un índice en la serie
"pablo" in ser

True

In [None]:
# Como vemos a continuación también podemos realizar operaciones (siempre que el tipo de dato lo permita)
ser * 3


pablo                        300
juan       NingunoNingunoNinguno
pedro                        900
daniel           TextoTextoTexto
enrique                     15.9
dtype: object

In [None]:
ser ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

In [None]:
# Lo solucionamos aplicando la operación solo a valores enteros o flotantes
ser[['pablo','pedro','enrique']] ** 2

pablo      10000
pedro      90000
enrique    28.09
dtype: object

### Pandas DataFrame
Muy parecido a las estructuras matriciales trabajadas con NumPy.

- Estructura principal
- Arreglo de dos dimensiones
- Búsqueda por índice (columnas o filas)
- Slicing
- Operaciones aritméticas
- Distintos tipos de datos
- Tamaño variable

In [None]:
d = {'invierno' : pd.Series([100., 200., 300.], index=['manzana', 'pera', 'naranja']),
     'primavera' : pd.Series([111., 222., 333., 4444.], index=['manzana', 'pera', 'cereza', 'uva'])}

In [None]:
df = pd.DataFrame(d)
df


Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [None]:
df.index

Index(['cereza', 'manzana', 'naranja', 'pera', 'uva'], dtype='object')

In [None]:
df.columns

Index(['invierno', 'primavera'], dtype='object')

In [None]:
# Podemos crear un dataframe especificando los índices que quiero usar.
df2 = pd.DataFrame(d, index = ['manzana','pera','cereza'])
print(df2)

         invierno  primavera
manzana     100.0      111.0
pera        200.0      222.0
cereza        NaN      333.0


In [None]:
# Podemos crear un dataframe especificando las columnas que quiero usar, incluso agregar una nueva
df2 = pd.DataFrame(d, index = ['manzana','pera','cereza'], columns=['invierno','primavera','verano'])
print(df2)

         invierno  primavera verano
manzana     100.0      111.0    NaN
pera        200.0      222.0    NaN
cereza        NaN      333.0    NaN


In [None]:
data = [{'pablo': 1, 'juan': 2}, {'pedro': 5, 'julia': 10, 'maria': 20}]

In [None]:
# Veamos cómo automáticamente se asignan índices
pd.DataFrame(data)

Unnamed: 0,juan,julia,maria,pablo,pedro
0,2.0,,,1.0,
1,,10.0,20.0,,5.0


In [None]:
# Podemos reemplazar los índices por escpecíficos
pd.DataFrame(data, index=['verde', 'rojo'])

Unnamed: 0,juan,julia,maria,pablo,pedro
verde,2.0,,,1.0,
rojo,,10.0,20.0,,5.0


In [None]:
# Podemos crear el dataframe solo con determinadas columnas
pd.DataFrame(data, columns=['juan', 'pedro'], index=['verde', 'rojo'])

Unnamed: 0,juan,pedro
verde,2.0,
rojo,,5.0


In [None]:
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [None]:
df['invierno']

cereza       NaN
manzana    100.0
naranja    300.0
pera       200.0
uva          NaN
Name: invierno, dtype: float64

In [None]:
# Generamos una nueva columna a partir de la operación de otras dos
df['verano'] = df['invierno'] * df['primavera']
df

Unnamed: 0,invierno,primavera,verano
cereza,,333.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,
pera,200.0,222.0,44400.0
uva,,4444.0,


In [None]:
# Generamos una nueva columna a partir de una comparación
df['infra'] = df['primavera']<4000
df

Unnamed: 0,invierno,primavera,verano,infra
cereza,,333.0,,True
manzana,100.0,111.0,11100.0,True
naranja,300.0,,,False
pera,200.0,222.0,44400.0,True
uva,,4444.0,,False


In [None]:
aislado = df.pop('infra')
aislado

cereza      True
manzana     True
naranja    False
pera        True
uva        False
Name: infra, dtype: bool

In [None]:
df

Unnamed: 0,invierno,primavera,verano
cereza,,333.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,
pera,200.0,222.0,44400.0
uva,,4444.0,


In [None]:
del df['verano']
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [None]:
# insert nos permite insertar una nueva columna, para eso pasamos
# posición de la nueva columna
# nombre de la nueva columna
# origen de la nueva columna (puede ser una serie o bien una columna de la misma u otra tabla)

df.insert(0, 'primavera_copia', df['primavera'])
df

Unnamed: 0,primavera_copia,invierno,primavera
cereza,333.0,,333.0
manzana,111.0,100.0,111.0
naranja,,300.0,
pera,222.0,200.0,222.0
uva,4444.0,,4444.0
