![](../imagenes/titulo_040.png)

## Índice


* [Introducción a Pandas](#Introducción-a-Pandas)
* [Series](#Series)
* [DataFrames](#DataFrames)
    * [Selección e Indexación](#Seleccion-e-Indexacion)
    * [Selección Condicional](#Seleccion-Condicional)
    * [Index](#Index)
* [GroupBy](#GroupBy)
* [Operaciones](#Operaciones)
* [Data Input Output](#Data-Input-Output)

## Introducción a Pandas

* Pandas es una libreria open source construída a partir de NumPy.
* Se utiliza para la manipulación y el análisis de datos ("Es el Excel de Python").
* Mejora productividad y performance por su facilidad para analizar, limiar y preparar datos.
* Permite trabajar con datos de diferente tipo.

**Para instalar Pandas, escribir en la terminal:**

`conda install pandas`

`pip install pandas`


**Para utilizar Pandas, es necesario importar la libreria:**

`import pandas as pd`


Podemos encontrar una extensa documentación en su [Página Web](http://pandas.pydata.org)

## Series

El primer tipo de datos que utilizaremos en Pandas son las Series. 

Una serie es muy similar a un array de NumPy, de hecho estan construidas a partir de arrays de NumPy. Lo que diferencia un NumPy array de una Serie, es que la Serie puede estar indexada por etiquetas o labels (en lugar de solo por el número de posición).

Otra diferencia es que puede contener cualquier tipo de datos, no solo números.

Se pueden construir de diferentes formas, a partir de una lista, un NumPy array o un diccionario:

In [None]:
import numpy as np
import pandas as pd

In [None]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

In [None]:
labels

In [None]:
my_list

In [None]:
arr

In [None]:
d

**Usando Listas**

In [None]:
pd.Series(data=my_list)

In [None]:
pd.Series(data=my_list,index=labels)

In [None]:
pd.Series(my_list,labels)

**NumPy Arrays**

In [None]:
pd.Series(arr)

In [None]:
pd.Series(arr,labels)

**Diccionario**

In [None]:
pd.Series(d)

**Ejemplos**

Veamos un ejemplo del uso de Series. Creamos dos series: ser1 y ser2:

In [None]:
ser1 = pd.Series([1,2,3,4],index = ['USA', 'Germany','USSR', 'Japan'])                                   

In [None]:
ser1

In [None]:
ser2 = pd.Series([1,2,5,4],index = ['USA', 'Germany','Italy', 'Japan'])                                   

In [None]:
ser2

Para seleccionar un elemento de la Serie:

In [None]:
ser1['USA']

También podemos realizar operaciones entre series:

In [None]:
ser1 + ser2

## DataFrames

Podemos pensar a un DataFrame como un conjunto de Series que comparten el mismo indice.

In [None]:
import pandas as pd
import numpy as np

In [None]:
from numpy.random import randn

Creamos un DataFrame con numeros random:

In [None]:
df = pd.DataFrame(randn(5,4),index=['A','B','C','D','E'],columns=['W','X','Y','Z'])

In [None]:
df

### Seleccion e Indexacion

Seleccionamos una columna del DataFrame:

In [None]:
df['W']

Vemos que la columna tiene el aspecto de una Serie. Si queremos ver el tipo de objeto podemos escribir:

In [None]:
type(df['W'])

Si queremos seleccionar más de una columna, tenemos que escribir los nombres de las columnas en una lista:

In [None]:
df[['W','Z']]

Para crear una nueva columna, simplemente la llamamos con un nombre de columna nuevo:

In [None]:
df['nueva'] = df['W'] + df['Z']

In [None]:
df

Para eliminar una columna:

`axis=1` hace referencia a las columnas

`axis=0` hace referencia a los índices o filas, y es el valor predeterminado

In [None]:
df.drop('nueva', axis=1)

**Importante**: al eliminar una columna de esta forma no se esta modificando realmente el DataFrame. Si lo volvemos a llamar vemos que la columna 'nueva' sigue existiendo:

In [None]:
df

Para borrar una columna definitivamente de un DataFrame debemos especificar como argumento `inplace=True`

In [None]:
df.drop('nueva', axis=1, inplace=True)

In [None]:
df

También podemos eliminar filas de la misma forma:

In [None]:
df.drop('E')

Para selecionar una fila **a partir del nombre** usamos `df.loc`

In [None]:
df.loc['A']

También se puede seleccionar una fila **a partir del numero de indice** usando `df.iloc`

In [None]:
df.iloc[0]

Si queremos seleccionar solo algunas filas y columnas, pasamos dos listas (la primera de las filas y la segunda de las columnas deseadas):

In [None]:
df.loc[['A','C'],['X', 'Z']]

### Seleccion Condicional

Podemos realizar una selección condicional de los valores del DataFrame:

In [None]:
df

In [None]:
df>0

In [None]:
df[df>0]

Para obtener los valores donde las celdas de la columna W son mayores a cero:

In [None]:
df[df['W']>0]

Para usar dos o mas condiciones, se utiliza `&` y `|` con parentesis:

In [None]:
df[(df['W'] > 0) & (df['Z'] > 1)]

### Index

Podemos resetear el indice a un valor numerico de 0, 1,..., n

Se crea una nueva columna con los indices originales:

In [None]:
df.reset_index()

Si queremos agregar una columna nueva con otros indices, primero creamos una lista con los nombres:

In [None]:
nuevo_ind = 'CA NY WY OR CO'.split()

In [None]:
nuevo_ind

Luego agregamos la lista como columna nueva:

In [None]:
df['States'] = nuevo_ind

In [None]:
df

Por ultimo, elegimos la columna que queremos que sea el nuevo indice:

In [None]:
df.set_index('States')

Importante: para que estos cambios sean permanentes, debemos especificarlo escribiendo `inplace=True`

In [None]:
df

In [None]:
df.set_index('States', inplace=True)

In [None]:
df

## GroupBy

GroupBy nos permite agrupar filas y aplicar funciones sobre las mismas.

Vamos a crear un DataFrame a partir de un diccionario:

In [None]:
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Empleado':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Ventas':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Usando el metodo `.groupby()` podemos agrupar los datos, por ejemplo segun el nombre de la Empresa. Esto va a crear un objeto del tipo `DataFrameGroupBy` 

In [None]:
df.groupby('Empresa')

Podemos guardar este objeto en una variable:

In [None]:
por_empresa = df.groupby('Empresa')

Y aplicarle metodos para, por ejemplo, realizar calculos:

In [None]:
por_empresa.mean()

In [None]:
por_empresa.std()

In [None]:
por_empresa.min()

In [None]:
por_empresa.max()

In [None]:
por_empresa.count()

In [None]:
por_empresa.describe()

In [None]:
por_empresa.describe().transpose()

In [None]:
por_empresa.describe().transpose()['GOOG']

### Operaciones

In [None]:
import pandas as pd
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head()

Para ver los valores unicos `.unique()`

In [None]:
df['col2'].unique()

Para ver la cantidad de valores unicos `.nunique()`

In [None]:
df['col2'].nunique()

Para ver cuantas veces ocurre cada valor `.value_counts()`

In [None]:
df['col2'].value_counts()

**Tambien podemos aplicar funciones a todo un DataFrame usando el metodo `.apply()`**

Definimos una funcion:

In [None]:
def por2(x):
    return x*2

In [None]:
df['col2'].apply(por2)

Tambien se pueden aplicar funciones a strings:

In [None]:
df['col3'].apply(len)

**Una forma mas simple de aplicar una funcion en una sola linea es usando `lambda`**

In [None]:
df['col1'].apply(lambda x: x*2)

**Para eliminar una columna:**

*Si queremos que el cambio sea permanente hay que aclarar `inplace:True`*

In [None]:
df.drop('col1', axis=1)

In [None]:
df

**Para conocer los nombres de las filas y columnas:**

In [None]:
df.columns

In [None]:
df.index

**Para ordenar los valores por columnas:**

*Ver que el indice se mantiente*

In [None]:
df.sort_values('col2')

**Para ver si hay algun valor Null**

In [None]:
df.isnull()

**Pivot Table**

In [None]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

In [None]:
df

In [None]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

### Data Input-Output

Importar datos de:
- CSV
- Excel
- HTML
- SQL

Para trabajar con HTML y SQL hace falta instalar las siguientes librerias:

`conda install sqlalchemy`

`conda install lxml`

`conda install html5lib`

`conda install BeautifulSoup4`

**Importante: los archivos CSV y Excel deben estar en la misma carpeta en la que estoy trabajando**

*Para ver en que carpeta estoy:* `pwd`

In [None]:
pwd

### CSV Input

In [None]:
df = pd.read_csv('Salaries.csv')

In [None]:
df

### CSV Output

*Si no quiero que se guarden los indices:* `index=False`

In [None]:
df.to_csv('My_outoput.csv', index=False)

### Excel Input 

*Importante: Pandas puede importar solo datos de Excel, no formulas ni imagenes. Si hay imagenes o macros puede fallar la importacion.*

In [None]:
df = pd.read_excel('Excel_Sample.xlsx',sheetname='Sheet1')

### Excel Output

In [None]:
df.to_excel('Excel_Sample.xlsx',sheet_name='Sheet1')

### HTLM Input

In [None]:
df = pd.read_html('http://www.fdic.gov/bank/individual/failed/banklist.html')

In [None]:
df[0].head()

## Pongamos en practica lo visto

**Importemos el archivo *salaries.csv* como un dataframe llamado *sal*.**

In [None]:
sal = pd.read_csv('Salaries.csv')

**Ahora visualicemos las primeras 10 entradas del dataframe**

In [None]:
sal.head(10)

**Visualicemos la cantidad de entradas con el método *info*.**

In [None]:
sal.info()

**¿Cuál es el salario promedio? (BasePay)**

In [None]:
sal['BasePay'].mean()

**Cual es el maximo de OvertimePay?**

In [None]:
sal['OvertimePay'].max()

**Visualizar el nombre, salario total y JobTitle de las primeras 4 personas con *iloc*.**

In [None]:
sal.iloc[0:4,[0,1,6]]

**Utilizar *GroupBy* para ordenar los datos de acuerdo al *JobTitle* y visualizar la media de los datos agrupados.**

In [None]:
grupo_trabajos = sal.groupby('JobTitle')
grupo_trabajos

In [None]:
grupo_trabajos.mean()

## Referencias

 * [Pandas Documentation](http://pandas.pydata.org/pandas-docs/stable/)

 * [Python for Data Science and Machine Learning Bootcamp](https://www.udemy.com/share/10008ABEAfdFxVRn4=/)

## Licencia

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Este documento se destribuye con una <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">licencia Atribución CompartirIgual 4.0 Internacional de Creative Commons</a>.

© 2019. Infiniem Labs Acústica. ** infiniemlab.dsp@gmail.com** . Introducción informal a Python3 (CC BY-SA 4.0)