>[Pandas](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=75YpFVg5xBXX)

>>[Series](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=Ew9sUZAZzHP4)



#Pandas


Pandas será una herramienta importante durante gran parte del resto de la cursada. Contiene estructuras y herramientas de manipulación de datos diseñadas para hacer que la limpieza y el análisis de datos sean rápidos y fáciles en Python. Pandas a menudo se usa en conjunto con herramientas de cómputo numérico como **NumPy** y **SciPy**, bibliotecas analíticas como **statsmodels** y **scikit-learn**, y bibliotecas de visualización de datos como **matplotlib**. Pandas adopta partes significativas de nomenclaturas utilizadas con NumPy, especialmente funciones basadas en arreglos y la facilidad de procesamiento de datos sin bucles.

Mientras que Pandas adopta muchos modismos de codificación de NumPy, la mayor diferencia es que Panda está diseñado para trabajar con datos tabulares o heterogéneos. NumPy, por el contrario, es más adecuado para trabajar con datos de matriz numérica homogénea.

![](https://i.pinimg.com/originals/4e/64/5f/4e645ff4125038aa70f156918323ecb1.jpg)



Para comenzar con Pandas, deberás sentirse cómodo con sus dos estructuras de datos más importantes: **Series** y **DataFrame**. Si bien no son una solución universal para cada problema, proporcionan una base sólida y fácil de usar para la mayoría de las aplicaciones que iremos trabajando.


## Series

Una serie es un objeto matriz unidimensional que contiene una secuencia de valores *(de tipos similares a los tipos NumPy)* y una matriz asociada de etiquetas de datos, denominada **índice**. La serie más simple está formada solo por una matriz de datos:



In [0]:
import pandas as pd
from pandas import Series, DataFrame
obj = pd.Series([4, 7, -5, 3])
obj

En algunas circunstancias es posible que desees crear tus propios labels para los índices, puedes hacerlo de la siguiente forma.


In [0]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c']) # Le agregamos los lables de los índices. El orden se mantiene 1:1
obj2

Ahora bien, para que puedo utilizar ese índice? A diferencia de NumPy puedo utilizarlos para referenciar a un valor o un set de valores

In [0]:
obj2['a']

Usar funciones o operaciones aritméticas como filtrado, multiplicaciones de escalares o arreglos de booleans, perseverá el valor del índice


In [0]:
obj2[obj2 > 0]

In [0]:
obj2 * 2

Otra forma de pensar en series podría ser un diccionario de longitud fija, que mapea índices con valores. Puede ser utilizado en muchos contextos.


In [0]:
sdata = {'Buenos Aires': 35000, 'Rosario': 71000, 'Mendoza': 16000, 'Córdoba': 5000}
obj3 = pd.Series(sdata)
obj3

In [0]:
provincias = ['Tucumán', 'Buenos Aires', 'Rosario', 'Mendoza']
obj4 = pd.Series(sdata, index=provincias)
obj4

Como recuerdan en Python todo se comporta como objetos, y series no son las excepciones. Las series poseen un índice y atributos de nombre, los cuales pueden ser utilizados con otras herramientas de Panda.


In [0]:
obj4.name = 'Población'
obj4.index.name = 'Provincias Argentinas'
obj4


## DataFrame

Un DataFrame representa una tabla rectangular de datos que contiene una colección ordenadas de colunas, cuales pueden ser de diferente tipo de valor (númerico, cadenas, booleanos, etc). El DataFrame tiene un índice para las filas y otro para las columnas. Destrás de escena, lo que sucede es que los datos son almacenados como uno o mas bloques de datos de dos dimensiones.


In [0]:
data = {'provincia': ['Buenos Aires', 'Buenos Aires', 'Buenos Aires', 'Córdoba', 'Córdoba', 'Córdoba'],
        'año': [2000, 2001, 2002, 2001, 2002, 2003],
        'pob': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

Si te encontras trabajando con grandes datasets, el método **head** selecciona las primeras 5 filas del mismo.


In [0]:
frame.head()

Se puede especificar el orden de las columnas

In [0]:
pd.DataFrame(data, columns=['año', 'provincia', 'pob']) 

Que pasará si enviamos una columna que no posee datos en el DataSet?

In [0]:
frame2 = pd.DataFrame(data, columns=['año', 'provincia', 'pob', 'deuda'], 
                      index=['uno', 'dos', 'tres', 'cuatro','cinco', 'seis'])
frame2

También podemos obtener información de un Dataset como una serie

In [0]:
frame2['provincia'] # Le pasamos como parámetro la columna que deseamos visualizar

Filas también pueden ser obtenidas por posición mediante el atributo especial **loc**

In [0]:
frame2.loc[] # Como hacemos para obtener la tercera fila del dataframe?

Las columnas pueden ser modificadas por asignación. Por ejemplo, tomemos la columna vacía **Deuda**, podríamos asinar un escalar o un arreglo de valores:


In [0]:
frame2['deuda'] = np.arange(6.) # Que hace esta función? 
frame2