# Introducción a Pandas

* Pandas es una librería open source construida sobre NumPy.
* Permite realizar análisis de datos de forma eficiente, y también sirve para limpiar y preparar los datos.
* Sobresale por su rendimiento y productividad.
* También permite hacer visualizaciones.
* Permite trabajar con datos de una variedad amplia de fuentes.
* Algunos comparan a Pandas con una versión muy potente de Ms Excel, con muchas más características.

En esta Sección aprenderemos a usar Pandas para realizar análisis de datos. Estudiaremos los siguientes elementos:
* Series
* DataFrames
* Datos faltantes
* Agrupaciones y agregaciones: GroupBy
* Combinaciones y concatenaciones (Merging, Joining, and Concatenating)
* Operaciones
* Entrada/Salida de datos

## Instalación

Si aún no tiene instalado Pandas:
> conda install pandas

o

> pip install pandas



# Series

El primer tipo de datos que estudiaremos en Pandas es el tipo de datos de series. 

**Una serie es muy similar a un arreglo de NumPy** (de hecho está construida sobre el objeto array de NumPy). Lo que diferencia los arrays de NumPy de las series, es que **una serie puede tener etiquetas de eje, lo que significa que puede ser indexada por una etiqueta, en lugar de solo un índice numérico**. Tampoco necesita contener únicamente datos numéricos, puede contener cualquier Objeto de Python.


In [None]:
# Vamos a importar la librería Pandas y explorar el objeto Series.
import numpy as np
import pandas as pd

## Creación de Series

Es posible convertir una lista, un arreglo de NumPy, o un diccionario, en una Serie:

In [None]:
etiquetas = ['a','b','c']
lista = [10,20,30]
arreglo = np.array([10,20,30])
diccionario = {'a':10,'b':20,'c':30}

** A partir de una Lista**

In [None]:
pd.Series(data=lista)

In [None]:
pd.Series(data=lista,index=etiquetas)

In [None]:
pd.Series(lista,etiquetas)

** A partir de arreglos de NumPy **

In [None]:
pd.Series(arreglo)

In [None]:
pd.Series(arreglo,etiquetas)

** A partir de un diccionario **

In [None]:
pd.Series(diccionario)

## Datos almacenados en Series

Las Series en Pandas pueden almacenar cualquier objeto de Python, no solo números:

In [None]:
# Números
pd.Series(data=arreglo)

In [None]:
# También pueden almacenar cadenas
pd.Series(data=etiquetas)

In [None]:
# Incluso una Serie puede almacenar funciones (aunque esto es poco probable que se necesite)
pd.Series([sum,print,len])

## Usando los índices

Los índices son la clave para entender cómo usar las Series. Pandas usa los nombres de los índices o sus números para permitir la búsqueda rápida de información (funcionan como una tabla hash o un diccionario).

Para el ejemplo, vamos a crear 2 Series: ser1 y ser2

In [None]:
ser1 = pd.Series([10,20,30,40],index = ['Colombia', 'Germany','Spain', 'Japan'])                                   

In [None]:
ser1

In [None]:
ser2 = pd.Series([1,2,5,4],index = ['Germany','Colombia','Italy', 'Japan'])                                   

In [None]:
ser2

In [None]:
ser1['Japan']

In [None]:
ser1[3]

También, se pueden hacer operaciones entre Series:

In [None]:
ser1 + ser2

In [None]:
ser1 / ser2