# Introducción a Pandas

#### **Pandas es un paquete escrito como extensión de NumPy para la manipulación y análisis de datos.**

Pandas es un paquete más nuevo creado sobre NumPy que proporciona una implementación eficiente de un conjunto de datos como objeto (`Series` y `DataFrame`).

Los `DataFrames` son esencialmente matrices multidimensionales con etiquetas de fila y columna adjuntas y, a menudo, con tipos heterogéneos y/o datos faltantes. Además de ofrecer una interfaz de almacenamiento conveniente para datos etiquetados, Pandas implementa una serie de operaciones de datos familiares para los usuarios de marcos de bases de datos y programas de hojas de cálculo.

### ¿Cuál es la ventaja entre utilizar matrices Pandas (`DataFrames`) sobre matrices NumPy (`ndarray`)?

La estructura de datos de un `ndarray` de NumPy proporciona características esenciales para el tipo de datos limpios y bien organizados que se ven normalmente en las tareas de computación científica. Si bien sirve muy bien para este propósito, sus limitaciones se hacen evidentes cuando necesitamos más flexibilidad (por ejemplo, adjuntar etiquetas a los datos, trabajar con datos faltantes, etc.) y cuando intentamos operaciones que no se corresponden correctamente con el broadcasting elemto por ejemplo (por ejemplo, agrupaciones, tablas pivote, etc.). Estas dos tareas son particularmente esenciales para analizar datos, sobre todo los menos estructurados que resultan ser los más comunes en el mundo que nos rodea. Si bien los objetos `Index`,  `Series` y `DataFrame`  de Pandas se basan en la estructura de matriz NumPy, estos también brindan acceso eficiente a este tipo de tareas que ocupan gran parte del tiempo de un científico de datos.

## Importación y otros comandos útiles

Por convención, Pandas se importa con el alias *pd*.

In [1]:
import pandas as pd

In [2]:
# Imprime versión de numpy

In [3]:
# Imprime documentación bult-in de numpy

## Introducción al objeto `Series`

Una `Series` es una matriz unidimensional de datos indexados. Mientras que un `ndarray` tiene un índice entero definido implícitamente que se usa para acceder a los valores, Pandas Series tiene un índice definido explícitamente asociado con los valores.

Para declarar una `Series` se utilizad una versión de la siguiente función ` pd.Series(data, index=index)`, donde `index` es un argumento opcional y `data` puede ser desde un escalar o una secuencia de números hasta un diccionario. 

In [4]:
# Declara una serie (s)
s = pd.Series([0.25, 0.5, 0.75, 1.0, 0.25, 0.5, 0.75, 1.0])

# Imprime serie s
s

0    0.25
1    0.50
2    0.75
3    1.00
4    0.25
5    0.50
6    0.75
7    1.00
dtype: float64

Una `Series` se compone tanto de su secuencia de valores como su secuencia de índices, a los que podemos acceder con los atributos `values` e `index` respectivamente.

Los valores son simplemente un `ndarray`. 

In [5]:
# Imprime valores de serie s


Los índices conforman un arreglo similar a un objeto de Pandas de tipo `Index`.

In [6]:
# Imprime índices de serie s


Al igual que con un `ndarray`, el índice asociado permite acceder a los datos a través de la notación de corchetes de Python.

In [7]:
# Imprime valor en la posición 2 de la serie s


In [8]:
# Imprime valores en las posiciones pares de la serie s


La definición de índice explícito le da al objeto `Series` capacidades adicionales. Por ejemplo, el índice no necesita ser una secuencia de números  enteros; también es capaz de ser una secuencia de valores cualesquiera de cualquier tipo deseado.

In [9]:
# Declara serie (s) con índices de tipo string
s = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

# Imprime serie s
s

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
# Imprime valor en la posición "b" de la serie s


Una `Series` se puede entender entonces como especialización de un diccionario de Python. Un diccionario es una estructura que asigna índices arbitrarios a un conjunto de valores arbitrarios, y una serie es una estructura que asigna índices escritas a un conjunto de valores escritos. 

Así como el código compilado específico en el tipo de datos detrás de un `ndarray` lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una `Series` lo hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

In [11]:
# Declara diccionario (population_dict) 
population_dict = {'San Francisco': 38332521,
                   'Dallas': 26448193,
                   'Manhattan': 19651127,
                   'Miami': 19552860}

# Imprime diccionario population_dict
population_dict

{'Dallas': 26448193,
 'Manhattan': 19651127,
 'Miami': 19552860,
 'San Francisco': 38332521}

In [12]:
# Convierte diccionario population_dict en serie population


# Imprime serie population


Por defecto, se creará una `Series` donde el índice se extrae de las llaves ordenadas. Por lo tanto, se puede accesar a los valores como en un diccionario.

In [13]:
# Imprime valor en la posición "San Francisco" de la serie population


In [14]:
# Imprime valores en el rango de la posición "Dallas" a la posición "Miami" de la serie population


## Introducción al objeto `DataFrame`

Al igual que el objeto `Series` discutido en la sección anterior, el `DataFrame` se puede considerar como una generalización de un `ndarray` o como una especialización de un diccionario de Python. 

Si una `Series` es un análogo de un `ndarray` con índices flexibles, un `DataFrame` es un análogo de un `ndarray` con índices de fila flexibles y nombres de columna flexibles. Así como se podría pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un `DataFrame` como una secuencia de objetos `Series` alineados, es decir, que comparten el mismo índice.

In [15]:
# Declara diccionario (area_dict) 
area_dict = {'San Francisco': 53444, 
             'Dallas': 53786, 
             'Manhattan': 43244,
             'Miami': 42344}

# Convierte diccionario area_dict en serie area
area = pd.Series(area_dict)

# Imprime serie area
area

San Francisco    53444
Dallas           53786
Manhattan        43244
Miami            42344
dtype: int64

In [16]:
# Declara dataframe (states)


# Imprime dataframe states


In [17]:
# Imprime índices de dataframe states


In [18]:
# Imprime columnas de dataframe states


In [19]:
# Imprime valores de dataframe states


De manera similar, también se puede pensar en un `DataFrame` como una especialización de un diccionario. Donde un diccionario asigna una llave a un valor, un `DataFrame` asigna un nombre de columna a una serie de datos de columna.

In [20]:
# Imprime columna area de dataframe states


In [21]:
# Imprime "valor en la posición 0" de dataframe states
states[0]

NameError: ignored

Un `DataFrame` se puede construir de varias maneras...

A partir de una `Series`. 

In [None]:
pd.DataFrame(population, columns=['population'])

A partir de una lista de diccionarios.

In [None]:
# Declara lista de diccionarios (data) 
data = [{'a': i, 'b': 2 * i} for i in range(2, 12, 2)]

# Convierte lista data en dataframe


Incluso si hacen falta valores, Pandas los completa con valores `NaN`. 

In [None]:
# Declara dataframe fila por fila
pd.DataFrame([{'a': 1, 'b': 2}, 
              {'b': 3, 'c': 4}])

A partir de `Series`. 

In [None]:
# Declara a partir de series
pd.DataFrame({'population': population,
              'area': area})

A partir de un `ndarray` bidimensional.

In [None]:
import numpy as np

In [None]:
# Declara diccionario a partir de arreglo bidimensional
