## Pandas
Los DataFrame pandas son una herramienta de gran apoyo cuando se trabaja en cincia de datos. Ya que
contiene estructuras de datos y herramientas de manipulación de datos diseñadas para hacer la limpieza
y análisis rápido  en Python. Pandas se usa a menudo en conjunto con
herramientas informáticas como NumPy y SciPy, bibliotecas analíticas como statsmodels y
scikit-learn y bibliotecas de visualización de datos como matplotlib. 

In [12]:
import pandas as pd
from pandas import Series, DataFrame

Para comenzar con los pandas, deberá sentirse cómodo con sus dos caballos de batalla.
estructuras de datos: Series y DataFrame. Si bien no son una solución universal para
cada problema, proporcionan una base sólida y fácil de usar para la mayoría de las aplicaciones

## SERIES
Una serie es un objeto unidimensional similar a una matriz que contiene una secuencia de valores (de
tipos similares a los tipos NumPy) y una matriz asociada de etiquetas de datos, llamada su índice.
La serie más simple se forma a partir de solo una matriz de datos:

In [13]:
obj= pd.Series((4,7,-5,3))

In [14]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

La representación de cadena de una serie mostrada interactivamente muestra el índice 
a la izquierda y los valores a la derecha. Dado que no especificamos un índice para los datos, un
predeterminado que consta de los enteros 0 a N - 1 (donde N es la longitud de la
datos) se crea. Puede obtener la representación de matriz y el objeto de índice de la serie a través de
sus valores y atributos de índice, respectivamente:

In [15]:

obj.values

array([ 4,  7, -5,  3])

In [16]:
obj.index

RangeIndex(start=0, stop=4, step=1)

A menudo, será deseable crear una serie con un índice que identifique cada punto de datos.
con una etiqueta:

In [19]:
obj2= pd.Series ([4,7,-5,3], index=["d", "c", "a", "b"])


In [20]:
obj2.index

Index(['d', 'c', 'a', 'b'], dtype='object')

Compared with NumPy arrays, you can use labels in the index when selecting single
values or a set of values:


Aquí ['c', 'a', 'd'] se interpreta como una lista de índices, aunque contiene
cadenas en lugar de enteros.

In [21]:
import numpy as np

In [22]:
np.exp(obj2)


d      54.598150
c    1096.633158
a       0.006738
b      20.085537
dtype: float64

In [23]:
sdata = {"Ohio": 35000, "Texas": 40000, "Oregon": 25000, "Utah":5000}



In [27]:
obj3= pd.Series(sdata)

Otra forma de pensar en una serie es como un dict ordenado de longitud fija, ya que es una asignación de valores de índice a valores de datos. Se puede utilizar en muchos contextos en los que podría
usa un dict:

In [28]:
type(obj3)


pandas.core.series.Series

In [30]:
states = ["California", "Ohio", "Oregon", "Texas"]


Si tiene datos contenidos en un diccionario de Python, puede crear una serie a partir de él
pasando el dict:

In [31]:
obj4= pd.Series(sdata, index= states)

In [32]:
obj4

California        NaN
Ohio          35000.0
Oregon        25000.0
Texas         40000.0
dtype: float64

In [33]:
data = {"State": ["Ohio","Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
"Year": [2000, 2001, 2002, 2001,2002,2003],
"Pop": [1.5, 1.7, 3.6, 2.4, 2.8, 2.9 ]}

df = pd.DataFrame(data)

In [34]:
df = pd.DataFrame(data)

Cuando solo está pasando un dict, el índice de la serie resultante tendrá las claves del dict en orden. Puede anular esto pasando las claves de dictado en el orden en que
desea que aparezcan en la Serie resultante

In [35]:
df
 



Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.8
5,Nevada,2003,2.9


In [38]:
    df.sample(3)


Unnamed: 0,State,Year,Pop
5,Nevada,2003,2.9
1,Ohio,2001,1.7
2,Ohio,2002,3.6


Aquí, tres valores encontrados en sdata se colocaron en las ubicaciones apropiadas, pero como no se encontró ningún valor para 'California', aparece como NaN (no un número), que se considera en pandas para marcar valores faltantes o NA. Dado que 'Utah' no se incluyó en los estados, se excluye del objeto resultante. Se usarán los términos “faltante” o “NA” indistintamente para refrerirnos a los datos faltantes. Las funciones isnull y notnull en pandas deben usarse para detectar datos faltantes:

La serie también tiene estos como métodos de instancia

Una característica útil de la serie para muchas aplicaciones es que se alinea automáticamente por índice
etiqueta en operaciones aritméticas:

## DATAFRAME:
Un DataFrame representa una tabla rectangular de datos que contiene una colección ordenada de columnas, cada una de las cuales puede ser de un tipo de valor diferente (numérico, de cadena, booleano, etc.). El DataFrame tiene un índice de fila y columna; se puede considerar como un diccionario de series que comparten el mismo índice. 

Hay muchas formas de construir un DataFrame, aunque una de las más comunes es
de un dictado de listas de igual longitud:

El DataFrame resultante tendrá su índice asignado automáticamente como con Series, y
las columnas se colocan en orden:


Si está utilizando el cuaderno Jupyter, los objetos Pandas DataFrame se mostrarán como
una tabla HTML más amigable para el navegador.
Para DataFrames grandes, el método head selecciona solo las primeras cinco filas:

Si especifica una secuencia de columnas, las columnas del DataFrame se organizarán en
ese orden:

Si pasa una columna que no está contenida en el dict, aparecerá con valores faltantes
en el resultado:

A column in a DataFrame can be retrieved as a Series either by dict-like notation or
by attribute:

Tenga en cuenta que la serie devuelta tiene el mismo índice que el DataFrame y su nombre el atributo se ha establecido correctamente.
Las filas también se pueden recuperar por posición o nombre con el atributo de especial Loc.

Las columnas se pueden modificar por asignación. Por ejemplo, la columna "deuda" vacía
se le podría asignar un valor escalar o una matriz de valores:


Cuando asigna listas o matrices a una columna, la longitud del valor debe coincidir con la
longitud del DataFrame. Si asigna una serie, sus etiquetas se realinearán exactamente para
el índice del DataFrame, insertando los valores faltantes en los huecos:

La asignación de una columna que no existe creará una nueva columna. La palabra clave del
eliminar columnas como con un dict.
Como ejemplo de "del", primero agrego una nueva columna de valores booleanos donde el estado
columna es igual a 'Ohio':

A continuación, se puede utilizar el método del para eliminar esta columna:

Otra forma común de datos es un diccionario anidado de diccionarios:

Si el diccionario anidado se pasa al DataFrame, los pandas interpretarán las claves de diccionaro externas
como las columnas y las claves internas como los índices de fila:

Puede transponer el DataFrame (intercambiar filas y columnas) con una sintaxis similar a una
Matriz NumPy

Las claves de los diccionario internos se combinan y ordenan para formar el índice en el resultado.
Esto no es cierto si se especifica un índice explícito:


Los diccionarios de series se tratan de la misma manera:

## Los indices
Los objetos Index de pandas son responsables de mantener las etiquetas de los ejes.
(como el nombre o los nombres del eje). Cualquier matriz u otra secuencia de etiquetas que use cuando
la construcción de una serie o DataFrame se convierte internamente en un índice:

Los objetos de índice son inmutables y, por lo tanto, el usuario no puede modificarlos:

La inmutabilidad hace que sea más seguro compartir objetos Index entre estructuras de datos


Además de ser similar a una matriz, un índice también se comporta como un conjunto de tamaño fijo

A diferencia de los conjuntos de Python, un índice de pandas puede contener etiquetas duplicadas:

## Funcionalidad esencial 
En lo que sigue profundizaremos más en los temas de análisis y manipulación de datos utilizando pandas. 


### Reindexar
Un método importante en los objetos pandas es reindexar, lo que significa crear un nuevo
objeto con los datos conforme a un nuevo índice.

Al llamar a reindexar en esta serie, se reordenan los datos de acuerdo con el nuevo índice, introduciendo valores faltantes si alguno de los valores del índice aún no estaba presente:

Para datos ordenados como series de tiempo, puede ser deseable hacer alguna interpolación o completar valores al reindexar. La opción de método nos permite hacer esto, usando un método como ffill, que llena los valores hacia adelante:


Con DataFrame, la reindexación puede alterar el índice (fila), las columnas o ambos. Cuándo
pasado solo una secuencia, vuelve a indexar las filas en el resultado:


Las columnas se pueden volver a indexar con la palabra clave de columnas:

### Eliminación de entradas de un eje

Eliminar una o más entradas de un eje es fácil si ya tiene una matriz de índice o una lista sin esas entradas. Como eso puede requerir un poco de lógica y configuración, el método de caída devolverá un nuevo objeto con el valor indicado o los valores eliminados de un eje:

Con DataFrame, los valores de índice se pueden eliminar de cualquier eje. Para ilustrar esto,
primero cree un DataFrame de ejemplo:

Calling drop with a sequence of labels will drop values from the row labels (axis 0):

Puede eliminar valores de las columnas pasando eje = 1 o eje = 'columns':

Muchas funciones, como drop, que modifican el tamaño o la forma de una serie o marco de datos,
puede manipular un objeto en el lugar sin devolver un nuevo objeto:

### Indexación, selección y filtrado 

La indexación de series funciona de manera análoga a la indexación de matrices NumPy, excepto que puede usar los valores de índice de la serie en lugar de solo números enteros. A continuación, se muestran algunos ejemplos de esto:


La división con etiquetas se comporta de manera diferente a la división normal de Python en que el punto final es inclusivo:

Los datos de sintaxis de selección de filas [: 2] se proporcionan para su comodidad. Pasar un solo elemento o una lista al operador [] selecciona columnas. Otro caso de uso es la indexación con un DataFrame booleano, como uno producido por una comparación escalar:

# Selección con LOC y ILOC

Para la indexación de etiquetas de DataFrame en las filas, se tienen los operadores de indexación especial
loc e iloc. Le permiten seleccionar un subconjunto de filas y columnas de una
DataFrame con notación similar a NumPy usando etiquetas de eje (loc) 
(iloc).


Como ejemplo preliminar, seleccionemos una sola fila y varias columnas por etiqueta.

Luego realizaremos algunas selecciones similares con números enteros usando iloc:

Ambas funciones de indexación funcionan con sectores además de etiquetas individuales o listas de etiquetas: