## Pandas
Los DataFrame pandas son una herramienta de gran apoyo cuando se trabaja en cincia de datos. Ya que
contiene estructuras de datos y herramientas de manipulación de datos diseñadas para hacer la limpieza
y análisis rápido  en Python. Pandas se usa a menudo en conjunto con
herramientas informáticas como NumPy y SciPy, bibliotecas analíticas como statsmodels y
scikit-learn y bibliotecas de visualización de datos como matplotlib. 

In [52]:
import pandas as pd
from pandas import Series, DataFrame

Para comenzar con los pandas, deberá sentirse cómodo con sus dos caballos de batalla.
estructuras de datos: Series y DataFrame. Si bien no son una solución universal para
cada problema, proporcionan una base sólida y fácil de usar para la mayoría de las aplicaciones

## SERIES
Una serie es un objeto unidimensional similar a una matriz que contiene una secuencia de valores (de
tipos similares a los tipos NumPy) y una matriz asociada de etiquetas de datos, llamada su índice.
La serie más simple se forma a partir de solo una matriz de datos:

In [53]:
obj = pd.Series([4,7,-5,3])

In [54]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

La representación de cadena de una serie mostrada interactivamente muestra el índice 
a la izquierda y los valores a la derecha. Dado que no especificamos un índice para los datos, un
predeterminado que consta de los enteros 0 a N - 1 (donde N es la longitud de la
datos) se crea. Puede obtener la representación de matriz y el objeto de índice de la serie a través de
sus valores y atributos de índice, respectivamente:

In [55]:
obj.values

array([ 4,  7, -5,  3])

In [56]:
obj.index

RangeIndex(start=0, stop=4, step=1)

A menudo, será deseable crear una serie con un índice que identifique cada punto de datos.
con una etiqueta:

In [57]:
obj2 = pd.Series([4,7,-5,3], index = ["d","c","a","b"])

In [58]:
obj2

d    4
c    7
a   -5
b    3
dtype: int64

In [59]:
type(obj2)

pandas.core.series.Series

In [60]:
obj2.values

array([ 4,  7, -5,  3])

Compared with NumPy arrays, you can use labels in the index when selecting single
values or a set of values:


In [61]:
obj2["d"]

4

In [62]:
obj2[["a","d"]]

a   -5
d    4
dtype: int64

Aquí ['c', 'a', 'd'] se interpreta como una lista de índices, aunque contiene
cadenas en lugar de enteros.

In [63]:
obj2[obj2>3]

d    4
c    7
dtype: int64

In [64]:
obj *2


0     8
1    14
2   -10
3     6
dtype: int64

In [65]:
import numpy as np
np.exp(obj2)

d      54.598150
c    1096.633158
a       0.006738
b      20.085537
dtype: float64

In [66]:
"Z" in obj2

False

Otra forma de pensar en una serie es como un dict ordenado de longitud fija, ya que es una asignación de valores de índice a valores de datos. Se puede utilizar en muchos contextos en los que podría
usa un dict:

In [67]:
sdata = {"Ohio": 35000, "Texas": 40000, "Oregon": 25000, "Utah":5000}

In [68]:
obj3 = pd.Series(sdata)


Si tiene datos contenidos en un diccionario de Python, puede crear una serie a partir de él
pasando el dict:

In [69]:
obj3

Ohio      35000
Texas     40000
Oregon    25000
Utah       5000
dtype: int64

In [70]:
states = ["California","Ohio","Oregon","Texas"]

In [71]:
obj4 = pd.Series(obj3, index = states)


In [72]:
obj4

California        NaN
Ohio          35000.0
Oregon        25000.0
Texas         40000.0
dtype: float64

Cuando solo está pasando un dict, el índice de la serie resultante tendrá las claves del dict en orden. Puede anular esto pasando las claves de dictado en el orden en que
desea que aparezcan en la Serie resultante

In [73]:
pd.isnull(obj3)

Ohio      False
Texas     False
Oregon    False
Utah      False
dtype: bool

In [74]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [75]:
obj3 + obj4

California        NaN
Ohio          70000.0
Oregon        50000.0
Texas         80000.0
Utah              NaN
dtype: float64

Aquí, tres valores encontrados en sdata se colocaron en las ubicaciones apropiadas, pero como no se encontró ningún valor para 'California', aparece como NaN (no un número), que se considera en pandas para marcar valores faltantes o NA. Dado que 'Utah' no se incluyó en los estados, se excluye del objeto resultante. Se usarán los términos “faltante” o “NA” indistintamente para refrerirnos a los datos faltantes. Las funciones isnull y notnull en pandas deben usarse para detectar datos faltantes:

La serie también tiene estos como métodos de instancia

Una característica útil de la serie para muchas aplicaciones es que se alinea automáticamente por índice
etiqueta en operaciones aritméticas:

## DATAFRAME:
Un DataFrame representa una tabla rectangular de datos que contiene una colección ordenada de columnas, cada una de las cuales puede ser de un tipo de valor diferente (numérico, de cadena, booleano, etc.). El DataFrame tiene un índice de fila y columna; se puede considerar como un diccionario de series que comparten el mismo índice. 

Hay muchas formas de construir un DataFrame, aunque una de las más comunes es
de un dictado de listas de igual longitud:

In [76]:
data = {
    "State": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
    "Year" : [2000, 2001, 2002, 2001, 2002, 2003],
    "Pop"  : [1.5, 1.7, 3.6, 2.4, 2.8, 2.9]
}

In [77]:
type(data)

dict

In [78]:
df = pd.DataFrame(data)
df

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.8
5,Nevada,2003,2.9


El DataFrame resultante tendrá su índice asignado automáticamente como con Series, y
las columnas se colocan en orden:


In [79]:
df.sample(3) #3 registros aleatorios 

Unnamed: 0,State,Year,Pop
5,Nevada,2003,2.9
1,Ohio,2001,1.7
2,Ohio,2002,3.6


Si está utilizando el cuaderno Jupyter, los objetos Pandas DataFrame se mostrarán como
una tabla HTML más amigable para el navegador.
Para DataFrames grandes, el método head selecciona solo las primeras cinco filas:

In [80]:
pd.DataFrame(data, columns = ["Year", "Pop", "State"])

Unnamed: 0,Year,Pop,State
0,2000,1.5,Ohio
1,2001,1.7,Ohio
2,2002,3.6,Ohio
3,2001,2.4,Nevada
4,2002,2.8,Nevada
5,2003,2.9,Nevada


Si especifica una secuencia de columnas, las columnas del DataFrame se organizarán en
ese orden:

In [81]:
df2 = pd.DataFrame(data,columns = 
                   [
                    "Year",
                    "State",
                    "Pop",
                    "Debt"
                   ], 
                   index =[
                       "one",
                       "two",
                       "three",
                       "fourth",
                       "five",
                       "six"
                   ])


Si pasa una columna que no está contenida en el dict, aparecerá con valores faltantes
en el resultado:

In [82]:
df2


Unnamed: 0,Year,State,Pop,Debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
fourth,2001,Nevada,2.4,
five,2002,Nevada,2.8,
six,2003,Nevada,2.9,


In [83]:
nombres_columnas =list(data.keys())

In [84]:
nombres_columnas.sort()

In [85]:
nombres_columnas

['Pop', 'State', 'Year']

A column in a DataFrame can be retrieved as a Series either by dict-like notation or
by attribute:

In [86]:
df2.columns


Index(['Year', 'State', 'Pop', 'Debt'], dtype='object')

Tenga en cuenta que la serie devuelta tiene el mismo índice que el DataFrame y su nombre el atributo se ha establecido correctamente.
Las filas también se pueden recuperar por posición o nombre con el atributo de especial Loc.

In [87]:
df2.Year

one       2000
two       2001
three     2002
fourth    2001
five      2002
six       2003
Name: Year, dtype: int64

In [88]:
df2[["Year","State"]]


Unnamed: 0,Year,State
one,2000,Ohio
two,2001,Ohio
three,2002,Ohio
fourth,2001,Nevada
five,2002,Nevada
six,2003,Nevada


Las columnas se pueden modificar por asignación. Por ejemplo, la columna "deuda" vacía
se le podría asignar un valor escalar o una matriz de valores:

In [89]:
#obtener el quinto registro
df2.loc["five"]

Year       2002
State    Nevada
Pop         2.8
Debt        NaN
Name: five, dtype: object

In [90]:
df2["Debt"] = 16.5

In [91]:
df2

Unnamed: 0,Year,State,Pop,Debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
fourth,2001,Nevada,2.4,16.5
five,2002,Nevada,2.8,16.5
six,2003,Nevada,2.9,16.5


In [92]:
df2["Debt"] = np.arange(6)


Cuando asigna listas o matrices a una columna, la longitud del valor debe coincidir con la
longitud del DataFrame. Si asigna una serie, sus etiquetas se realinearán exactamente para
el índice del DataFrame, insertando los valores faltantes en los huecos:

In [93]:
df2

Unnamed: 0,Year,State,Pop,Debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
fourth,2001,Nevada,2.4,3
five,2002,Nevada,2.8,4
six,2003,Nevada,2.9,5


In [94]:
val = pd.Series([-1.2,-1.5,-1.7], index = ["two","four","five"])


In [95]:
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

La asignación de una columna que no existe creará una nueva columna. La palabra clave del
eliminar columnas como con un dict.
Como ejemplo de "del", primero agrego una nueva columna de valores booleanos donde el estado
columna es igual a 'Ohio':

In [96]:
df2["Debt"] = val

In [97]:
df2

Unnamed: 0,Year,State,Pop,Debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
fourth,2001,Nevada,2.4,
five,2002,Nevada,2.8,-1.7
six,2003,Nevada,2.9,


A continuación, se puede utilizar el método del para eliminar esta columna:

In [98]:
df2["Position"] = df2["State"] == "Ohio"

In [99]:
df2

Unnamed: 0,Year,State,Pop,Debt,Position
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
fourth,2001,Nevada,2.4,,False
five,2002,Nevada,2.8,-1.7,False
six,2003,Nevada,2.9,,False


Otra forma común de datos es un diccionario anidado de diccionarios:

In [100]:
del df2["Position"]


In [101]:
df2

Unnamed: 0,Year,State,Pop,Debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
fourth,2001,Nevada,2.4,
five,2002,Nevada,2.8,-1.7
six,2003,Nevada,2.9,


Si el diccionario anidado se pasa al DataFrame, los pandas interpretarán las claves de diccionaro externas
como las columnas y las claves internas como los índices de fila:

In [102]:
pop = {
        "Nevada":{
                    2001:2.4,
                    2002:2.8
                },
        "Ohio": {
                    2000:1.5,
                    2001:1.7,
                    2002:3.5
            
        }
    }

In [103]:
df3 = pd.DataFrame(pop)
df3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.8,3.5


Puede transponer el DataFrame (intercambiar filas y columnas) con una sintaxis similar a una
Matriz NumPy

In [104]:
df3.T #Traspuesta


Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.8
Ohio,1.5,1.7,3.5


Las claves de los diccionario internos se combinan y ordenan para formar el índice en el resultado.
Esto no es cierto si se especifica un índice explícito:


Los diccionarios de series se tratan de la misma manera:

## Los indices
Los objetos Index de pandas son responsables de mantener las etiquetas de los ejes.
(como el nombre o los nombres del eje). Cualquier matriz u otra secuencia de etiquetas que use cuando
la construcción de una serie o DataFrame se convierte internamente en un índice:

In [105]:
obj = pd.Series(range(3), index = ['a', 'b', 'c'])

In [106]:
index = obj.index

In [107]:
index[1:]

Index(['b', 'c'], dtype='object')

In [108]:
index[1]

'b'

Los objetos de índice son inmutables y, por lo tanto, el usuario no puede modificarlos:

La inmutabilidad hace que sea más seguro compartir objetos Index entre estructuras de datos

In [109]:
labels = pd.Index(np.arange(3))

In [110]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [111]:
obj2 = pd.Series([1.5,-2.5,0], index = labels)


In [112]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [113]:
obj2.index is labels

True


Además de ser similar a una matriz, un índice también se comporta como un conjunto de tamaño fijo

In [115]:
df3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.8,3.5


In [117]:
df3.columns

Index(['Nevada', 'Ohio'], dtype='object')

In [118]:
df3.index

Int64Index([2000, 2001, 2002], dtype='int64')

A diferencia de los conjuntos de Python, un índice de pandas puede contener etiquetas duplicadas:

In [120]:
"Ohio" in df3.columns

True

In [121]:
2000 in df3.index

True

In [123]:
dup_labels = pd.Index(["foo","foo","bar","bar"])

## Funcionalidad esencial 
En lo que sigue profundizaremos más en los temas de análisis y manipulación de datos utilizando pandas. 


### Reindexar
Un método importante en los objetos pandas es reindexar, lo que significa crear un nuevo
objeto con los datos conforme a un nuevo índice.

In [133]:
list = [2,3,4.5]
obj = pd.Series(list, index = ["d","a","c"])

In [134]:
obj

d    2.0
a    3.0
c    4.5
dtype: float64

Al llamar a reindexar en esta serie, se reordenan los datos de acuerdo con el nuevo índice, introduciendo valores faltantes si alguno de los valores del índice aún no estaba presente:

In [135]:
obj2 = obj.reindex(["a","b","c","d"])

In [136]:
obj2

a    3.0
b    NaN
c    4.5
d    2.0
dtype: float64

Para datos ordenados como series de tiempo, puede ser deseable hacer alguna interpolación o completar valores al reindexar. La opción de método nos permite hacer esto, usando un método como ffill, que llena los valores hacia adelante:

In [139]:
type(df3.Nevada)

pandas.core.series.Series

In [141]:
obj3 = pd.Series(["Blue", "Purple", "Yellow"], index = [0,3,9])

In [144]:
obj3

0      Blue
3    Purple
9    Yellow
dtype: object


Con DataFrame, la reindexación puede alterar el índice (fila), las columnas o ambos. Cuándo
pasado solo una secuencia, vuelve a indexar las filas en el resultado:

In [143]:
obj3.reindex(range(15), method = "ffill")

0       Blue
1       Blue
2       Blue
3     Purple
4     Purple
5     Purple
6     Purple
7     Purple
8     Purple
9     Yellow
10    Yellow
11    Yellow
12    Yellow
13    Yellow
14    Yellow
dtype: object

In [155]:
df = pd.DataFrame(np.arange(9).reshape(3,3), index = ["a","c","d"], columns = ["Ohio","Texas","California"]) #reshape reescala la matriz

In [163]:
df

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [158]:
df2 = df.reindex(["a","b","c","d"])


Las columnas se pueden volver a indexar con la palabra clave de columnas:

In [160]:
df2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [164]:
states = ["Texas", "California", "Utah"]

In [165]:
df.reindex(columns = states)

Unnamed: 0,Texas,California
a,1,2
c,4,5
d,7,8


### Eliminación de entradas de un eje

Eliminar una o más entradas de un eje es fácil si ya tiene una matriz de índice o una lista sin esas entradas. Como eso puede requerir un poco de lógica y configuración, el método de caída devolverá un nuevo objeto con el valor indicado o los valores eliminados de un eje:

In [166]:
obj = pd.Series(np.arange(5), index = ["a","b","c","d","e"])

In [167]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [172]:
new_object = obj.drop("c")

In [173]:
new_object

a    0
b    1
d    3
e    4
dtype: int64

In [174]:
new_object2 = obj.drop(["d","e"])


Con DataFrame, los valores de índice se pueden eliminar de cualquier eje. Para ilustrar esto,
primero cree un DataFrame de ejemplo:

In [175]:
new_object2

a    0
b    1
c    2
dtype: int64

In [177]:
index = ["Ohio", "Colorado", "Utah", "Texas"]
columns = ["uno","dos","tres","cuatro"]
data = pd.DataFrame(np.arange(16).reshape(4,4), index = index, columns = columns)

Calling drop with a sequence of labels will drop values from the row labels (axis 0):

In [179]:
data.drop(["Ohio","Utah"])

Unnamed: 0,uno,dos,tres,cuatro
Colorado,4,5,6,7
Texas,12,13,14,15


Puede eliminar valores de las columnas pasando eje = 1 o eje = 'columns':

In [186]:
data.drop(["uno"], axis = 1)
#axis = 0, elimina fila
#axis = 1, elimina columnas

Unnamed: 0,dos,tres,cuatro
Ohio,1,2,3
Colorado,5,6,7
Utah,9,10,11
Texas,13,14,15


Muchas funciones, como drop, que modifican el tamaño o la forma de una serie o marco de datos,
puede manipular un objeto en el lugar sin devolver un nuevo objeto:

In [189]:
obj4 = pd.Series(np.arange(4), index = ["a","b","c","d"])

In [192]:
obj4.drop("c", inplace = True)
#inplace = True modifica el objeto


### Indexación, selección y filtrado 

La indexación de series funciona de manera análoga a la indexación de matrices NumPy, excepto que puede usar los valores de índice de la serie en lugar de solo números enteros. A continuación, se muestran algunos ejemplos de esto:

In [193]:
obj = pd.Series(np.arange(4), index = ["a","b","c","d"])

In [194]:
obj

a    0
b    1
c    2
d    3
dtype: int64

In [199]:
obj[2:4]

c    2
d    3
dtype: int64

In [200]:
obj[obj < 2]


a    0
b    1
dtype: int64

In [201]:
data = pd.DataFrame(np.arange(16).reshape(4,4),index = ["Ohio","Colorado", "Utah", "Texas"], columns = ["uno", "dos", "tres", "cuatro"])


In [203]:
data.uno

Ohio         0
Colorado     4
Utah         8
Texas       12
Name: uno, dtype: int64

In [205]:
data[:2]

Unnamed: 0,uno,dos,tres,cuatro
Ohio,0,1,2,3
Colorado,4,5,6,7



La división con etiquetas se comporta de manera diferente a la división normal de Python en que el punto final es inclusivo:

Los datos de sintaxis de selección de filas [: 2] se proporcionan para su comodidad. Pasar un solo elemento o una lista al operador [] selecciona columnas. Otro caso de uso es la indexación con un DataFrame booleano, como uno producido por una comparación escalar:

# Selección con LOC y ILOC

Para la indexación de etiquetas de DataFrame en las filas, se tienen los operadores de indexación especial
loc e iloc. Le permiten seleccionar un subconjunto de filas y columnas de una
DataFrame con notación similar a NumPy usando etiquetas de eje (loc) 
(iloc).


In [211]:
data.loc["Colorado", ["dos","cuatro"]]

dos       5
cuatro    7
Name: Colorado, dtype: int64

Como ejemplo preliminar, seleccionemos una sola fila y varias columnas por etiqueta.

Luego realizaremos algunas selecciones similares con números enteros usando iloc:

In [215]:
data.iloc[1,[1,3]]

dos       5
cuatro    7
Name: Colorado, dtype: int64

In [218]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,cuatro,uno,dos
Colorado,7,4,5
Utah,11,8,9


Ambas funciones de indexación funcionan con sectores además de etiquetas individuales o listas de etiquetas:

In [220]:
data.loc[:"Utah","dos"]

Ohio        1
Colorado    5
Utah        9
Name: dos, dtype: int64

In [221]:
data.iloc[:,:3][data.tres>5]

Unnamed: 0,uno,dos,tres
Colorado,4,5,6
Utah,8,9,10
Texas,12,13,14
