### 1.) Indexación y selección de datos

In [None]:
import numpy as np
import pandas as pd

##### Selección de datos en una serie
Como en un diccionario, el objeto Serie proporciona un mapeo de una colección de claves a una colección de valores:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=["a", "b", "c", "d"])
data

Los objetos de serie pueden incluso modificarse con una sintaxis similar a la de un diccionario.

Una serie se basa en esta interfaz similar a un diccionario y proporciona una selección de elementos de estilo de matriz a través de los mismos mecanismos básicos que de NumPy.

###### Indexadores: loc, iloc y ix

In [None]:
data = pd.Series(["a", "b", "c"], index=[1,3,5])
data

- Primero, el atributo **loc** permite la indexación y la segmentación haciendo referencia al __índice explícito__:

- El atributo __iloc__ permite la indexación y la segmentación haciendo referencia al __índice implícito__ del estilo Python:

Un tercer atributo de indexación, **ix**, es un híbrido de los dos, y para los objetos Series es equivalente a la indexación estándar basada en [ ]. El propósito del indexador ix se hará más evidente en el contexto de los objetos DataFrame, que discutiremos en un momento.

##### Selección de datos en un DataFrame
Recuerde que un DataFrame actúa en muchos aspectos como una matriz bidimensional o estructurada y, en otros, como un diccionario de estructuras de series que comparten el mismo índice.

In [None]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
 "year": [2000, 2001, 2002, 2001, 2002, 2003],
 "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

In [None]:
frame2 = pd.DataFrame(data, _________ = ["year", "state", "pop", "debt"], 
                      ______ = ["one", "two", "three", "four","five", "six"]) 

frame2

##### Consultar Columnas
Una columna en un DataFrame se puede recuperar como una Serie ya sea por notación similar a un diccionario o por atributo:

##### Consultar Filas

Las filas se pueden recuperar por posición mediante _iloc_ o con el índice explícito empleando el atributo especial _loc_ :

### 2) Modificaciones básicas en bases de datos

In [None]:
# Podemos crear una columna vacía
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"],
                      index=["one", "two", "three", "four","five", "six"])
frame2

Cuando está asignando listas o matrices a una columna, la longitud del valor debe coincidir con la
longitud de la trama de datos. Si asigna una serie, sus etiquetas se realinearán exactamente para
el índice de DataFrame, insertando valores faltantes en cualquier agujero:

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
val

Un DF es una matriz 2D

### Operaciones aritméticas

Una característica importante de Pandas para algunas aplicaciones es el comportamiento aritmético entre objetos con diferentes índices. Cuando está sumando objetos, si algún par de índices no es el mismo, el índice respectivo en el resultado será la unión de los pares de índices. Para los usuarios con experiencia en bases de datos, esto es similar a una unión externa (outer join) automática en las etiquetas de índice. Veamos un ejemplo:

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=["a", "c", "e", "f", "g"])
print(s1, "\n\n",s2)

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"), 
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])

df1

In [None]:
df2

### Funciones esenciales

Tras comprender la indexación de una serie y un DF, es relevante tener la capacidad de realizar modificaciones a los índices. Un método importante en los objetos pandas es **reindexar**, lo que significa crear un nuevo objeto con los datos conformes a un nuevo índice. Considere un ejemplo:

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

In [None]:
obj2 = obj._________(["a", "b", "c", "d", "e"])
obj2

Para datos ordenados como series de tiempo, puede ser deseable hacer alguna interpolación o completar valores al reindexar. La opción de método nos permite hacer esto, usando un método como ffill, que repite el valor de la fila previa:

In [None]:
obj3 = pd.Series([4053.93, 4056.41, 4004.07], index=[0, 2, 4])
obj3 

In [None]:
obj3._________(range(6), _________="ffill")

Con DataFrame, la reindexación puede modificar el índice (fila), las columnas o ambos. Cuando se pasa solo una secuencia, vuelve a indexar las filas en el resultado:

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=["a", "c", "d"], 
                     columns=["Ohio", "Texas", "California"])
frame

In [None]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

In [None]:
new_obj = obj._____("c")
new_obj

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

### 3) Ufuncs en Pandas
Porque Pandas está diseñado para funcionar con NumPy, y NumPy ufunc funcionará en objetos Pandas Series y DataFrame.

In [None]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=["A", "B", "C", "D"])
df

In [None]:
area = pd.Series({"Alaska": 1723337, "Texas": 695662, "California": 423967}, name="area")
population = pd.Series({"California": 38332521, "Texas": 26448193, 
                        "New York": 19651127}, name="population")

Cualquier elemento para el que uno u otro no tenga una entrada se marca con NaN, o "No es un número", que es como Pandas marca los datos faltantes (tema que discutiremos en la próxima sesión).

In [None]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])

In [None]:
A.___(B, _________=0)

In [None]:
# Algo similar para en los DF
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list("AB"))
A

In [None]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list("BAC"))
B