### Selección e Indexado de Datos en Pandas
* Recordemos algunas formas típicas de acceder a los arrays:
        
  1. indexing: `arr[2,1]`
  2. slicing: `arr[:,1:10]`
  3. boolean indexing: `arr[arr>0]`
  4. fancy indexing: `arr[[1,7,9],:]`
```
```
* Las `Series` y `DataFrames` de Pandas siguen convenciones similares.         

## Selección de Datos en Series
* Si recordamos que una `Series` es un análogo a un array de una dimensión y a un diccionario esto nos va a permitir retener mejor la forma de selccionar datos.  

### `Series` como un diccionario
* Indexar por nombres (=key en diccionarios)

In [245]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

* Podemos usar expresiones similares a los dicts para examinar keys y valores.

In [246]:
'b' in data

True

In [247]:
# keys() es un método que nos trae el index:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [248]:
# Podemos llamar al index directamente invocando el atributo:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [249]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

* Como en un dict podemos extender una `Series` definiendo una nueva key y asignarle un nuevo valor

In [250]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### `Series` como un array de una dimensión

* Una `Series` provee una forma de seleccionar datos análoga a los arrays: por eso podemos usar _slices_, _masking_ y _fancy indexing_.

In [251]:
data['a':'c'] # slicing explícito

a    0.25
b    0.50
c    0.75
dtype: float64

In [252]:
data[0:2] # slicing implícito por posición (enteros)

a    0.25
b    0.50
dtype: float64

In [253]:
data[(data > 0.3) & (data < 0.8)] # boolean masking

b    0.50
c    0.75
dtype: float64

In [254]:
data[['a', 'e']] # fancy indexing

a    0.25
e    1.25
dtype: float64

In [255]:
data[['a', 'e', 'e', 'b']] # otro ejemplo de fancy indexing

a    0.25
e    1.25
e    1.25
b    0.50
dtype: float64

In [256]:
data2 = data.reindex(['d', 'b', 'a', 'c','d', 'b', 'a', 'c', 'e', 'e']) # reindexing
data2

d    1.00
b    0.50
a    0.25
c    0.75
d    1.00
b    0.50
a    0.25
c    0.75
e    1.25
e    1.25
dtype: float64

### Autorellenado

"ffill" es un método para el relleno de valores faltantes en un DataFrame de pandas. Significa "forward fill", lo que significa que si hay un valor faltante en una fila, se rellenará con el valor de la celda anterior. Este método es útil cuando se tienen datos que son consecutivos en el tiempo y se desea propagar el valor anterior en caso de falta de datos.

In [257]:
data3 = data.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g'], method='ffill')
data3

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
f    1.25
g    1.25
dtype: float64

### NaN

"NaN" significa "Not a Number", es un valor especial que se utiliza para indicar que un valor numérico no es válido o no está disponible. En pandas se utiliza para representar valores faltantes en un DataFrame o una serie. Es importante tener en cuenta que NaN no es igual a cero ni es igual a ningún otro valor, sino que representa una ausencia de valor. Por lo tanto, no se debe confundir con 0 o con un valor vacío.

In [258]:
import numpy as np

# Creando dataframe de ejemplo
dates = ['2001-12-01','2001-12-08','2001-12-15','2001-12-22','2001-12-29']
values = [370.3, 370.8, 371.2, 371.3, 371.5]

# Crear DataFrame y establecer fechas como índice
co2 = pd.DataFrame({'date': dates, 'co2level': values})
co2['date'] = pd.to_datetime(co2['date'])
co2.set_index('date', inplace=True)
# co2 = co2.set_index('date')

# Creamos un NaN en la tercera fila
co2.replace(371.2, np.nan, inplace=True)

# Otra forma de conseguirlo con asignación directa
# co2.loc[pd.to_datetime("2001-12-15 00:00:00"), 'co2level'] = np.nan

co2

Unnamed: 0_level_0,co2level
date,Unnamed: 1_level_1
2001-12-01,370.3
2001-12-08,370.8
2001-12-15,
2001-12-22,371.3
2001-12-29,371.5


In [259]:
# Sustituimos los huecos por valores próximos
co2['co2level'].fillna(method='ffill', inplace=True)
co2

Unnamed: 0_level_0,co2level
date,Unnamed: 1_level_1
2001-12-01,370.3
2001-12-08,370.8
2001-12-15,370.8
2001-12-22,371.3
2001-12-29,371.5


### Indexers: loc e iloc

* Posible confusión: 

    - cuando se hace slicing explícito (`data['a':'c']`) el índice final es incluido en el slice. 
    - en cambio, cuando se hace slicing implícto (`data[0:2]`) el índice final NO es incluido

* Para mitigar este tipo de confusiones, Pandas provee algunos atributos "indexadores".

** Método `loc`** 

In [260]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [261]:
data.loc['a']

0.25

In [262]:
data['a']

0.25

In [263]:
data.loc['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [264]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

** Método `iloc`** 

In [265]:
data.iloc[1]

0.5

In [266]:
data[1]

0.5

In [267]:
data.iloc[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

In [268]:
data[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

## Selección de datos en `DataFrame`

### DataFrame como un diccionario

In [269]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


* Puede accederse a los primeros n elementos del DataFrame con el método df.head(n). Del mismo modo, puede aplicarse el método df.tail(n) para acceder a los últimos elementos del DataFrame:

In [270]:
data.head(2)

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [271]:
data.tail(3)

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


* Con el método df.sample(n) traemos una muestra aleatória de n elementos:

In [299]:
data.sample(2)

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Illinois,149995,12882135,85.883763


* Puede accederse a las ``Series`` individuales que forman las columnas del ``DataFrame`` de forma análoga a un diccionario, vía el nombre de la columna.

In [273]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* De forma equivalente, podemos acceder a la columna como atributo:

In [303]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Ambas formas son equivalentes.
* ¿Qué pasaría si hay algún espacio en el nombre de la columna?

In [275]:
data.area is data['area']

True

* Tener en cuenta que esta forma no siempre funciona. 

    - Por ejemplo, si los nombres de las columnas no son strings
    -  o si tienen nombres que entran en conflicto on algún método de `DataFrame`
  

* Ejemplo: el `DataFrame` tiene un método `pop()`, de esta forma, `data.pop` apuntará al método y no a la columna de `data`  

In [276]:
data.pop is data['pop']

False

* En particular, es importante evitar la asignación de columnas vía atributos (usar `data['pop'] = z` en lugar de `data.pop = z`)
* El estilo diccionario puede ser usado para modificar un objeto:

In [277]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### DataFrame como un array bi-dimensional

* Examinmenos el atributo `values`

In [278]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

* Teniendo en cuenta esto, podemos realizar la analogía y utilizar muchas operaciones similares a la de los arrays en un `DataFrame`.

# * Al igual que en el caso de una `Series` indexar un `DataFrame` de forma análoga a un array puede ser un tanto confuso.

* Particularmente, pasar un índice simple numérico (como iloc[]) en un `DataFrame` devuelve una fila. 

In [279]:
data[0:1]
# data[0] da error

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926


* Y pasar un índice simple de texto (como .loc[]) devuelve una columna:

* Por eso Pandas usa los indexadores `loc` e `iloc`.

* Usando `iloc` podemos indexar los arrays subyacentes a un `DataFrame` como si fuera un array común, pero el índice y la etiqueta de columna son mantenidos en el resultado:

In [280]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


* De forma similar, usando `loc` podemos indexar el array subyancente pero usando el index de forma explícita y los nombre de columnas.

In [281]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


* Cualquier forma de acceso de un array puede usarse con estos indexadores.
* Por ejemplo, podemos usar `loc` y combinarlo con masking y fancy indexing:

In [282]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


* Cualquiera de estas formas de indexar puede ser usada para asignar o modificar valores:

In [283]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Algunas convenciones adicionales para indexar

* En general, "indexing" refiere a columnas, mientras que "slicing" refiere a filas:

In [284]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


* "Fancy indexing" por defecto se realiza de forma explícita y sobre las columnas.

In [285]:
data[['area','density']]

Unnamed: 0,area,density
California,423967,90.0
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121
Illinois,149995,85.883763


In [286]:
data.loc[:, ['area','density']]

Unnamed: 0,area,density
California,423967,90.0
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121
Illinois,149995,85.883763


In [287]:
data.loc[:, 'area':'density']

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


* Esos slices también pueden referir a filas por posición, en lugar de índices:

In [288]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


* De forma similar, las operaciones de masking también son interpretadas por defecto en el sentido de las filas:

In [289]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


In [290]:
data.reindex(['California', 'Florida', 'New York', 'Texas', 'Florida', 'New York', 'Texas'])

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Florida,170312,19552860,114.806121
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874
Florida,170312,19552860,114.806121
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


In [291]:
data.reindex(columns = ['pop', 'density', 'area', 'pop'])

Unnamed: 0,pop,density,area,pop.1
California,38332521,90.0,423967,38332521
Texas,26448193,38.01874,695662,26448193
New York,19651127,139.076746,141297,19651127
Florida,19552860,114.806121,170312,19552860
Illinois,12882135,85.883763,149995,12882135


In [292]:
data.reindex(index= ['California', 'Florida', 'New York',\
                      'Texas', 'Florida', 'New York', 'Texas'],\
                      columns = ['pop', 'density', 'area', 'pop'])

Unnamed: 0,pop,density,area,pop.1
California,38332521,90.0,423967,38332521
Florida,19552860,114.806121,170312,19552860
New York,19651127,139.076746,141297,19651127
Texas,26448193,38.01874,695662,26448193
Florida,19552860,114.806121,170312,19552860
New York,19651127,139.076746,141297,19651127
Texas,26448193,38.01874,695662,26448193


### Slicing

Crear un DataFrame de ejemplo con estos datos de ventas:
```
producto	ventas	fecha
A	100	2022-01-01
B	200	2022-01-02
C	150	2022-01-03
D	180	2022-01-04
E	80	2022-01-05
F	90	2022-01-06
G	210	2022-01-07
H	190	2022-01-08
I	220	2022-01-09
J	130	2022-01-10
```

In [None]:
import pandas as pd

In [None]:
data = {
  "ventas": [100, 200, 150, 180, 80, 90, 210, 190, 220, 130],
  "fecha": ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04','2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09', '2022-01-10']
}
df = pd.DataFrame(data, index = ['A','B','C','D','E','F','G','H','I','J'])
df 

### Seleccionar partes específicas del DataFrame utilizando slicing:

In [None]:
# Seleccionar solo las primeras 3 filas del DataFrame:
print(df.loc[['A', 'B','C']])
# Seleccionar las filas del índice 2 al 6 del DataFrame:
df['C':'G']
# Seleccionar las filas donde las ventas son mayores a 150:
df["ventas"] = pd.to_numeric(df["ventas"])
df.dtypes
# Seleccionar solo la columna "producto" del DataFrame:
df.loc[df['ventas'] > 150]
# Seleccionar las columnas "producto" y "ventas" del DataFrame:
df['ventas']