# 1- Indexar datos con Python nativo
Nativamente python cuenta con formas de indexar datos

In [75]:
import pandas as pd
df = pd.read_csv("Data.csv",encoding='latin-1')
df.head()

Unnamed: 0,idProducto,Códigos de producto,Precio,Cliente,Código de cliente,Pedidos,Total
0,0,51993Masc,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
1,1,49631Foun,$14.49,Rockland's,ARLVA283,152,"$2,202.48"
2,2,42292Glos,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
3,3,86661Shad,$5.71,Elizabethtown Supply,COLSC761,308,"$1,758.68"
4,4,49541Eyel,$7.94,Rockland's,ARLVA425,50,$397.00


En Python, podemos acceder a la propiedad de un objeto accediento a él como un atributo

In [8]:
# Accedemos a los valores de la propiedad "Cliente", accediendo como si fuera atributo (.Cliente)
df.Cliente.head()

0    Candy's Beauty Supply
1               Rockland's
2         Rudiger Pharmacy
3     Elizabethtown Supply
4               Rockland's
Name: Cliente, dtype: object

En caso de tener un diccionario , podemos acceder a su valor usando [], lo mismo podemos hacer en un DataFrame  
La ventaja es que puedes manjerar caracteres especiales como los "espacios", que con el metodo atributo arroja un error

In [10]:
# " df.Código de cliente.head " --> Error, no se admiten espacios al llamar atributo
df['Código de cliente'].head()

0    PINNC980
1    ARLVA283
2    CHEMD763
3    COLSC761
4    ARLVA425
Name: Código de cliente, dtype: object

Para acceder al valor de un registro en especifico de la serie, solo necesitas indexar[] una vez mas

In [11]:
df['Código de cliente'][0]

'PINNC980'

# 2 - Indexar datos con Pandas
Pandas tiene sus propios operadores de acceso, **loc** e **iloc**. Para operaciones más avanzadas, estas son las que se supone que debes usar.

### Seleccion basada en indices: iloc 
La indexion en Pandas funciona de dos formas, la primera funciona seleccionando los datos en función de su posición numérica en los datos. para eso usamos **iloc**  
**iloc** es conceptualmente más simple que **loc** porque ignora los índices del conjunto de datos.  
Cuando usamos **iloc**, tratamos el conjunto de datos como una gran _matriz_ (una lista de listas), una que tenemos que indexar por posición.

In [12]:
# Traer el primer registo(0) con un display Columna-Valor (key-value)
df.iloc[0]

idProducto                                 0
Códigos de producto                51993Masc
Precio                                 $9.98
Cliente                Candy's Beauty Supply
Código de cliente                   PINNC980
Pedidos                                  191
Total                              $1,906.18
Name: 0, dtype: object

_Tanto **loc** **iloc** acceden primero a la fila, despues a la columna, por eso, cuando llamamos **[0]** trae el primer registro(fila) y no la primer columna_  
Para acceder a las columnas con **iloc**, hacemos los siguiente

In [21]:
df.iloc[:,3].head()

0    Candy's Beauty Supply
1               Rockland's
2         Rudiger Pharmacy
3     Elizabethtown Supply
4               Rockland's
Name: Cliente, dtype: object

Por sí solo, el operador :, que también proviene de Python nativo, significa "todo". Sin embargo, cuando se combina con otros selectores, se puede utilizar para indicar un rango de valores. Por ejemplo, para seleccionar la columna de país solo de la primera, segunda y tercera fila, haríamos:

In [24]:
# Traeme los primeros 4 registros de la columna 3(Cliente)
df.iloc[:4,3]

0    Candy's Beauty Supply
1               Rockland's
2         Rudiger Pharmacy
3     Elizabethtown Supply
Name: Cliente, dtype: object

In [29]:
# Tambien podemos hacer modificaciones:
# Traeme del registro 2 al 4 de la columna 3
df.iloc[2:4,3]

2        Rudiger Pharmacy
3    Elizabethtown Supply
Name: Cliente, dtype: object

In [30]:
# Tambien podemos pasarlo como listas:
# Traeme el registro 0,3y5 de la columna 3
df.iloc[[0,3,5],3]

0    Candy's Beauty Supply
3     Elizabethtown Supply
5    Candy's Beauty Supply
Name: Cliente, dtype: object

Tambien podemos usar el operador negativo(-), lo que hace es que comienza a contar los valores desde el final hacia adelante(reversa)

In [36]:
#Traeme los ultimos 5 registros de mi tabla
df.iloc[-5:]

Unnamed: 0,idProducto,Códigos de producto,Precio,Cliente,Código de cliente,Pedidos,Total
25,25,32729Masc,$13.13,Elizabethtown Supply,COLSC481,972,"$12,762.36"
26,26,63094Exfo,$16.94,Candy's Beauty Supply,PINNC547,362,"$6,132.28"
27,27,61207Foun,$9.83,Rudiger Pharmacy,CHEMD323,588,"$5,780.04"
28,28,17269Masc,$14.95,Rockland's,ARLVA876,381,"$5,695.95"
29,29,15143Exfo,$20.04,Rudiger Pharmacy,CHEMD584,782,"$15,671.28"


In [37]:
# Traeme el registro 30-5 de la tabla 
df.iloc[-5]

idProducto                               25
Códigos de producto               32729Masc
Precio                               $13.13
Cliente                Elizabethtown Supply
Código de cliente                  COLSC481
Pedidos                                 972
Total                            $12,762.36
Name: 25, dtype: object

### Seleccion basada en etiquetas: loc
En este paradigma, es el valor del índice de datos, no su posición, lo que importa.  
Por ejemplo, para obtener el primer registro de la columna clientes  
**loc**, por el contrario, utiliza la información de los índices para hacer su trabajo. Dado que su conjunto de datos generalmente tiene índices significativos, generalmente es más fácil hacer cosas usando loc en su lugar. 

In [39]:
# Traeme el primer registro de la columna "clientes "
df.loc[0,'Cliente']

"Candy's Beauty Supply"

In [44]:
# Traeme ['Cliente', 'Pedidos','Total'] del registro 5 al 8
df.loc[5:8, ['Cliente', 'Pedidos','Total']]

Unnamed: 0,Cliente,Pedidos,Total
5,Candy's Beauty Supply,673,"$9,132.61"
6,Elizabethtown Supply,94,$795.24
7,Candy's Beauty Supply,299,"$1,659.45"
8,Rockland's,850,"$9,392.50"


In [45]:
# Traeme ['Cliente', 'Pedidos','Total'] del registro 5
df.loc[5, ['Cliente', 'Pedidos','Total']]

Cliente    Candy's Beauty Supply
Pedidos                      673
Total                  $9,132.61
Name: 5, dtype: object

### Elegir entre iloc y loc

Al elegir o cambiar entre loc e iloc, hay un problema que vale la pena tener en cuenta, y es que los dos métodos usan esquemas de indexación ligeramente diferentes.  
**iloc:** usa el esquema de indexación stdlib de Python, _donde se incluye el primer elemento del rango y se excluye el último._ Entonces 0:10 seleccionará las entradas 0,...,9.  
**loc** , por su parte, indexa inclusive. Entonces 0:10 seleccionará las entradas 0,...,10.  

Esto es particularmente confuso cuando el índice de DataFrame es una lista numérica simple, p. 0,...,1000. En este caso, df.iloc[0:1000] devolverá 1000 entradas, mientras que df.loc[0:1000] devolverá 1001 de ellas. Para obtener 1000 elementos usando loc, deberá ir uno más abajo y solicitar df.loc[0:999].  
**O te sabes el indice de la columna(iloc) / o te sabes el nombre de la columna(loc)**  

cols = ['country', 'variety']  
df = reviews.loc[:99, cols]  
or  

cols_idx = [0, 11]  
df = reviews.iloc[:100, cols_idx]  

# 3 - Manipulando indices
La selección basada en etiquetas deriva su poder de las etiquetas en el índice. Críticamente, el índice que usamos **no es inmutable.** Podemos manipular el índice de cualquier manera que creamos conveniente.

In [56]:
df = pd.read_csv("Data2.csv",encoding='latin-1')
df.set_index("idProducto")

Unnamed: 0_level_0,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
idProducto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,51993Masc,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
1,49631Foun,$14.49,Rockland's,ARLVA283,152,"$2,202.48"
2,42292Glos,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
3,86661Shad,$5.71,Elizabethtown Supply,COLSC761,308,"$1,758.68"
4,49541Eyel,$7.94,Rockland's,ARLVA425,50,$397.00
5,58337Foun,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
6,40014Masc,$8.46,Elizabethtown Supply,COLSC649,94,$795.24
7,86139Lips,$5.55,Candy's Beauty Supply,PINNC496,299,"$1,659.45"
8,69601Exfo,$11.05,Rockland's,ARLVA851,850,"$9,392.50"
9,25331Glos,$7.58,Rockland's,ARLVA924,169,"$1,281.02"


Esto es útil si puede crear un índice para el conjunto de datos que sea mejor que el actual.

# 4 - Seleccion condicional
Sirve para hacer preguntas basadas en condiciones, quien cumpla la condicon de va a mostrar

In [57]:
# Por ejemplo, solo quiero ver los pedidos del cliente "Candy's Beauty Supply"
df.Cliente == "Candy's Beauty Supply"

0      True
1     False
2     False
3     False
4     False
5      True
6     False
7      True
8     False
9     False
10    False
11    False
12    False
13     True
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21     True
22    False
23    False
24    False
25    False
26     True
27    False
28    False
29    False
Name: Cliente, dtype: bool

Esta operacion solo regresa valores **True/False** para cada registro, Este resultado de puede usar con **loc** para sacar la data importante


In [60]:
# Para traer solo los registros cuyos cliente es "Candy's Beauty Supply"
df.loc[df.Cliente == "Candy's Beauty Supply"]

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
0,0,51993Masc,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
5,5,58337Foun,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
7,7,86139Lips,$5.55,Candy's Beauty Supply,PINNC496,299,"$1,659.45"
13,13,91559Eyel,$6.66,Candy's Beauty Supply,PINNC674,444,"$2,957.04"
21,21,26156Foun,$12.01,Candy's Beauty Supply,PINNC615,146,"$1,753.46"
26,26,63094Exfo,$16.94,Candy's Beauty Supply,PINNC547,362,"$6,132.28"


In [61]:
# Se pueden combinar con operadores logicos, como: AND
# Traeme solo los registros cuyo cliente sea "Candy's Beauty Supply" y el pedido sea mayor a 300 unidades
df.loc[(df.Cliente == "Candy's Beauty Supply") & (df.Pedidos > 300)]

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
5,5,58337Foun,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
13,13,91559Eyel,$6.66,Candy's Beauty Supply,PINNC674,444,"$2,957.04"
26,26,63094Exfo,$16.94,Candy's Beauty Supply,PINNC547,362,"$6,132.28"


In [63]:
# Se pueden combinar con operadores logicos, como: OR
# Traeme solo los registros cuyo cliente sea "Candy's Beauty Supply" o el pedido sea mayor a 700 unidades
df.loc[(df.Cliente == "Candy's Beauty Supply") | (df.Pedidos > 700)]

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
0,0,51993Masc,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
2,2,42292Glos,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
5,5,58337Foun,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
7,7,86139Lips,$5.55,Candy's Beauty Supply,PINNC496,299,"$1,659.45"
8,8,69601Exfo,$11.05,Rockland's,ARLVA851,850,"$9,392.50"
10,10,85021Foun,$11.75,Rudiger Pharmacy,CHEMD339,707,"$8,307.25"
13,13,91559Eyel,$6.66,Candy's Beauty Supply,PINNC674,444,"$2,957.04"
14,14,62289Masc,$12.06,Elizabethtown Supply,COLSC887,797,"$9,611.82"
21,21,26156Foun,$12.01,Candy's Beauty Supply,PINNC615,146,"$1,753.46"
25,25,32729Masc,$13.13,Elizabethtown Supply,COLSC481,972,"$12,762.36"


Pandas viene con algunos selectores condicionales incorporados  

## "isin"
permite seleccionar datos cuyo valor "está en" una lista de valores.

In [64]:
# Traeme los registros cuyo cliente este en: ["Candy's Beauty Supply", "Rudiger Pharmacy"]
df.loc[df.Cliente.isin(["Candy's Beauty Supply", "Rudiger Pharmacy"])]

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
0,0,51993Masc,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
2,2,42292Glos,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
5,5,58337Foun,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
7,7,86139Lips,$5.55,Candy's Beauty Supply,PINNC496,299,"$1,659.45"
10,10,85021Foun,$11.75,Rudiger Pharmacy,CHEMD339,707,"$8,307.25"
13,13,91559Eyel,$6.66,Candy's Beauty Supply,PINNC674,444,"$2,957.04"
15,15,64762Foun,$12.95,Rudiger Pharmacy,CHEMD913,355,"$4,597.25"
20,20,03485Eyel,$7.00,Rudiger Pharmacy,CHEMD887,461,"$3,227.00"
21,21,26156Foun,$12.01,Candy's Beauty Supply,PINNC615,146,"$1,753.46"
23,23,96799Foun,$10.07,Rudiger Pharmacy,CHEMD365,602,"$6,062.14"


## "isnull/notnull"
Estos métodos le permiten resaltar valores que están (o no están) vacíos (NaN)

In [66]:
# Traeme todos los registros donde el precio NO sea null (Va a traer todos porque nuestro dataFrame no tiene nulls)
df.loc[df.Precio.notnull()].head()

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
0,0,51993Masc,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
1,1,49631Foun,$14.49,Rockland's,ARLVA283,152,"$2,202.48"
2,2,42292Glos,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
3,3,86661Shad,$5.71,Elizabethtown Supply,COLSC761,308,"$1,758.68"
4,4,49541Eyel,$7.94,Rockland's,ARLVA425,50,$397.00


In [67]:
# Traeme toos los registros donde el precio SEA null (No trae nada, ya que no tenemos nulls)
df.loc[df.Precio.isnull()].head()

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total


# 5 - Asignacion de datos

## Asignar valor constante

In [70]:
# Cambia TOODOSS los registros de la columna "Codigosdeproducto" a "Cualquiera"
df["Codigosdeproducto"] = 'Cualquiera'
df.head(10)

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
0,0,Cualquiera,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
1,1,Cualquiera,$14.49,Rockland's,ARLVA283,152,"$2,202.48"
2,2,Cualquiera,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
3,3,Cualquiera,$5.71,Elizabethtown Supply,COLSC761,308,"$1,758.68"
4,4,Cualquiera,$7.94,Rockland's,ARLVA425,50,$397.00
5,5,Cualquiera,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
6,6,Cualquiera,$8.46,Elizabethtown Supply,COLSC649,94,$795.24
7,7,Cualquiera,$5.55,Candy's Beauty Supply,PINNC496,299,"$1,659.45"
8,8,Cualquiera,$11.05,Rockland's,ARLVA851,850,"$9,392.50"
9,9,Cualquiera,$7.58,Rockland's,ARLVA924,169,"$1,281.02"


## Asignacion con valores iterables

In [74]:
# Cambia TOOODOS los registros de "Codigosdeproducto" a un rango de:
# - Lo largo de la tabla ((len(df))
# - Iniciando en el registro de indice 0
# - Al reves (-1) (inciando en 30 -> 29 -> 28 -> 27...)
df["Codigosdeproducto"] = range(len(df), 0, -1)
df

Unnamed: 0,idProducto,Codigosdeproducto,Precio,Cliente,Codigodecliente,Pedidos,Total
0,0,30,$9.98,Candy's Beauty Supply,PINNC980,191,"$1,906.18"
1,1,29,$14.49,Rockland's,ARLVA283,152,"$2,202.48"
2,2,28,$6.74,Rudiger Pharmacy,CHEMD763,758,"$5,108.92"
3,3,27,$5.71,Elizabethtown Supply,COLSC761,308,"$1,758.68"
4,4,26,$7.94,Rockland's,ARLVA425,50,$397.00
5,5,25,$13.57,Candy's Beauty Supply,PINNC939,673,"$9,132.61"
6,6,24,$8.46,Elizabethtown Supply,COLSC649,94,$795.24
7,7,23,$5.55,Candy's Beauty Supply,PINNC496,299,"$1,659.45"
8,8,22,$11.05,Rockland's,ARLVA851,850,"$9,392.50"
9,9,21,$7.58,Rockland's,ARLVA924,169,"$1,281.02"
