# Seleccion de informacion
* Trabajaremos en diferentes formas de seleccionar informacion del dataframe

In [1]:
import numpy as np
import pandas as pd
from numpy.random import randn
#Colocamos el seed
np.random.seed(40)

In [2]:
datos=randn(5,4)
indices=['a','b','c','d','e']
columnas=['Valor','Desviacion','Media','Error']
df1=pd.DataFrame(data=datos, index=indices, columns=columnas)
df1

Unnamed: 0,Valor,Desviacion,Media,Error
a,-0.607548,-0.126136,-0.684606,0.928715
b,-1.844401,-0.467002,2.29249,0.48881
c,0.710267,1.055534,0.054073,0.257953
d,0.588282,0.885244,-1.017007,-0.133693
e,-0.438186,0.493443,-0.199009,-1.274984


## Seleccion condicional
* Pandas nos ofrece tener selección condicional
* Si colocamos el dataframe en una expresion condicional obtenemos una serie de valores booleanos
* Si el elemento cumple la condicion es True, sino es False

In [3]:
bdf1 = df1>0
print(bdf1)

   Valor  Desviacion  Media  Error
a  False       False  False   True
b  False       False   True   True
c   True        True   True   True
d   True        True  False  False
e  False        True  False  False


* Si pasamos ese nuevo dataframe con valores booleanos al dataframe original, entonces solo los que tengan **True** se copian y los demas pasan como **NaN**

In [4]:
df1r=df1[bdf1]
print(df1r)

      Valor  Desviacion     Media     Error
a       NaN         NaN       NaN  0.928715
b       NaN         NaN  2.292490  0.488810
c  0.710267    1.055534  0.054073  0.257953
d  0.588282    0.885244       NaN       NaN
e       NaN    0.493443       NaN       NaN


* Lo podemos hacer en un solo paso

In [5]:
df1r=df1[df1>0]
print(df1r)

      Valor  Desviacion     Media     Error
a       NaN         NaN       NaN  0.928715
b       NaN         NaN  2.292490  0.488810
c  0.710267    1.055534  0.054073  0.257953
d  0.588282    0.885244       NaN       NaN
e       NaN    0.493443       NaN       NaN


* Podemos saber si una columna cumple determinada condicion

In [6]:
condicionValor=df1['Valor']>0
print(condicionValor)

a    False
b    False
c     True
d     True
e    False
Name: Valor, dtype: bool


* Y esto nos sirve para seleccionar o filtrar filas basandonos en los valores de la columna

In [7]:
valoresPositivos=df1[df1['Valor']>0]
print(valoresPositivos)

      Valor  Desviacion     Media     Error
c  0.710267    1.055534  0.054073  0.257953
d  0.588282    0.885244 -1.017007 -0.133693


* Con eso recibimos el dataframe completo, pero podemos tomar solo cierta columna cuando se cumpla la condicion de otra columna
* El valor en Media de aquellos cuyo Valor sea >0

In [8]:
MediaValor=df1[df1['Valor']>0]['Media']
print(MediaValor)

c    0.054073
d   -1.017007
Name: Media, dtype: float64


* Si deseamos utilizar una seleccion que lleve una expresion lógica tenemos que usar **&** **|**

In [9]:
r=df1[(df1['Valor']>0) & (df1['Media']<1)]
print(r)

      Valor  Desviacion     Media     Error
c  0.710267    1.055534  0.054073  0.257953
d  0.588282    0.885244 -1.017007 -0.133693
