## Extracción de valores de un dataframe usando `.loc[]` y `.iloc[]`. Conversión de diccionarios a dataframes 

In [1]:
import numpy as np

import pandas as pd
# Version de pandas
pd.__version__

'1.2.5'

In [2]:
# Diccionario cuyos valores son enteros
dict_data = {'CO':300, 'MX':400, 'CH':200}
dict_data

{'CO': 300, 'MX': 400, 'CH': 200}

In [3]:
pd.Series( dict_data )

CO    300
MX    400
CH    200
dtype: int64

## Transformamos un diccionario a un DataFrame

In [4]:
# Diccionario cuyos valores son listas enteros
dict_data = {'CH':[100,800,200], 'CO':[100,200,300], 'MX':[300,500,400]}
dict_data = {
    'edad' :     [ 10, 9, 13, 14, 12, 11, 12],
    'cm' : [ 115, 110, 130, 155, 125, 120, 125],
    'pais' :    [ 'co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
    'genero' :  [ 'M', 'F', 'F', 'M', 'M', 'M', 'F'],
    'Q1' : [ 5, 10, 8, np.nan, 7, 8, 3],
    'Q2' : [ 7, 9, 9, 8, 8, 8, 9.]
}
dict_data

{'edad': [10, 9, 13, 14, 12, 11, 12],
 'cm': [115, 110, 130, 155, 125, 120, 125],
 'pais': ['co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
 'genero': ['M', 'F', 'F', 'M', 'M', 'M', 'F'],
 'Q1': [5, 10, 8, nan, 7, 8, 3],
 'Q2': [7, 9, 9, 8, 8, 8, 9.0]}

In [5]:
df = pd.DataFrame( dict_data )
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


In [6]:
df = pd.DataFrame(dict_data , index = ['ana','benito','camilo','daniel','erika','fabian','gabriela'])
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
benito,9,110,mx,F,10.0,9.0
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [7]:
# Extraemos nombre de índices:
df.index

Index(['ana', 'benito', 'camilo', 'daniel', 'erika', 'fabian', 'gabriela'], dtype='object')

In [8]:
# Extraemos nombre de columnas:
df.columns

Index(['edad', 'cm', 'pais', 'genero', 'Q1', 'Q2'], dtype='object')

In [9]:
# Extraemos valores:
df.values

array([[10, 115, 'co', 'M', 5.0, 7.0],
       [9, 110, 'mx', 'F', 10.0, 9.0],
       [13, 130, 'co', 'F', 8.0, 9.0],
       [14, 155, 'mx', 'M', nan, 8.0],
       [12, 125, 'mx', 'M', 7.0, 8.0],
       [11, 120, 'ch', 'M', 8.0, 8.0],
       [12, 125, 'ch', 'F', 3.0, 9.0]], dtype=object)

In [10]:
# Extraemos valores de un columna:
df['edad']

ana         10
benito       9
camilo      13
daniel      14
erika       12
fabian      11
gabriela    12
Name: edad, dtype: int64

In [11]:
# Extraemos valores de varias columnas:
df[ ['edad','cm','Q1'] ]

Unnamed: 0,edad,cm,Q1
ana,10,115,5.0
benito,9,110,10.0
camilo,13,130,8.0
daniel,14,155,
erika,12,125,7.0
fabian,11,120,8.0
gabriela,12,125,3.0


In [12]:
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
benito,9,110,mx,F,10.0,9.0
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


## Extracción de subconjutnos de dataframes mediante las funciones `loc[]` y `iloc[]`

La función `loc[]` permite traer datos usando el NOMBRE de índices y columnas

La función `iloc[]` permite traer datos usando el NÚMERO de índices y columnas

In [13]:
# Extraer un valor del dataframe con 'iloc[]':
df.iloc[3,4]

nan

In [14]:
# Extraer un subconjunto de valores en un rango específico:
df.iloc[ [1,4,6],[0,3,4,5] ]

Unnamed: 0,edad,genero,Q1,Q2
benito,9,F,10.0,9.0
erika,12,M,7.0,8.0
gabriela,12,F,3.0,9.0


In [15]:
# Extraer un subconjunto de valores en un rango continuo:
df.iloc[ 1:6 , 0:3]

Unnamed: 0,edad,cm,pais
benito,9,110,mx
camilo,13,130,co
daniel,14,155,mx
erika,12,125,mx
fabian,11,120,ch


In [16]:
# Extraer un valor del dataframe con 'loc[]':
df.loc['daniel','Q1']

nan

In [17]:
# Extraer TODOS los valores de UN renglon dado:
df.loc['benito']

edad         9
cm         110
pais        mx
genero       F
Q1        10.0
Q2         9.0
Name: benito, dtype: object

In [18]:
# Extraer ALGUNOS los valores de UN renglon dado:
df.loc['benito' , ['edad','Q1','Q2']]

edad       9
Q1      10.0
Q2       9.0
Name: benito, dtype: object

In [19]:
# Extraer un subconjunto de datos:
df.loc[ ['ana','benito','gabriela'],['edad','Q1','Q2']  ]

Unnamed: 0,edad,Q1,Q2
ana,10,5.0,7.0
benito,9,10.0,9.0
gabriela,12,3.0,9.0


In [20]:
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
benito,9,110,mx,F,10.0,9.0
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, ana to gabriela
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   edad    7 non-null      int64  
 1   cm      7 non-null      int64  
 2   pais    7 non-null      object 
 3   genero  7 non-null      object 
 4   Q1      6 non-null      float64
 5   Q2      7 non-null      float64
dtypes: float64(2), int64(2), object(2)
memory usage: 692.0+ bytes


## Deteccion de campos vacíos:

In [22]:
# lista de renglones que cumplen la condición 'Q1 is null'
df[ df['Q1'].isnull() ]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8.0


In [23]:
# Asignamos valor a los campos vacíos:

# Reemplazamo el campo vacío por la media.
# No ponemos 0.0 para no generar Outliers
mean_Q1 = df['Q1'].mean()

df.fillna( mean_Q1 )


Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
benito,9,110,mx,F,10.0,9.0
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,6.833333,8.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


## Filtrado de información con operadores lógicos:

In [24]:
# lista los renglones que cumplen la condición 'Q2 >= Q1':
df['Q2'] >=  df['Q1']

ana          True
benito      False
camilo       True
daniel      False
erika        True
fabian       True
gabriela     True
dtype: bool

In [25]:
# Extracción de los datos que cumplen una condición dada: 'df[ condición ]':
df[ df['Q2'] >=  df['Q1'] ]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
camilo,13,130,co,F,8.0,9.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [26]:
# Lista los renglones que cumplen la condición 'edad' >= 12:
df['edad'] >= 12

ana         False
benito      False
camilo       True
daniel       True
erika        True
fabian      False
gabriela     True
Name: edad, dtype: bool

In [27]:
# Extracción de los datos que cumplen una condición dada: 'df[ condición ]'
df[ df['edad'] >=12 ]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [28]:
# Extracción de los datos que cumplen VARIAS condiciones: 'df[ (condición_1) & (condición_2) ]'
df[ ( df['edad']>=12 ) & ( df['pais']=='mx' ) ]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0


## Filtrado de información con querys:

In [29]:
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
benito,9,110,mx,F,10.0,9.0
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [30]:
df.query( 'edad >= 12' )

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [31]:
df.query( 'edad >= 12 and edad <= 13 ' )

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
camilo,13,130,co,F,8.0,9.0
erika,12,125,mx,M,7.0,8.0
gabriela,12,125,ch,F,3.0,9.0
