# Pandas DataFrame

In [2]:
import pandas as pd
import numpy as np

In [3]:
pd.__version__

'1.0.1'

In [5]:
# Crear un DataFrame a partir de un diccionario de datos
dict_data = {
    'edad': [10,9,13,14,12,11,12],
    'cm': [115,110,130,155,125,120,125],
    'pais':['co','mx','co','mx','mx','ch','ch'],
    'genero':['M','F','F','M','M','M','F'],
    'Q1':[5,10,8,np.nan,7,8,3],
    'Q2':[7,9,9,8,8,8,9]
}

df = pd.DataFrame(dict_data)
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [6]:
# Crear un DataFrame con indices personalizados
estudiantes = ['ana','benito','camilo','daniel','erika','fabian','gabriela']
estudiantes

df = pd.DataFrame(dict_data, index=estudiantes)
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7
benito,9,110,mx,F,10.0,9
camilo,13,130,co,F,8.0,9
daniel,14,155,mx,M,,8
erika,12,125,mx,M,7.0,8
fabian,11,120,ch,M,8.0,8
gabriela,12,125,ch,F,3.0,9


In [7]:
# Consultar los indices de un DataFrame
df.index

Index(['ana', 'benito', 'camilo', 'daniel', 'erika', 'fabian', 'gabriela'], dtype='object')

In [8]:
# Consultar el nombre de las columnas de un DataFrame
df.columns

Index(['edad', 'cm', 'pais', 'genero', 'Q1', 'Q2'], dtype='object')

In [10]:
# Consultar los valores de un DataFrame
df.values

array([[10, 115, 'co', 'M', 5.0, 7],
       [9, 110, 'mx', 'F', 10.0, 9],
       [13, 130, 'co', 'F', 8.0, 9],
       [14, 155, 'mx', 'M', nan, 8],
       [12, 125, 'mx', 'M', 7.0, 8],
       [11, 120, 'ch', 'M', 8.0, 8],
       [12, 125, 'ch', 'F', 3.0, 9]], dtype=object)

In [11]:
# Consultar los valores de una columna especifica
df['edad']

ana         10
benito       9
camilo      13
daniel      14
erika       12
fabian      11
gabriela    12
Name: edad, dtype: int64

In [12]:
# Consultar los valores de varias columnas
df[['edad', 'cm', 'Q1']]

Unnamed: 0,edad,cm,Q1
ana,10,115,5.0
benito,9,110,10.0
camilo,13,130,8.0
daniel,14,155,
erika,12,125,7.0
fabian,11,120,8.0
gabriela,12,125,3.0


In [17]:
# Consultando los datos de indices y columnas especificas utilizando loc
df.loc[['ana', 'erika'], ['edad', 'cm', 'Q1']]

Unnamed: 0,edad,cm,Q1
ana,10,115,5.0
erika,12,125,7.0


In [18]:
df.loc['daniel', 'Q1']

nan

In [19]:
# Consultando los datos de indices y columnas especificas utilizando iloc
df.iloc[2,1]

130

In [20]:
df.iloc[2, [1, 3]]

cm        130
genero      F
Name: camilo, dtype: object

In [21]:
df.iloc[[2, 4, 5], [1, 3]]

Unnamed: 0,cm,genero
camilo,130,F
erika,125,M
fabian,120,M


In [22]:
df.iloc[:, [1, 3]]

Unnamed: 0,cm,genero
ana,115,M
benito,110,F
camilo,130,F
daniel,155,M
erika,125,M
fabian,120,M
gabriela,125,F


## Filtros sobre el DataFrame

In [24]:
df[df['edad'] >= 12]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
camilo,13,130,co,F,8.0,9
daniel,14,155,mx,M,,8
erika,12,125,mx,M,7.0,8
gabriela,12,125,ch,F,3.0,9


In [25]:
df[(df['edad'] >= 12) & (df['pais'] == 'mx')]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8
erika,12,125,mx,M,7.0,8


In [27]:
df.query('edad >= 12')

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
camilo,13,130,co,F,8.0,9
daniel,14,155,mx,M,,8
erika,12,125,mx,M,7.0,8
gabriela,12,125,ch,F,3.0,9


In [28]:
df.query("edad >= 12 & pais == 'mx'")

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8
erika,12,125,mx,M,7.0,8


In [29]:
df.query('Q2 > Q1')

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7
camilo,13,130,co,F,8.0,9
erika,12,125,mx,M,7.0,8
gabriela,12,125,ch,F,3.0,9
