# Crear un DataFrame

In [9]:
# Importamos la librería Pandas
import pandas as pd

In [10]:
# Definimos el diccionario d
d = { 'Nombre':       ['Rosa', 'Juan', 'María', 'Pedro'],
      'ID':           [1, 2, 3, 4],
      'Departamento': ['Ventas', 'Logistica', 'Contabilidad', 'Sistemas'],
      'Sueldo': [1500, 2000, 2500, 3000]
    }

# Convertimos el Diccionario a un DataFrame
DF = pd.DataFrame(d)

# Mostramos los resultados
DF

Unnamed: 0,Nombre,ID,Departamento,Sueldo
0,Rosa,1,Ventas,1500
1,Juan,2,Logistica,2000
2,María,3,Contabilidad,2500
3,Pedro,4,Sistemas,3000


# Seleccionar Columnas

Para seleccionar una columna del DataFrame, accedemos a las columnas llamándolas por su nombre.
Recuperamos los datos presentes en la columna ID.

In [3]:
# Recuperamos la Columna ID y le asignamos a la variable "d"
d = DF[['ID']]
d

Unnamed: 0,ID
0,1
1,2
2,3
3,4


Usamos la función type() para verifiquemos el tipo de variable.

In [4]:
# Verificamos el tipo de variable de d
type(d)

pandas.core.frame.DataFrame

El resultado nos muestra que el tipo de variable es un objeto DataFrame.

### Seleccionar dos columnas

In [5]:
DF[['Nombre', 'Sueldo']]

Unnamed: 0,Nombre,Sueldo
0,Rosa,1500
1,Juan,2000
2,María,2500
3,Pedro,3000


### Seleccionar de la Columna 2 hasta la columna 4 (un rango)

In [3]:
# Defino df para los datos del archivo csv Empleado
df = pd.read_csv("data/Empleado.csv")

In [6]:
df[df.columns[1:4]]

Unnamed: 0,Renuncia,ViajesNegocios,TarifaDiaria
0,Yes,Travel_Rarely,1102
1,No,Travel_Frequently,279
2,Yes,Travel_Rarely,1373
3,No,Travel_Frequently,1392
4,Yes,Travel_Rarely,1373
...,...,...,...
1480,No,Non-Travel,1162
1481,No,,1490
1482,No,,581
1483,No,,1395


### Acceso a múltiples columnas
#### Recuperemos los datos de las columnas: ID, Departamento y Sueldo


In [26]:
# Recuperamos las columnas ID, Departamento y Sueldo y las asignamos a la variable "x"
x = DF[['ID', 'Departamento', 'Sueldo']]
x

Unnamed: 0,ID,Departamento,Sueldo
Uno,1,Ventas,1500
Dos,2,Logistica,2000
Tres,3,Contabilidad,2500
Cuatro,4,Sistemas,3000


# Configuración de índices de un DataFrame (Indexación)
### El índice de un DataFrame se crea con números desde 0, pero se puede asignar etiquetas o propios valores.

In [17]:
dfi = DF.set_index('Nombre')
dfi

Unnamed: 0_level_0,ID,Departamento,Sueldo
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Rosa,1,Ventas,1500
Juan,2,Logistica,2000
María,3,Contabilidad,2500
Pedro,4,Sistemas,3000


In [28]:
DF.index = ['Uno', 'Dos', 'Tres', 'Cuatro']
DF

Unnamed: 0,Nombre,ID,Departamento,Sueldo
Uno,Rosa,1,Ventas,1500
Dos,Juan,2,Logistica,2000
Tres,María,3,Contabilidad,2500
Cuatro,Pedro,4,Sistemas,3000


# Segmentación de un DataFrame
### Es posible segmentar un DataFrame para recuperar filas de él.


In [29]:
DF [0:2]

Unnamed: 0,Nombre,ID,Departamento,Sueldo
Uno,Rosa,1,Ventas,1500
Dos,Juan,2,Logistica,2000


### Métodos Loc() e iLoc()

In [12]:
#Accedemos a la columna utilizando el nombre
DF.loc[0,'Sueldo']

1500

In [13]:
# Accedemos al valor de la primera fila y la primera columna
DF.iloc[0,0]

'Rosa'

In [14]:
# Accedemos a los valores del primer objeto
DF.iloc[0]

Nombre            Rosa
ID                   1
Departamento    Ventas
Sueldo            1500
Name: 0, dtype: object

In [15]:
# Accedemos al valor de la primera fila y de la tercera columna
DF.iloc[0,2]

'Ventas'

### Para el DataFrame dfi mostrar el Departamento por el nombre del Empleado

In [18]:
dfi.loc['Pedro','Departamento']

'Sistemas'

### Seleccionar las dos primeras filas desde la columna Nombre hasta la columna Departamento

In [19]:
DF.loc[0:1, 'Nombre':'Departamento']

Unnamed: 0,Nombre,ID,Departamento
0,Rosa,1,Ventas
1,Juan,2,Logistica


# PRÁCTICA: Crear un DataFrame para obtener el siguiente resultado


In [20]:
# Definimos el diccionario d2
d2 = { 'Estudiante': ['Juan', 'Carlos', 'Rosa', 'Jean', 'Lourdes', 'Mario'],
       'Edad':       [19,20,18,18,20,18],
       'Promedio':   [15,12,8,18,10,17],
       'Ciclo':      ['V', 'VI', 'V', 'IV', 'IX', 'V'],
       'Curso':      ['Ingenieria de Datos', 'Base de Datos', 'Algoritmos',              'Tesis', 'Proyecto de Tesis', 'Programación']
    }

# Convertimos el Diccionario a un DataFrame
DF2 = pd.DataFrame(d2)

# Mostramos los resultados
DF2

Unnamed: 0,Estudiante,Edad,Promedio,Ciclo,Curso
0,Juan,19,15,V,Ingenieria de Datos
1,Carlos,20,12,VI,Base de Datos
2,Rosa,18,8,V,Algoritmos
3,Jean,18,18,IV,Tesis
4,Lourdes,20,10,IX,Proyecto de Tesis
5,Mario,18,17,V,Programación


#### Recuperar la columna promedio y asignala a una variable "n".

In [21]:
n = DF2[['Promedio']]
n

Unnamed: 0,Promedio
0,15
1,12
2,8
3,18
4,10
5,17


#### Recuperar las columnas Curso y Ciclo y asignarlas a una variable "c".

In [22]:
c = DF2[['Curso', 'Ciclo']]
c

Unnamed: 0,Curso,Ciclo
0,Ingenieria de Datos,V
1,Base de Datos,VI
2,Algoritmos,V
3,Tesis,IV
4,Proyecto de Tesis,IX
5,Programación,V


#### Configure índices.

In [23]:
dfi2 = DF2.set_index('Estudiante')
dfi2

Unnamed: 0_level_0,Edad,Promedio,Ciclo,Curso
Estudiante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Juan,19,15,V,Ingenieria de Datos
Carlos,20,12,VI,Base de Datos
Rosa,18,8,V,Algoritmos
Jean,18,18,IV,Tesis
Lourdes,20,10,IX,Proyecto de Tesis
Mario,18,17,V,Programación


#### Ejecute Segmentación de DataFrame

In [28]:
DF2 [1:4]

Unnamed: 0,Estudiante,Edad,Promedio,Ciclo,Curso
1,Carlos,20,12,VI,Base de Datos
2,Rosa,18,8,V,Algoritmos
3,Jean,18,18,IV,Tesis
