# Clase 5 - Serie Pandas Dataframes

### Índice de designación

Vamos a crear un DataFrame de ejemplo para trabajar con los conceptos de la presentación.



In [2]:
import pandas as pd
import numpy as np

data = {
    'name': ['hongildong', 'hongeeedong', 'hongsamdong'],
    'math': [90, 80, 60],
    'eng': [98, 89, 95],
    'music': [85, 95, 100],
    'phys_tra': [100, 90, 90]

}

df = pd.DataFrame(data)
print("DataFrame original:")
print(df)
print("\n")

DataFrame original:
          name  math  eng  music  phys_tra
0   hongildong    90   98     85       100
1  hongeeedong    80   89     95        90
2  hongsamdong    60   95    100        90




Actualmente, no hay ningun índice, pero se puede seleccionar un índice entre las columnas.

In [3]:
df.set_index('name', inplace = True) #Asignamos la columna 'name' como índice
print("DataFrame con índice:")
print(df)

DataFrame con índice:
             math  eng  music  phys_tra
name                                   
hongildong     90   98     85       100
hongeeedong    80   89     95        90
hongsamdong    60   95    100        90


Como podemos ver, el índice es el que se movió hacia abajo en comparación con las otras columnas.

Podemos utilizar indexación loc en pandas para acceder a un valor específico del DataFrame:



In [6]:
a = df.loc['hongildong', 'music']
# Este código accede al valor que se encuentra en la intersección de la fila 'hongildong' y la columna 'music'
print(a)

85


También, podemos utilizar la indexación loc con selección múltiple de columnas



In [7]:
c = df.loc['hongildong', ['music', 'phys_tra']]
# Selecciona la fila con 'hongildong' junto con las columnas 'music' y 'phys_tra'
print(c)



music        85
phys_tra    100
Name: hongildong, dtype: int64


También podemos usar indexación loc con selección por posicion numérica

In [8]:
d = df.iloc[0, [2,3]]
# iloc significa "integer location", 0 selecciona la primera fila, y [2,3] selecciona las columnas en las posiciones 2 y 3
print(d) # devolverá lo mismo que el anterior ejemplo.

music        85
phys_tra    100
Name: hongildong, dtype: int64


Podemos usarlo de igual manera, con slicing por etiquetas

In [10]:
e = df.loc['hongildong', 'music':'phys_tra']
# este código selecciona la fila con índice 'hongildong' y usa slicing 'music':'phys_tra' para seleccionar un rango de columnas
# incluye desde la columna 'music' hasta la columna 'phys_tra'
print(e)

music        85
phys_tra    100
Name: hongildong, dtype: int64


De igual manera, se puede hacer esto con selección por posición numérica

In [11]:
f = df.iloc[0, 2:]
# 0 selecciona la primera fila y 2: selecciona desde la columna 2 hasta el final
print(f)

music        85
phys_tra    100
Name: hongildong, dtype: int64


Si guardamos múltiples filas y múltiples columnas en una variable usando loc, esta nos devuelve un dataframe más pequeño

In [12]:
sub_df = df.loc[['hongildong', 'hongeeedong'], ['music', 'phys_tra']]
sub_df # imprimimos el mini dataframe generado

Unnamed: 0_level_0,music,phys_tra
name,Unnamed: 1_level_1,Unnamed: 2_level_1
hongildong,85,100
hongeeedong,95,90


Y de igual forma, podemos hacer lo mismo mediante selección por posición numérica

In [14]:
h = df.iloc[[0,1],[2,3]]
h #imprimirá lo mismo que el ejemplo anterior

Unnamed: 0_level_0,music,phys_tra
name,Unnamed: 1_level_1,Unnamed: 2_level_1
hongildong,85,100
hongeeedong,95,90


Y también podemos hacerlo con slicing

In [16]:
g = df.loc['hongildong':'hongeeedong', 'music':'phys_tra']
# desde la fila 'hongildong' hasta la fila 'hongeedong'
# y desde la columna 'music' hasta 'phys_tra'
g #devolverá lo mismo que los ejemplos anteriores

Unnamed: 0_level_0,music,phys_tra
name,Unnamed: 1_level_1,Unnamed: 2_level_1
hongildong,85,100
hongeeedong,95,90


### Agregar columnas y filas a un dataframe

In [24]:

df['kor'] = 80 #añadimos la columna 'kor' a nuestro df, se rellenan los valores con el número 80
df

Unnamed: 0_level_0,math,eng,music,phys_tra,kor
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hongildong,90,98,85,100,80
hongeeedong,80,89,95,90,80
hongsamdong,60,95,100,90,80


In [26]:
df.loc[3] = 0
df

Unnamed: 0_level_0,math,eng,music,phys_tra,kor
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hongildong,90,98,85,100,80
hongeeedong,80,89,95,90,80
hongsamdong,60,95,100,90,80
3,0,0,0,0,0


El DataFrame ahora tiene una cuarta fila con:  
Índice: 3 (como número, no como string)  
Todas las columnas (math, eng, music, phys_tra, kor) con valor 0  
Se mantienen las 3 filas originales

Le asignamos valores a la fila creada

In [27]:
df.loc[3] = [90,80,70,60,77]
df

Unnamed: 0_level_0,math,eng,music,phys_tra,kor
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hongildong,90,98,85,100,80
hongeeedong,80,89,95,90,80
hongsamdong,60,95,100,90,80
3,90,80,70,60,77


Usamos df.reset_index() para eliminar el indice actual y crea un índice con números

In [29]:
df = df.reset_index()
df

Unnamed: 0,name,math,eng,music,phys_tra,kor
0,hongildong,90,98,85,100,80
1,hongeeedong,80,89,95,90,80
2,hongsamdong,60,95,100,90,80
3,3,90,80,70,60,77


Ahora, el antiguo índice (que incluía 'name' y el número 3) ahora es una columna llamada 'name'



Podemos modificar un elemento en específico en el df usando indexación por posición

In [30]:
df.iloc[3, 0] = 'hongsadong'
# se selecciona el elemento en la fila 3 con la columna 0 y se le asigna el valor 'hongsadong' a esa celda
df

Unnamed: 0,name,math,eng,music,phys_tra,kor
0,hongildong,90,98,85,100,80
1,hongeeedong,80,89,95,90,80
2,hongsamdong,60,95,100,90,80
3,hongsadong,90,80,70,60,77
