In [2]:
import pandas as pd

In [3]:
#Leyendo los datos desde un archivo Excel.
pd.read_excel("xl/course_participants.xlsx")

Unnamed: 0,user_id,name,age,country,score,continent
0,1001,Mark,55,Italy,4.5,Europe
1,1000,John,33,USA,6.7,America
2,1002,Tim,41,USA,3.9,America
3,1003,Jenny,12,Germany,9.0,Europe


In [4]:
#Construyendo el DataFrame desde cero.
#Primero se crean los datos en una lista anidada.
data = [["Mark", 55, "Italy", 4.5, "Europe"], 
        ["John", 33, "USA", 6.7, "America"], 
        ["Tim", 41, "USA", 3.9, "America"], 
        ["Jenny", 12, "Germany", 9.0, "Europe"]]

data

[['Mark', 55, 'Italy', 4.5, 'Europe'],
 ['John', 33, 'USA', 6.7, 'America'],
 ['Tim', 41, 'USA', 3.9, 'America'],
 ['Jenny', 12, 'Germany', 9.0, 'Europe']]

In [6]:
#Luego se crea el DataFrame con data, las etiquetas de las columnas 
# (una lista de nombres) y el índice (una lista de índices). Los índices no
# tienen nombre, pero se les puede asignar uno más adelante.
df = pd.DataFrame(data = data, 
                  columns = ["nombre", "edad", "pais", "puntaje", "continente"], 
                  index = [1001, 1000, 1002, 1003])
df

Unnamed: 0,nombre,edad,pais,puntaje,continente
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 1001 to 1003
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      4 non-null      object 
 1   edad        4 non-null      int64  
 2   pais        4 non-null      object 
 3   puntaje     4 non-null      float64
 4   continente  4 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 192.0+ bytes


### Índices
Las etiquetas de las filas de un DataFrame son llamados **índices**. Si no se asigna un índice significativo, Pandas automáticamente lo creará cuando se construye el DataFrame. Este será un índice entero iniciando en 0.

In [8]:
#Los índices se pueden accesar así.
df.index

Int64Index([1001, 1000, 1002, 1003], dtype='int64')

In [9]:
#Tiene sentido asignarle un nombre a los índices.
df.index.name = "user_id"
df

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [11]:
#A diferencia de una clave primaria de una base de datos, un índice de un 
# DataFrame puede tener duplicados.
#Si se desea convertir un índice en una columna regular se usa reset_index().
#En este caso Pandas asigna automáticamente un índice con un número 0.
df.reset_index()

Unnamed: 0,user_id,nombre,edad,pais,puntaje,continente
0,1001,Mark,55,Italy,4.5,Europe
1,1000,John,33,USA,6.7,America
2,1002,Tim,41,USA,3.9,America
3,1003,Jenny,12,Germany,9.0,Europe


In [13]:
#Se puede establecer un nuevo índice a partir de las columnas regulares con 
# set_index("nombre_columna")
df.reset_index().set_index("nombre")

Unnamed: 0_level_0,user_id,edad,pais,puntaje,continente
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mark,1001,55,Italy,4.5,Europe
John,1000,33,USA,6.7,America
Tim,1002,41,USA,3.9,America
Jenny,1003,12,Germany,9.0,Europe


In [15]:
#Se puede cambiar el índice.
df.reindex([999, 1000, 1001, 1004]) #Se presenta un alineamiento de datos.
#Si no existe un índice para una fila, esa fila mostrará NaN.

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
999,,,,,
1000,John,33.0,USA,6.7,America
1001,Mark,55.0,Italy,4.5,Europe
1004,,,,,


In [16]:
#Ordenando por índice.
df.sort_index()

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1000,John,33,USA,6.7,America
1001,Mark,55,Italy,4.5,Europe
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [19]:
#Ordenando por valores de una o varias columnas.
df.sort_values(["continente", "edad"])

Unnamed: 0_level_0,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe
1001,Mark,55,Italy,4.5,Europe


### Columnas


In [20]:
#Para obtener información de las columnas de un DataFrame se corre lo siguiente:
df.columns

Index(['nombre', 'edad', 'pais', 'puntaje', 'continente'], dtype='object')

In [22]:
#Aunque Pandas le puede asignar números a las columnas esto no es buena idea,
# ya que las columnas representan variables y se deberían nombrar en consecuencia.
#A la lista de los nombres de las columnas se les puede asignar un nombre.
df.columns.name = "propiedades"
df

propiedades,nombre,edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [24]:
#Las columnas se pueden renombrar con un diccionario.
df.rename(columns={"nombre": "PrimerNombre", "edad": "Edad"})

propiedades,PrimerNombre,Edad,pais,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Mark,55,Italy,4.5,Europe
1000,John,33,USA,6.7,America
1002,Tim,41,USA,3.9,America
1003,Jenny,12,Germany,9.0,Europe


In [25]:
#Borrar columnas e índices.
df.drop(columns=["nombre", "pais"], index=[1000, 1003])

propiedades,edad,puntaje,continente
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,55,4.5,Europe
1002,41,3.9,America


In [26]:
#Los índices y las columnas son representados ambos por un objeto índice.
# Por eso se pueden intercambiar o transponer.
df.T

user_id,1001,1000,1002,1003
propiedades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
nombre,Mark,John,Tim,Jenny
edad,55,33,41,12
pais,Italy,USA,USA,Germany
puntaje,4.5,6.7,3.9,9.0
continente,Europe,America,America,Europe


In [28]:
#Se puede reordenar el orden de las columnas de un DataFrame.
df.loc[:, ["continente", "pais", "nombre", "edad", "puntaje"]]

propiedades,continente,pais,nombre,edad,puntaje
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1001,Europe,Italy,Mark,55,4.5
1000,America,USA,John,33,6.7
1002,America,USA,Tim,41,3.9
1003,Europe,Germany,Jenny,12,9.0


## Manipulación de datos
Normalmente los conjuntos de datos se deben limpiar y organizar antes de usarlos.

### Seleccionando los datos
Inicialmente vamos a accesar los datos por etiquetas y por posición antes de mirar otros métodos, incluyendo la indexación booleana y la selección de datos usando un Índice Múltiple.

#### Seleccionando por etiqueta
La forma más común de tener acceso a los datos de DataFrame es refiriendose a su lo