# Trabajar con DataFrames

Vamos conocer un poco más cómo trabajar con **dataframes** en Pandas.

Muchas de las cosas que veremos serán familiares porque son similares al trabajo que hemos hecho con las **series**, solo que esta vez las aplicaremos trabajando con el dataframe completo.

In [1]:
import pandas as pd

In [5]:
datos = {
    'Nombre': ['Miguel', 'Carlos', 'Juan', 'Ana'],
    'Edad': [25, 47, 26, 51],
    'Ciudad': ['Madrid', 'Barcelona', 'Buenos Aires', 'Mendoza']
}

In [7]:
df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Miguel,25,Madrid
1,Carlos,47,Barcelona
2,Juan,26,Buenos Aires
3,Ana,51,Mendoza


Lo primero que voy a hacer es **agregar una nueva columna** a mi dataframe:

In [9]:
df['Salario'] = [3000, 45000, 8000, 65000]
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Miguel,25,Madrid,3000
1,Carlos,47,Barcelona,45000
2,Juan,26,Buenos Aires,8000
3,Ana,51,Mendoza,65000


Si quiero **modificar el contenido de toda una columna**, lo hago de un modo muy parecido a cuando lo hicimos trabajando con series:

In [11]:
df['Salario'] = df['Salario'] + 2000
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Miguel,25,Madrid,5000
1,Carlos,47,Barcelona,47000
2,Juan,26,Buenos Aires,10000
3,Ana,51,Mendoza,67000


Si quiero **seleccionar una columna** en particular, y **almacenarla en una variable**, para trabajar con ella por separado, lo hago de esta manera:

In [13]:
nombres = df['Nombre']
nombres

0    Miguel
1    Carlos
2      Juan
3       Ana
Name: Nombre, dtype: object

In [15]:
type(nombres)

pandas.core.series.Series

Y de esta manera ahora puedo aplicar a la serie *nombres* todo lo que aprendimos a hacer con las series.

En los dataframes también puedo aplicar los **métodos de filtrado** para ver solamente las filas que cumplen una condición específica:

In [17]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Miguel,25,Madrid,5000
1,Carlos,47,Barcelona,47000
2,Juan,26,Buenos Aires,10000
3,Ana,51,Mendoza,67000


In [19]:
mayores_26 = df[df['Edad']>26]
mayores_26

Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Carlos,47,Barcelona,47000
3,Ana,51,Mendoza,67000


Vamos a hacer lo mismo, pero esta vez con **variables** para que se vea más claro.

In [21]:
edad = df['Edad']
edad

0    25
1    47
2    26
3    51
Name: Edad, dtype: int64

In [25]:
edad > 26

0    False
1     True
2    False
3     True
Name: Edad, dtype: bool

In [23]:
df[edad > 26]

Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Carlos,47,Barcelona,47000
3,Ana,51,Mendoza,67000


Veamos con qué **tipos de datos** estamos trabajando aquí:

In [27]:
type(edad)

pandas.core.series.Series

In [31]:
type(df[edad > 26])

pandas.core.frame.DataFrame

# Ordenar y Agrupar DataFrames

Vamos a ver algunas *operaciones esenciales* en el trabajo con dataframes, que van a ser muy útiles luego para el análisis de datos, ya que nos permiten organizar y extraer información valiosa de manera eficiente.

In [33]:
ruta = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/Top-Películas.csv'

df = pd.read_csv(ruta)
df

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
3,3,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Acción,9.0,84.0,534.86
4,4,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Crimen,9.0,84.0,534.86
...,...,...,...,...,...,...,...,...,...,...
2527,2527,998.0,The Invisible Man,James Whale,1933.0,71.0,Terror,7.6,87.0,0.00
2528,2528,998.0,The Invisible Man,James Whale,1933.0,71.0,Ciencia Ficción,7.6,87.0,0.00
2529,2529,999.0,Cell 211,Daniel MonzÃ³n,2009.0,113.0,Acción,7.6,0.0,0.00
2530,2530,999.0,Cell 211,Daniel MonzÃ³n,2009.0,113.0,Crimen,7.6,0.0,0.00


Comencemos con lo que se llama **ordenación de DataFrames**.

La ordenación es el proceso de organizar los datos en un **orden específico**, lo cual facilita la visualización y el análisis posterior.

Esto se efectúa mediante el método `sort_values()`. 

In [35]:
df_ordenado = df.sort_values(by='rating')
df_ordenado.head(10)

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
2531,2531,999.0,Cell 211,Daniel MonzÃ³n,2009.0,113.0,Drama,7.6,0.0,0.0
2400,2400,953.0,Minority Report,Steven Spielberg,2002.0,145.0,Acción,7.6,80.0,132.07
2399,2399,952.0,Kung Fu Panda,Mark Osborne,2008.0,92.0,Aventura,7.6,74.0,215.43
2398,2398,952.0,Kung Fu Panda,Mark Osborne,2008.0,92.0,Acción,7.6,74.0,215.43
2397,2397,952.0,Kung Fu Panda,Mark Osborne,2008.0,92.0,Animación,7.6,74.0,215.43
2396,2396,951.0,True Grit,Ethan Coen,2010.0,110.0,Western,7.6,80.0,171.24
2395,2395,951.0,True Grit,Ethan Coen,2010.0,110.0,Drama,7.6,80.0,171.24
2394,2394,950.0,Stardust,Matthew Vaughn,2007.0,127.0,Fantasía,7.6,66.0,38.63
2393,2393,950.0,Stardust,Matthew Vaughn,2007.0,127.0,Familiar,7.6,66.0,38.63
2392,2392,950.0,Stardust,Matthew Vaughn,2007.0,127.0,Aventura,7.6,66.0,38.63


Como vemos esto ha ordenado nuestros registros según el valor de *rating*, pero lo hace **de menor a mayor**, porque así es como está programado `sort_values()` por defecto. Pero si queremos ordenarlos de **mayor a menor**, solo tenemos que modificar el valor del parámetro `ascending`.

In [38]:
df_ordenado = df.sort_values(by='rating', ascending=False)
df_ordenado.head(10)

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
9,9,4.0,12 Angry Men,Sidney Lumet,1957.0,96.0,Crimen,9.0,97.0,4.36
15,15,6.0,The Godfather Part II,Francis Ford Coppola,1974.0,202.0,Drama,9.0,90.0,57.3
13,13,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Drama,9.0,94.0,377.85
12,12,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Aventura,9.0,94.0,377.85
11,11,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Acción,9.0,94.0,377.85
10,10,4.0,12 Angry Men,Sidney Lumet,1957.0,96.0,Drama,9.0,97.0,4.36
14,14,6.0,The Godfather Part II,Francis Ford Coppola,1974.0,202.0,Crimen,9.0,90.0,57.3


Y en caso de que quieras que el ordenamiento se realice teniendo en cuenta **más de una columna**, en vez de pasarle el nombre de *una sola columna* al parámetro `by`, le pasamos una *lista con las columnas* que queremos que se consideren, y en el orden de prioridades que queremos darle.

In [40]:
df_ordenado = df.sort_values(by=['rating', 'recaudación(M)'], ascending=False)
df_ordenado.head(10)

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
3,3,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Acción,9.0,84.0,534.86
4,4,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Crimen,9.0,84.0,534.86
5,5,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Drama,9.0,84.0,534.86
11,11,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Acción,9.0,94.0,377.85
12,12,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Aventura,9.0,94.0,377.85
13,13,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Drama,9.0,94.0,377.85
6,6,3.0,Schindler's List,Steven Spielberg,1993.0,195.0,Biografía,9.0,95.0,96.9


Ahora veamos la **agrupación de DataFrames**.

Agrupar es *reunir datos basados en categorías o valores comunes*, lo cual también es útil para el análisis comparativo.

El método que usamos para agrupar categorías es **groupby**, que en español significa *agrupar por*.

Supongamos que quiero saber el *rating promedio* que han obtenido los distintos *géneros* de películas. En ese caso debería agrupar las películas por **género** y luego calcular el **promedio** del **rating** para cada uno de esos grupos.

In [46]:
df_agrupado = df.groupby('género')['rating'].mean()
df_agrupado

género
Acción             7.987255
Animación          7.943902
Aventura           7.980435
Biografía          7.971698
Ciencia Ficción    7.986567
Comedia            7.909910
Crimen             7.993500
Deportes           7.980000
Drama              7.980444
Familiar           7.932692
Fantasía           7.929508
Film-Noir          7.977273
Guerra             8.053191
Historia           7.931818
Misterio           7.991262
Musica             7.909677
Musical            7.943750
Romance            7.937398
Terror             7.875758
Thriller           7.929286
Western            8.006250
Name: rating, dtype: float64

In [48]:
type(df_agrupado)

pandas.core.series.Series

In [50]:
df_agrupado_ordenado = df_agrupado.sort_values(ascending=False)
df_agrupado_ordenado

género
Guerra             8.053191
Western            8.006250
Crimen             7.993500
Misterio           7.991262
Acción             7.987255
Ciencia Ficción    7.986567
Drama              7.980444
Aventura           7.980435
Deportes           7.980000
Film-Noir          7.977273
Biografía          7.971698
Animación          7.943902
Musical            7.943750
Romance            7.937398
Familiar           7.932692
Historia           7.931818
Fantasía           7.929508
Thriller           7.929286
Comedia            7.909910
Musica             7.909677
Terror             7.875758
Name: rating, dtype: float64

In [52]:
# Otra manera de efectuar una agrupación (obtenemos un DF y no una Serie como anteriormente)
df_agrupado_2 = df.groupby('género').agg({
    'rating': 'mean'
})
df_agrupado_2

Unnamed: 0_level_0,rating
género,Unnamed: 1_level_1
Acción,7.987255
Animación,7.943902
Aventura,7.980435
Biografía,7.971698
Ciencia Ficción,7.986567
Comedia,7.90991
Crimen,7.9935
Deportes,7.98
Drama,7.980444
Familiar,7.932692


In [54]:
type(df_agrupado_2)

pandas.core.frame.DataFrame

In [56]:
df_agrupado_ordenado_2 = df_agrupado_2.sort_values(by='rating', ascending=False)
df_agrupado_ordenado_2

Unnamed: 0_level_0,rating
género,Unnamed: 1_level_1
Guerra,8.053191
Western,8.00625
Crimen,7.9935
Misterio,7.991262
Acción,7.987255
Ciencia Ficción,7.986567
Drama,7.980444
Aventura,7.980435
Deportes,7.98
Film-Noir,7.977273


Supongamos que queremos ver el **total recaudado por año**. En este caso no queremos ver el *promedio* por año, sino la *suma* de lo que han recaudado las películas agrupadas según el año.

In [62]:
df_agrupado_3 = df.groupby('año')['recaudación(M)'].sum()
df_agrupado_3

año
1920.0       0.00
1921.0      16.35
1922.0       0.00
1924.0       2.94
1925.0      16.50
           ...   
2019.0    7092.95
2020.0     143.10
2021.0    2739.24
2022.0    5297.31
2023.0       0.00
Name: recaudación(M), Length: 102, dtype: float64

Pero si no quisieramos ver la serie con todos los años, porque son muchos, sino que quisieramos ver **los 10 años con mejores recaudaciones**.

In [70]:
df_agrupado_ordenado_3 = df_agrupado_3.sort_values(ascending=False)
df_agrupado_ordenado_3.head(10)

año
2014.0    8015.90
2019.0    7092.95
2010.0    6899.96
2016.0    6860.23
2015.0    6817.12
2012.0    6487.22
2009.0    6486.34
2018.0    5992.02
2008.0    5603.30
2017.0    5381.90
Name: recaudación(M), dtype: float64

# Fusionar DataFrames con merge()

Nos enfocaremos en cómo combinar diferentes DataFrames usando Pandas. Para eso vamos a aprender a utilizar funciones esenciales como **merge()**, **join()**, y **concat()**, cada una útil para distintos escenarios de combinación de datos.

Para aprender a usar `merge()`, vamos a trabajar con estos datos iniciales, donde tenemos dos dataframes muy simples, pero que comparten cierta información.

In [72]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nombre': ['Florencia', 'Victoria', 'Marcos']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Edad': [25, 30, 22]
})

In [74]:
df1

Unnamed: 0,ID,Nombre
0,1,Florencia
1,2,Victoria
2,3,Marcos


In [76]:
df2

Unnamed: 0,ID,Edad
0,1,25
1,2,30
2,4,22


In [78]:
df_combinado = pd.merge(df1, df2, on='ID')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Florencia,25
1,2,Victoria,30


In [80]:
df_combinado = pd.merge(df1, df2, on='ID', how='inner')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Florencia,25
1,2,Victoria,30


La función `merge()` permite combinar DataFrames **basándose en valores comunes** de una o más columnas.

Muchas veces va a suceder que los datos van a provenir de diferentes tablas, y que esas tablas proporcionan diferentes datos sobre los mismos elementos. Podemos tener una tabla con los nombres y la información personal de tus clientes y otra tabla separada con los pedidos que esos clientes han realizado.

Si queremos relacionar ambas tablas para luego poder hacer análisis más complejos, ahí es donde entra `merge()`, que básicamente va a tomar ambos dataframes, y le vamos a indicar cuál es la **columna en común** que tienen ambos dataframes, para que haga la combinación basándose en esa coincidencia.

In [82]:
df_combinado = pd.merge(df1, df2, on='ID', how='outer')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Florencia,25.0
1,2,Victoria,30.0
2,3,Marcos,
3,4,,22.0


El dataframe resultante solamente va a incluir las filas en las que encontró coincidencias en los dos dataframes resultantes. Eso es porque `merge()` tiene un parámetro llamado `how`, que por defecto viene cargado con el argumento `inner`, que significa **interno**, y que hace justamente eso, mezclar solamente los registros donde hay datos.

Pero a veces puede que necesitemos incluir registros aunque no estén completos, y en ese caso puedes modificar el parámetro `how` de tres maneras distintas según el caso (`outer`, `left` ó `right`), y eso es lo que vamos a ver ahora.

`outer` significa **externo**, y con esté modo el DataFrame resultante vas a tener todos los registros de ambos DataFrames originales, pero Pandas va a rellenar los datos faltantes con la sigla **NaN** que significa *número no válido*.

In [84]:
df_combinado = pd.merge(df1, df2, on='ID', how='left')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Florencia,25.0
1,2,Victoria,30.0
2,3,Marcos,


`left` significa **izquierda**, y de este modo Pandas va a incluir todos los registros que vienen con el DataFrame de la izquierda (es decir, el primero que ingresamos en `merge()`) y lo va a rellenar con los datos con los que tenga coincidencia en el DataFrame de la derecha. Si no encuentra información, la rellena con **NaN**.

In [86]:
df_combinado = pd.merge(df1, df2, on='ID', how='right')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Florencia,25
1,2,Victoria,30
2,4,,22


`right` significa **derecha**, y hace lo contrario de `left`. Garantiza la presencia de todos los registros del segundo DataFrame, los completa con los datos del primero, y si no los encuentra, los rellena con **NaN**.

Otra posibilidad, es la que nos permite **unir todos los datos** sin dejar nada afuera, pero **manteniendo los índices originales**. Para eso contamos con los parámetros `left_index` y `right_index`:

In [88]:
df_combinado = pd.merge(df1, df2, left_index=True, right_index=True)
df_combinado

Unnamed: 0,ID_x,Nombre,ID_y,Edad
0,1,Florencia,1,25
1,2,Victoria,2,30
2,3,Marcos,4,22


En este caso simplemente tenemos los DataFrames puestos uno al lado del otro, y cada uno con sus respectivos índices para que se pueda comprender de dónde viene cada dato.

# Combinar DataFrames con join()

**Combinar DataFrames** suena muy parecido a **fusionar DataFrames**, que es lo que hicimos anteriormente.

Lo que hicimos antes fue **fusionar**, y lo hicimos con el método `merge()`, y se trata de identificar una columna similar entre dos DataFrames y unirlos a partir de esa columna coincidente.

Ahora no vamos a fusionar sino a **combinar**, para lo cual usaremos el método `join()`. Combinar consiste en unir dos dataframes pero **a partir de su índice, o de una columna clave**, y no de columnas compartidas.

Para hacer esto vamos a crear dos DataFrames de ejemplo, que a pesar de no tener columnas similares, pertenecen al mismo conjunto de registros.

In [91]:
df1 = pd.DataFrame({
    'Salario': [30000, 15000, 64000],
    'Antiguedad': [9, 13, 12]},
    index=[1, 2, 3])

df2 = pd.DataFrame({
    'Ciudad': ['Buenos Aires', 'Madrid', 'Santiago de Chile'],
    'Jerarquía': ['Baja', 'Media', 'Alta']},
    index=[1, 2, 4])

In [93]:
df1

Unnamed: 0,Salario,Antiguedad
1,30000,9
2,15000,13
3,64000,12


In [95]:
df2

Unnamed: 0,Ciudad,Jerarquía
1,Buenos Aires,Baja
2,Madrid,Media
4,Santiago de Chile,Alta


Entonces por más que nuestros dataframes no tengan columnas similares, vamos a unirlas confiando en que su número de índice implica que los registros se corresponden entre sí, o que una columna del DataFrame original puede relacionarse con los datos del DataFrame combinado.

In [97]:
df_combinado = df1.join(df2)
df_combinado

Unnamed: 0,Salario,Antiguedad,Ciudad,Jerarquía
1,30000,9,Buenos Aires,Baja
2,15000,13,Madrid,Media
3,64000,12,,


El caso de `join()` también es distinto a `merge()`, en cuanto a que `join()` viene por defecto con el parámetro `how=left`. Por esa razón en el ejemplo anterior, se ha preservado al DataFrame original (`df1`), y solo ha agregado los valores de `df2` que coinciden con los del primero.

Por supuesto que podemos cambiar el parámetro `how` según nuestras necesidades.

In [99]:
df_combinado = df1.join(df2, how='inner')
df_combinado

Unnamed: 0,Salario,Antiguedad,Ciudad,Jerarquía
1,30000,9,Buenos Aires,Baja
2,15000,13,Madrid,Media


In [101]:
df_combinado = df1.join(df2, how='outer')
df_combinado

Unnamed: 0,Salario,Antiguedad,Ciudad,Jerarquía
1,30000.0,9.0,Buenos Aires,Baja
2,15000.0,13.0,Madrid,Media
3,64000.0,12.0,,
4,,,Santiago de Chile,Alta


# Concatenar DataFrames con concat()

El método `concat()` de  Pandas permite unir DataFrames a lo largo de un eje, ya sea vertical u horizontalmente.

Vamos a ver esto en la práctica con los siguientes DataFrames de ejemplo, que tienen la misma estructura, con los mismos nombres de columna, pero con diferentes datos.

In [103]:
df1 = pd.DataFrame({
    'Nombre': ["Juan", "Gabriela", "Elena"],
    'Edad': [25, 31, 20]
})

df2 = pd.DataFrame({
    'Nombre': ["Eugenia", "Marcelo", "Laura"],
    'Edad': [35, 56, 18]
})

In [105]:
df1

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Gabriela,31
2,Elena,20


In [107]:
df2

Unnamed: 0,Nombre,Edad
0,Eugenia,35
1,Marcelo,56
2,Laura,18


En muchas oportunidades tendremos DataFrames que necesitan agregar nuevos registros que provienen de nuevas tablas que se van agregando con el tiempo. Si queremos agregar la nueva información debajo de la anterior, en un solo DataFrame, cuentas con el método `concat()`, que nos permite poner esas tablas una debajo de la otra, para ir agregando los nuevos registros.

In [109]:
df_concatenado = pd.concat([df1, df2])
df_concatenado

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Gabriela,31
2,Elena,20
0,Eugenia,35
1,Marcelo,56
2,Laura,18


Por defecto, `concat()` va a agregar los nuevos registros en el eje vertical, porque uno de sus parámetros es `axis` (que significa *EJE*), y viene configurado como `axis=0`, lo que hace que la concatenación se realice sobre el **eje 0**, que es el **eje de las columnas**, pero si cambiamos a `axis=1` (que es el **eje de las filas**), los va a agregar horizontalmente.

In [112]:
df_concatenado_2 = pd.concat([df1, df2], axis=1)
df_concatenado_2

Unnamed: 0,Nombre,Edad,Nombre.1,Edad.1
0,Juan,25,Eugenia,35
1,Gabriela,31,Marcelo,56
2,Elena,20,Laura,18


Volvamos al **eje 0**, que es el más común, y observemos que el índice de este DataFrame concatenado consiste en los mismos números de índice que tenían los dataframes originales (`0, 1, 2` y `0, 1, 2`).

Si necesitamos que el índice vaya desde 0 en adelante sin repetirse contamos con el método `ignore_index()`, que significa *ignorar el índice*, y que si lo cargamos como `True`, va a **ignorar los índices originales** y va a **crear un índice nuevo**.

In [114]:
df_concatenado = pd.concat([df1, df2], ignore_index=True)
df_concatenado

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Gabriela,31
2,Elena,20
3,Eugenia,35
4,Marcelo,56
5,Laura,18


Otro parámetro importante es `keys`, que nos permite agregar marcas para indicar a qué grupo pertenece cada parte del DataFrame.

In [116]:
df_concatenado = pd.concat([df1, df2], keys=['df1', 'df2'])
df_concatenado

Unnamed: 0,Unnamed: 1,Nombre,Edad
df1,0,Juan,25
df1,1,Gabriela,31
df1,2,Elena,20
df2,0,Eugenia,35
df2,1,Marcelo,56
df2,2,Laura,18


Ahora podemos ver con claridad a qué DataFrame pertenecía originalmente cada grupo de datos. Y aún más, podríamos poner los nombres que nos resulten significativos:

In [118]:
df_concatenado = pd.concat([df1, df2], keys=['Enero', 'Febrero'])
df_concatenado

Unnamed: 0,Unnamed: 1,Nombre,Edad
Enero,0,Juan,25
Enero,1,Gabriela,31
Enero,2,Elena,20
Febrero,0,Eugenia,35
Febrero,1,Marcelo,56
Febrero,2,Laura,18


# Datos Relacionados al Tiempo

Ahora vamos a trabajar con los datos temporales con Pandas, es decir, a los que **indican fechas y horas**, que es información con la que muy frecuentemente nos vamos a encontrar en nuestros datos de origen.

Entonces, el objetivo es que aprendamos:
- cómo manejar fechas y horas
- cómo realizar conversiones entre diferentes formatos
- cómo utilizar operaciones temporales para analizar nuestros datos

Para la **creación de series temporales**, Pandas nos ofrece **tipos de datos específicos** para fechas y horas, lo que facilita trabajar con este tipo de información.

Vamos a crear nuestra primera serie temporal:

In [3]:
fechas = pd.Series(pd.date_range('20250422', periods=6))
fechas

0   2025-04-22
1   2025-04-23
2   2025-04-24
3   2025-04-25
4   2025-04-26
5   2025-04-27
dtype: datetime64[ns]

Tomemos el primero de esos elementos, y veamos de qué **tipo de datos** se trata.

In [5]:
type(fechas)

pandas.core.series.Series

In [7]:
type(fechas[0])

pandas._libs.tslibs.timestamps.Timestamp

Este ejemplo nos muestra 6 períodos de tiempo que se inician el 1 de enero de 2024, y que van de a un día en un día hasta completar los 6 períodos.

¿Y por qué saltea de a 1 día a la vez y no de otra manera? Porque date_range() tiene un parámetro que se llama freq, y que sirve para ajustar la frecuencia. Por defecto, freq viene programado para ir por día:

In [9]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='D'))
fechas

0   2025-04-22
1   2025-04-23
2   2025-04-24
3   2025-04-25
4   2025-04-26
5   2025-04-27
dtype: datetime64[ns]

Pero podemos modificar ese argumento para que vaya por meses (ME), años (YE), horas (h), minutos (min) o segundos(s)

In [11]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='ME'))
fechas

0   2025-04-30
1   2025-05-31
2   2025-06-30
3   2025-07-31
4   2025-08-31
5   2025-09-30
dtype: datetime64[ns]

In [13]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='YE'))
fechas

0   2025-12-31
1   2026-12-31
2   2027-12-31
3   2028-12-31
4   2029-12-31
5   2030-12-31
dtype: datetime64[ns]

In [15]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='h'))
fechas

0   2025-04-22 00:00:00
1   2025-04-22 01:00:00
2   2025-04-22 02:00:00
3   2025-04-22 03:00:00
4   2025-04-22 04:00:00
5   2025-04-22 05:00:00
dtype: datetime64[ns]

In [17]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='min'))
fechas

0   2025-04-22 00:00:00
1   2025-04-22 00:01:00
2   2025-04-22 00:02:00
3   2025-04-22 00:03:00
4   2025-04-22 00:04:00
5   2025-04-22 00:05:00
dtype: datetime64[ns]

In [21]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='s'))
fechas

0   2025-04-22 00:00:00
1   2025-04-22 00:00:01
2   2025-04-22 00:00:02
3   2025-04-22 00:00:03
4   2025-04-22 00:00:04
5   2025-04-22 00:00:05
dtype: datetime64[ns]

Y a su vez, podemos especificar períodos de tiempo más personalizados, agregando la cantidad antes de la letra.

In [23]:
fechas = pd.Series(pd.date_range('20250422', periods=6, freq='5D'))
fechas

0   2025-04-22
1   2025-04-27
2   2025-05-02
3   2025-05-07
4   2025-05-12
5   2025-05-17
dtype: datetime64[ns]

Eso en cuanto a crear nuestras propias series de tiempo.

Pero de todos modos esto no va a ser de los más frecuente en el trabajo diario de un científico de datos. Lo que sí puede sucedernos con mucha frecuencia, es que recibamos datos que contienen **columnas con fechas**, pero que en realidad están cargadas como **strings**, y vamos a necesitar **convertirlas en tipos de datos de fecha**. Lo veamos con un ejemplo:

In [69]:
ruta = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/Mercado+de+Valores+España.csv'

df = pd.read_csv(ruta)
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo,Promedio
0,ANA,02/01/2019,74.80,73.90,156300,11621188.98,74.80,75.16,72.38,74.3518
1,ANA,03/01/2019,76.34,74.80,140331,10632703.64,76.34,76.60,74.54,75.7687
2,ANA,04/01/2019,76.62,76.34,130309,10010838.76,76.62,77.40,76.40,76.8162
3,ANA,07/01/2019,77.14,76.62,63349,4855724.92,77.14,77.30,75.62,76.6504
4,ANA,08/01/2019,78.24,77.14,99300,7749464.70,78.24,78.46,77.00,78.0409
...,...,...,...,...,...,...,...,...,...,...
8570,VIS,09/12/2019,48.70,48.76,40236,1958325.66,48.70,48.96,48.44,48.6710
8571,VIS,10/12/2019,48.16,48.70,60198,2895965.78,48.16,48.74,47.70,48.1201
8572,VIS,11/12/2019,47.96,48.16,63000,3012462.12,47.96,48.42,47.52,47.8169
8573,VIS,12/12/2019,48.42,47.96,50218,2429199.80,48.42,48.66,47.76,48.3731


Tomemos el primero de los elementos de la columna **Fecha**.

In [71]:
df['Fecha'][0]

'02/01/2019'

Estrictamente aquí podemos ver una fecha, pero esas comillas pueden llevarnos a pensar que podría tratarse de un string.

In [73]:
type(df['Fecha'][0])

str

Efectivamente, ese dato se ve como una fecha, pero en realidad es un dato de tipo `str`.

Esto no es lo ideal porque con los strings, por más que parezcan números y tengan forma de números, no podemos hacer Operaciones.

Entonces cuando tengamos DataFrames que contienen fechas, pero que en realidad son strings, tenemos que hacer una operación para **convertirlos en datos de fecha** propiamente dichos.

Para ese objetivo, Pandas incluye un método llamado `to_datetime()`, que nos pide un string, y un formato de fecha.

In [75]:
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo,Promedio
0,ANA,2019-01-02,74.80,73.90,156300,11621188.98,74.80,75.16,72.38,74.3518
1,ANA,2019-01-03,76.34,74.80,140331,10632703.64,76.34,76.60,74.54,75.7687
2,ANA,2019-01-04,76.62,76.34,130309,10010838.76,76.62,77.40,76.40,76.8162
3,ANA,2019-01-07,77.14,76.62,63349,4855724.92,77.14,77.30,75.62,76.6504
4,ANA,2019-01-08,78.24,77.14,99300,7749464.70,78.24,78.46,77.00,78.0409
...,...,...,...,...,...,...,...,...,...,...
8570,VIS,2019-12-09,48.70,48.76,40236,1958325.66,48.70,48.96,48.44,48.6710
8571,VIS,2019-12-10,48.16,48.70,60198,2895965.78,48.16,48.74,47.70,48.1201
8572,VIS,2019-12-11,47.96,48.16,63000,3012462.12,47.96,48.42,47.52,47.8169
8573,VIS,2019-12-12,48.42,47.96,50218,2429199.80,48.42,48.66,47.76,48.3731


Ahora volvamos a individualizar el primero de sus elementos (el mismo que seleccionamos antes).

In [77]:
df['Fecha'][0]

Timestamp('2019-01-02 00:00:00')

Ahora sí que es un string. ¿Qué tipo de datos tenemos aquí?

In [79]:
type(df['Fecha'][0])

pandas._libs.tslibs.timestamps.Timestamp

Ahora veamos cómo podemos **extraer información más específica** de este tipo de datos.

Tomemos un registro cualquiera:

In [81]:
df['Fecha'][15]

Timestamp('2019-01-23 00:00:00')

Ahora supongamos que queremos extraer el año:

In [83]:
anio = df['Fecha'][15].year
anio

2019

Probemos con el mes:

In [85]:
mes = df['Fecha'][15].month
mes

df['Año'] = df['Fecha'].dt.year # Agregamos una columna nueva al DF (con el 'Año')
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo,Promedio,Año
0,ANA,2019-01-02,74.80,73.90,156300,11621188.98,74.80,75.16,72.38,74.3518,2019
1,ANA,2019-01-03,76.34,74.80,140331,10632703.64,76.34,76.60,74.54,75.7687,2019
2,ANA,2019-01-04,76.62,76.34,130309,10010838.76,76.62,77.40,76.40,76.8162,2019
3,ANA,2019-01-07,77.14,76.62,63349,4855724.92,77.14,77.30,75.62,76.6504,2019
4,ANA,2019-01-08,78.24,77.14,99300,7749464.70,78.24,78.46,77.00,78.0409,2019
...,...,...,...,...,...,...,...,...,...,...,...
8570,VIS,2019-12-09,48.70,48.76,40236,1958325.66,48.70,48.96,48.44,48.6710,2019
8571,VIS,2019-12-10,48.16,48.70,60198,2895965.78,48.16,48.74,47.70,48.1201,2019
8572,VIS,2019-12-11,47.96,48.16,63000,3012462.12,47.96,48.42,47.52,47.8169,2019
8573,VIS,2019-12-12,48.42,47.96,50218,2429199.80,48.42,48.66,47.76,48.3731,2019


Y así podríamos extrayendo el resto de la información (.day / .hour / .minute / .second)

También podemos manipular las fechas de nuestro DataFrame, agregando o restando días, horas o minutos.

In [95]:
df = df.drop('Año', axis=1) # Eliminamos la columna 'Año' (utilizamos el método 'drop')
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo,Promedio
0,ANA,2019-01-02,74.80,73.90,156300,11621188.98,74.80,75.16,72.38,74.3518
1,ANA,2019-01-03,76.34,74.80,140331,10632703.64,76.34,76.60,74.54,75.7687
2,ANA,2019-01-04,76.62,76.34,130309,10010838.76,76.62,77.40,76.40,76.8162
3,ANA,2019-01-07,77.14,76.62,63349,4855724.92,77.14,77.30,75.62,76.6504
4,ANA,2019-01-08,78.24,77.14,99300,7749464.70,78.24,78.46,77.00,78.0409
...,...,...,...,...,...,...,...,...,...,...
8570,VIS,2019-12-09,48.70,48.76,40236,1958325.66,48.70,48.96,48.44,48.6710
8571,VIS,2019-12-10,48.16,48.70,60198,2895965.78,48.16,48.74,47.70,48.1201
8572,VIS,2019-12-11,47.96,48.16,63000,3012462.12,47.96,48.42,47.52,47.8169
8573,VIS,2019-12-12,48.42,47.96,50218,2429199.80,48.42,48.66,47.76,48.3731


In [99]:
df = df.iloc[:,:9]  # Otra forma de "eliminar" (en verdad segmentamos el DF) una columna ('Promedio en este caso)
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo
0,ANA,2019-01-02,74.80,73.90,156300,11621188.98,74.80,75.16,72.38
1,ANA,2019-01-03,76.34,74.80,140331,10632703.64,76.34,76.60,74.54
2,ANA,2019-01-04,76.62,76.34,130309,10010838.76,76.62,77.40,76.40
3,ANA,2019-01-07,77.14,76.62,63349,4855724.92,77.14,77.30,75.62
4,ANA,2019-01-08,78.24,77.14,99300,7749464.70,78.24,78.46,77.00
...,...,...,...,...,...,...,...,...,...
8570,VIS,2019-12-09,48.70,48.76,40236,1958325.66,48.70,48.96,48.44
8571,VIS,2019-12-10,48.16,48.70,60198,2895965.78,48.16,48.74,47.70
8572,VIS,2019-12-11,47.96,48.16,63000,3012462.12,47.96,48.42,47.52
8573,VIS,2019-12-12,48.42,47.96,50218,2429199.80,48.42,48.66,47.76


# Abrir y Escribir Archivos Externos desde Pandas

Hasta el momento hemos creado nuestros dataframes de dos formas posibles:
* creando nuestros propios DataFrames de manera manual
* leyendo archivos CSV

Ahora veremos que también podemos leer archivos de múltiples orígenes.

Si escribimos `pd.read` y presionamos **TAB**, veremos una serie de métodos que sirven para *leer* (read) diferentes fuentes de datos.

Vamos a practicar esto, abriendo archivos **Excel** y **csv**.

Con Pandas pueden abrirse documentos de distinto tipo: CSV, Excel, JSON, SQL, HTML, LaTeX, XML, entre otros...

In [107]:
ruta_excel = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/Compras_desde_ads.xlsx'
ruta_xml = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/Valores+de+acciones.xml'

Vamos a usar el método `read_excel()` para leer el primero de ellos.

In [109]:
df1 = pd.read_excel(ruta_excel)
df1

Unnamed: 0,Id_usuario,Genero,Edad,Salario_estimado,Comprado
0,15624510,Masculino,19,19000,0
1,15810944,Masculino,35,20000,0
2,15668575,Femenino,26,43000,0
3,15603246,Femenino,27,57000,0
4,15804002,Masculino,19,76000,0
...,...,...,...,...,...
395,15691863,Femenino,46,41000,1
396,15706071,Masculino,51,23000,1
397,15654296,Femenino,50,20000,1
398,15755018,Masculino,36,33000,0


Y el método `read_xml()` para leer el segundo.

In [112]:
df2 = pd.read_xml(ruta_xml)
df2

Unnamed: 0,date,closingValue
0,01-05-2023,2505
1,02-05-2023,2445
2,03-05-2023,2445
3,04-05-2023,2398
4,05-05-2023,2456
5,06-05-2023,2366
6,07-05-2023,2438
7,08-05-2023,2467
8,09-05-2023,2515
9,10-05-2023,2543


Y no solo podemos usar Pandas para abrir archivos que ya existen, sino que también podemos **crear nuevos archivos excel, csv o lo que sea**, a partir de los DataFrames que ya tenemos en Pandas.

Vamos a crear un DataFrame simple, y veamos cómo lo guardamos en archivos excel y csv.

In [114]:
numeros = {
    'romanos': ['I', 'II', 'III', 'IV'],
    'arabigos': [1, 2, 3, 4],
    'texto': ['uno', 'dos', 'tres', 'cuatro']
}

In [116]:
df = pd.DataFrame(numeros)
df

Unnamed: 0,romanos,arabigos,texto
0,I,1,uno
1,II,2,dos
2,III,3,tres
3,IV,4,cuatro


Ya tenemos nuestro DataFrame, pero este conjunto de datos solo existe en Pandas, y por lo tanto en python, en nuestro cuaderno Jupyter.

Ahora queremos tenerlo en un archivo de Excel.

In [118]:
df.to_excel(r'C:\Users\migue\OneDrive\Documentos\Minería de Datos\Clase 22 Abril/numeros1.xlsx')

El parámetro index=False me permite eliminar el índice cuando se genera mi archivo

In [120]:
df.to_excel(r'C:\Users\migue\OneDrive\Documentos\Minería de Datos\Clase 22 Abril/numeros2.xlsx', index=False)

Si queremos tenerlo en un archivo de CSV.

In [126]:
df.to_csv(r'C:\Users\migue\OneDrive\Documentos\Minería de Datos\Clase 22 Abril/numeros3.csv')

In [130]:
df.to_csv(r'C:\Users\migue\OneDrive\Documentos\Minería de Datos\Clase 22 Abril/numeros4.csv', index=False)

# Acceder a Elementos del DataFrame con 'loc' e 'iloc'

Ahora veamos cómo podemos acceder a diferentes partes de nuestros DataFrames. Acceder a *partes* consiste en, no solo acceder a elementos individuales, sino a segmentos enteros que representen algún interés para nosotros como científicos de datos.

Antonces ahora vamos a aprender la diferencia entre `loc` e `iloc`, y cómo usarlos para acceder a diferentes partes de nuestros DataFrames.

Vamos primero con `loc`, que se utiliza para seleccionar filas y columnas **a partir de sus etiquetas**.

In [132]:
df = pd.DataFrame({
    'Col1': [100, 200, 300],
    'Col2': [400, 500, 600],
    'Col3': [700, 800, 900]
}, index=['fila1', 'fila2', 'fila3'])

df

Unnamed: 0,Col1,Col2,Col3
fila1,100,400,700
fila2,200,500,800
fila3,300,600,900


In [134]:
df.loc['fila1']

Col1    100
Col2    400
Col3    700
Name: fila1, dtype: int64

En este caso, a través de la etiqueta **fila1**, hemos recibido todos los datos almacenados en esa fila, y los hemos recibido indexados con las etiquetas de las columnas.

Comprobemos si es una Serie.

In [136]:
type(df.loc['fila1'])

pandas.core.series.Series

También podemos pasar una **lista** de etiquetas.

In [138]:
df.loc[['fila1', 'fila3']]

Unnamed: 0,Col1,Col2,Col3
fila1,100,400,700
fila3,300,600,900


Comprobemos si esto es un DataFrame.

In [140]:
type(df.loc[['fila1', 'fila3']])

pandas.core.frame.DataFrame

Probemos con una **segmentación**.

In [142]:
df.loc['fila1':'fila3']

Unnamed: 0,Col1,Col2,Col3
fila1,100,400,700
fila2,200,500,800
fila3,300,600,900


In [144]:
df.loc['fila1':'fila2']

Unnamed: 0,Col1,Col2,Col3
fila1,100,400,700
fila2,200,500,800


In [146]:
df.loc['fila2':'fila3']

Unnamed: 0,Col1,Col2,Col3
fila2,200,500,800
fila3,300,600,900


Observemos que a diferencia de la segmentación habitual en el resto de python, cuando segmentamos con `loc`, el número final **sí es inclusivo**.

También podemos pasarle una **lista de booleanos**, pero siempre tiene que ser del mismo largo que el eje que queremos seleccionar.

In [148]:
df.loc[[False, True, False]]

Unnamed: 0,Col1,Col2,Col3
fila2,200,500,800


También podemos seleccionar aquellas filas que cumplan alguna condición.

In [150]:
df

Unnamed: 0,Col1,Col2,Col3
fila1,100,400,700
fila2,200,500,800
fila3,300,600,900


In [154]:
df.loc[df['Col1'] > 150]

Unnamed: 0,Col1,Col2,Col3
fila2,200,500,800
fila3,300,600,900


Si queremos traer **columnas** en vez de filas, tenemos que hacerlo de la siguiente manera:

In [158]:
df.loc[ : , ['Col1', 'Col2']]

Unnamed: 0,Col1,Col2
fila1,100,400
fila2,200,500
fila3,300,600


En resumen, `loc` nos permite seleccionar filas y columnas basándonos en sus **etiquetas**. Y esta es la diferencia principal con `iloc`, que hace básicamente lo mismo pero no basándose en las etiquetas, sino en las **posiciones numéricas (índices)**.

In [161]:
df.iloc[0]

Col1    100
Col2    400
Col3    700
Name: fila1, dtype: int64

El resto es básicamente igual, pero cambiando las etiquetas por posiciones. Por ejemplo si queremos seleccionar varias columnas:

In [165]:
df.iloc[ : , [0,1]]

Unnamed: 0,Col1,Col2
fila1,100,400
fila2,200,500
fila3,300,600


Si queremos seleccionar un rango de filas:

In [171]:
df.iloc[1:3]

Unnamed: 0,Col1,Col2,Col3
fila2,200,500,800
fila3,300,600,900


Observemos que al cambiar a índices, nuestro número final dejó de ser inclusivo, y ahora tenemos que poner el índice siguiente para incluir al que nos interesa.

Entonces, aunque `loc` e `iloc` pueden parecer similares, es importante recordar que `loc` trabaja con etiquetas e `iloc` con posiciones numéricas.

Depende de cómo deseemos acceder a los datos de nuestro DataFrame para utilizar uno u otro.

#### 3 formas de obtener los valores de la misma columna:

In [173]:
df

Unnamed: 0,Col1,Col2,Col3
fila1,100,400,700
fila2,200,500,800
fila3,300,600,900


In [175]:
df['Col1']

fila1    100
fila2    200
fila3    300
Name: Col1, dtype: int64

In [177]:
df.loc[ : , 'Col1']

fila1    100
fila2    200
fila3    300
Name: Col1, dtype: int64

In [179]:
df.iloc[ : , 0]

fila1    100
fila2    200
fila3    300
Name: Col1, dtype: int64