#CODERHOUSE DS - 22745
After Class Nro. 4 - Libreria Pandas

Esta notebook tiene el objetivo de profundizar un poco más en los temas vistos en clase 05 del dia 12/octubre/2021




# Libreria Pandas

## Series
*One-dimensional ndarray with axis labels (including time series).*

Link a documentación:

https://pandas.pydata.org/docs/reference/api/pandas.Series.html


Un objeto Series tiene dos componentes: un índice y un vector de datos, ambos con la misma longitud. El índice contiene valores únicos y, por lo general, ordenados, y se usa para acceder a valores individuales de los datos.


## Dataframes

*Two-dimensional, size-mutable, potentially heterogeneous tabular data.*

Link a documentación:

https://pandas.pydata.org/docs/reference/frame.html

Un dataframe esencialmente es una tabla con columnas y filas indexadas, de forma tal que podemos acceder fácilmente a filas mediante el índice. También podemos unir, separar o filtrar dataframes trabajando sobre el índice. En general, los dataframes le van a resultar bastante familiares a quienes sepan SQL.

Los dataframes pueden tener datos no heterogéneos y además son **objetos** con **métodos** útiles para extraer información de forma rápida (por ejemplo, computar histogramas de valores). También es posible convertirlos a *arrays de Numpy* si así lo necesitamos, aunque no lo vamos a hacer a menos que sea realmente necesario.

# Creando Series

## A partir de listas

In [2]:
import pandas as pd

lista = ['a','bien',[3,8],'c',7,('a',3),10.8]
s1 = pd.Series(data=lista)
print(s1)
print(type(s1))

#indices = ['uno', 'dos','tres','cuatro','cinco','seis', 'siete']
#s2 = pd.Series(data=lista, index=indices)
#print(s2)

0         a
1      bien
2    [3, 8]
3         c
4         7
5    (a, 3)
6      10.8
dtype: object
<class 'pandas.core.series.Series'>


## A partir de diccionarios

In [5]:
d1 = {'A' : 10, 'B' : 20, 'C' : 30} #clave(llave) y valor 
series1 = pd.Series(d1)
print(series1)


#creamos un diccionario a partir de dos listas
valores = ['a','b',3,'c',7,'d',10]
indices = ['uno', 'dos','tres','cuatro','cinco','seis', 'siete']
d2 = dict(zip(indices, valores))
print(d2)

series2 = pd.Series(d2)
print(series2)

A    10
B    20
C    30
dtype: int64
{'uno': 'a', 'dos': 'b', 'tres': 3, 'cuatro': 'c', 'cinco': 7, 'seis': 'd', 'siete': 10}
uno        a
dos        b
tres       3
cuatro     c
cinco      7
seis       d
siete     10
dtype: object


## A partir de arrays

In [None]:
import pandas as pd
import numpy as np

x = np.arange(9,0,-1) # Crear un rango de 9 a 1 contando uno a uno (hacia atras)
s = pd.Series(data=x**2) # x**2 devuelve el valor de cada elemento de x elevado al cuadrado

print(s)
print(type(s))

0    81
1    64
2    49
3    36
4    25
5    16
6     9
7     4
8     1
dtype: int64
<class 'pandas.core.series.Series'>


# Operaciones con Series

## modificando una serie

In [None]:
s = pd.Series([0, 1, 2, 3, 4])
s.replace(0, 5)

0    5
1    1
2    2
3    3
4    4
dtype: int64

In [None]:
s = pd.Series([10, 'a', 'a', 'b', 'a'])
s.replace({'a': None})

0      10
1    None
2    None
3       b
4    None
dtype: object

##Operando con series

In [None]:
#suma acumulada
s = pd.Series([2, np.nan, 5, -1, 0])
print(s)

#2, 2+5, 2+5-1, 2+5-1+0
s.cumsum()

0    2.0
1    NaN
2    5.0
3   -1.0
4    0.0
dtype: float64


0    2.0
1    NaN
2    7.0
3    6.0
4    6.0
dtype: float64

In [None]:
# Agrupando datos
ser = pd.Series(data=[390., 350., 30., 20.], index=['Halcon', 'Halcon', 'Loro', 'Loro'], name="Velocidad max")
print(ser)
ser.groupby(level=0).mean()


Halcon    390.0
Halcon    350.0
Loro       30.0
Loro       20.0
Name: Velocidad max, dtype: float64


Halcon    370.0
Loro       25.0
Name: Velocidad max, dtype: float64

In [None]:
# sumando dos series
a = pd.Series([35000,71000,16000,5000],index=['Ohio','Texas','Oregon','Utah'])
b = pd.Series([np.nan,71000,16000,35000],index=['California', 'Texas', 'Oregon', 'Ohio'])

a+b

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [None]:
#pd.concat((a,b))
pd.concat((a,b), axis=1)

Unnamed: 0,primer parcial,segundo parcial
0,7.0,10.0
1,8.0,9.0
2,7.0,10.0
3,7.0,4.0
4,,10.0
5,10.0,


In [None]:
# una mejor forma
ab = a.add(b, fill_value=0)

ab

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah            5000.0
dtype: float64

# Creando Dataframes


## A partir de un diccionario


Una forma de construir dataframes es a partir de diccionarios, de forma tal que asignamos una **lista a cada llave**, que representa una columna del dataframe:

In [None]:
# Tenemos un diccionario donde para cada alumno tenemos nombre, nota primer parcial,
# nota segundo parcial, observaciones y DNI
datos = {'alumno': ['Zutano', 'Mengano', 'Pepe' ,'Fulanito, Cosme', 'Maria'], 
         'primer parcial': [7, 8,7,4, 10], 'segundo parcial': [10,9,4,10,10], 
         'observaciones':['ninguna','libre','ninguna','libre','oyente'], 
         'DNI':[23000000, 12389100, 99999, 1001,30406011]}

import pandas as pd

df = pd.DataFrame(datos)

print(df)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano               7               10       ninguna  23000000
1          Mengano               8                9         libre  12389100
2             Pepe               7                4       ninguna     99999
3  Fulanito, Cosme               4               10         libre      1001
4            Maria              10               10        oyente  30406011


Vemos que las filas están identificadas con números (0,1,2,..). Esos números corresponden al índice (*index*). Podemos obtener las columnas y el índice de un dataframe como listas usando los siguientes métodos:

## A partir de un archivo

In [8]:
import pandas as pd
import os

from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google'

In [9]:
path = '/content/drive/MyDrive/AfterClass 04/'
filename = 'ejemplo.txt'

df = pd.read_csv(os.path.join(path, filename), sep=';')
print(df)
print(type(df))

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/AfterClass 04/ejemplo.txt'

In [7]:
print(list(df.columns))
print(list(df.index))

#df.rows #Esto no funciona!
#En todo caso podemos optar por:

for index, row in df.iterrows():
  print(row['alumno'])


NameError: name 'df' is not defined

## Series y dataframes, a partir de un dataframe

Podemos ademas seleccionar una columna del dataframe como si se tratase de un diccionario. El objeto resultante se llama "series":

In [None]:
print(type(df))
print(df['alumno'])
print(type(df['alumno']))

<class 'pandas.core.frame.DataFrame'>
0             Zutano
1            Mengano
2               Pepe
3    Fulanito, Cosme
4              Maria
Name: alumno, dtype: object
<class 'pandas.core.series.Series'>


Para obtener filas en vez de columnas, podemos usar el método df.loc con una lista de los índices que queremos acceder:

In [None]:
# Cual es la diferencia?

# como serie
print(df.loc[1])
print(type(df.loc[1]))


# como dataframe
print(df.loc[[1]])
print(type(df.loc[[1]]))

alumno              Mengano
primer parcial            8
segundo parcial           9
observaciones         libre
DNI                12389100
Name: 1, dtype: object
<class 'pandas.core.series.Series'>
    alumno  primer parcial  segundo parcial observaciones       DNI
1  Mengano               8                9         libre  12389100
<class 'pandas.core.frame.DataFrame'>


In [6]:
df.loc[[2,3,4]]
# o bien
#df.loc[2:4]

NameError: name 'df' is not defined

# Indices

## Definir un indice diferente

Podríamos haber querido otro índice en vez de [0,1,2,...] para nuestro dataframe. En ese caso, le agregamos el parámetro index a la hora de crearlo:

In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,4, 10], 'segundo parcial': [10,9,4,10,10], 'observaciones':['ninguna','libre','ninguna','libre','oyente'], 'DNI':[23000000, 12389100, 99999, 1001,30406011]}
df = pd.DataFrame(datos, index=['uno',3,'cinco',7,'nueve'])
print(df)

                alumno  primer parcial  segundo parcial observaciones       DNI
uno             Zutano               7               10       ninguna  23000000
3              Mengano               8                9         libre  12389100
cinco             Pepe               7                4       ninguna     99999
7      Fulanito, Cosme               4               10         libre      1001
nueve            Maria              10               10        oyente  30406011


Y el proceso de ubicar filas es igual al anterior:

In [None]:
df.loc[[7,'uno']]

Unnamed: 0,alumno,primer parcial,segundo parcial,observaciones,DNI
7,"Fulanito, Cosme",4,10,libre,1001
uno,Zutano,7,10,ninguna,23000000


## Modificar el índice 

Puede que ya hayamos creado un dataframe y después de hacerlo nos demos cuenta de que una de las columnas tiene más sentido como índice que otra. En ese caso, lo que buscamos es reindexar el dataframe usando los valores de esa columna. En general conviene utilizar como índice algo que sea un identificador único de cada elemento en el dataframe; en este caso, el DNI puede cumplir con esa función.

In [None]:
df_DNI = df.set_index('DNI')
print(df_DNI)

                   alumno  primer parcial  segundo parcial observaciones
DNI                                                                     
23000000           Zutano               7               10       ninguna
12389100          Mengano               8                9         libre
99999                Pepe               7                4       ninguna
1001      Fulanito, Cosme               4               10         libre
30406011            Maria              10               10        oyente


# Métodos de limpieza de datos
Una ventaja del dataframe son los métodos que tiene para la limpieza de datos. Esto es útil si por ejemplo queremos descartar filas o columnas duplicadas o con datos faltantes. Supongamos que tenemos un dataframe en el cual faltan algunos datos (identificados con "nan") y algunas de las filas están duplicadas. 

In [None]:
import numpy as np # necesito numpy para escribir nan
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)
print(df)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011


Eliminamos las columnas que tienen Nan. Para eso usamos el método df.dropna()

In [None]:
df_2 = df.dropna()
print(df_2)

    alumno  primer parcial  segundo parcial observaciones       DNI
0   Zutano             7.0             10.0       ninguna  23000000
1  Mengano             8.0              9.0         libre  12389100
2   Zutano             7.0             10.0       ninguna  23000000
3     Pepe             7.0              4.0       ninguna     99999


Observemos que había varias maneras de hacer esto. Por ejemplo, podríamos haber querido eliminar las columnas que tenían un nan, en vez de las filas:

In [None]:
df_3 = df.dropna(axis=1)
print(df_3)

            alumno observaciones       DNI
0           Zutano       ninguna  23000000
1          Mengano         libre  12389100
2           Zutano       ninguna  23000000
3             Pepe       ninguna     99999
4  Fulanito, Cosme         libre      1001
5            Maria        oyente  30406011


O podríamos haber querido eliminar las filas que tengan TODOS los valores nan. También podríamos haber específicado un subset de las columnas para verificar si las filas tienen valores nan y removerlas en ese caso.

In [None]:
df_4 = df.dropna(how='all')
print(df_4)


            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011


In [None]:
df_5 = df.dropna(subset=['primer parcial','observaciones'])
print(df_5)

    alumno  primer parcial  segundo parcial observaciones       DNI
0   Zutano             7.0             10.0       ninguna  23000000
1  Mengano             8.0              9.0         libre  12389100
2   Zutano             7.0             10.0       ninguna  23000000
3     Pepe             7.0              4.0       ninguna     99999
5    Maria            10.0              NaN        oyente  30406011


Por último, puede que no queramos crear un dataframe nuevo. En ese caso, hacemos lo siguiente y modificamos el dataframe original:

In [None]:
df.dropna(inplace = True)
print(df)

    alumno  primer parcial  segundo parcial observaciones       DNI
0   Zutano             7.0             10.0       ninguna  23000000
1  Mengano             8.0              9.0         libre  12389100
2   Zutano             7.0             10.0       ninguna  23000000
3     Pepe             7.0              4.0       ninguna     99999


Puede que no queramos eliminar las filas o columnas que tienen nan, sino llenar esas entradas usando algun valor fijo, o un promedio de las demás entradas de la fila o la columna. Para eso volvemos a definir el dataframe (porque lo modificamos en el bloque de código anterior) y luego probamos el método df.fillna()

In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)
print(df)
df_2 = df.fillna(-999)
print(df_2)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011
            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme          -999.0             10.0         libre      1001
5           

Esto claramente reeplaza los valores faltantes usando un valor prefijado. Podemos también usar medias o medianas:

In [None]:
a = df['primer parcial']
df_3 = df.fillna(a.mean())
print(df_3)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             7.8             10.0         libre      1001
5            Maria            10.0              7.8        oyente  30406011


Acá están sucediendo varias cosas. Primero, en a están los valores de la columna 'primer parcial'. Luego, dentro de fillna pongo a.mean() que computa el valor medio de todas las entradas que no son nan de esa columna. Ese valor es 7.8, el cual se completa en todas las entradas que tienen nan.

Es lógico preguntarse si esto es lógico: en realidad, nos gustaría reemplazar el nan de la columna 'segundo parcial' por un promedio de los valores de esa columna, no de 'primer parcial'.


In [None]:
a = df['primer parcial']
b = df['segundo parcial']
fill_dict = {'primer parcial':a.mean(), 'segundo parcial':b.mean()}
df_4 = df.fillna(fill_dict)
print(df_4)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             7.8             10.0         libre      1001
5            Maria            10.0              8.6        oyente  30406011


Vemos que ahora usa valores diferentes para completar los nan de cada columna (7.8 y 8.6). La forma de hacerlo es pasarle un diccionario donde las llaves indican las columnas y los valores, por lo que debe ser reemplazado el nan.

Obviamente el valor medio únicamente tiene sentido para datos numéricos, pero podemos reemplazar los datos de otras formas si los datos son no numéricos (por ejemplo, por la entrada más frecuente).

Puede que querramos filtrar los datos mediante algún criterio distinto, por ejemplo, retener únicamente a los alumnos libres, o bien a aquellos cuyo primer parcial fue mayor a 7.

Una forma sencilla es iterar el índice, y eliminar las filas que no cumplan con la condición dada.


In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)

for x in df.index:
  if not df.loc[x, "observaciones"] == 'libre':
    df.drop(x, inplace = True)
print(df)

            alumno  primer parcial  segundo parcial observaciones       DNI
1          Mengano             8.0              9.0         libre  12389100
4  Fulanito, Cosme             NaN             10.0         libre      1001


In [None]:
# otra mejor forma
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)

df_libre = df[df['observaciones']=='libre']
print(df_libre)

            alumno  primer parcial  segundo parcial observaciones       DNI
1          Mengano             8.0              9.0         libre  12389100
4  Fulanito, Cosme             NaN             10.0         libre      1001


In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)

for x in df.index:
  if df.loc[x, "primer parcial"] <= 7:
    df.drop(x, inplace = True)
print(df)

            alumno  primer parcial  segundo parcial observaciones       DNI
1          Mengano             8.0              9.0         libre  12389100
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011


## Tratando datos duplicados

Por último, puede que querramos remover duplicados. La forma más sencilla de hacerlo es con el método drop_duplicates()

In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)
print(df)


            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011


In [None]:
df_2 = df.drop_duplicates()
print(df_2)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011


Algunas de los métodos que podemos aplicar a los dataframe son útiles para tener una idea de los valores de una columna sin tener que hacer demasiado trabajo. Esto es lo que podemos hacer con value_counts(), que nos devuelve todos los valores que toman las entradas de la columna, y la cantidad de veces que ocurren.

In [None]:
df['observaciones'].value_counts()

ninguna    3
libre      2
oyente     1
Name: observaciones, dtype: int64

# Combinar Dataframes

Lo último que vamos a ver en este Notebook es cómo combinar dos o más dataframes en uno solo.

La forma más sencilla es hacer append de un dataframe a otro, ambos con las mismas columnas.


In [None]:
datos_1 = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'], 'primer parcial': [7, 8,7,7,np.nan, 10], 'segundo parcial': [10,9,10,4,10,np.nan], 'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'], 'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df_1 = pd.DataFrame(datos_1)

datos_2 = {'alumno': ['Diego', 'Flor', 'José'], 'primer parcial': [10,10,8], 'segundo parcial': [8,8,8], 'observaciones':['ninguna','libre','libre'], 'DNI':[23299, 1043101,4406533]}
df_2 = pd.DataFrame(datos_2)

df_3 = df_1.append(df_2)
print(df_3)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011
0            Diego            10.0              8.0       ninguna     23299
1             Flor            10.0              8.0         libre   1043101
2             José             8.0              8.0         libre   4406533


Vemos que esto tiene un potencial problema: aparecen filas que tienen el mismo valor del índice, lo cual puede complicar localizarlas.

Para resolver este problema, podemos usar pd.concat de la siguiente forma:


In [None]:
df_3 = df_1.append(df_2, ignore_index=True)
print(df_3)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011
6            Diego            10.0              8.0       ninguna     23299
7             Flor            10.0              8.0         libre   1043101
8             José             8.0              8.0         libre   4406533


In [None]:
# Obien
df_3 = pd.concat( (df_1,df_2), axis=0, join="outer", ignore_index=True)
print(df_3)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano             7.0             10.0       ninguna  23000000
1          Mengano             8.0              9.0         libre  12389100
2           Zutano             7.0             10.0       ninguna  23000000
3             Pepe             7.0              4.0       ninguna     99999
4  Fulanito, Cosme             NaN             10.0         libre      1001
5            Maria            10.0              NaN        oyente  30406011
6            Diego            10.0              8.0       ninguna     23299
7             Flor            10.0              8.0         libre   1043101
8             José             8.0              8.0         libre   4406533


Vemos cómo en este caso el índice se reinicia empezando desde 0. Por supuesto, como vimos antes, siempre podemos reindexar usando otra columna que sirva a ese propósito (el DNI sería la mejor opción).

El proceso de unir o mergear dos dataframes con distintas columnas es familiar para aquellos con alguna experiencia en SQL. Supongamos que tenemos este dataframe reindexado por el DNI:


In [None]:
df_DNI = df_3.set_index('DNI')
print(df_DNI)

                   alumno  primer parcial  segundo parcial observaciones
DNI                                                                     
23000000           Zutano             7.0             10.0       ninguna
12389100          Mengano             8.0              9.0         libre
23000000           Zutano             7.0             10.0       ninguna
99999                Pepe             7.0              4.0       ninguna
1001      Fulanito, Cosme             NaN             10.0         libre
30406011            Maria            10.0              NaN        oyente
23299               Diego            10.0              8.0       ninguna
1043101              Flor            10.0              8.0         libre
4406533              José             8.0              8.0         libre


Supongamos que tenemos además otro dataframe indexado por el el DNI, con algún solapamiento parcial con este dataset.

In [None]:
datos_1 = {'alumno': ['Roberto', 'Mengano', 'Carlos','Marisol' ,'Fulanito, Cosme'], 'cuota al día': ['sí','sí','no','no','sí'], 'año que cursa': [2, 2, 2, 1, 4]}
df_1 = pd.DataFrame(datos_1, index=[3934444, 12389100, 2939393, 10102394,1001])
print(df_1)

                   alumno cuota al día  año que cursa
3934444           Roberto           sí              2
12389100          Mengano           sí              2
2939393            Carlos           no              2
10102394          Marisol           no              1
1001      Fulanito, Cosme           sí              4


Yo puedo querer combinar toda esta información en una misma tabla, de forma tal que el índice determine cómo se unen las filas.


In [None]:
df_all = pd.merge(df_DNI,df_1, how="inner")
print(df_all)

            alumno  primer parcial  ...  cuota al día año que cursa
0          Mengano             8.0  ...            sí             2
1  Fulanito, Cosme             NaN  ...            sí             4

[2 rows x 6 columns]


Vemos que el merge unión a los que estaban en la intersección de ambos dataframes. Esto cambia a la únion si modificamos inner por outer:

In [None]:
df_all = pd.merge(df_DNI,df_1, how="outer")
print(df_all)

             alumno  primer parcial  ...  cuota al día año que cursa
0            Zutano             7.0  ...           NaN           NaN
1            Zutano             7.0  ...           NaN           NaN
2           Mengano             8.0  ...            sí           2.0
3              Pepe             7.0  ...           NaN           NaN
4   Fulanito, Cosme             NaN  ...            sí           4.0
5             Maria            10.0  ...           NaN           NaN
6             Diego            10.0  ...           NaN           NaN
7              Flor            10.0  ...           NaN           NaN
8              José             8.0  ...           NaN           NaN
9           Roberto             NaN  ...            sí           2.0
10           Carlos             NaN  ...            no           2.0
11          Marisol             NaN  ...            no           1.0

[12 rows x 6 columns]


En este caso, rellena con nan donde no hay información.