
<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/introducci-n-al-Machine-Learning/blob/main/classes/class_12/class_12.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/introducci-n-al-Machine-Learning/blob/main/classes/class_12/class_12.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table> 


# [DataFrame según Géron](https://github.com/ageron/handson-ml/blob/master/tools_pandas.ipynb)

**DataFrame**, que se puede considerar como una tabla 2D en memoria. 


Un objeto `DataFrame` representa una hoja de cálculo, con:  

* valores de celda, 
* nombres de columna y 
* etiquetas de índice de fila. 

In [1]:
import pandas as pd

Puede: 

* definir expresiones para calcular columnas basadas en otras columnas, 
* crear tablas dinámicas, 
* agrupar filas, 
* dibujar gráficos, etc. 


## Creación de un DataFrame

Puede crear un `DataFrame` pasando un diccionario de objetos `Series`:

In [6]:
personas_dict = {
    "peso": pd.Series([68, 83, 112], index=["mateo", "marcos", "lucas"]),
    "año_nacimiento": pd.Series([1984, 1985, 1992], index=["lucas", "marcos", "mateo"], name="año"),
    "hijos": pd.Series([0, 3], index=["mateo", "marcos"]),
    "hobby": pd.Series(["ciclismo", "baile"], index=["marcos", "mateo"])}  

personas = pd.DataFrame(personas_dict)
personas

Unnamed: 0,peso,año_nacimiento,hijos,hobby
lucas,112,1984,,
marcos,83,1985,3.0,ciclismo
mateo,68,1992,0.0,baile


### Algunas cosas a tener en cuenta:

* las series se alinearon automáticamente en función de su índice,  

* los valores faltantes se representan como `NaN`,  

* Los nombres de las series se ignoran (se eliminó el nombre `year`),


## Acceso a las columnas 

Se devuelven como objetos `Series`:

In [7]:
personas["año_nacimiento"]      # así, obtienes un objeto Serie 

lucas     1984
marcos    1985
mateo     1992
Name: año_nacimiento, dtype: int64

In [8]:
personas[["año_nacimiento"]] 

Unnamed: 0,año_nacimiento
lucas,1984
marcos,1985
mateo,1992


También puede obtener varias columnas a la vez:

In [9]:
personas[["año_nacimiento", "hobby"]] 

Unnamed: 0,año_nacimiento,hobby
lucas,1984,
marcos,1985,ciclismo
mateo,1992,baile


Si pasa una lista de columnas y/o etiquetas de fila al constructor de `DataFrame`, garantizará que estas columnas y/o filas existirán, en ese orden, y no existirá ninguna otra columna/fila.   

Por ejemplo:

In [10]:
d2 = pd.DataFrame(
        personas_dict,
        columns=["año_nacimiento", "peso", "altura"],
        index=["mateo", "marcos", "juan"]
     )
d2

Unnamed: 0,año_nacimiento,peso,altura
mateo,1992.0,68.0,
marcos,1985.0,83.0,
juan,,,


Otra forma conveniente de crear un `DataFrame` es pasar todos los valores al constructor como un `ndarray`, o una lista de listas, y especificar los nombres de columna y las etiquetas de índice de fila por separado:

In [11]:
import pandas as pd 
import numpy as np 

In [12]:
values = np.array([
            [1985, np.nan, "ciclismo",   68],
            [1984, 3,      "baile",  83],
            [1992, 0,      np.nan,    112]
         ]) 
d3 = pd.DataFrame(
        values,
        columns=["año_nacimiento", "hijos", "hobby", "peso"],
        index=["mateo", "marcos", "lucas"]
     )
d3

Unnamed: 0,año_nacimiento,hijos,hobby,peso
mateo,1985,,ciclismo,68
marcos,1984,3.0,baile,83
lucas,1992,0.0,,112


Observe que para especificar los valores que faltan, se puede usar `np.nan`.

En lugar de un `ndarray`, también puedes pasar un objeto `DataFrame`:

In [13]:
d4 = pd.DataFrame(
         d3,
         columns=["hobby", "hijos"],
         index=["mateo", "marcos"]
     )
d4

Unnamed: 0,hobby,hijos
mateo,ciclismo,
marcos,baile,3.0


También es posible crear un `DataFrame` con un diccionario (o lista) de diccionarios (o lista):

In [16]:
personas = pd.DataFrame({
    "año_nacimiento": {"mateo":1985, "marcos": 1984, "lucas": 1992},
    "hobby": {"mateo":"ciclismo", "marcos": "baile"},
    "peso": {"mateo":68, "marcos": 83, "lucas": 112},
    "hijos": {"mateo": 3, "marcos": 1}
})
personas

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0
marcos,1984,baile,83,1.0
lucas,1992,,112,


## Acceso a filas

Volvamos al `DataFrame` `personas`:

In [18]:
personas 

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0
marcos,1984,baile,83,1.0
lucas,1992,,112,


El atributo `loc` le permite acceder a las filas en lugar de a las columnas. 

El resultado es un objeto `Serie` en el que los nombres de columna de `DataFrame` se asignan a etiquetas de índice de fila:

In [19]:
personas.loc["mateo"]

año_nacimiento        1985
hobby             ciclismo
peso                    68
hijos                  3.0
Name: mateo, dtype: object

In [21]:
personas.loc[["mateo"]] 

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0


In [23]:
personas.loc[['mateo', 'marcos']]

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0
marcos,1984,baile,83,1.0


También puede acceder a las filas por ubicación de enteros utilizando el atributo `iloc`:

In [24]:
personas.iloc[2]

año_nacimiento    1992
hobby              NaN
peso               112
hijos              NaN
Name: lucas, dtype: object

También puede obtener una porción de filas, y esto devuelve un objeto `DataFrame`:

In [25]:
personas.iloc[1:3]

Unnamed: 0,año_nacimiento,hobby,peso,hijos
marcos,1984,baile,83,1.0
lucas,1992,,112,


In [None]:
Finalmente, puede pasar una matriz booleana para obtener las filas coincidentes:

In [26]:
personas.iloc[np.array([True, False, False])]

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0


Esto es más útil cuando se combina con expresiones booleanas:

In [27]:
personas[personas['año_nacimiento'] < 1990]

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0
marcos,1984,baile,83,1.0


## Adición y eliminación de columnas

In [28]:
personas 

Unnamed: 0,año_nacimiento,hobby,peso,hijos
mateo,1985,ciclismo,68,3.0
marcos,1984,baile,83,1.0
lucas,1992,,112,


In [29]:
personas['edad'] = 2022 - personas['año_nacimiento'] 

In [30]:
personas 

Unnamed: 0,año_nacimiento,hobby,peso,hijos,edad
mateo,1985,ciclismo,68,3.0,37
marcos,1984,baile,83,1.0,38
lucas,1992,,112,,30


In [31]:
personas['mas_30_años'] = personas['edad'] > 30

In [33]:
personas 

Unnamed: 0,año_nacimiento,hobby,peso,hijos,edad,mas_30_años
mateo,1985,ciclismo,68,3.0,37,True
marcos,1984,baile,83,1.0,38,True
lucas,1992,,112,,30,False


In [34]:
año_nacimiento = personas.pop('año_nacimiento')  

In [35]:
año_nacimiento

mateo     1985
marcos    1984
lucas     1992
Name: año_nacimiento, dtype: int64

In [36]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mas_30_años
mateo,ciclismo,68,3.0,37,True
marcos,baile,83,1.0,38,True
lucas,,112,,30,False


In [37]:
del personas['hijos']

In [39]:
personas

Unnamed: 0,hobby,peso,edad,mas_30_años
mateo,ciclismo,68,37,True
marcos,baile,83,38,True
lucas,,112,30,False


Cuando agrega una nueva columna, debe tener el mismo número de filas. Las filas que faltan se rellenan con `NaN` y las filas adicionales se ignoran:

In [41]:
personas["mascotas"] = pd.Series({"mateo": 0, "marcos": 2, "juan":1})  # alice is missing, eugene is ignored
personas 

Unnamed: 0,hobby,peso,edad,mas_30_años,mascotas
mateo,ciclismo,68,37,True,0.0
marcos,baile,83,38,True,2.0
lucas,,112,30,False,


Al agregar una **nueva columna**, se agrega **al final** (a la derecha) de forma predeterminada. 

También puedes insertar una columna en cualquier otro lugar usando el método `insert()`:

In [42]:
personas.insert(0, 'estatura', [165, 152, 170])
personas  

Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas
mateo,165,ciclismo,68,37,True,0.0
marcos,152,baile,83,38,True,2.0
lucas,170,,112,30,False,


## Asignación de nuevas columnas

También puede crear nuevas columnas llamando al método `assign()`. 

Tenga en cuenta que esto devuelve un nuevo objeto `DataFrame`, el original no se modifica:

In [43]:
personas.assign(indice_masa_corporal = personas['peso']/(personas['estatura']/100)**2,
             tiene_mascota = personas['mascotas'] > 0) 

Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas,indice_masa_corporal,tiene_mascota
mateo,165,ciclismo,68,37,True,0.0,24.977043,False
marcos,152,baile,83,38,True,2.0,35.924515,True
lucas,170,,112,30,False,,38.754325,False


Tenga en cuenta que no puede acceder a las columnas creadas dentro de la misma tarea:

In [44]:
try:
    people.assign(
        indice_masa_corporal = personas["peso"] / (personas["estatura"] / 100) ** 2,
        sobre_peso = personas["indice_masa_corporal"] > 25
    )
except KeyError as e:
    print("Key error:", e)

Key error: 'indice_masa_corporal'


La solución es dividir esta asignación en dos asignaciones consecutivas:

In [45]:
d6 = people.assign(indice_masa_corporal = personas["peso"] / (personas["estatura"] / 100) ** 2)

In [46]:
d6.assign(sobre_peso = d6["indice_masa_corporal"] > 25)

Unnamed: 0,peso,año_nacimiento,hijos,hobby,indice_masa_corporal,sobre_peso
lucas,112,1984,,,38.754325,True
marcos,83,1985,3.0,ciclismo,35.924515,True
mateo,68,1992,0.0,baile,24.977043,False


Tener que crear una variable temporal `d6` no es muy conveniente. 

Es posible que desee simplemente encadenar las llamadas de asignación, pero no funciona porque el objeto `personas` en realidad no se modifica con la primera asignación:

In [47]:
try:
    (personas
         .assign(indice_masa_corporal = personas["peso"] / (personas["estatura"] / 100) ** 2)
         .assign(sobre_peso = personas["indice_masa_corporal"] > 25)
    )
except KeyError as e:
    print("Key error:", e)

Key error: 'indice_masa_corporal'


Pero no temas, hay una solución simple. Puede pasar una función al método `asign()` (normalmente una función `lambda`), y esta función se llamará con el `DataFrame` como parámetro:

In [48]:
(personas
     .assign(indice_masa_corporal = lambda df: df["peso"] / (df["estatura"] / 100) ** 2)
     .assign(sobre_peso = lambda df: df["indice_masa_corporal"] > 25)
)


Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas,indice_masa_corporal,sobre_peso
mateo,165,ciclismo,68,37,True,0.0,24.977043,False
marcos,152,baile,83,38,True,2.0,35.924515,True
lucas,170,,112,30,False,,38.754325,True


## Evaluar una expresión

Una gran característica compatible con pandas es la evaluación de expresiones. Esto se basa en la biblioteca numexpr que debe estar instalada.

In [49]:
personas.eval('peso/(estatura/100)**2 > 25')

mateo     False
marcos     True
lucas      True
dtype: bool

También se admiten expresiones de asignación. Configuremos `inplace=True` para modificar directamente el `DataFrame` en lugar de obtener una **copia modificada**:

In [52]:
personas.eval("indice_masa_corporal = peso / (estatura/100) ** 2", inplace=True)
personas

Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas,indice_masa_corporal,sobre_peso
mateo,165,ciclismo,68,37,True,0.0,24.977043,False
marcos,152,baile,83,38,True,2.0,35.924515,True
lucas,170,,112,30,False,,38.754325,True


Puede usar una variable local o global en una expresión prefijándola con `@`:

In [51]:
umbral_sobre_peso = 30
personas.eval("sobre_peso = indice_masa_corporal > @umbral_sobre_peso", inplace=True)

personas

Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas,indice_masa_corporal,sobre_peso
mateo,165,ciclismo,68,37,True,0.0,24.977043,False
marcos,152,baile,83,38,True,2.0,35.924515,True
lucas,170,,112,30,False,,38.754325,True


## Querying a DataFrame (Consultar en el DataFrame)

El método `query()` le permite filtrar un `DataFrame` basado en una expresión de consulta:

In [54]:
personas.query("edad > 30 and mascotas == 2")

Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas,indice_masa_corporal,sobre_peso
marcos,152,baile,83,38,True,2.0,35.924515,True


## Ordenar un DataFrame

Puede ordenar un `DataFrame` llamando a su método `sort_index`. 

Por defecto, ordena las filas por su etiqueta de índice, en orden ascendente, pero invirtamos el orden:

In [55]:
personas.sort_index(ascending=True)

Unnamed: 0,estatura,hobby,peso,edad,mas_30_años,mascotas,indice_masa_corporal,sobre_peso
lucas,170,,112,30,False,,38.754325,True
marcos,152,baile,83,38,True,2.0,35.924515,True
mateo,165,ciclismo,68,37,True,0.0,24.977043,False


## Taller de clase o tarea

Se lanzan al aire dos dados y se suman sus puntos obtenidos. Halla la probabilidad de que la suma:  

a) Sea 4.  
b) No sea 7.  
c) Sea mayor que 7.  
d) Sea menor que 5.  
e) Sea 6 o 9.  
f) Esté entre 2 y 6.  

## Solución

1. Empecemos construyendo un DataFrame con todos los posibles resultados de este experimento aleatorio: 
2. Agregue una columna de la variable aleatoria.
3. Cree una columna de booleanos que indique los casos favorables. 

In [56]:
import numpy as np 
import pandas as pd 

dado1 = np.array([])
for i in range(1,7):
    dado1 = np.hstack((dado1,i*np.ones(6)))
    
dado1   

array([1., 1., 1., 1., 1., 1., 2., 2., 2., 2., 2., 2., 3., 3., 3., 3., 3.,
       3., 4., 4., 4., 4., 4., 4., 5., 5., 5., 5., 5., 5., 6., 6., 6., 6.,
       6., 6.])

In [57]:
dado2 = np.array([])
for i in range(1,7):
    dado2 = np.hstack((dado2,*np.arange(1,7)))
    
dado2  

array([1., 2., 3., 4., 5., 6., 1., 2., 3., 4., 5., 6., 1., 2., 3., 4., 5.,
       6., 1., 2., 3., 4., 5., 6., 1., 2., 3., 4., 5., 6., 1., 2., 3., 4.,
       5., 6.])

In [58]:
dic = {'dado1':dado1,'dado2':dado2} 
resultados = pd.DataFrame(dic, index = np.arange(1,len(dado1)+1)) 
resultados.head()  

Unnamed: 0,dado1,dado2
1,1.0,1.0
2,1.0,2.0
3,1.0,3.0
4,1.0,4.0
5,1.0,5.0


In [60]:
resultados['suma'] = resultados['dado1'] + resultados['dado2'] 
resultados

Unnamed: 0,dado1,dado2,suma
1,1.0,1.0,2.0
2,1.0,2.0,3.0
3,1.0,3.0,4.0
4,1.0,4.0,5.0
5,1.0,5.0,6.0
6,1.0,6.0,7.0
7,2.0,1.0,3.0
8,2.0,2.0,4.0
9,2.0,3.0,5.0
10,2.0,4.0,6.0


In [61]:
resultados['suma_es_4'] = resultados.suma == 4
resultados.head() 

Unnamed: 0,dado1,dado2,suma,suma_es_4
1,1.0,1.0,2.0,False
2,1.0,2.0,3.0,False
3,1.0,3.0,4.0,True
4,1.0,4.0,5.0,False
5,1.0,5.0,6.0,False


In [62]:
probabilidad_suma_es_4 = resultados.suma_es_4.sum()/len(resultados)
probabilidad_suma_es_4

0.08333333333333333

Por lo tanto, la probabilidad de que al lanzar dos dados la suma de los resultados sea 4 es del 8.3 porciento. 

## Referentes

* Pandas según Géron: https://github.com/ageron/handson-ml/blob/master/tools_pandas.ipynb 

* `DataFrame.pop(elemento)`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pop.html