
<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/introducci-n-al-Machine-Learning/blob/main/classes/class_12.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/introducci-n-al-Machine-Learning/blob/main/classes/class_12.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table> 


# [DataFrame según Géron](https://github.com/ageron/handson-ml/blob/master/tools_pandas.ipynb)

**DataFrame**, que se puede considerar como una tabla 2D en memoria. 


Un objeto `DataFrame` representa una hoja de cálculo, con:  

* valores de celda, 
* nombres de columna y 
* etiquetas de índice de fila. 

In [1]:
import pandas as pd

Puede: 

* definir expresiones para calcular columnas basadas en otras columnas, 
* crear tablas dinámicas, 
* agrupar filas, 
* dibujar gráficos, etc. 


## Creación de un DataFrame

Puede crear un `DataFrame` pasando un diccionario de objetos `Series`:

In [2]:
people_dict = {
    "weight": pd.Series([68, 83, 112], index=["alice", "bob", "charles"]),
    "birthyear": pd.Series([1984, 1985, 1992], index=["bob", "alice", "charles"], name="year"),
    "children": pd.Series([0, 3], index=["charles", "bob"]),
    "hobby": pd.Series(["Biking", "Dancing"], index=["alice", "bob"])}  

people = pd.DataFrame(people_dict)
people

Unnamed: 0,weight,birthyear,children,hobby
alice,68,1985,,Biking
bob,83,1984,3.0,Dancing
charles,112,1992,0.0,


### Algunas cosas a tener en cuenta:

* las series se alinearon automáticamente en función de su índice,  

* los valores faltantes se representan como `NaN`,  

* Los nombres de las series se ignoran (se eliminó el nombre `year`),


## Acceso a las columnas 

Se devuelven como objetos `Series`:

In [3]:
people["birthyear"]      # así, obtienes un objeto Serie 

alice      1985
bob        1984
charles    1992
Name: birthyear, dtype: int64

In [4]:
people[["birthyear"]] 

Unnamed: 0,birthyear
alice,1985
bob,1984
charles,1992


También puede obtener varias columnas a la vez:

In [5]:
people[["birthyear", "hobby"]]

Unnamed: 0,birthyear,hobby
alice,1985,Biking
bob,1984,Dancing
charles,1992,


Si pasa una lista de columnas y/o etiquetas de fila al constructor de `DataFrame`, garantizará que estas columnas y/o filas existirán, en ese orden, y no existirá ninguna otra columna/fila.   

Por ejemplo:

In [6]:
d2 = pd.DataFrame(
        people_dict,
        columns=["birthyear", "weight", "height"],
        index=["bob", "alice", "eugene"]
     )
d2

Unnamed: 0,birthyear,weight,height
bob,1984.0,83.0,
alice,1985.0,68.0,
eugene,,,


Otra forma conveniente de crear un `DataFrame` es pasar todos los valores al constructor como un `ndarray`, o una lista de listas, y especificar los nombres de columna y las etiquetas de índice de fila por separado:

In [3]:
import pandas as pd 
import numpy as np 

In [4]:
values = np.array([
            [1985, np.nan, "Biking",   68],
            [1984, 3,      "Dancing",  83],
            [1992, 0,      np.nan,    112]
         ]) 
d3 = pd.DataFrame(
        values,
        columns=["birthyear", "children", "hobby", "weight"],
        index=["alice", "bob", "charles"]
     )
d3

Unnamed: 0,birthyear,children,hobby,weight
alice,1985,,Biking,68
bob,1984,3.0,Dancing,83
charles,1992,0.0,,112


Observe que para especificar los valores que faltan, se puede usar `np.nan`.

En lugar de un `ndarray`, también puedes pasar un objeto `DataFrame`:

In [5]:
d4 = pd.DataFrame(
         d3,
         columns=["hobby", "children"],
         index=["alice", "bob"]
     )
d4

Unnamed: 0,hobby,children
alice,Biking,
bob,Dancing,3.0


También es posible crear un `DataFrame` con un diccionario (o lista) de diccionarios (o lista):

In [6]:
people = pd.DataFrame({
    "birthyear": {"alice":1985, "bob": 1984, "charles": 1992},
    "hobby": {"alice":"Biking", "bob": "Dancing"},
    "weight": {"alice":68, "bob": 83, "charles": 112},
    "children": {"bob": 3, "charles": 0}
})
people

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0
charles,1992,,112,0.0


## Acceso a filas

Volvamos al `DataFrame` `people`:

In [8]:
people

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0
charles,1992,,112,0.0


El atributo `loc` le permite acceder a las filas en lugar de a las columnas. 

El resultado es un objeto `Serie` en el que los nombres de columna de `DataFrame` se asignan a etiquetas de índice de fila:

In [9]:
people.loc["charles"]

birthyear    1992
hobby         NaN
weight        112
children      0.0
Name: charles, dtype: object

In [10]:
people.loc[["charles"]] 

Unnamed: 0,birthyear,hobby,weight,children
charles,1992,,112,0.0


In [11]:
people.loc[['alice', 'bob']]

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0


También puede acceder a las filas por ubicación de enteros utilizando el atributo `iloc`:

In [12]:
people.iloc[2]

birthyear    1992
hobby         NaN
weight        112
children      0.0
Name: charles, dtype: object

También puede obtener una porción de filas, y esto devuelve un objeto `DataFrame`:

In [15]:
people.iloc[1:3]

Unnamed: 0,birthyear,hobby,weight,children
bob,1984,Dancing,83,3.0
charles,1992,,112,0.0


In [None]:
Finalmente, puede pasar una matriz booleana para obtener las filas coincidentes:

In [17]:
people.iloc[np.array([True, False, False])]

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,


Esto es más útil cuando se combina con expresiones booleanas:

In [18]:
people[people['birthyear'] < 1990]

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0


## Adición y eliminación de columnas

In [19]:
people

Unnamed: 0,birthyear,hobby,weight,children
alice,1985,Biking,68,
bob,1984,Dancing,83,3.0
charles,1992,,112,0.0


In [20]:
people['age'] = 2022 - people['birthyear']

In [21]:
people 

Unnamed: 0,birthyear,hobby,weight,children,age
alice,1985,Biking,68,,37
bob,1984,Dancing,83,3.0,38
charles,1992,,112,0.0,30


In [22]:
people['over_30'] = people['age'] > 30

In [23]:
people 

Unnamed: 0,birthyear,hobby,weight,children,age,over_30
alice,1985,Biking,68,,37,True
bob,1984,Dancing,83,3.0,38,True
charles,1992,,112,0.0,30,False


In [24]:
birthyear = people.pop('birthyear')  

In [25]:
birthyear 

alice      1985
bob        1984
charles    1992
Name: birthyear, dtype: int64

In [26]:
people 


Unnamed: 0,hobby,weight,children,age,over_30
alice,Biking,68,,37,True
bob,Dancing,83,3.0,38,True
charles,,112,0.0,30,False
