# Pandas I

## DataFrame

#### Documentación 
https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

Representa una estructura de datos **tabular** que contiene una colección de columnas, cada una de las cuales tiene un tipo de datos determinado (number, string, boolean, etc.).

Podemos pensar un objeto `DataFrame` como un diccionario de `Series` "alineadas" (que comparten el mismo índice).

Una instancia de DataFrame tiene **índices de columnas y de filas**.  

![Image](img/dataframe.jpg)


### `DataFrame` como un diccionario de `Series` "alineadas"

Un `DataFrame` es un tipo de datos análogo a `Series` en dos dimensiones. 

Como ejemplo, generemos un DataFrame con datos de área y población para distintos estados combinando dos series.

1) Generemos un objeto `Series` con el área de algunos estados a partir de un diccionario:

In [2]:
import pandas as pd
import numpy as np

In [3]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

2) Generemos un objeto `Series` con la población de algunos estados a partir de listas:

In [4]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
population = pd.Series(states_pop, index= states_list)
population

Illinois      12882135
Texas         26448193
New York      19651127
Florida       19552860
California    38332521
dtype: int64

Generamos un objeto `DataFrame` a partir de los dos objetos `Series` generados en los puntos anteriores:

In [5]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


Al igual que Series, un DataFrame posee un atributo index:

In [6]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

Además, tiene un atributo columns, que es un objeto de tipo Index conteniendo las etiquetas de columnas:

In [7]:
states.columns

Index(['population', 'area'], dtype='object')

Pueden observar que tanto los nombres de filas como los nombres de columnas son objetos del tipo `Index`.

### DataFrame como un diccionario especializado

De forma similar, podemos pensar auna instancia de `DataFrame` como un diccionario: 
    
* Un diccionario mapea una key con un valor
* Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una instancia de `Series`. 


In [8]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [9]:
states.area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [10]:
print(type(states['area']))
print(type(states.area))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [11]:
states['area'] is states.area

True

In [12]:
states['area'] == states.area

California    True
Florida       True
Illinois      True
New York      True
Texas         True
Name: area, dtype: bool

<div id="caja1" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
      <label>¿Qué diferencia hay entre == y is ?</label></div>
</div>


<a id="section_constructor"></a> 
## Constructor

#### Documentación
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html


<a id="section_constructor_from_series"></a> 
### Desde una instancia de `Series`:
[volver a TOC](#section_toc)

In [13]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
Illinois,12882135
Texas,26448193
New York,19651127
Florida,19552860
California,38332521


<a id="section_constructor_from_dicts"></a> 
### Desde una lista de `dicts`
[volver a TOC](#section_toc)

In [14]:
dict_0 = {'a': 0, 'b': 0}
dict_1 = {'a': 1, 'b': 2}
dict_2 = {'a': 2, 'b': 4}

data = [dict_0, dict_1, dict_2]

pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Otra forma de construir lo mismo, usando listas por comprensión:

In [15]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]

print(data)

pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si alguna key no tiene un valor asociado en el diccionario, Pandas completa con NaN el valor:

In [16]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


<a id="section_constructor_from_2darray"></a> 
### Desde un array `Numpy` de dos dimensiones:
[volver a TOC](#section_toc)


In [17]:
array_2d = np.random.rand(3, 2)
# veamos qué hay en la variable array_2d:
print(array_2d)

columns_names = ['foo', 'bar']
rows_names = ['a', 'b', 'c']

pd.DataFrame(array_2d, columns=columns_names, index=rows_names)


[[0.5642287  0.56617184]
 [0.12333605 0.08352266]
 [0.43328948 0.3986582 ]]


Unnamed: 0,foo,bar
a,0.564229,0.566172
b,0.123336,0.083523
c,0.433289,0.398658


<a id="section_selection"></a> 
## Selección de datos en `DataFrame`
[volver a TOC](#section_toc)

Vamos a ver ahora distintas formas de seleccionar elementos en instancias de `DataFrame`

Comencemos creando el objeto `data`:

In [18]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


<a id="section_selection_head_tail"></a> 
### Primeros n elementos, últimos n elementos
[volver a TOC](#section_toc)

Puede accederse a los primeros n elementos del DataFrame con el método df.head(n). Del mismo modo, puede aplicarse el método df.tail(n) para acceder a los últimos elementos del DataFrame:

In [19]:
data.head(2)

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [20]:
data.tail(3)

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


<a id="section_selection_sample"></a> 
### Muestra aleatoria de n elementos
[volver a TOC](#section_toc)

Con el método df.sample(n) obtenemos una muestra aleatória de n elementos:

In [21]:
data.sample(2)

Unnamed: 0,area,pop
Illinois,149995,12882135
California,423967,38332521


<a id="section_selection_col"></a> 
### Columnas
[volver a TOC](#section_toc)
    
Podemos acceder a las Series individuales que forman las columnas del DataFrame de forma análoga a un diccionario de varias formas:

* Vía el nombre de la columna:

In [22]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Como atributo:

In [23]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Ambas formas son equivalentes:

In [24]:
data['area'] is data.area

True

`values` devuelve los valores de todos los elementos que conforman el objeto `DataFrame` como un objeto `numpy.ndarray`:

In [25]:
data.values

array([[  423967, 38332521],
       [  695662, 26448193],
       [  141297, 19651127],
       [  170312, 19552860],
       [  149995, 12882135]])

<a id="section_selection_index"></a> 
### Indexación
[volver a TOC](#section_toc)
    
Vamos a indexar un objeto `DataFrame` con dos índices, uno para las filas y el otro para las columnas.
    
Las formas de indexar que vimos en arrays y es series sirven también para dataframes.

Recordemos cuáles son:
    

####  loc iloc

In [26]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [27]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


####  Boolean masking

In [28]:
data.loc[data.area > 423000, :]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


####  Fancy indexing

In [29]:
data.loc[:, ['pop', 'area']]

Unnamed: 0,pop,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


####  Combinando boolean masking y fancy indexing

In [30]:
data.loc[data.area > 423000, ['pop', 'area']]

Unnamed: 0,pop,area
California,38332521,423967
Texas,26448193,695662


#### Algunas convenciones adicionales para indexar

Hasta ahora vimos cómo indexar un objeto `DataFrame` con un índice sobre filas y otro sobre columnas. 

Podemos tambien indexarlos usando sólo un índice que se interpreta según el detalle que vemos a continuación.


En general, "fancy indexing" refiere a columnas, mientras que "slicing" refiere a filas:

In [31]:
data[['area', 'area']]

Unnamed: 0,area,area.1
California,423967,423967
Texas,695662,695662
New York,141297,141297
Florida,170312,170312
Illinois,149995,149995


In [32]:
data['Florida':'Illinois']

Unnamed: 0,area,pop
Florida,170312,19552860
Illinois,149995,12882135


Slicing puede referir filas por posición, en lugar de índices:

In [33]:
data[1:3]

Unnamed: 0,area,pop
Texas,695662,26448193
New York,141297,19651127


Boolean masking se interpretada por defecto sobre filas:

In [34]:
data[data.area > 423000]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


<a id="section_modify"></a> 
### Moficación de valores
[volver a TOC](#section_toc)

Podemos crear una nueva columna en un objeto DataFrame como el resultado de una operación sobre otros elementos del objeto:

In [35]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Cualquiera de las formas de indexar que vimos puede ser usada para asignar o modificar valores:

In [36]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


---

#### Referencias

Python for Data Analysis. Wes McKinney. Cap 5

https://pandas.pydata.org/docs/getting_started/10min.html
