# Apuntes de la Libreria de `Pandas`

## Introduccion 

Pandas proviene del nombre de panel de datos. Es una libreria de Python que extiende una gran cantidad de recursos o metodos 
disponibles para el analisis de datos y su manipulacion. 

Primeramente observamos estructuras de datos basicas como listas y diccionarios. A primera vista podemos crear tablas sencillas con listas anidadas pero el metodo y la eficacia de este metodo es poco efectiva, en su lugar la libreria de python conocida como Pandas nos brinda una estructura de datos en forma de tabla conocida como DataFrames; tambien podemos encontrar los objetos de tipo Series, estas estructuras nos facilita el manejo de datos pensando en filas y columnas.

## DataFrames y Series

Pandas trae funcionalidades de SQL, R a python permitiendo una manipulacion y filtracion de datos mas eficiente que si se hiciera de una forma con Python puro. La eficiencia es vista desde dos angulos:

* Los Scipts escritos con python puro sueln tener mas lineas de codigo que escribirlos con Pandas.
* Los Scripts escritos en Pandas tiene una menor complejidad temporal, es decir que el tiempo de ejecucion es menor.

Dentro de los objetos de estructuras tabulares de datos estan los **DataFrames** y **Series**:

* **`Series`** son objetos de una dimension que solo almacenan una columna con unico indice para identificar
* **`DataFrames`** son objetos multi-dimensionales tabulares, en otras palabras son estructuras de datos que cuentan con dos indices, uno para las filas y otro para las columnas. Tambien podemos pensar que un **DataFrame** es un objeto con multiples objetos **Serie** dentro.

Esta es una representacion grafica de los **DataFrames** y las **Serie**:

### DataFrame
<img src="data/images/dataframe.jpg" alt="A Dataframe" style="width: 500px;"/>

Como puedes ver esta representacion tiene el indice de las columnas y tiene un indice de filas, cuando extraes una columna de un **DataFrame** extraes un objeto **Serie**. A continuacion las series:

### Serie
<img src="data/images/series.jpg" alt="A Series" style="width: 600px;"/>

Las **Serie** son objetos de una representacion de una sola columna, es decir que solo cuenta con un indice.

## Cargar datos dentro de Pandas

Uno de los formatos mas usadosy populares para manejar datos es usando el formato de **CSV (Command-Separated Values)**, luego podemos manipular esos datos mediante pandas. Esta es una representacion grafica de una tabla:

<img src="data/images/csv.jpg" alt="A CSV file" style="width: 500px;"/>


La forma de importar dentro de un script de python la libreria de pandas es la siguiente:

~~~ python
import pandas as pd ## pd es un alias de convencion
pd.read_csv("path/to/file.csv")
~~~

Vamos a usar el motor de IPython para trabajar con codigo python:

In [19]:
import pandas as pd

df = pd.read_csv("data/watches.csv")

Con ayuda de un metodo llamado **`.head()`** podemos visualizar los primeros 5 colecciones de filas y columnas. El metodo de **`.tail()`** nos muestra los ultimos datos.

In [20]:
df.head()

Unnamed: 0,model,store,condition,engagement,price
0,Caracal,Watches unlimited,New,77.848101,489.0
1,Caracal,National traders,Like new,75.696203,489.0
2,Caracal,National traders,Good,72.025316,490.5
3,Lightning bolt,Super deals,Like new,78.987342,501.0
4,Sand,Super deals,Good,80.126582,502.5


In [3]:
df.tail()

Unnamed: 0,model,store,condition,engagement,price
70,Lightning bolt,National traders,Very Good,80.379747,4239.0
71,Sand,National traders,Good,80.506329,4282.5
72,Lightning bolt,Watches unlimited,Fair,67.088608,4284.0
73,Sand,Super deals,Like new,79.493671,835.5
74,Tempo,Watches unlimited,Good,82.405063,4308.0



Podemos acceder a las distintas columnas mediante el indice del objeto como si trabajaramos con matricez

~~~python
df["price"]
~~~


In [12]:
df["price"] # Accedemos sin traer el indice de la columna

0      489.0
1      489.0
2      490.5
3      501.0
4      502.5
       ...  
70    4239.0
71    4282.5
72    4284.0
73     835.5
74    4308.0
Name: price, Length: 75, dtype: float64

Tambien podemos configurar el indice del dataframe usando el metodo de **`.set_index(["name", "name", "name"])`**, con esto podemos devolver el dataframe pero con los indices que nosotros queramos.

In [21]:
df = df.set_index(["model", "store", "condition"])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,engagement,price
model,store,condition,Unnamed: 3_level_1,Unnamed: 4_level_1
Caracal,Watches unlimited,New,77.848101,489.0
Caracal,National traders,Like new,75.696203,489.0
Caracal,National traders,Good,72.025316,490.5
Lightning bolt,Super deals,Like new,78.987342,501.0
Sand,Super deals,Good,80.126582,502.5


## Grouping your Data

Dentro de la manipulacion de Pandas se puede utilizar la agrupacion segun algunos valores de una columna, por ejemplo podemos separar nuestro DataFrame segun como esten distribuidos los datos de unas columnas. Podemos pensar en este metodo como un ciclo for en el cual itera en los valores de una columna y agrupa las filas segun esos datos. Podemos ver una represnetacion grafica como la siguiente grafica.


<img src="data/images/groupby.jpg" alt="Groupby" style="width: 500px;"/>

Source: Modified from [`pandas` docs](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html).

El objeto que devuelve este metodo es un `DataFrameGroupBy`, este objeto es mas legible y cada item del objeto es una tupla,`.groupby()` funciona mejor cuando lo utilizamos con **funciones de agregacion** (funciones que juntan nuestros datos y los suman) como los metodos de `.mean()` y `.sum()`.

In [22]:
groups = df.groupby(["model", "condition"])
groups["price"].mean()

model           condition
Caracal         Fair         2949.5
                Good         1744.0
                Like new      508.0
                New          1818.5
                Very Good    1832.5
Clepsydra       Fair         4151.5
                Good          604.0
                Like new     1934.0
                New          4162.5
                Very Good    1737.0
Lightning bolt  Fair         4235.5
                Good          655.0
                Like new     1739.5
                New           652.5
                Very Good    1783.5
Sand            Fair         4207.5
                Good         3006.0
                Like new     1884.5
                New           543.5
                Very Good     520.0
Tempo           Fair         4189.5
                Good         4225.5
                Like new     3039.5
                New          2965.0
                Very Good    1854.5
Name: price, dtype: float64

In [17]:
for group in groups: # De esta forma podemos visualizar las tuplas es las que estan guardados los items
    print(group)

(('Caracal', 'Fair'),                                      engagement   price
model   store             condition                    
Caracal Super deals       Fair        82.405063   505.5
        National traders  Fair        69.746835  4135.5
        Watches unlimited Fair        74.303797  4207.5)
(('Caracal', 'Good'),                                      engagement   price
model   store             condition                    
Caracal National traders  Good        72.025316   490.5
        Super deals       Good        81.139241   603.0
        Watches unlimited Good        72.784810  4138.5)
(('Caracal', 'Like new'),                                      engagement  price
model   store             condition                   
Caracal National traders  Like new    75.696203  489.0
        Super deals       Like new    76.202532  517.5
        Watches unlimited Like new    77.088608  517.5)
(('Caracal', 'New'),                                      engagement   price
model   store  

### Exercise 1

Repeat the group by + aggregation above, only this time group by `model` alone instead of `model` and `condition`.

**Answer** : Shown Belown

In [23]:
groups2 = df.groupby(["model"])
groups2["price"].mean()

model
Caracal           1770.5
Clepsydra         2517.8
Lightning bolt    1813.2
Sand              2032.3
Tempo             3254.8
Name: price, dtype: float64