# Table of Contents
 <p><div class="lev1"><a href="#Import-pandas,-numpy,-matplotlib-and-seaborn"><span class="toc-item-num">1&nbsp;&nbsp;</span>Import pandas, numpy, matplotlib and seaborn</a></div><div class="lev1"><a href="#Create-a-Series-object,-access-it's-index-and-cells"><span class="toc-item-num">2&nbsp;&nbsp;</span>Create a Series object, access it's index and cells</a></div><div class="lev1"><a href="#Create-a-DataFrame-object,-access-its-rows,-columns,-indices,-cells"><span class="toc-item-num">3&nbsp;&nbsp;</span>Create a DataFrame object, access its rows, columns, indices, cells</a></div><div class="lev1"><a href="#Data-Import"><span class="toc-item-num">4&nbsp;&nbsp;</span>Data Import</a></div><div class="lev1"><a href="#DataFrame-filtering"><span class="toc-item-num">5&nbsp;&nbsp;</span>DataFrame filtering</a></div><div class="lev1"><a href="#Data-export"><span class="toc-item-num">6&nbsp;&nbsp;</span>Data export</a></div><div class="lev1"><a href="#DataFrame-aggregation"><span class="toc-item-num">7&nbsp;&nbsp;</span>DataFrame aggregation</a></div><div class="lev1"><a href="#Data-Merging"><span class="toc-item-num">8&nbsp;&nbsp;</span>Data Merging</a></div>

Este contenido se basa en la demosración de [10 Minutes Introduction](http://pandas.pydata.org/pandas-docs/stable/10min.html), y el tutorial de [pandas tutorials](http://pandas.pydata.org/pandas-docs/stable/tutorials.html).

Se puede revisar algunas formas rápidas de trabajar en Jupyrer en: [Jupyter keyboard shortcuts](https://www.cheatography.com/weidadeyue/cheat-sheets/jupyter-notebook/).

# Librerías

In [2]:
# this will enable some additional autocompletion using the tab button

%config IPCompleter.greedy=True

In [3]:
import pandas as pd
import numpy as np
import matplotlib as mp # graficos 
import seaborn as sb # estadistica y visualizacion

# Crear series de datos y mostrar

Crea una lista de nombre ```lista``` y luego convierte a un objeto de tipo Serie de nombre ```s```. Imprime su contenido.

| S   |
|-----|
| 1.0 |
| 1.5 |
| 3.0 |
| 4.3 |
| 8.2 |

In [92]:
lista = [1, 1.5, 3, 4.3, 8.2]
s = pd.Series(lista)
print(type(lista))
print(type(s))
print(s)
np.average(s)

<class 'list'>
<class 'pandas.core.series.Series'>
0    1.0
1    1.5
2    3.0
3    4.3
4    8.2
dtype: float64


3.6

# Crea un DataFrame con valores en filas y columnas

Crea un dataframe con la información que se muestra en la siguiente tabla.

|index   |a |b  |c   |d           |e |
|--------|--|---|----|------------|--|
|1       |2 |3  |5.  |caballo     |13|
|2       |3 |1  |1.4 |gato        |11|
|3       |4 |9  |1.2 |perro       |  |
|4       |5 |12 |0.8 |tortuga     |  |
|5       |6 |2  |2.3 |conejoo     |9 |

Luego realiza lo siguiente
* Accede a los valores de alguna fila
* Accede a los valores de alguna(s) celda(s)
* Imprime los índices
* Imprime los nombres de columna
* Accede a los valores de una columna
* Renombra alguna columna
* Extrae y guarda la información en un nuevo dataframe
* Obten una descripción y las estadísticas elementales del dataframe

In [4]:
# Crear la data
df2 = pd.DataFrame({'a' : [2,3,4,5,6],
                    'b' : [3,1,9,12,2],
                    'c' : [5.0, 1.4, 1.2, 0.8, 2.3],
                    'd' : pd.Categorical(['caballo', 'gato', 'perro', 'tortuga', 'conejo']),
                    'e' : [13, 11, None, None, 9]}, index=[1,2,3,4,5])
df2


Unnamed: 0,a,b,c,d,e
1,2,3,5.0,caballo,13.0
2,3,1,1.4,gato,11.0
3,4,9,1.2,perro,
4,5,12,0.8,tortuga,
5,6,2,2.3,conejo,9.0


Para leer cada fila, se utiliza el comando ```iloc``` que itera desde el valor ```0``` hasta el último valor de fila. 

Para agregar el identificador de columna, se puede utilizar el comando ```loc``` que acepta identificadores.

In [5]:
df2.iloc[1, 1]

1

In [6]:
df2.iloc[:,3]

1    caballo
2       gato
3      perro
4    tortuga
5     conejo
Name: d, dtype: category
Categories (5, object): ['caballo', 'conejo', 'gato', 'perro', 'tortuga']

In [7]:
df2.loc[2,'d']

'gato'

In [9]:
# Todas las filas 
for i in range(0, len(df2)):
    print(df2.iloc[i, :])

a          2
b          3
c        5.0
d    caballo
e       13.0
Name: 1, dtype: object
a       3
b       1
c     1.4
d    gato
e    11.0
Name: 2, dtype: object
a        4
b        9
c      1.2
d    perro
e      NaN
Name: 3, dtype: object
a          5
b         12
c        0.8
d    tortuga
e        NaN
Name: 4, dtype: object
a         6
b         2
c       2.3
d    conejo
e       9.0
Name: 5, dtype: object


In [10]:
# Todas las columnas 
for i in range(0, len(df2.columns)):
    print(df2.iloc[:,i])

1    2
2    3
3    4
4    5
5    6
Name: a, dtype: int64
1     3
2     1
3     9
4    12
5     2
Name: b, dtype: int64
1    5.0
2    1.4
3    1.2
4    0.8
5    2.3
Name: c, dtype: float64
1    caballo
2       gato
3      perro
4    tortuga
5     conejo
Name: d, dtype: category
Categories (5, object): ['caballo', 'conejo', 'gato', 'perro', 'tortuga']
1    13.0
2    11.0
3     NaN
4     NaN
5     9.0
Name: e, dtype: float64


In [99]:
# Indices de fila y nombres de columna
print(df2.index)
print(df2.columns)



Int64Index([1, 2, 3, 4, 5], dtype='int64')
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [62]:
# Utilizar nombre de columna para acceder a la data
print(df2.loc[:,'d'])



1    caballo
2       gato
3      perro
4    tortuga
5     conejo
Name: d, dtype: category
Categories (5, object): ['caballo', 'conejo', 'gato', 'perro', 'tortuga']


In [11]:
# Renombrar columnas
df2.columns = ['longitud', 'ancho', 'masa', 'nombre_comun', 'observaciones']
print(df2.columns.tolist())
print(df2)


['longitud', 'ancho', 'masa', 'nombre_comun', 'observaciones']
   longitud  ancho  masa nombre_comun  observaciones
1         2      3   5.0      caballo           13.0
2         3      1   1.4         gato           11.0
3         4      9   1.2        perro            NaN
4         5     12   0.8      tortuga            NaN
5         6      2   2.3       conejo            9.0


In [104]:
# Extraer una seccion de la data y guardar en una nueva dataframe
df_3 = df2.iloc[2:5, 1:4]
print(df_3)



   ancho  masa nombre_comun
3      9   1.2        perro
4     12   0.8      tortuga
5      2   2.3       conejo


In [65]:
# Resumen de datos
df2.describe(percentiles=None, include=None, exclude=None)

Unnamed: 0,longitud,ancho,masa,observaciones
count,5.0,5.0,5.0,3.0
mean,4.0,5.4,2.14,11.0
std,1.581139,4.827007,1.690562,2.0
min,2.0,1.0,0.8,9.0
25%,3.0,2.0,1.2,10.0
50%,4.0,3.0,1.4,11.0
75%,5.0,9.0,2.3,12.0
max,6.0,12.0,5.0,13.0


# Guardar la información

Para exportar se utiliza el comando ```nombredataframe.to_csv()```. Se tiene varios criterios que se pueden definir. 

In [12]:
df2.to_csv('data.csv', header=True, index=True, sep='\t', mode='w')

# Data Import

Importar la información de ```data.csv``` en un dataframe de nombre _df2_:

In [14]:
df2 = pd.read_csv('data.csv', header=0, sep=';')
print(df2)

   Unnamed: 0  longitud  ancho  masa nombre_comun  observaciones
0           1         2      3   5.0      caballo           13.0
1           2         3      1   1.4         gato           11.0
2           3         4      9   1.2        perro            NaN
3           4         5     12   0.8      tortuga            NaN
4           5         6      2   2.3       conejo            9.0


Importar la misma data ahora a un archivo _df3_:

In [115]:
df3 = pd.read_csv('data.csv', header=0, sep=';')
print(df3)

  ,Unnamed: 0,longitud,ancho,masa,nombre_comun,observaciones
0                           0,1,2,3,5.0,caballo,13.0        
1                              1,2,3,1,1.4,gato,11.0        
2                                 2,3,4,9,1.2,perro,        
3                              3,4,5,12,0.8,tortuga,        
4                             4,5,6,2,2.3,conejo,9.0        


# Filtrado de datos en un DataFrame
Usando la data de _df2_:

* Seleccione los valore de la 3er columna que son mayores que 2
* select rows that contain values greater than 2 in the 3rd column or 'cat' in the 4th column
* drop rows with missing data
* drop duplicate rows
* drop 1st column from dataframe
* sort rows by 2nd column
* convert Strings in 4th column to title-case

In [116]:
print(df2.columns.tolist())

['Unnamed: 0', 'Unnamed: 0.1', 'longitud', 'ancho', 'masa', 'nombre_comun', 'observaciones']


In [117]:
# select rows containing values greater than 2 in the 3rd column
# loc[df2['c'] returns series of true and false values which rows to take and which not
df2.loc[df2['masa'] > 2]

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,longitud,ancho,masa,nombre_comun,observaciones
0,0,1,2,3,5.0,caballo,13.0
4,4,5,6,2,2.3,conejo,9.0


In [15]:
# select rows that contain values greater than 2 in the 3rd column or 'cat' in the 4th column
df2.loc[(df2['masa'] > 2) & (df2['nombre_comun'] == 'gato')]


Unnamed: 0.1,Unnamed: 0,longitud,ancho,masa,nombre_comun,observaciones


In [16]:
df2.loc[(df2['masa'] > 0.1) & (df2['nombre_comun'] == 'gato')]


Unnamed: 0.1,Unnamed: 0,longitud,ancho,masa,nombre_comun,observaciones
1,2,3,1,1.4,gato,11.0


In [17]:

# drop rows with missing data
df2.dropna()


Unnamed: 0.1,Unnamed: 0,longitud,ancho,masa,nombre_comun,observaciones
0,1,2,3,5.0,caballo,13.0
1,2,3,1,1.4,gato,11.0
4,5,6,2,2.3,conejo,9.0


In [121]:
# drop duplicate rows
df2.drop_duplicates(subset=None, keep='first', inplace=False)

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,longitud,ancho,masa,nombre_comun,observaciones
0,0,1,2,3,5.0,caballo,13.0
1,1,2,3,1,1.4,gato,11.0
2,2,3,4,9,1.2,perro,
3,3,4,5,12,0.8,tortuga,
4,4,5,6,2,2.3,conejo,9.0


In [123]:
# drop 1st column from dataframe
df2.drop(df2.index[0])



Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,longitud,ancho,masa,nombre_comun,observaciones
2,2,3,4,9,1.2,perro,
3,3,4,5,12,0.8,tortuga,
4,4,5,6,2,2.3,conejo,9.0


In [124]:
# sort rows by 2nd column
df2.sort_values(by=['ancho'])



Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,longitud,ancho,masa,nombre_comun,observaciones
1,1,2,3,1,1.4,gato,11.0
4,4,5,6,2,2.3,conejo,9.0
0,0,1,2,3,5.0,caballo,13.0
2,2,3,4,9,1.2,perro,
3,3,4,5,12,0.8,tortuga,


In [125]:
# convert Strings in 4th column to title-case
df2['nombre_comun'].str.upper()

0    CABALLO
1       GATO
2      PERRO
3    TORTUGA
4     CONEJO
Name: nombre_comun, dtype: object

# Agregación de información a un DataFrame



In [19]:
df4 = pd.read_csv('df4.csv')
print(df4)


    familia  masa nombre_comun  observaciones
0  mamifero   5.0      caballo           13.0
1  mamifero   1.4         gato           11.0
2  mamifero   1.2        perro            NaN
3       pez   0.1       pirana            NaN
4    reptil   2.3    serpiente            9.0
5       pez   1.8      tilapia           10.0
6       pez   0.8        carpa            NaN


In [21]:
# Agregación de valores
df4.groupby('familia').mean().reset_index()

Unnamed: 0,familia,masa,observaciones
0,mamifero,2.533333,12.0
1,pez,0.9,10.0
2,reptil,2.3,9.0


# Union de datos

* Merge df3 with df4 on columns c, d and e. Change columns with same names in a meaningful way.

* Now perform a full outer join of the data, to keep all rows contained in either of the two dataframes.

In [23]:
pd.º
# Merge df3 with df4 inner join
pd.merge(df2, df4, on=['masa', 'nombre_comun', 'observaciones'], how='inner')

Unnamed: 0.1,Unnamed: 0,longitud,ancho,masa,nombre_comun,observaciones,familia
0,1,2,3,5.0,caballo,13.0,mamifero
1,2,3,1,1.4,gato,11.0,mamifero
2,3,4,9,1.2,perro,,mamifero


In [228]:
# Merge df3 with df4 outer join
pd.merge(df3, df4, on=['c', 'd', 'e'], how='outer')

Unnamed: 0,b_x,c,d,e,b_y
0,3.0,5.0,horse,13.0,mammal
1,1.0,1.4,cat,11.0,mammal
2,9.0,1.2,dog,,mammal
3,12.0,0.8,tortoise,,
4,2.0,2.3,rabbit,9.0,
5,,0.1,goldfish,,fish
6,,2.3,snake,9.0,reptile
7,,1.8,koi,10.0,fish
8,,0.8,carp,,fish
