![Logo_unad](https://upload.wikimedia.org/wikipedia/commons/5/5f/Logo_unad.png)

<font size=3 color="midnightblue" face="arial">
<h1 align="center">Escuela de Ciencias Básicas, Tecnología e Ingeniería</h1>
</font>

<font size=3 color="navy" face="arial">
<h1 align="center">ECBTI</h1>
</font>

<font size=2 color="darkorange" face="arial">
<h1 align="center">Curso:</h1>
</font>

<font size=2 color="navy" face="arial">
<h1 align="center">Introducción al lenguaje de programación Python</h1>
</font>

<font size=1 color="darkorange" face="arial">
<h1 align="center">Febrero de 2020</h1>
</font>

<h2 align="center">Sesión 11 - Ecosistema Python - Pandas</h2>

## Instructor:
> <strong> *Carlos Alberto Álvarez Henao, I.C. Ph.D.* </strong> 

## *Pandas*

Es un módulo (biblioteca) en *Python* de código abierto (open source) que proporciona estructuras de datos flexibles y permite trabajar con la información de forma eficiente (gran parte de Pandas está implementado usando `C/Cython` para obtener un buen rendimiento).

Desde [este enlace](http://pandas.pydata.org "Pandas") podrás acceder a la página oficial de Pandas.

Antes de *Pandas*, *Python* se utilizó principalmente para la manipulación y preparación de datos. Tenía muy poca contribución al análisis de datos. *Pandas* resolvió este problema. Usando *Pandas*, podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos: 

- cargar, 


- preparar, 


- manipular, 


- modelar, y 


- analizar.

## Principales características de *Pandas*

- Objeto tipo DataFrame rápido y eficiente con indexación predeterminada y personalizada.

- Herramientas para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.

- Alineación de datos y manejo integrado de datos faltantes.

- Remodelación y pivoteo de conjuntos de datos.

- Etiquetado de corte, indexación y subconjunto de grandes conjuntos de datos.

- Las columnas de una estructura de datos se pueden eliminar o insertar.

- Agrupamiento por datos para agregación y transformaciones.

- Alto rendimiento de fusión y unión de datos.

- Funcionalidad de series de tiempo


### Configuración de *Pandas*

La distribución estándar del no incluye el módulo de `pandas`. Es necesario realizar el procedimiento de instalacion y difiere del ambiente o el sistema operativo empleados.

Si usa el ambiente *[Anaconda](https://anaconda.org/)*, la alternativa más simple es usar el comando:

o empleando *conda*:

### Estructuras de datos en *Pandas*

Ofrece varias estructuras de datos que nos resultarán de mucha utilidad y que vamos a ir viendo poco a poco. Todas las posibles estructuras de datos que ofrece a día de hoy son:


- **`Series`:** Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
 
 
- **`DataFrame`:** Similares a las tablas de bases de datos relacionales como `SQL`.
 
 
- **`Panel`, `Panel4D` y `PanelND`:** Permiten trabajar con más de dos dimensiones. Dado que es algo complejo y poco utilizado trabajar con arrays de más de dos dimensiones no trataremos los paneles en estos tutoriales de introducción a Pandas.

## Dimensionado y Descripción

La mejor manera para pensar sobre estas estructuras de datos es que la estructura de dato de dimension mayor contiene a la estructura de datos de menor dimensión.

`DataFrame` contiene a las `Series`, `Panel` contiene al `DataFrame`


| Data Structure | Dimension | Descripción |
|----------------|:---------:|-------------|
|`Series`          | 1         | Arreglo 1-Dimensional homogéneo de tamaño inmutable |
|`DataFrames`      | 2         | Estructura tabular 2-Dimensional, tamaño mutable con columnas heterogéneas|
|`Panel`           | 3         | Arreglo general 3-Dimensional, tamaño variable|

La construcción y el manejo de dos o más matrices dimensionales es una tarea tediosa, se le impone una carga al usuario para considerar la orientación del conjunto de datos cuando se escriben las funciones. Pero al usar las estructuras de datos de *Pandas*, se reduce el esfuerzo mental del usuario.

- Por ejemplo, con datos tabulares (`DataFrame`), es más útil semánticamente pensar en el índice (las filas) y las columnas, en lugar del eje 0 y el eje 1.

### Mutabilidad

Las estructuras en *Pandas* son de valor mutable (se pueden cambiar), y excepto las `Series`, todas son de tamaño mutables. Los `DataFrames` son los más usados, los `Panel` no se usan tanto.

## Cargando el módulo *Pandas*

In [1]:
import pandas as pd
import numpy as np

## `Series`:

Las series se definen de la siguiente manera:

donde: 

- `data` es el vector de datos 


- `index` (opcional) es el vector de índices que usará la serie. Si los índices son datos de fechas directamente se creará una instancia de una `TimeSeries` en lugar de una instancia de `Series`. Si se omite, por defecto es: `np.arrange(n)`

- `dtype`, tipo de dato. Si se omite, el tipo de dato se infiere.


- `copy`, copia datos, por defecto es `False`.


Veamos un ejemplo de como crear este tipo de contenedor de datos. Primero vamos a crear una `Series` y `Pandas` nos creará índices automáticamente:

#### Creando una `Series` sin datos (vacía, `empty`)

In [2]:
s = pd.Series()
print(s)

Series([], dtype: float64)


#### Creando una *Serie* con datos

Si los datos provienen de un `ndarray`, el índice pasado debe ser de la misma longitud. Si no se pasa ningún índice, el índice predeterminado será `range(n)` donde `n` es la longitud del arreglo, es decir, $[0,1,2, \ldots rango(len(array))-1]$.

In [3]:
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print(s)

0    a
1    b
2    c
3    d
dtype: object


- Obsérvese que no se pasó ningún índice, por lo que, de forma predeterminada, se asignaron los índices que van de `0` a `len(datos) - 1`, es decir, de `0` a `3`.

In [4]:
data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[150,1,"can?",10])
print(s)

150     a
1       b
can?    c
10      d
dtype: object


- Aquí pasamos los valores del índice. Ahora podemos ver los valores indexados de forma personalizada en la salida.

#### Creando una `Series` desde un diccionario

In [8]:
data = {'a' : 0., 'b' : 1.,True : 2.}
s = pd.Series(data)
print(s)

a       0.0
b       1.0
True    2.0
dtype: float64


- La `clave` del diccionario es usada para construir el índice.

In [9]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
print(s)

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64


- El orden del índice se conserva y el elemento faltante se llena con `NaN` (*Not a Number*).

#### Creando una *Serie* desde un escalar

In [10]:
s = pd.Series(5, index=[0, 1, 2, 3])
print(s)

0    5
1    5
2    5
3    5
dtype: int64


#### Accesando a los datos desde la `Series` con la posición

Los datos en una `Series` se pueden acceder de forma similar a un `ndarray`

In [13]:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s['c']) # recupera el primer elemento

3


Ahora, recuperemos los tres primeros elementos en la `Series`. Si se inserta `a:` delante, se extraerán todos los elementos de ese índice en adelante. Si se usan dos parámetros (con `:` entre ellos), se extraerán los elementos entre los dos índices (sin incluir el índice de detención).

In [14]:
print(s[:3]) # recupera los tres primeros elementos

a    1
b    2
c    3
dtype: int64


Recupere los tres últimos elementos

In [15]:
print(s[-3:])

c    3
d    4
e    5
dtype: int64


#### Recuperando los datos usando indexación

Recupere un único elemento usando el valor del índice

In [None]:
print(s['a'])

Recupere múltiples elementos usando una lista de valores de los índices

In [16]:
print(s[['a','c','d']])

a    1
c    3
d    4
dtype: int64


Si una etiqueta no está contenida, se emitirá un mensaje de excepción (error)

In [17]:
print(s['f'])

KeyError: 'f'

  * Vamos a crear una serie con índices generados aleatoriamente (de forma automática)

In [18]:
# serie con índices automáticos
serie = pd.Series(np.random.random(10))
print('Serie con índices automáticos'.format())
print('{}'.format(serie))
print(type(serie))

Serie con índices automáticos
0    0.975859
1    0.638077
2    0.448323
3    0.436982
4    0.291624
5    0.137938
6    0.850435
7    0.554056
8    0.595432
9    0.060182
dtype: float64
<class 'pandas.core.series.Series'>


  * Ahora vamos a crear una serie donde nosotros le vamos a decir los índices que queremos usar (definidos por el usuario)

In [19]:
serie = pd.Series(np.random.randn(4),
                  index = ['itzi','kikolas','dieguete','nicolasete'])
print('Serie con índices definidos')
print('{}'.format(serie))
print(type(serie))

Serie con índices definidos
itzi          0.472222
kikolas      -0.241706
dieguete      0.095845
nicolasete   -0.497357
dtype: float64
<class 'pandas.core.series.Series'>


  * Por último, vamos a crear una serie temporal usando índices que son fechas.

In [22]:
# serie(serie temporal) con índices que son fechas
n = 60
serie = pd.Series(np.random.randn(n),
                  index = pd.date_range('2001/01/01', periods = n))
print('Serie temporal con índices de fechas')
print('{}'.format(serie))
print(type(serie))

Serie temporal con índices de fechas
2001-01-01   -0.644895
2001-01-02    0.565821
2001-01-03   -0.373456
2001-01-04   -1.804044
2001-01-05    0.789562
2001-01-06    1.089039
2001-01-07    0.555049
2001-01-08   -1.117275
2001-01-09    0.951007
2001-01-10    0.570231
2001-01-11   -0.621267
2001-01-12    0.783843
2001-01-13    0.166866
2001-01-14    0.038586
2001-01-15    1.266768
2001-01-16    0.133382
2001-01-17   -0.014160
2001-01-18   -0.519427
2001-01-19    2.213708
2001-01-20    0.779634
2001-01-21    0.803705
2001-01-22   -0.307845
2001-01-23    0.255089
2001-01-24   -0.208658
2001-01-25    0.372216
2001-01-26   -0.019649
2001-01-27    2.962986
2001-01-28   -2.282310
2001-01-29    0.021721
2001-01-30   -0.156564
2001-01-31    1.459959
2001-02-01    0.124899
2001-02-02    0.927461
2001-02-03    1.080677
2001-02-04    0.244661
2001-02-05   -0.293810
2001-02-06   -0.497230
2001-02-07   -0.216070
2001-02-08   -0.036613
2001-02-09    0.539374
2001-02-10    0.462854
2001-02-11   -0.2063

In [None]:
pd.

En los ejemplos anteriores hemos creado las series a partir de un `numpy array` pero las podemos crear a partir de muchas otras cosas: listas, diccionarios, numpy arrays,... Veamos ejemplos:

In [23]:
serie_lista = pd.Series([i*i for i in range(10)])
print('Serie a partir de una lista')
print('{}'.format(serie_lista))

Serie a partir de una lista
0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int64


Serie a partir de un diccionario

In [24]:
dicc = {'cuadrado de {}'.format(i) : i*i for i in range(10)}
serie_dicc = pd.Series(dicc)
print('Serie a partir de un diccionario ')
print('{}'.format(serie_dicc))

Serie a partir de un diccionario 
cuadrado de 0     0
cuadrado de 1     1
cuadrado de 2     4
cuadrado de 3     9
cuadrado de 4    16
cuadrado de 5    25
cuadrado de 6    36
cuadrado de 7    49
cuadrado de 8    64
cuadrado de 9    81
dtype: int64


Serie a partir de valores de otra serie...

In [25]:
serie_serie = pd.Series(serie_dicc.values)
print('Serie a partir de los valores de otra (pandas) serie')
print('{}'.format(serie_serie))

Serie a partir de los valores de otra (pandas) serie
0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int64


Serie a partir de un valor constante ...

In [26]:
serie_cte = pd.Series(-999, index = np.arange(10))
print('Serie a partir de un valor constante')
print('{}'.format(serie_cte))

Serie a partir de un valor constante
0   -999
1   -999
2   -999
3   -999
4   -999
5   -999
6   -999
7   -999
8   -999
9   -999
dtype: int64


Una serie (`Series` o `TimeSeries`) se puede manejar igual que si tuviéramos un `numpy array` de una dimensión o igual que si tuviéramos un diccionario. Vemos ejemplos de esto:

In [27]:
serie = pd.Series(np.random.randn(10),
                  index = ['a','b','c','d','e','f','g','h','i','j'])
print('Serie que vamos a usar en este ejemplo:')
print('{}'.format(serie))

Serie que vamos a usar en este ejemplo:
a   -0.156616
b    0.633206
c    0.131619
d   -1.255318
e   -0.511742
f   -1.823514
g   -2.185952
h    0.228921
i    2.373985
j   -0.557017
dtype: float64


Ejemplos de comportamiento como `numpy array`

In [28]:
print('serie.max() {}'.format(serie.max()))
print('serie.sum() {}'.format(serie.sum()))
print('serie.abs()')
print('{}'.format(serie.abs()))
print('serie[serie > 0]')
print('{}'.format(serie[serie > 0]))
#...
print('\n')

serie.max() 2.373985183706578
serie.sum() -3.1224268780098985
serie.abs()
a    0.156616
b    0.633206
c    0.131619
d    1.255318
e    0.511742
f    1.823514
g    2.185952
h    0.228921
i    2.373985
j    0.557017
dtype: float64
serie[serie > 0]
b    0.633206
c    0.131619
h    0.228921
i    2.373985
dtype: float64




Ejemplos de comportamiento como diccionario

In [29]:
print("Se comporta como un diccionario:")
print("================================")
print("serie['a'] \n {}".format(serie['a']))
print("'a' en la serie \n {}".format('a' in serie))
print("'z' en la serie \n {}".format('z' in serie))

Se comporta como un diccionario:
serie['a'] 
 -0.15661590864805106
'a' en la serie 
 True
'z' en la serie 
 False


Las operaciones están 'vectorizadas' y se hacen elemento a elemento con los elementos alineados en función del índice. 


- Si se hace, por ejemplo, una suma de dos series, si en una de las dos series no existe un elemento, i.e. el índice no existe en la serie, el resultado para ese índice será `NAN`. 


- En resumen, estamos haciendo una unión de los índices y funciona diferente a los `numpy arrays`. 


Se puede ver el esquema en el siguiente ejemplo:

In [None]:
s1 = serie[1:]
s2 = serie[:-1]
suma = s1 + s2
print(' s1 s2 s1 + s2')
print('------------------ ------------------ ------------------')
for clave in sorted(set(list(s1.keys()) + list(s2.keys()))):
    print('{0:1} {1:20} + {0:1} {2:20} = {0:1} {3:20}'.format(clave,
                                                          s1.get(clave),
                                                          s2.get(clave),
                                                          suma.get(clave)))

En la anterior línea de código se usa el método `get` para no obtener un `KeyError`, como sí obtendría si se usa, p.e., `s1['a']`

## `DataFrame`

Un `DataFrame` es una estructura 2-Dimensional, es decir, los datos se alinean en forma tabular por filas y columnas.

### Características del`DataFrame`

- Las columnas pueden ser de diferente tipo.

- Tamaño cambiable.

- Ejes etiquetados (filas y columnas).

- Se pueden desarrollar operaciones aritméticas en filas y columnas.

### `pandas.DataFrame`

una estructura de `DataFrame` puede crearse usando el siguiente constructor:

Los parámetros de este constructor son los siguientes:

- **`data`:** Pueden ser de diferentes formas como `ndarray`, `Series`, `map`, `lists`, `dict`, constantes o también otro `DataFrame`.

- **`index`:** para las etiquetas de fila, el índice que se utilizará para la trama resultante es dado de forma opcional por defecto por `np.arange(n)`, si no se especifica ningún índice.

- **`columns`:** para las etiquetas de columnas, la sintaxis por defecto es `np.arange(n)`. Esto es así si no se especifíca ningún índice.

- **`dtype`:** tipo de dato para cada columna

- **`copy`:*** Es usado para copiar los datos. Por defecto es `False`.

#### Creando un `DataFrame`

Un `DataFrame` en Pandas se puede crear usando diferentes entradas, como: `listas`, `diccionarios`, `Series`, `ndarrays`, otros `DataFrame`.

#### Creando un `DataFrame`
vacío

In [30]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


#### Creando un `DataFrame` desde listas

In [31]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [35]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print(df)

     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13


In [36]:
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

     Name   Age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0


#### Creando un `DataFrame` desde diccionarios de `ndarrays`/`lists`

Todos los `ndarrays` deben ser de la misma longitud. Si se pasa el índice, entonces la longitud del índice debe ser igual a la longitud de las matrices.

Si no se pasa ningún índice, de manera predeterminada, el índice será `range(n)`, donde `n` es la longitud del arreglo.

In [37]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

    Name  Age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42


- Observe los valores $0,1,2,3$. Son el índice predeterminado asignado a cada uno usando la función `range(n)`.

Ahora crearemos un `DataFrame` indexado usando `arrays`

In [38]:
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print(df)

        Name  Age
rank1    Tom   28
rank2   Jack   34
rank3  Steve   29
rank4  Ricky   42


#### Creando un `DataFrame` desde listas de diccionarios

Se puede pasar una lista de diccionarios como datos de entrada para crear un `DataFrame`. Las `claves` serán usadas por defecto como los nombres de las columnas.

In [39]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


- un `NaN` aparece en donde no hay datos.

El siguiente ejemplo muestra como se crea un `DataFrame` pasando una lista de diccionarios y los índices de las filas:

In [40]:
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

        a   b     c
first   1   2   NaN
second  5  10  20.0


El siguiente ejemplo muestra como se crea un `DataFrame` pasando una lista de diccionarios, y los índices de las filas y columnas:

In [41]:
# Con dos índices de columnas, los valores son iguales que las claves del diccionario
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

# Con dos índices de columna y con un índice con otro nombre
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df1)
print(df2)

        a   b
first   1   2
second  5  10
        a  b1
first   1 NaN
second  5 NaN


- Observe que el `DataFrame` `df2`  se crea con un índice de columna que no es la clave del diccionario; por lo tanto, se generan los `NaN` en su lugar. Mientras que, `df1` se crea con índices de columnas iguales a las claves del diccionario, por lo que no se agrega `NaN`.

#### Creando un `DataFrame` desde un diccionario de `Series`

Se puede pasar una Serie de diccionarios para formar un `DataFrame`. El índice resultante es la unión de todos los índices de serie pasados.

In [44]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


- para la serie `one`, no hay una etiqueta `'d'` pasada, pero en el resultado, para la etiqueta `d`, se agrega `NaN`.

Ahora vamos a entender la selección, adición y eliminación de columnas a través de ejemplos.

#### Selección de columna

In [45]:
df = pd.DataFrame(d)
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


#### Adición de columna

In [46]:
df = pd.DataFrame(d)

# Adding a new column to an existing DataFrame object with column label by passing new series

print ("Adicionando una nueva columna pasando como Serie:, \n")
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df,'\n')

print ("Adicionando una nueva columna usando las columnas existentes en el DataFrame:\n")
df['four']=df['one']+df['three']

print(df)

Adicionando una nueva columna pasando como Serie:, 

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN 

Adicionando una nueva columna usando las columnas existentes en el DataFrame:

   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3   30.0  33.0
d  NaN    4    NaN   NaN


#### Borrado de columna

In [47]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:\n")
print(df, '\n')

# using del function
print ("Deleting the first column using DEL function:\n")
del df['one']
print(df,'\n')

# using pop function
print ("Deleting another column using POP function:\n")
df.pop('two')
print(df)

Our dataframe is:

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN 

Deleting the first column using DEL function:

   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN 

Deleting another column using POP function:

   three
a   10.0
b   20.0
c   30.0
d    NaN


### Selección, Adición y Borrado de fila

#### Selección por etiqueta

Las filas se pueden seleccionar pasando la etiqueta de fila por la función `loc`

In [51]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)
print(df.loc['b'])

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
one    2.0
two    2.0
Name: b, dtype: float64


- El resultado es una serie con etiquetas como nombres de columna del `DataFrame`. Y, el Nombre de la serie es la etiqueta con la que se recupera.

#### Selección por ubicación entera

Las filas se pueden seleccionar pasando la ubicación entera a una función `iloc`.

In [52]:
df = pd.DataFrame(d)
print(df.iloc[2])

one    3.0
two    3.0
Name: c, dtype: float64


#### Porcion de fila

Múltiples filas se pueden seleccionar usando el operador `:`

In [53]:
df = pd.DataFrame(d)
print(df[2:4])

   one  two
c  3.0    3
d  NaN    4


#### Adición de filas

Adicionar nuevas filas al `DataFrame` usando la función `append`. Esta función adiciona las filas al final.

In [55]:
df = pd.DataFrame([[1, 2], [3, 4]])
df2 = pd.DataFrame([[5, 6], [7, 8]])

print(df)

df = df.append(df2)
print(df)

   0  1
0  1  2
1  3  4
   0  1
0  1  2
1  3  4
0  5  6
1  7  8


#### Borrado de filas

Use la etiqueta de índice para eliminar o cortar filas de un `DataFrame`. Si la etiqueta está duplicada, se eliminarán varias filas.

Si observa, en el ejemplo anterior, las etiquetas están duplicadas. Cortemos una etiqueta y veamos cuántas filas se descartarán.

In [57]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print(df)
# Drop rows with label 0
df = df.drop(1)

print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8
   a  b
0  1  2
0  5  6


- En el ejemplo anterior se quitaron dos filas porque éstas dos contenían la misma etiqueta `0`.

### Lectura / Escritura en Pandas

Una de las grandes capacidades de *`Pandas`* es la potencia que aporta a lo hora de leer y/o escribir archivos de datos.

- Pandas es capaz de leer datos de archivos `csv`, `excel`, `HDF5`, `sql`, `json`, `html`,...

Si se emplean datos de terceros, que pueden provenir de muy diversas fuentes, una de las partes más tediosas del trabajo será tener los datos listos para empezar a trabajar: Limpiar huecos, poner fechas en formato usable, saltarse cabeceros,...

Sin duda, una de las funciones que más se usarán será `read_csv()` que permite una gran flexibilidad a la hora de leer un archivo de texto plano.

In [None]:
help(pd.read_csv)

En [este enlace](http://pandas.pydata.org/pandas-docs/stable/io.html "pandas docs") se pueden encontrar todos los posibles formatos con los que Pandas trabaja:

Cada uno de estos métodos de lectura de determinados formatos (`read_NombreFormato`) tiene infinidad de parámetros que se pueden ver en la documentación y que no vamos a explicar por lo extensísima que seria esta explicación. 

Para la mayoría de los casos que nos vamos a encontrar los parámetros serían los siguientes:

Básicamente hay que pasarle el archivo a leer, cual es su separador, si la primera linea del archivo contiene el nombre de las columnas y en el caso de que no las tenga pasarle en `names` el nombre de las columnas. 


Veamos un ejemplo de un dataset del  cómo leeriamos el archivo con los datos de los usuarios, siendo el contenido de las 10 primeras lineas el siguiente:

In [59]:
# Load users info
userHeader = ['ID', 'Sexo', 'Edad', 'Ocupacion', 'PBOX']
users = pd.read_csv('Datasets/users.txt', engine='python', sep='::', header=None, names=userHeader)

# print 5 first users
print ('# 10 primeros usuarios: \n%s' % users[:100])

# 10 primeros usuarios: 
     ID Sexo  Edad  Ocupacion   PBOX
0     1    F     1         10  48067
1     2    M    56         16  70072
2     3    M    25         15  55117
3     4    M    45          7  02460
4     5    M    25         20  55455
5     6    F    50          9  55117
6     7    M    35          1  06810
7     8    M    25         12  11413
8     9    M    25         17  61614
9    10    F    35          1  95370
10   11    F    25          1  04093
11   12    M    25         12  32793
12   13    M    45          1  93304
13   14    M    35          0  60126
14   15    M    25          7  22903
15   16    F    35          0  20670
16   17    M    50          1  95350
17   18    F    18          3  95825
18   19    M     1         10  48073
19   20    M    25         14  55113
20   21    M    18         16  99353
21   22    M    18         15  53706
22   23    M    35          0  90049
23   24    F    25          7  10023
24   25    M    18          4  01609
25   26    M 

Para escribir un `DataFrame` en un archivo de texto se pueden utilizar los [método de escritura](http://pandas.pydata.org/pandas-docs/stable/io.html) para escribirlos en el formato que se quiera. 


- Por ejemplo si utilizamos el método `to_csv()` nos escribirá el `DataFrame` en este formato estandar que separa los campos por comas; pero por ejemplo, podemos decirle al método que en vez de que utilice como separador una coma, que utilice por ejemplo un guión. 


Si queremos escribir en un archivo el `DataFrame` `users` con estas características lo podemos hacer de la siguiente manera:

In [60]:
users.to_csv('Datasets/MyUsers3.txt', sep='-')

### Merge

Una funcionalidad muy potente que ofrece Pandas es la de poder juntar, `merge` (en bases de datos sería hacer un `JOIN`) datos siempre y cuando este sea posible. 


En el ejemplo que estamos haciendo con el dataset podemos ver esta funcionalidad de forma muy intuitiva, ya que los datos de este data set se han obtenido a partir de una bases de datos relacional. 


Veamos a continuación como hacer un `JOIN` o un `merge` de los archivos `users.txt` y `ratings.txt` a partir del `user_id`:

In [61]:
# Load users info
userHeader = ['user_id', 'gender', 'age', 'ocupation', 'zip']
users = pd.read_csv('Datasets/users.txt', engine='python', sep='::', header=None, names=userHeader)
# Load ratings
ratingHeader = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('Datasets/ratings.txt', engine='python', sep='::', header=None, names=ratingHeader)

# Merge tables users + ratings by user_id field
merger_ratings_users = pd.merge(users, ratings)
print('%s' % merger_ratings_users[:10])

   user_id gender  age  ocupation    zip  movie_id  rating  timestamp
0        1      F    1         10  48067      1193       5  978300760
1        1      F    1         10  48067       661       3  978302109
2        1      F    1         10  48067       914       3  978301968
3        1      F    1         10  48067      3408       4  978300275
4        1      F    1         10  48067      2355       5  978824291
5        1      F    1         10  48067      1197       3  978302268
6        1      F    1         10  48067      1287       5  978302039
7        1      F    1         10  48067      2804       5  978300719
8        1      F    1         10  48067       594       4  978302268
9        1      F    1         10  48067       919       4  978301368


De la misma forma que hemos hecho el `JOIN` de los usuarios y los votos, podemos hacer lo mismo añadiendo también los datos relativos a las películas:

In [62]:
userHeader = ['user_id', 'gender', 'age', 'ocupation', 'zip']
users = pd.read_csv('Datasets/users.txt', engine='python', sep='::', header=None, names=userHeader)

movieHeader = ['movie_id', 'title', 'genders']
movies = pd.read_csv('Datasets/movies.txt', engine='python', sep='::', header=None, names=movieHeader)

ratingHeader = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('Datasets/ratings.txt', engine='python', sep='::', header=None, names=ratingHeader)

# Merge data
#mergeRatings = pd.merge(pd.merge(users, ratings), movies)
mergeRatings = pd.merge(merger_ratings_users, movies)

Si quisiésemos ver por ejemplo un elemento de este nuevo `JOIN` creado (por ejemplo la posición 1000), lo podríamos hacer de la siguiente forma:

In [63]:
info1000 = mergeRatings.loc[1000]
print('Info of 1000 position of the table: \n%s' % info1000[:1000])

Info of 1000 position of the table: 
user_id                                        3612
gender                                            M
age                                              25
ocupation                                        14
zip                                           29609
movie_id                                       1193
rating                                            5
timestamp                                 966605873
title        One Flew Over the Cuckoo's Nest (1975)
genders                                       Drama
Name: 1000, dtype: object


### Trabajando con Datos, Indexación, Selección

¿Cómo podemos seleccionar, añadir, eliminar, mover,..., columnas, filas,...?


- Para seleccionar una columna solo hay que usar el nombre de la columna y pasarlo como si fuera un diccionario (o un atributo).


- Para añadir una columna simplemente hay que usar un nombre de columna no existente y pasarle los valores para esa columna.


- Para eliminar una columna podemos usar `del` o el método `pop` del `DataFrame`.


- Para mover una columna podemos usar una combinación de las metodologías anteriores.


Como ejemplo, vamos crear un `DataFrame`con datos aleatorios y a seleccionar los valores de una columna:

In [70]:
df = pd.DataFrame(np.random.randn(5,3),
                  index = ['primero','segundo','tercero','cuarto','quinto'],
                  columns = ['velocidad', 'temperatura','presion'])
print(df)
print(df['velocidad'])
print(df.velocidad)

         velocidad  temperatura   presion
primero   1.657614     1.106117 -0.465712
segundo   0.024792    -0.569864 -0.131773
tercero  -0.245517    -0.821585  0.693599
cuarto   -0.642441    -0.803830  1.145184
quinto    0.491180    -1.159043 -0.627036
primero    1.657614
segundo    0.024792
tercero   -0.245517
cuarto    -0.642441
quinto     0.491180
Name: velocidad, dtype: float64
primero    1.657614
segundo    0.024792
tercero   -0.245517
cuarto    -0.642441
quinto     0.491180
Name: velocidad, dtype: float64


Para acceder a la columna `velocidad` lo podemos hacer de dos formas. 


- O bien usando el nombre de la columna como si fuera una clave de un diccionario 


- O bien usando el nombre de la columna como si fuera un atributo. 


En el caso de que los nombres de las columnas sean números, la segunda opción no podríais usarla...


Vamos a añadir una columna nueva al `DataFrame`. Es algo tan sencillo como usar un nombre de columna no existente y pasarle los datos:

In [71]:
df['velocidad_maxima'] = np.random.randn(df.shape[0])
print(df)

         velocidad  temperatura   presion  velocidad_maxima
primero   1.657614     1.106117 -0.465712          0.522077
segundo   0.024792    -0.569864 -0.131773          0.990787
tercero  -0.245517    -0.821585  0.693599          0.927056
cuarto   -0.642441    -0.803830  1.145184         -0.147118
quinto    0.491180    -1.159043 -0.627036         -0.016672


Pero qué pasa si quiero añadir la columna en un lugar específico. Para ello podemos usar el método `insert` (y de paso vemos como podemos borrar una columna):

**Forma 1:**

- Borramos la columna 'velocidad_maxima' que está al final del df usando `del`


- Colocamos la columna eliminada en la posición que especifiquemos

In [72]:
print(df)
columna = df['velocidad_maxima']
del df['velocidad_maxima']
df.insert(1, 'velocidad_maxima', columna)
print(df)

         velocidad  temperatura   presion  velocidad_maxima
primero   1.657614     1.106117 -0.465712          0.522077
segundo   0.024792    -0.569864 -0.131773          0.990787
tercero  -0.245517    -0.821585  0.693599          0.927056
cuarto   -0.642441    -0.803830  1.145184         -0.147118
quinto    0.491180    -1.159043 -0.627036         -0.016672
         velocidad  velocidad_maxima  temperatura   presion
primero   1.657614          0.522077     1.106117 -0.465712
segundo   0.024792          0.990787    -0.569864 -0.131773
tercero  -0.245517          0.927056    -0.821585  0.693599
cuarto   -0.642441         -0.147118    -0.803830  1.145184
quinto    0.491180         -0.016672    -1.159043 -0.627036


**Forma 2:** Usando el método `pop`: borramos usando el método `pop` y añadimos la columna borrada en la última posición de nuevo.

In [73]:
print(df)
columna = df.pop('velocidad_maxima')
print(df)
#print(columna)
df.insert(3, 'velocidad_maxima', columna)
print(df)

         velocidad  velocidad_maxima  temperatura   presion
primero   1.657614          0.522077     1.106117 -0.465712
segundo   0.024792          0.990787    -0.569864 -0.131773
tercero  -0.245517          0.927056    -0.821585  0.693599
cuarto   -0.642441         -0.147118    -0.803830  1.145184
quinto    0.491180         -0.016672    -1.159043 -0.627036
         velocidad  temperatura   presion
primero   1.657614     1.106117 -0.465712
segundo   0.024792    -0.569864 -0.131773
tercero  -0.245517    -0.821585  0.693599
cuarto   -0.642441    -0.803830  1.145184
quinto    0.491180    -1.159043 -0.627036
         velocidad  temperatura   presion  velocidad_maxima
primero   1.657614     1.106117 -0.465712          0.522077
segundo   0.024792    -0.569864 -0.131773          0.990787
tercero  -0.245517    -0.821585  0.693599          0.927056
cuarto   -0.642441    -0.803830  1.145184         -0.147118
quinto    0.491180    -1.159043 -0.627036         -0.016672


Para seleccionar datos concretos de un `DataFrame` podemos usar el índice, una rebanada (*slicing*), valores booleanos, la columna,...


- Seleccionamos la columna de velocidades:

In [75]:
print(df.velocidad)

primero    1.657614
segundo    0.024792
tercero   -0.245517
cuarto    -0.642441
quinto     0.491180
Name: velocidad, dtype: float64


- Seleccionamos todas las columnas cuyo índice es igual a tercero:

In [None]:
print(df.xs('tercero'))

- Seleccionamos todas las columnas cuyo índice está entre tercero y quinto (en este caso los índices son inclusivos)

In [None]:
print(df.loc['tercero':'quinto'])

- Seleccionamos todos los valores de velocidad donde la temperatura > 0

In [None]:
print(df['velocidad'][df['temperatura']>0])

Seleccionamos todos los valores de una columna por índice usando una rebanada (`slice`) de enteros.


- En este caso el límite superior de la rebanada no se incluye (Python tradicional)

In [None]:
print(df.iloc[1:3])

- Seleccionamos filas y columnas

In [None]:
print(df.iloc[1:3, ['velocidad', 'presion']])

In [None]:
help(df.ix)