<h1 align="center">Pensamiento Algorítmico</h1>
<h1 align="center">Módulo 12: Ecosistema Python - Pandas</h1>
<h1 align="center">2024/01</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

*** 
|[![Gmail](https://img.shields.io/badge/Gmail-D14836?style=plastic&logo=gmail&logoColor=white)](mailto:carlosalvarezh@gmail.com)|<carlosalvarezh@gmail.com>|[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/Pensamiento_Algoritmico/blob/main/Modulo12_EcosistemaPython_Pandas.ipynb)
|-:|:-|--:|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/Curso_CEC_EAFIT/blob/main/images/CCLogoColorPop1.gif?raw=true" width="25">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

***

## *Pandas*

Es un módulo (biblioteca) en *Python* de código abierto (open source) que proporciona estructuras de datos flexibles y permite trabajar con la información de forma eficiente (gran parte de Pandas está implementado usando `C/Cython` para obtener un buen rendimiento).

Desde [este enlace](http://pandas.pydata.org "Pandas") podrás acceder a la página oficial de Pandas.

Antes de *Pandas*, *Python* se utilizó principalmente para la manipulación y preparación de datos. Tenía muy poca contribución al análisis de datos. *Pandas* resolvió este problema. Usando *Pandas*, podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos: 

- cargar, 


- preparar, 


- manipular, 


- modelar, y 


- analizar.

[Volver a la Tabla de Contenido](#TOC)

## Principales características de *Pandas*

- Objeto tipo DataFrame rápido y eficiente con indexación predeterminada y personalizada.

- Herramientas para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.

- Alineación de datos y manejo integrado de datos faltantes.

- Remodelación y pivoteo de conjuntos de datos.

- Etiquetado de corte, indexación y subconjunto de grandes conjuntos de datos.

- Las columnas de una estructura de datos se pueden eliminar o insertar.

- Agrupamiento por datos para agregación y transformaciones.

- Alto rendimiento de fusión y unión de datos.

- Funcionalidad de series de tiempo


[Volver a la Tabla de Contenido](#TOC)

### Configuración de *Pandas*

La distribución estándar del no incluye el módulo de `pandas`. Es necesario realizar el procedimiento de instalacion y difiere del ambiente o el sistema operativo empleados.

Si usa el ambiente *[Anaconda](https://anaconda.org/)*, la alternativa más simple es usar el comando:

o empleando *conda*:

[Volver a la Tabla de Contenido](#TOC)

### Estructuras de datos en *Pandas*

Ofrece varias estructuras de datos que nos resultarán de mucha utilidad y que vamos a ir viendo poco a poco. Todas las posibles estructuras de datos que ofrece a día de hoy son:


- **`Series`:** Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
 
 
- **`DataFrame`:** Similares a las tablas de bases de datos relacionales como `SQL`.
 
 
- **`Panel`, `Panel4D` y `PanelND`:** Permiten trabajar con más de dos dimensiones. Dado que es algo complejo y poco utilizado trabajar con arrays de más de dos dimensiones no trataremos los paneles en estos tutoriales de introducción a Pandas.

[Volver a la Tabla de Contenido](#TOC)

### Dimensionado y Descripción

La mejor manera para pensar sobre estas estructuras de datos es que la estructura de dato de dimension mayor contiene a la estructura de datos de menor dimensión.

`DataFrame` contiene a las `Series`, `Panel` contiene al `DataFrame`


| Data Structure | Dimension | Descripción |
|----------------|:---------:|-------------|
|`Series`          | 1         | Arreglo 1-Dimensional homogéneo de tamaño inmutable |
|`DataFrames`      | 2         | Estructura tabular 2-Dimensional, tamaño mutable con columnas heterogéneas|
|`Panel`           | 3         | Arreglo general 3-Dimensional, tamaño variable|

La construcción y el manejo de dos o más matrices dimensionales es una tarea tediosa, se le impone una carga al usuario para considerar la orientación del conjunto de datos cuando se escriben las funciones. Pero al usar las estructuras de datos de *Pandas*, se reduce el esfuerzo mental del usuario.

- Por ejemplo, con datos tabulares (`DataFrame`), es más útil semánticamente pensar en el índice (las filas) y las columnas, en lugar del eje 0 y el eje 1.

[Volver a la Tabla de Contenido](#TOC)

### Mutabilidad

Las estructuras en *Pandas* son de valor mutable (se pueden cambiar), y excepto las `Series`, todas son de tamaño mutables. Los `DataFrames` son los más usados, los `Panel` no se usan tanto.

[Volver a la Tabla de Contenido](#TOC)

### Cargando el módulo *Pandas*

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

[Volver a la Tabla de Contenido](#TOC)

## `Series`:

Las series se definen de la siguiente manera:

donde: 

- `data` es el vector de datos 


- `index` (opcional) es el vector de índices que usará la serie. Si los índices son datos de fechas directamente se creará una instancia de una `TimeSeries` en lugar de una instancia de `Series`. Si se omite, por defecto es: `np.arrange(n)`

- `dtype`, tipo de dato. Si se omite, el tipo de dato se infiere.


- `copy`, copia datos, por defecto es `False`.


Veamos un ejemplo de como crear este tipo de contenedor de datos. Primero vamos a crear una `Series` y `Pandas` nos creará índices automáticamente:

[Volver a la Tabla de Contenido](#TOC)

### Creando una `Series` sin datos (vacía, `empty`)

In [None]:
series = pd.Series()
print(series)

[Volver a la Tabla de Contenido](#TOC)

### Creando una *Serie* con datos

Si los datos provienen de un `ndarray`, el índice pasado debe ser de la misma longitud. Si no se pasa ningún índice, el índice predeterminado será `range(n)` donde `n` es la longitud del arreglo, es decir, $[0,1,2, \ldots rango(len(array))-1]$.

In [None]:
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print(s)

- Obsérvese que no se pasó ningún índice, por lo que, de forma predeterminada, se asignaron los índices que van de `0` a `len(datos) - 1`, es decir, de `0` a `3`.

In [None]:
indices = ['a','b','c','d']
data = ["Carlos","Alberto","alvarez","henao"]
#indices = [v for v in range(len(data))]

s = pd.Series(data,index=indices)

print(s)

- Aquí pasamos los valores del índice. Ahora podemos ver los valores indexados de forma personalizada en la salida.

[Volver a la Tabla de Contenido](#TOC)

### Creando una `Series` desde un diccionario

In [None]:
data = {'a' : 0., 'b' : 1.,'c' : 2.}
s = pd.Series(data)
print(s)

- La `clave` del diccionario es usada para construir el índice.

In [None]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
print(s)

- El orden del índice se conserva y el elemento faltante se llena con `NaN` (*Not a Number*).

[Volver a la Tabla de Contenido](#TOC)

### Creando una *Series* desde un escalar

In [None]:
indices = [v for v in range(10)]
data = 0

s = pd.Series(data, indices)
print(s)

[Volver a la Tabla de Contenido](#TOC)

### Accesando a los datos desde la `Series` con la posición

Los datos en una `Series` se pueden acceder de forma similar a un `ndarray`

In [None]:
import pandas as pd

data = [v for v in range(12)]
indices = ['a','b','e','d','i', 'c', 'l', 'o', 'p', 'ñ', 't', 'u']

s = pd.Series(data,indices)
print(s['c']) # recupera el primer elemento

Ahora, recuperemos los tres primeros elementos en la `Series`. Si se inserta `a:` delante, se extraerán todos los elementos de ese índice en adelante. Si se usan dos parámetros (con `:` entre ellos), se extraerán los elementos entre los dos índices (sin incluir el índice de detención).

In [None]:
print(s[:'d']) # recupera los tres primeros elementos

Recupere los tres últimos elementos

In [None]:
print(s[-3:])

[Volver a la Tabla de Contenido](#TOC)

### Recuperando los datos usando indexación

Recupere un único elemento usando el valor del índice

In [None]:
print(s['a'])

Recupere múltiples elementos usando una lista de valores de los índices

In [None]:
print(s[['a','e','i']])

Si una etiqueta no está contenida, se emitirá un mensaje de excepción (error)

In [None]:
print(s['f'])

  * Vamos a crear una serie con índices generados aleatoriamente (de forma automática)

In [None]:
import numpy as np
# serie con índices automáticos
serie = pd.Series(np.random.random(10))
print('Serie con índices automáticos'.format())
print('{}'.format(serie))
print(type(serie))

  * Ahora vamos a crear una serie donde nosotros le vamos a decir los índices que queremos usar (definidos por el usuario)

In [None]:
serie = pd.Series(np.random.randn(4),
                  index = np.random.randn(4))
print('Serie con índices definidos')
print('{}'.format(serie))
print(type(serie))

  * Por último, vamos a crear una serie temporal usando índices que son fechas.

In [None]:
# serie(serie temporal) con índices que son fechas
n = 60
serie = pd.Series(np.random.randn(n),
                  index = pd.date_range('2001/01/01', periods = n))
print('Serie temporal con índices de fechas')
print('{}'.format(serie))
print(type(serie))

In [None]:
pd.

En los ejemplos anteriores hemos creado las series a partir de un `numpy array` pero las podemos crear a partir de muchas otras cosas: listas, diccionarios, numpy arrays,... Veamos ejemplos:

Serie a partir de una lista...

In [None]:
serie_lista = pd.Series([i*i for i in range(10)])
print('Serie a partir de una lista')
print('{}'.format(serie_lista))

Serie a partir de un diccionario...

In [None]:
dicc = {'{}^2 = '.format(i) : i*i for i in range(10)}
serie_dicc = pd.Series(dicc)
print('Serie a partir de un diccionario ')
print('{}'.format(serie_dicc))

Serie a partir de valores de otra serie...

In [None]:
serie_serie = pd.Series(serie_dicc.values)
print('Serie a partir de los valores de otra (pandas) serie')
print('{}'.format(serie_serie))

Serie a partir de un valor constante...

In [None]:
serie_cte = pd.Series("NaN", index = np.arange(10))
print('Serie a partir de un valor constante')
print('{}'.format(serie_cte))

Una serie (`Series` o `TimeSeries`) se puede manejar igual que si tuviéramos un `numpy array` de una dimensión o igual que si tuviéramos un diccionario. Vemos ejemplos de esto:

In [None]:
serie = pd.Series(np.random.randn(10),
                  index = ['a','b','c','d','e','f','g','h','i','j'])
print('Serie que vamos a usar en este ejemplo:')
print('{}'.format(serie))

Ejemplos de comportamiento como `numpy array`

In [None]:
print('serie.max() {}'.format(serie.max()))
print('serie.sum() {}'.format(serie.sum()))
print('serie.abs()')
print('{}'.format(serie.abs()))
print('serie[serie > 0]')
print('{}'.format(serie[serie > 1]))
#...
print('\n')

Ejemplos de comportamiento como diccionario

In [None]:
print("Se comporta como un diccionario:")
print("================================")
print("serie['a'] \n {}".format(serie['a']))
print("'a' en la serie \n {}".format('a' in serie))
print("'z' en la serie \n {}".format('z' in serie))

Las operaciones están 'vectorizadas' y se hacen elemento a elemento con los elementos alineados en función del índice. 


- Si se hace, por ejemplo, una suma de dos series, si en una de las dos series no existe un elemento, i.e. el índice no existe en la serie, el resultado para ese índice será `NAN`. 


- En resumen, estamos haciendo una unión de los índices y funciona diferente a los `numpy arrays`. 


Se puede ver el esquema en el siguiente ejemplo:

In [None]:
s1 = serie[1:]
s2 = serie[:-1]
suma = s1 + s2
print(' s1 s2 s1 + s2')
print('------------------ ------------------ ------------------')
for clave in sorted(set(list(s1.keys()) + list(s2.keys()))):
    print('{0:1} {1:20} + {0:1} {2:20} = {0:1} {3:20}'.format(clave,
                                                          s1.get(clave),
                                                          s2.get(clave),
                                                          suma.get(clave)))

En la anterior línea de código se usa el método `get` para no obtener un `KeyError`, como sí obtendría si se usa, p.e., `s1['a']`

[Volver a la Tabla de Contenido](#TOC)

## `DataFrame`

Un `DataFrame` es una estructura 2-Dimensional, es decir, los datos se alinean en forma tabular por filas y columnas.

[Volver a la Tabla de Contenido](#TOC)

### Características del`DataFrame`

- Las columnas pueden ser de diferente tipo.

- Tamaño cambiable.

- Ejes etiquetados (filas y columnas).

- Se pueden desarrollar operaciones aritméticas en filas y columnas.

[Volver a la Tabla de Contenido](#TOC)

### `pandas.DataFrame`

una estructura de `DataFrame` puede crearse usando el siguiente constructor:

Los parámetros de este constructor son los siguientes:

- **`data`:** Pueden ser de diferentes formas como `ndarray`, `Series`, `map`, `lists`, `dict`, constantes o también otro `DataFrame`.

- **`index`:** para las etiquetas de fila, el índice que se utilizará para la trama resultante es dado de forma opcional por defecto por `np.arange(n)`, si no se especifica ningún índice.

- **`columns`:** para las etiquetas de columnas, la sintaxis por defecto es `np.arange(n)`. Esto es así si no se especifíca ningún índice.

- **`dtype`:** tipo de dato para cada columna

- **`copy`:*** Es usado para copiar los datos. Por defecto es `False`.

[Volver a la Tabla de Contenido](#TOC)

### Creando un `DataFrame`...

Un `DataFrame` en Pandas se puede crear usando diferentes entradas, como: `listas`, `diccionarios`, `Series`, `ndarrays`, otros `DataFrame`.

***vacío...***

In [None]:
df = pd.DataFrame()
print(df)

In [None]:
s = pd.Series()
print(s)

***desde listas...***

In [None]:
data = [[1,2, 3],[4, 5, 6],[7,8,9]]
df = pd.DataFrame(data)
print(df)

In [None]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
columnas=['Name','Age']
df = pd.DataFrame(data,columns = columnas)
print(df)

In [None]:
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

***desde diccionarios de `ndarrays`/`lists`...***

Todos los `ndarrays` deben ser de la misma longitud. Si se pasa el índice, entonces la longitud del índice debe ser igual a la longitud de las matrices.

Si no se pasa ningún índice, de manera predeterminada, el índice será `range(n)`, donde `n` es la longitud del arreglo.

In [None]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

- Observe los valores $0,1,2,3$. Son el índice predeterminado asignado a cada uno usando la función `range(n)`.

***indexado usando `arrays`...***

In [None]:
indice = [i for i in range(4)]
df = pd.DataFrame(data,indice)
print(df)

***desde listas de diccionarios...***

Se puede pasar una lista de diccionarios como datos de entrada para crear un `DataFrame`. Las `claves` serán usadas por defecto como los nombres de las columnas.

In [None]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

- un `NaN` aparece en donde no hay datos.

El siguiente ejemplo muestra como se crea un `DataFrame` pasando una lista de diccionarios y los índices de las filas:

In [None]:
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

El siguiente ejemplo muestra como se crea un `DataFrame` pasando una lista de diccionarios, y los índices de las filas y columnas:

In [None]:
# Con dos índices de columnas, los valores son iguales que las claves del diccionario
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

# Con dos índices de columna y con un índice con otro nombre
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1', 'c1'])
print(df1)
print(df2)

- Observe que el `DataFrame` `df2`  se crea con un índice de columna que no es la clave del diccionario; por lo tanto, se generan los `NaN` en su lugar. Mientras que, `df1` se crea con índices de columnas iguales a las claves del diccionario, por lo que no se agrega `NaN`.

***desde un diccionario de `Series`...***

Se puede pasar una Serie de diccionarios para formar un `DataFrame`. El índice resultante es la unión de todos los índices de serie pasados.

In [None]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

- para la serie `one`, no hay una etiqueta `'d'` pasada, pero en el resultado, para la etiqueta `d`, se agrega `NaN`.

Ahora vamos a entender la selección, adición y eliminación de columnas a través de ejemplos.

[Volver a la Tabla de Contenido](#TOC)

### Selección de columna

In [None]:
df = pd.DataFrame(d)
print(df['one'])

[Volver a la Tabla de Contenido](#TOC)

### Adición de columna

In [None]:
df = pd.DataFrame(d)

# Adding a new column to an existing DataFrame object with column label by passing new series

print ("Adicionando una nueva columna pasando como Serie:, \n")
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df,'\n')

print ("Adicionando una nueva columna usando las columnas existentes en el DataFrame:\n")
df['four']=df['one']+df['three']

print(df)

In [None]:
lista = [1,2,3]
lista.append(4)
lista

[Volver a la Tabla de Contenido](#TOC)

### Borrado de columna

In [None]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:\n")
print(df, '\n')

# using del function
print ("Deleting the first column using DEL function:\n")
del df['one']
print(df,'\n')

# using pop function
print ("Deleting another column using POP function:\n")
df.pop('two')
print(df)

[Volver a la Tabla de Contenido](#TOC)

### Selección, Adición y Borrado de fila

#### Selección por etiqueta

Las filas se pueden seleccionar pasando la etiqueta de fila por la función `loc`

In [None]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)
print(df.loc['b'])

- El resultado es una serie con etiquetas como nombres de columna del `DataFrame`. Y, el Nombre de la serie es la etiqueta con la que se recupera.

[Volver a la Tabla de Contenido](#TOC)

#### Selección por ubicación entera

Las filas se pueden seleccionar pasando la ubicación entera a una función `iloc`.

In [None]:
df = pd.DataFrame(d)
print(df.iloc[2])

[Volver a la Tabla de Contenido](#TOC)

#### Porcion de fila

Múltiples filas se pueden seleccionar usando el operador `:`

In [None]:
df = pd.DataFrame(d)
print(df[2:4])

[Volver a la Tabla de Contenido](#TOC)

#### Adición de filas

Adicionar nuevas filas al `DataFrame` usando la función `append`. Esta función adiciona las filas al final.

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]])
df2 = pd.DataFrame([[5, 6], [7, 8]])

print(df)

df = df.append(df2)
print(df)

[Volver a la Tabla de Contenido](#TOC)

#### Borrado de filas

Use la etiqueta de índice para eliminar o cortar filas de un `DataFrame`. Si la etiqueta está duplicada, se eliminarán varias filas.

Si observa, en el ejemplo anterior, las etiquetas están duplicadas. Cortemos una etiqueta y veamos cuántas filas se descartarán.

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print(df)
# Drop rows with label 0
df = df.drop(1)

print(df)

- En el ejemplo anterior se quitaron dos filas porque éstas dos contenían la misma etiqueta `0`.

[Volver a la Tabla de Contenido](#TOC)

### Lectura / Escritura en Pandas

Una de las grandes capacidades de *`Pandas`* es la potencia que aporta a lo hora de leer y/o escribir archivos de datos.

- Pandas es capaz de leer datos de archivos `csv`, `excel`, `HDF5`, `sql`, `json`, `html`,...

Si se emplean datos de terceros, que pueden provenir de muy diversas fuentes, una de las partes más tediosas del trabajo será tener los datos listos para empezar a trabajar: Limpiar huecos, poner fechas en formato usable, saltarse cabeceros,...

Sin duda, una de las funciones que más se usarán será `read_csv()` que permite una gran flexibilidad a la hora de leer un archivo de texto plano.

In [None]:
help(pd.to_csv)

En [este enlace](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html "pandas docs") se pueden encontrar todos los posibles formatos con los que Pandas trabaja:

Cada uno de estos métodos de lectura de determinados formatos (`read_NombreFormato`) tiene infinidad de parámetros que se pueden ver en la documentación y que no vamos a explicar por lo extensísima que seria esta explicación. 

Para la mayoría de los casos que nos vamos a encontrar los parámetros serían los siguientes:

Básicamente hay que pasarle el archivo a leer, cual es su separador, si la primera linea del archivo contiene el nombre de las columnas y en el caso de que no las tenga pasarle en `names` el nombre de las columnas. 


Veamos un ejemplo de un dataset del  cómo leeriamos el archivo con los datos de los usuarios, siendo el contenido de las 10 primeras lineas el siguiente:

In [None]:
# Load users info
userHeader = ['ID', 'Sexo', 'Edad', 'Ocupacion', 'PBOX']

users = pd.read_csv('Data/users.txt', engine='python', sep='::', header=None, names=userHeader)

# print 5 first users
print ('# 10 primeros usuarios: \n%s' % users[:])

In [None]:
type(users)

Para escribir un `DataFrame` en un archivo de texto se pueden utilizar los [método de escritura](http://pandas.pydata.org/pandas-docs/stable/io.html) para escribirlos en el formato que se quiera. 


- Por ejemplo si utilizamos el método `to_csv()` nos escribirá el `DataFrame` en este formato estandar que separa los campos por comas; pero por ejemplo, podemos decirle al método que en vez de que utilice como separador una coma, que utilice por ejemplo un guión. 


Si queremos escribir en un archivo el `DataFrame` `users` con estas características lo podemos hacer de la siguiente manera:

In [None]:
users.to_csv('Datasets/MyUsers9999.txt', sep='&')

[Volver a la Tabla de Contenido](#TOC)

### Merge

Una funcionalidad muy potente que ofrece Pandas es la de poder juntar, `merge` (en bases de datos sería hacer un `JOIN`) datos siempre y cuando este sea posible. 


En el ejemplo que estamos haciendo con el dataset podemos ver esta funcionalidad de forma muy intuitiva, ya que los datos de este data set se han obtenido a partir de una bases de datos relacional. 


Veamos a continuación como hacer un `JOIN` o un `merge` de los archivos `users.txt` y `ratings.txt` a partir del `user_id`:

In [None]:
# Load users info
userHeader = ['user_id', 'gender', 'age', 'ocupation', 'zip']
users = pd.read_csv('Datasets/users.txt', engine='python', sep='::', header=None, names=userHeader)
# Load ratings
ratingHeader = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('Datasets/ratings.txt', engine='python', sep='::', header=None, names=ratingHeader)

# Merge tables users + ratings by user_id field
merger_ratings_users = pd.merge(users, ratings)
print('%s' % merger_ratings_users[:10])

De la misma forma que hemos hecho el `JOIN` de los usuarios y los votos, podemos hacer lo mismo añadiendo también los datos relativos a las películas:

In [None]:
userHeader = ['user_id', 'gender', 'age', 'ocupation', 'zip']
users = pd.read_csv('Datasets/users.txt', engine='python', sep='::', header=None, names=userHeader)

movieHeader = ['movie_id', 'title', 'genders']
movies = pd.read_csv('Datasets/movies.txt', engine='python', sep='::', header=None, names=movieHeader)

ratingHeader = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('Datasets/ratings.txt', engine='python', sep='::', header=None, names=ratingHeader)

# Merge data
#mergeRatings = pd.merge(pd.merge(users, ratings), movies)
mergeRatings = pd.merge(merger_ratings_users, movies)

Si quisiésemos ver por ejemplo un elemento de este nuevo `JOIN` creado (por ejemplo la posición 1000), lo podríamos hacer de la siguiente forma:

In [None]:
info1000 = mergeRatings.loc[10]
print('Info of 1000 position of the table: \n%s' % info1000[:1000])

[Volver a la Tabla de Contenido](#TOC)

### Trabajando con Datos, Indexación, Selección

¿Cómo podemos seleccionar, añadir, eliminar, mover,..., columnas, filas,...?


- Para seleccionar una columna solo hay que usar el nombre de la columna y pasarlo como si fuera un diccionario (o un atributo).


- Para añadir una columna simplemente hay que usar un nombre de columna no existente y pasarle los valores para esa columna.


- Para eliminar una columna podemos usar `del` o el método `pop` del `DataFrame`.


- Para mover una columna podemos usar una combinación de las metodologías anteriores.


Como ejemplo, vamos crear un `DataFrame`con datos aleatorios y a seleccionar los valores de una columna:

In [None]:
df = pd.DataFrame(np.random.randn(5,3),
                  index = ['primero','segundo','tercero','cuarto','quinto'],
                  columns = ['velocidad', 'temperatura','presion'])
print(df)
print(df['velocidad'])
print(df.velocidad)

Para acceder a la columna `velocidad` lo podemos hacer de dos formas. 


- O bien usando el nombre de la columna como si fuera una clave de un diccionario 


- O bien usando el nombre de la columna como si fuera un atributo. 


En el caso de que los nombres de las columnas sean números, la segunda opción no podríais usarla...


Vamos a añadir una columna nueva al `DataFrame`. Es algo tan sencillo como usar un nombre de columna no existente y pasarle los datos:

In [None]:
df['velocidad_maxima'] = np.random.randn(df.shape[0])
print(df)

Pero qué pasa si quiero añadir la columna en un lugar específico. Para ello podemos usar el método `insert` (y de paso vemos como podemos borrar una columna):

**Forma 1:**

- Borramos la columna 'velocidad_maxima' que está al final del df usando `del`


- Colocamos la columna eliminada en la posición que especifiquemos

In [None]:
print(df)
columna = df['velocidad_maxima']
del df['velocidad_maxima']
df.insert(1, 'velocidad_maxima', columna)
print(df)

**Forma 2:** Usando el método `pop`: borramos usando el método `pop` y añadimos la columna borrada en la última posición de nuevo.

In [None]:
print(df)
columna = df.pop('velocidad_maxima')
print(df)
#print(columna)
df.insert(3, 'velocidad_maxima', columna)
print(df)

Para seleccionar datos concretos de un `DataFrame` podemos usar el índice, una rebanada (*slicing*), valores booleanos, la columna,...


- Seleccionamos la columna de velocidades:

In [None]:
print(df.velocidad)

- Seleccionamos todas las columnas cuyo índice es igual a tercero:

In [None]:
print(df.xs('tercero'))

- Seleccionamos todas las columnas cuyo índice está entre tercero y quinto (en este caso los índices son inclusivos)

In [None]:
print(df.loc['tercero':'quinto'])

- Seleccionamos todos los valores de velocidad donde la temperatura > 0

In [None]:
print(df['velocidad'][df['temperatura']>0])

Seleccionamos todos los valores de una columna por índice usando una rebanada (`slice`) de enteros.


- En este caso el límite superior de la rebanada no se incluye (Python tradicional)

In [None]:
print(df.iloc[1:3])

- Seleccionamos filas y columnas

In [None]:
print(df.iloc[1:3, ['velocidad', 'presion']])

In [None]:
help(df.ix)

[Volver a la Tabla de Contenido](#TOC)