# DataFrames

### Estructuras de datos en *Pandas*

> Ofrece varias estructuras de datos que nos resultarán de mucha utilidad y que vamos a ir viendo poco a poco. Todas las posibles estructuras de datos que ofrece a día de hoy son:


> - <strong>Series:</strong> Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
 
 
> - <strong>DataFrame:</strong> Similares a las tablas de bases de datos relacionales como SQL.
 
 
> - <strong>Panel, Panel4D y PanelND:</strong> Permiten trabajar con más de dos dimensiones. Dado que es algo complejo y poco utilizado trabajar con arrays de más de dos dimensiones no trataremos los paneles en estos tutoriales de introdución a Pandas.

### Dimensionado y Descripción

La mejor manera para pensar sobre estas estructuras de datos es que la estructura de dato de dimension mayor contiene a la estructura de datos de menor dimensión.

> *DataFrame* contiene a las *Series*, *Panel* contiene al *DataFrame*


| Data Structure | Dimension | Descripción |
|----------------|:---------:|-------------|
| Series         | 1         | Arreglo 1-Dimensional homogéneo de tamaño inmutable |
|DataFrames      | 2         | Estructura tabular 2-Dimensional, tamaño mutable con columnas heterogéneas|
|Panel           | 3         | Arreglo general 3-Dimensional, tamaño variable|

La construcción y el manejo de dos o más matrices dimensionales es una tarea tediosa, se le impone una carga al usuario para considerar la orientación del conjunto de datos cuando se escriben las funciones. Pero al usar las estructuras de datos de *Pandas*, se reduce el esfuerzo mental del usuario.

- Por ejemplo, con datos tabulares (*DataFrame*), es más útil semánticamente pensar en el índice (las filas) y las columnas, en lugar del eje 0 y el eje 1.

#### Mutabilidad

Las estructuras en *Pandas* son de valor mutable (se pueden cambiar), y excepto las *Series*, todas son de tamaño mutables. Las *Series* son de tamaño inmutable.

Los *DataFrames* son los más usados, los *Panel* no se usan tanto.

### Cargando el módulo *Pandas*

In [None]:
import pandas as pd
import numpy as np

# DataFrame

Un *DataFrame* es una estructura 2-Dimensional, es decir, los datos se alinean en forma tabular por filas y columnas.

### Características del *DataFrame*

- Las columnas pueden ser de diferente tipo.

- Tamaño cambiable.

- Ejes etiquetados (filas y columnas).

- Se pueden desarrollar operaciones aritméticas en filas y columnas.

### *pandas.DataFrame*

una estructura de *DataFrame* puede crearse usando el siguiente constructor:

Los parámetros de este constructor son los siguientes:

> ***data:*** Pueden ser de diferentes formas como *ndarray*, *Series*, *map*, *lists*, *dict*, constantes o también otro *DataFrame*.

> ***index:*** para las etiquetas de fila, el índice que se utilizará para la trama resultante es dado de forma opcional por defecto por $np.arange(n)$, si no se especifica ningún índice.

> ***columns:*** para las etiquetas de columnas, la sintaxis por defecto es $np.arange(n)$. Esto es así si no se especifíca ningún índice.

> ***dtype:*** tipo de dato para cada columna

> ***copy:*** Es usado para copiar los datos. Por defecto es *False*.

### Creando un *DataFrame*

Un *DataFrame* en Pandas se puede crear usando diferentes entradas, como: *listas*, *diccionarios*, *Series*, *ndarrays*, otros *DataFrame*.

#### Creando un *DataFrame* vacío

In [None]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


#### Creando un *DataFrame* desde listas

In [None]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [None]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print(df)


     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13


In [None]:
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

     Name   Age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0


## **Uso de dataframes**


La librería pandas posee su propio tipo de datos para el manejo de información, el tipo DataFrame. Este tiene muchas operaciones y métodos de todo tipo. Sería muy aburrido explicar cada uno de ellos en detalle ya que varios son muy específicos, pero podrían ser la solución perfecta para un problema muy particular. A continuación veremos las operaciones más utilizadas, confiando en que si llegan a necesitar realizar operaciones más complejas puedan encontrarlas en la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) o foros como StackOverflow.

In [None]:
import pandas as pd

datos = pd.read_excel("Datos.xlsx") 
# la variable datos es un tipo de dato especial de pandas
print(datos)

   Legajo Nombre    Apellido  Quimica  Matematica  Fisica
0   34567   Juan    Martinez       10           7       9
1   34678  Pablo    Gonzales        4           9       4
2   34234  Maria  Citanovich        2           4       4
3   35679    Sol        Rios        9           8      10
4   36789  Paula       Lagos        8           5       8
5   32578  Tomas         Reu        1           4       2


In [None]:
type(datos)

pandas.core.frame.DataFrame

Usualmente necesitamos acceder a los datos dispuestos en las columnas esto se hace de forma similar a un diccionario, la forma es la siguiente:

In [None]:
columna = 'Quimica'
print(datos[columna])


0    10
1     4
2     2
3     9
4     8
5     1
Name: Quimica, dtype: int64


Otra tarea común es acceder a una fila en particular, en el ejemplo sería acceder a un alumno en particular. Se puede lograr de la siguiente forma:

In [None]:
indice = 0
alumno = datos.loc[indice] 
alumno

Legajo           34567
Nombre            Juan
Apellido      Martinez
Quimica             10
Matematica           7
Fisica               9
Name: 0, dtype: object

*¿Por qué se usa .loc[indice] en vez de directamente usar corchetes?*

Normalmente se intenta que los operadores siempre signifiquen lo mismo, de forma que los corchetes deberían servir para acceder a un elemento, pero en este caso los corchetes ya se utilizan para acceder a una columna como en el ejemplo anterior, por lo cual se debe usar un operador distinto para acceder a una fila o serían indistinguibles.

Veamos ahora cómo se puede acceder a un dato en particular del alumno:

In [None]:
indice = 0
alumno = datos.loc[indice] 
print(alumno['Matematica'])

### **Mini desafío 2.A**
Calcular el promedio de las notas de química de todos los alumnos en el archivo Datos.xlsx.

- **Tip:** Podemos usar la función **sum**($iterable$) para obtener la suma de todos los campos. Un ejemplo de como funciona:
```
mi_lista = [1, 2, 3, 4, 5]
total = sum(mi_lista)
print(total)
```
 ¡La función **len()** también sigue siendo válida!

### **Mini desafío 2.B**

Escribir una funcion que reciba como parámetros: una variable de tipo **DataFrame** (la tabla de alumnos) y el índice de un alumno. Luego debe devolver con *return* el promedio de sus notas en las diferentes materias.

In [None]:
#funcion
def 



## **Otras operaciones**




Veamos un ejemplo para sacar todos los promedios de los alumnos a la vez.

In [None]:
promedios = (datos['Quimica'] + datos['Matematica'] + datos['Fisica']) / 3
promedios = datos.mean()
print('Todos los promedios')
print(promedios)
print('El promedio maximo es',promedios.max())

In [None]:
datos=pd.read_excel("Datos.xlsx", index_col="Legajo")
promedios = datos.mean(axis=1)
print(datos)
promedios

       Nombre    Apellido  Quimica  Matematica  Fisica
Legajo                                                
34567    Juan    Martinez       10           7       9
34678   Pablo    Gonzales        4           9       4
34234   Maria  Citanovich        2           4       4
35679     Sol        Rios        9           8      10
36789   Paula       Lagos        8           5       8
32578   Tomas         Reu        1           4       2


Legajo
34567    8.666667
34678    5.666667
34234    3.333333
35679    9.000000
36789    7.000000
32578    2.333333
dtype: float64

In [None]:
datos

Podemos ver que cuando se suman columnas de un DataFrame, se calcula la suma elemento a elemento, como si hiciera la operación suma para cada fila por separado. Cuando se divide por 3 la suma de las columnas, realiza la división por 3 de cada resultado por separado y queda al final 1 resultado por fila. Esto es muy práctico y también funciona con otros operadores, por lo cual se vuelve bastante intuitivo realizar cuentas sencillas.

También se muestra en el ejemplo el método **.max()** que encuentra el valor máximo.

### **Filtrado** 

En un DataFrame es posible filtrar los datos según alguna condición. Esto se realiza de la siguiente manera:
> variable**[** (condicion1) &/| (condicion2) &/| (condicion3) ...  **]**

Donde dice `&/|` es porque se puede elegir escribir `&` para hacer un **and**, o se puede escribir `|` para hacer un **or**.

Las condiciones siguien el siguiente formato: variable**[** propiedad **]** **>**/**<**/**<=**/**...** (número)

**Nota:** No debe ser una comparación sí o sí con un numero, se puede comparar contra cualquier cosa mientras se puedan cumplir esas condiciones (mayor, menor, mayor o igual, igual, etc.).

Veamos un ejemplo extrayendo todos los alumnos que hayan aprobado química (nota >= 4):

In [None]:
import pandas as pd

datos = pd.read_excel("Datos.xlsx") 
print("Datos:")
print(datos)
aprobados = datos.loc[datos['Quimica'] >= 4,['Nombre','Quimica']]
print("Aprobados en Química:")
print(aprobados)

Datos:
   Legajo Nombre    Apellido  Quimica  Matematica  Fisica
0   34567   Juan    Martinez       10           7       9
1   34678  Pablo    Gonzales        4           9       4
2   34234  Maria  Citanovich        2           4       4
3   35679    Sol        Rios        9           8      10
4   36789  Paula       Lagos        8           5       8
5   32578  Tomas         Reu        1           4       2
Aprobados en Química:
  Nombre  Quimica
0   Juan       10
1  Pablo        4
3    Sol        9
4  Paula        8


Podemos hacer otro ejemplo en donde mostramos los alumnos que reprobaron al menos una materia, es decir que:

(la nota de Química es menor a 4) **ó** (la nota de Matemática es menor a 4) **ó** (la nota de Física es menor a 4)

In [None]:
aprobados = datos[ (datos['Quimica'] < 4) | (datos['Matematica'] < 4) | (datos['Fisica'] < 4) ]
print("Reprobaron al menos una materia:")
print(aprobados) 

Reprobaron al menos una materia:
   Legajo Nombre    Apellido  Quimica  Matematica  Fisica
2   34234  Maria  Citanovich        2           4       4
5   32578  Tomas         Reu        1           4       2


#### **Mini desafío 3**

Obtener el promedio general sólo para aquellos alumnos que aprobaron Matematica.

In [None]:

datos["Promedio"]=datos.mean(axis=1)
datos


Unnamed: 0,Legajo,Nombre,Apellido,Quimica,Matematica,Fisica,Nombre_copy,Promedio
0,34567,Juan,Martinez,10,7,9,Juan,8648.25
1,34678,Pablo,Gonzales,4,9,4,Pablo,8673.75
2,34234,Maria,Citanovich,2,4,4,Maria,8561.0
3,35679,Sol,Rios,9,8,10,Sol,8926.5
4,36789,Paula,Lagos,8,5,8,Paula,9202.5
5,32578,Tomas,Reu,1,4,2,Tomas,8146.25


### **Indexar los datos** 

Pandas tambien nos permite obtener los datos de forma que una columna sirva como índice, o como *clave*. Para eso cuando lo leemos le debemos decir la columna que queremos usar de indice. Esto es igual a lo que se utilizó anteriormente, pero trabajando directamente con DataFrames en lugar de convertirlo a una estructura de datos de Python:

> pd.read_excel('archivo', **index_col** = [índice])

Veamos un ejemplo:




In [None]:
import pandas as pd

archivo = pd.read_excel("Datos.xlsx")
print(archivo)

print()

archivo = pd.read_excel("Datos.xlsx", index_col = 2)
print(archivo)

print()

# Es posible dar el nombre de la columna que se utilizará como indice
archivo = pd.read_excel("Datos.xlsx", index_col = "Legajo")
print(archivo)

   Legajo Nombre    Apellido  Quimica  Matematica  Fisica
0   34567   Juan    Martinez       10           7       9
1   34678  Pablo    Gonzales        4           9       4
2   34234  Maria  Citanovich        2           4       4
3   35679    Sol        Rios        9           8      10
4   36789  Paula       Lagos        8           5       8
5   32578  Tomas         Reu        1           4       2

            Legajo Nombre  Quimica  Matematica  Fisica
Apellido                                              
Martinez     34567   Juan       10           7       9
Gonzales     34678  Pablo        4           9       4
Citanovich   34234  Maria        2           4       4
Rios         35679    Sol        9           8      10
Lagos        36789  Paula        8           5       8
Reu          32578  Tomas        1           4       2

       Nombre    Apellido  Quimica  Matematica  Fisica
Legajo                                                
34567    Juan    Martinez       10        

Observen que ahora la primera columna en vez de ser 0,1,2,... son los legajos, esto nos permite acceder con .loc por legajo!

In [None]:
print(archivo.loc[34567])

Nombre            Juan
Apellido      Martinez
Quimica             10
Matematica           7
Fisica               9
Name: 34567, dtype: object


#### Creando un *DataFrame* desde diccionarios de *ndarrays/lists*

> Todos los *ndarrays* deben ser de la misma longitud. Si se pasa el índice, entonces la longitud del índice debe ser igual a la longitud de las matrices.

> Si no se pasa ningún índice, de manera predeterminada, el índice será $range(n)$, donde $n$ es la longitud de la matriz.

In [None]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

    Name  Age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42


- Observe los valores $0,1,2,3$. Son el índice predeterminado asignado a cada uno usando la función $range(n)$.

Ahora crearemos un *DataFrame* indexado usando *arrays*

In [None]:
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])

df = pd.DataFrame(data, index=[1,2,3,4])
print(df)

    Name  Age
1    Tom   28
2   Jack   34
3  Steve   29
4  Ricky   42


#### Creando un *DataFrame* desde listas de diccionarios

Se puede pasar una lista de diccionarios como datos de entrada para crear un *DataFrame*. Las *claves* serán usadas por defecto como los nombres de las columnas.

In [None]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


- un $NaN$ aparece en donde no hay datos.

El siguiente ejemplo muestra como se crea un *DataFrame* pasando una lista de diccionarios y los índices de las filas:

In [None]:
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

        a   b     c
first   1   2   NaN
second  5  10  20.0


El siguiente ejemplo muestra como se crea un *DataFrame* pasando una lista de diccionarios, y los índices de las filas y columnas:

In [None]:
# Con dos índices de columnas, los valores son iguales que las claves del diccionario
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

# Con dos índices de columna y con un índice con otro nombre
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df1)
print(df2)

        a   b
first   1   2
second  5  10
        a  b1
first   1 NaN
second  5 NaN


- Observe que el *DataFrame* $df2$  se crea con un índice de columna que no es la clave del diccionario; por lo tanto, se generan los $NaN$ en su lugar. Mientras que, $df1$ se crea con índices de columnas iguales a las claves del diccionario, por lo que no se agrega $NaN$.

#### Creando un *DataFrame* desde un diccionario de Series

Se puede pasar una Serie de diccionarios para formar un *DataFrame*. El índice resultante es la unión de todos los índices de serie pasados.

In [None]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


- para la serie $one$, no hay una etiqueta $'d'$ pasada, pero en el resultado, para la etiqueta $d$, $NaN$ se agrega con $NaN$.

Ahora vamos a entender la selección, adición y eliminación de columnas a través de ejemplos.

## Columnas

#### Selección de columna

In [None]:
df = pd.DataFrame(d)
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


#### Adición de columna

In [None]:
df = pd.DataFrame(d)

# Adding a new column to an existing DataFrame object with column label by passing new series

print ("Adicionando una nueva columna pasando como Serie:, \n")
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df,'\n')

print ("Adicionando una nueva columna usando las columnas existentes en el DataFrame:\n")
df['four']=df['one']+df['three']

print(df)

#### Borrado de columna

In [None]:
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:\n")
print(df, '\n')

Our dataframe is:

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN 



In [None]:
df_seguridad=df
df_seguridad.to_csv("seguridad.csv")
df_seguridad

Unnamed: 0,one,two,three
a,1.0,1,10.0
b,2.0,2,20.0
c,3.0,3,30.0
d,,4,


In [None]:
# using del function
print ("Deleting the first column using DEL function:\n")
del df['one']
print(df,'\n')

Deleting the first column using DEL function:

   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN 



In [None]:
# using pop function
print ("Deleting another column using POP function:\n")
df.pop('two')
print(df)

Deleting another column using POP function:

   three
a   10.0
b   20.0
c   30.0
d    NaN


### Selección, Adición y Borrado de fila

#### Selección por etiqueta

Las filas se pueden seleccionar pasando la etiqueta de fila por la función *loc*

In [None]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c'], dtype=int), 
     'two' : pd.Series([1, 2, 3,4], index=['a', 'b', 'c', 'd'], dtype=int)}

df = pd.DataFrame(d)
print(df)

print(df.loc['b'])


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
one    2.0
two    2.0
Name: b, dtype: float64


- El resultado es una serie con etiquetas como nombres de columna del *DataFrame*. Y, el Nombre de la serie es la etiqueta con la que se recupera.

#### Selección por ubicación entera

Las filas se pueden seleccionar pasando la ubicación entera a una función *iloc*.

In [None]:
df = pd.DataFrame(d)
print(df.iloc[2])


#### Porcion de fila

Múltiples filas se pueden seleccionar usando el operador ':'

In [None]:
df = pd.DataFrame(d)
print(df[2:4])


#### Adición de filas

Adicionar nuevas filas al *DataFrame* usando la función *append*. Esta función adiciona las filas al final.

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df



Unnamed: 0,a,b
0,1,2
1,3,4


In [None]:
df2

Unnamed: 0,a,b
0,5,6
1,7,8


In [None]:
df = df.append(df2)
print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8


#### Borrado de filas

Use la etiqueta de índice para eliminar o cortar filas de un *DataFrame*. Si la etiqueta está duplicada, se eliminarán varias filas.

Si observa, en el ejemplo anterior, las etiquetas están duplicadas. Cortemos una etiqueta y veamos cuántas filas se descartarán.

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print(df)

# Drop rows with label 0
df = df.drop(0)

df


   a  b
0  1  2
1  3  4
0  5  6
1  7  8


Unnamed: 0,a,b
0,1,2
0,5,6


In [None]:
print(df)
df
df2

In [None]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df2
df = df.append(df2)
df

df = df.drop(0)
df

- En el ejemplo anterior se quitaron dos filas porque éstas dos contenían la misma etiqueta $0$.

In [None]:
import pandas as pd
import numpy as np
df_lista = pd.DataFrame({'a': [11,12,13], 'b': [21,22,23]})

- DataFrame a partir de un diccionario de listas:

In [None]:
print('{}'.format(df_lista))


In [None]:
df_np1D = pd.DataFrame({'a': np.arange(3)**2, 'b': np.random.randn(3)})

- DataFrame a partir de un diccionario de 1D ndarrays:

In [None]:
print('{}'.format(df_np1D))

   a         b
0  0  0.536891
1  1  1.863035
2  4  0.591718


- DataFrame a partir de un 2D ndarray:

In [None]:
df_np2D = pd.DataFrame(np.empty((5,3)),
index = ['primero','segundo','tercero','cuarto','quinto'],
columns = ['velocidad', 'temperatura','presion'])
print('{}'.format(df_np2D))

             velocidad    temperatura        presion
primero  1.039778e-312  9.761181e-313  1.018558e-312
segundo  1.018558e-312  1.018558e-312  1.039778e-312
tercero  9.761181e-313  1.018558e-312  1.018558e-312
cuarto   1.018558e-312  1.039778e-312  9.761181e-313
quinto   1.018558e-312  1.018558e-312  1.018558e-312


- DataFrame a partir de los valores de otro (pandas)DataFrame

In [None]:
df_df = pd.DataFrame(df_np2D, index = ['primero','segundo','tercero'])
df_df.index = ['first','second','third']
print('{}'.format(df_df))
#...

            velocidad    temperatura        presion
first   1.039778e-312  9.761181e-313  1.018558e-312
second  1.018558e-312  1.018558e-312  1.039778e-312
third   9.761181e-313  1.018558e-312  1.018558e-312


### Trabajando con Datos, Indexación, Selección

> ¿Cómo podemos seleccionar, añadir, eliminar, mover,..., columnas, filas,...?


> - Para seleccionar una columna solo hay que usar el nombre de la columna y pasarlo como si fuera un diccionario (o un atributo).


> Para añadir una columna simplemente hay que usar un nombre de columna no existente y pasarle los valores para esa columna.


> Para eliminar una columna podemos usar *del* o el método *pop* del *DataFrame*.


> Para mover una columna podemos usar una combinación de las metodologías anteriores.


Por ejemplo, vamos a seleccionar los valores de una columna:

In [None]:
df = pd.DataFrame(np.random.randn(5,3),
                  index = ['primero','segundo','tercero','cuarto','quinto'],
                  columns = ['velocidad', 'temperatura','presion'])
#print(df['velocidad'])
print(df.velocidad)

> Hemos creado un DataFrame y para acceder a la columna velocidad lo podemos hacer de dos formas. 


> - O bien usando el nombre de la columna como si fuera una clave de un diccionario 

> - o bien usando el nombre de la columna como si fuera un atributo. 


> En el caso de que los nombres de las columnas sean números, la segunda opción no podríais usarla...


Vamos a añadir una columna nueva al DataFrame. Es algo tan sencillo como usar un nombre de columna no existente y pasarle los datos:

In [None]:
df['velocidad_maxima'] = np.random.randn(df.shape[0])
print(df)

> Pero qué pasa si quiero añadir la columna en un lugar específico. Para ello podemos usar el método *insert* (y de paso vemos como podemos borrar una columna):

<strong>Forma 1:</strong> 
- Borramos la columna 'velocidad_maxima' que está al final del df usando *del*
- Colocamos la columna eliminada en la posición que especifiquemos

In [None]:
print(df)
columna = df['velocidad_maxima']
del df['velocidad_maxima']
df.insert(1, 'velocidad_maxima', columna)
print(df)

<strong>Forma 2:</strong> Usando el método pop: borramos usando el método pop y añadimos la columna borrada en la última posición de nuevo.

In [None]:
print(df)
columna = df.pop('velocidad_maxima')
print(df)
#print(columna)
df.insert(3, 'velocidad_maxima', columna)
print(df)

> Para seleccionar datos concretos de un DataFrame podemos usar el índice, una rebanada, valores booleanos, la columna,...

- Seleccionamos la columna de velocidades:

In [None]:
print(df['velocidad'])

- Seleccionamos todas las columnas cuyo índice es igual a tercero:

In [None]:
print(df.xs('tercero'))

- Seleccionamos todas las columnas cuyo índice está entre tercero y quinto (en este caso los índices son inclusivos)

In [None]:
print(df.loc['tercero':'quinto'])

- Seleccionamos todos los valores de velocidad donde la temperatura > 0

In [None]:
print(df.loc[['velocidad'],['temperatura']])  #Cuál es el error?

- Seleccionamos todos los valores de una columna por índice usando una rebanada (slice) de enteros.
  - En este caso el límite superior de la rebanada no se incluye (Python tradicional)

In [None]:
print(df.ix[1:3])

- Seleccionamos filas y columnas

In [None]:
print(df.ix[1:3, ['velocidad', 'presion']])