# Pandas 1
es un paquete de código abierto para Python que contiene herramientas de análisis y manipulación de datos de alto desempeño ampliamente utilizada.
A diferencia de `NumPy`, su estructura de datos básica similar a una matriz, el objeto `DataFrame`, puede contener
tipos de datos heterogéneos (foats, enteros, cadenas, fechas, etc.) que pueden estructurarse en una jerarquía e indexada. Proporciona una gran cantidad de funciones vectorizadas para la limpieza, transformación y agregamiento de datos eficientemente utilizando modismos similares a los utilizados por `NumPy`. Su nombre deriva del término "PANel DAta", que se refiere a conjuntos de datos de varias variables seguidas durante varios períodos de tiempo.

# Estructuras de dato de Pandas
Actualmente _Pandas_ maneja tres tipos de estructuras de datos, construidos a partir de arreglos de numpy:
- __Series__    : Arreglos unidimencionales, cuyo tamaño es inmutable.
- __DataFrames__: Arreglo bidimencional, con tamaño mutable, se puede considerar un contenedor de _Series_.
- __Panel:__    : Arreglo tridimencional, con tamaño mutale, se puede considerar un contenedor de _DataFrames_.

## Series

__Sintaxis:__
>```
>   pandas.Series( data, index, dtype, copy)
>```

Donde `data` pueden ser listas de python o arreglos de numpy o diccionarios. `index` es un identificador, por defecto se usa `np.arrange(n)`, `dtype` es el tipo de datos que contiene, que por defecto python lo infiere. `copy` si se copian los datos, por defecto _False_. Se suele pensar en las series de _Pandas_ como una columna de Exel (openOffice, LibreOffice), con el nombre de la fila (_index_).

__Ejemplos:__ Creemos algunas series

In [1]:
import numpy as np
import pandas as pd

# Un arreglo vacío
empty_serie = pd.Series()#Genera un Warning
print("Serie Vacía")
print(empty_serie)

# Un arreglo de strings desde un arreglo de numpy
#como no se paso index, entonces usa el default
str_arr = np.array(["Camilo","Andres","Andrea","Paula","Carlos"])
str_serie = pd.Series(str_arr)
print("Serie de strings")
print(str_serie)

# Un arreglo de enteros desde un diccionario
#note que los indices cambiaron por las keys del diccionario
#También le ponemos nombre
int_dic = {'a':21,'b':55,'c':31,'d':56,'e':90}
int_serie = pd.Series(int_dic, name="Serie de Enteros",dtype=int)
print(int_serie)

Serie Vacía
Series([], dtype: float64)
Serie de strings
0    Camilo
1    Andres
2    Andrea
3     Paula
4    Carlos
dtype: object
a    21
b    55
c    31
d    56
e    90
Name: Serie de Enteros, dtype: int32


Una vez construida la serie, se puede acceder a los datos de manera similar a los arreglos de numpy (narray), tambíen es posible recuperar los datos usando el índice (etiquetas en `index`). Tenga en cuenta que muchas veces estas dos formas van a coincidir (en el caso que se use el default)

__Ejemplo:__ Varias formas de acceder a los datos de una serie


In [2]:
# Imprimo el primer elemento de la lista usando:
#usando la posición como en un narray
print("int_serie[0]:", int_serie[0],'\n')
#usando el indice (etiqueta o label)
print("int_serie['a']:", int_serie['a'],'\n')
#Y varios elementos
print("int_serie[['a','b','d']]:")
print(int_serie[['a','b','d']],'\n')
#O usando el slicing [start:stop:step] de python
print("int_serie[2::-1]:")
print(int_serie[2::-1],'\n')
#Inclusive con los indices
print("int_serie['d':'b':-1]:")
print(int_serie['d':'b':-1],'\n')
#El identificador, se puede usar la etiqueta como identificador
print("int_serie.d:")
print(int_serie.d,'\n')

int_serie[0]: 21 

int_serie['a']: 21 

int_serie[['a','b','d']]:
a    21
b    55
d    56
Name: Serie de Enteros, dtype: int32 

int_serie[2::-1]:
c    31
b    55
a    21
Name: Serie de Enteros, dtype: int32 

int_serie['d':'b':-1]:
d    56
c    31
b    55
Name: Serie de Enteros, dtype: int32 

int_serie.d:
56 



### Operaciones numéricas.

Por supuesto, es posible realizar operaciones numéricas sobre datos en serie, en un formato vectorizado como con las matrices NumPy

__Ejemplo:__

In [3]:
#Creamos una serie
x_City_milles = pd.Series(data=[260,250,814,445,140]
    ,index=['Bogota','Cali','Leticia','Barranquilla','Quibdo']
    ,name='Distancia/Millas'
    ,dtype=np.int64)

print(x_City_milles,'\n')

millesToKm = 1.608
#Multiplicamos como un vector de numpy
x_City_Km = x_City_milles*millesToKm
x_City_Km.name = 'Distancia/Km'
print(x_City_Km)

Bogota          260
Cali            250
Leticia         814
Barranquilla    445
Quibdo          140
Name: Distancia/Millas, dtype: int64 

Bogota           418.080
Cali             402.000
Leticia         1308.912
Barranquilla     715.560
Quibdo           225.120
Name: Distancia/Km, dtype: float64


Las operaciones de comparación y el filtrado de una serie con una operación booleana crean un nuevo Serie

__Ejemplo:__ encontrmos las ciudades que están más lejos de 500_Km_

In [4]:
x_City_Km > 500

Bogota          False
Cali            False
Leticia          True
Barranquilla     True
Quibdo          False
Name: Distancia/Km, dtype: bool

In [5]:
#Noten que se puede usar esta Serie de boleanos
# para filtrar la lista
x_City_Km[x_City_Km > 500]

Leticia         1308.912
Barranquilla     715.560
Name: Distancia/Km, dtype: float64

In [6]:
#Noten que se puede usar tambíen un diccinario de boleanos
# para filtrar la lista, con los mismos índices
x_City_Km[{'Bogota':False,'Cali':False,'Leticia':False,'Barranquilla':False,'Quibdo':False}]

Bogota           418.080
Cali             402.000
Leticia         1308.912
Barranquilla     715.560
Quibdo           225.120
Name: Distancia/Km, dtype: float64

In [7]:
#Tambien se puede usar tests
listaDeCiudades= ['Envigado','Cali','Leticia','quibdo','Jardín']
#Recorro la lista
for ciudad in listaDeCiudades:
    #Miro si la ciudad está en mi serie
    if ciudad in x_City_Km:
        print('Distancia a ',ciudad,': ', x_City_Km['Cali'])


Distancia a  Cali :  402.0
Distancia a  Leticia :  402.0


Cuando dos series se combinan, éstas se organizan usandos sus etiqueta de índice.

__Ejemplo:__ Creamos dos series con las masas y radios de diferentes cuerpos del sistema solar. Usamos estas dos series para crear otra, con la aceleracion gravitacional en la superficie.

In [8]:
#Serie de masas
masses = pd.Series ({'Ganimedes': 1.482e23 
    ,'Callisto': 1.076e23 
    ,'Io': 8.932e22 
    ,'Europa': 4.800e22 
    ,'Luna': 7.342e22 
    ,'Tierra': 5.972e24}, name='masa /kg')
#Serie de radios
radii = pd.Series ({'Ganimedes': 2.634e6
    ,'Io': 1.822e6 
    ,'Luna': 1.737e6 
    ,'Tierra': 6.371e6}, name='radios /m')
#Constante de Cavendish
from scipy.constants import G
surface_g = G*masses/radii**2
surface_g.name = 'g /m.s-2'
surface_g.index.name = 'Objeto'
print(surface_g)

Objeto
Callisto          NaN
Europa            NaN
Ganimedes    1.425681
Io           1.795799
Luna         1.624129
Tierra       9.819973
Name: g /m.s-2, dtype: float64


Puesto que como no hay correspondencia entre las dos listas para Europa y Calisto, el valor es `NaN` (Not a Number), esto se puede filtrar usando los métodos `notnull()` o `dropna()` 

In [9]:
#notnull() produce eun serie de boleanos
print(surface_g.notnull(),'\n')
#Y se puede usar como filtro para mostrar los valores
print(surface_g[surface_g.notnull()],'\n')
#de madera sencilla con dropna()
print(surface_g.dropna(),'\n')

Objeto
Callisto     False
Europa       False
Ganimedes     True
Io            True
Luna          True
Tierra        True
Name: g /m.s-2, dtype: bool 

Objeto
Ganimedes    1.425681
Io           1.795799
Luna         1.624129
Tierra       9.819973
Name: g /m.s-2, dtype: float64 

Objeto
Ganimedes    1.425681
Io           1.795799
Luna         1.624129
Tierra       9.819973
Name: g /m.s-2, dtype: float64 



## DataFrames
Se suele comparar los `DataFrames` con hojas de calculo de Exel.

__Sintaxis:__ 

>```
>   pandas.DataFrame( data, index, columns, dtype, copy)
>```

Donde `data` pueden ser varios tipos de datos como narray, series, map, lists, dict, constants e inclusive otro _DataFrame_. `index` se usa para etiquetar las filas y el valor por defecto es posicional (como en el caso de las Series). `columns` Son las etiquetas para las columnas, es opcional y por defecto es posicional. `dtype` es el tipo de datos por columna. `copy` para copiar los datos, por defecto False.

__Ejemplos:__ Creemos algunos DataFrames


In [10]:
#Primero un DataFrame Vacio
empty_data_frame = pd.DataFrame()
print("DataFrame Vacio")
print(empty_data_frame)
print("------------------------------------")
#Ahora uno usando una lista de listas
lista_Listas = [["Camilo",10],["Carlos",40],["Mario",7],["Daniela",22],["Josefina",86]]
DF_lista = pd.DataFrame(lista_Listas,columns=["Nombre","Edad"],dtype=float)    #obligo a que los datos sean float
print("DataFrame Desde una lista de listas")
print(DF_lista) 
print("------------------------------------")
#Usando un diccionario
dictionary = {'Referencias':["0001","0002","0003","0004","0005"]
                ,'precios':[100,200,300,400,500]}
DF_dic = pd.DataFrame(dictionary,index=["fila1","fila2","fila3","fila4","fila5"])  #Cambio el indice de las filas
print("DataFrame desde un diccionario")
print(DF_dic)
print("------------------------------------")
#Desde una lista de diccionarios
dict_list = [
    {'Referencia':"001",'Precio':100, 'Descripcion':"referencia 1"},
    {'Referencia':"002",'Precio':200},
    {'Referencia':"003",'Precio':300, 'Descripcion':"referencia 3"},
    {'Referencia':"004",'Precio':400}]
DF_dict_list = pd.DataFrame(dict_list)
print("DataFrame desde una lista de diccionarios")
print(DF_dict_list)
#Usando los atributos de Dataframe
#data son las columnas
data = {'mass': [1.482e23 , 1.076e23 , 8.932e22 , 4.800e22 , 7.342e22],
'radius': [2.634e6 , None , 1.822e6 , None , 1.737e6],
'planet': ['Jupiter', 'Jupiter', 'Jupiter', 'Jupiter', 'Tierra']
}
#index son los indices de las filas
index = ['Ganimedes', 'Callisto', 'Io', 'Europa', 'Luna']
Atributes = pd.DataFrame(data , index=index)
print("DataFrame por atributos")
print(Atributes)

DataFrame Vacio
Empty DataFrame
Columns: []
Index: []
------------------------------------
DataFrame Desde una lista de listas
     Nombre  Edad
0    Camilo  10.0
1    Carlos  40.0
2     Mario   7.0
3   Daniela  22.0
4  Josefina  86.0
------------------------------------
DataFrame desde un diccionario
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
DataFrame desde una lista de diccionarios
  Referencia  Precio   Descripcion
0        001     100  referencia 1
1        002     200           NaN
2        003     300  referencia 3
3        004     400           NaN
DataFrame por atributos
                   mass     radius   planet
Ganimedes  1.482000e+23  2634000.0  Jupiter
Callisto   1.076000e+23        NaN  Jupiter
Io         8.932000e+22  1822000.0  Jupiter
Europa     4.800000e+22        NaN  Jupiter
Luna       7.342000e+22  1737000.0   

Note que en la última definición, donde faltaron items (descripcion) DataFrame pone automaticamente un NaN (Not a Number) para indicar que no se proporciono ese dato.

## Acceder columnas, filas y celdas

Una columna individual puede obtenerse indexando o por atributo (si su nombre es válido). Dado que las columnas son una serie de pandas, los valores individuales se pueden recuperar por posición o referencia a la etiqueta del índice.

In [11]:
#Una columna
print(Atributes['mass'],'\n')
#Una celda por posición
print("Atributes['mass'][2]= ",Atributes['mass'][2],'\n')
#Una celda por referencia
print("Atributes['mass']['Io']= ",Atributes['mass']['Io'],'\n')

Ganimedes    1.482000e+23
Callisto     1.076000e+23
Io           8.932000e+22
Europa       4.800000e+22
Luna         7.342000e+22
Name: mass, dtype: float64 

Atributes['mass'][2]=  8.932e+22 

Atributes['mass']['Io']=  8.932e+22 



Ahora, para recuperar columnas y valores individuales, esto es bueno, pero la asignación plantea un problema (`warning`), aunque funciona.

In [12]:
Atributes['mass']['Io'] = 9.0e22
print("Atributes['mass']['Io']= ",Atributes['mass']['Io'],'\n')

Atributes['mass']['Io']=  9e+22 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  Atributes['mass']['Io'] = 9.0e22


El mensaje es una advertencia general sobre que la *indexación encadenada* ([..] [..]) puede provocar resultados impredecibles cuando se utilizan para la asignación: dependiendo de cómo se almacenan los datos en la memoria, es posible que la expresión de indexación produzca una copia de los datos en lugar de una modificación. 
Indexación o asignación encadenada deben de evitarse. Se pueden usar dos métodos de `DataFrame`, `loc` e `iloc`, para acceder y asignar de manera confiable las columnas, filas y celdas; Se recomienda __MUCHO__ su uso. `loc` selecciona por fila y etiquetas de columna.

__Nota:__ Tenga en cuenta que mientras que la indexación encadenada se refiere a una celda como `[col][fila]`, el `.loc` es de la forma `[fila, col]` o `[fila][col]`.

In [13]:
#Se puede ver una fila
print(Atributes.loc['Io'],'\n')
#Escoger algunos atributos
print(Atributes.loc['Io',['mass','planet']],'\n')
#Usando slicing (muestro, solo las masas)
print(Atributes.loc[:,'mass'],'\n')
#pasando varias filas y  una columna 
print(Atributes.loc[['Io','Luna'],'planet'],'\n')
#Y usando == los atruibutos
print(Atributes.loc[Atributes.planet=='Jupiter'],'\n')
#Modo seguro de modificar las celdas
Atributes.loc['Io','mass'] = 8.932e22
print("Atributes['mass']['Io']= ",Atributes['mass']['Io'])

mass      89999999999999995805696.0
radius                    1822000.0
planet                      Jupiter
Name: Io, dtype: object 

mass      89999999999999995805696.0
planet                      Jupiter
Name: Io, dtype: object 

Ganimedes    1.482000e+23
Callisto     1.076000e+23
Io           9.000000e+22
Europa       4.800000e+22
Luna         7.342000e+22
Name: mass, dtype: float64 

Io      Jupiter
Luna     Tierra
Name: planet, dtype: object 

                   mass     radius   planet
Ganimedes  1.482000e+23  2634000.0  Jupiter
Callisto   1.076000e+23        NaN  Jupiter
Io         9.000000e+22  1822000.0  Jupiter
Europa     4.800000e+22        NaN  Jupiter 

Atributes['mass']['Io']=  8.932e+22


El segundo método `iloc` se usa para encontar los elementos por posición

In [14]:
#Se puede ver una fila
print(Atributes.iloc[2],'\n')
#Escoger algunos atributos
print(Atributes.iloc[2,[1,2]],'\n')
#Usando slicing (muestro, solo las masas)
print(Atributes.iloc[:,2],'\n')
#pasando varias filas y  una columna 
print(Atributes.iloc[[2,4],2],'\n')
#Modo seguro de modificar las celdas
Atributes.iloc[2,0] = 9.0e22
print("Atributes['mass']['Io']= ",Atributes['mass']['Io'])

mass      89320000000000006291456.0
radius                    1822000.0
planet                      Jupiter
Name: Io, dtype: object 

radius    1822000.0
planet      Jupiter
Name: Io, dtype: object 

Ganimedes    Jupiter
Callisto     Jupiter
Io           Jupiter
Europa       Jupiter
Luna          Tierra
Name: planet, dtype: object 

Io      Jupiter
Luna     Tierra
Name: planet, dtype: object 

Atributes['mass']['Io']=  9e+22



## Modificar la estructura de un DataFrame
Se puede modificar la estructura de un DataFrame Aumentando o borrando columnas al DF. También se puede seleccionar una columna y operar con ella de forma independiente, recordando que python usa _paso por referencia_.

__Ejemplo:__ Seleccionemos una columna de `DF_dic`

In [15]:
#Volvemos a crear el DF para evitar contaminación
dictionary = {'Referencias':["0001","0002","0003","0004","0005"],'precios':[100,200,300,400,500]}
DF_dic = pd.DataFrame(dictionary,index=["fila1","fila2","fila3","fila4","fila5"])  #Cambio el indice de las filas
print("Antes de editar columna")
print(DF_dic)
print("------------------------------------")
#Seleccion la columna Referencias y se la asigno al objeto RefCol
RefCol = DF_dic['Referencias']
#Modifico la fila3 (ojo con esto)
#forma correcta RefCol.loc['fila3'] = '03'
RefCol['fila3'] = '03'
#Note que se modifica en el DataFrame 
print("Despúes de editar columna")
print(DF_dic)

Antes de editar columna
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
Despúes de editar columna
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3          03      300
fila4        0004      400
fila5        0005      500
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  RefCol['fila3'] = '03'


### Añadir o borrar columnas
Otra cosa que se puede hacer, es crear o borrar columnas al DF.

__Ejemplo:__ 

In [16]:
#Creamos el DF
dict_list = [
    {'Referencia':"001",'Precio':100, 'Descripcion':"referencia 1"},
    {'Referencia':"002",'Precio':200},
    {'Referencia':"003",'Precio':300, 'Descripcion':"referencia 3"},
    {'Referencia':"004",'Precio':400}]
DF_dict_list = pd.DataFrame(dict_list)
print("DataFrame desde una lista de diccionarios")
print(DF_dict_list)
print("----------------------------------------------------------------------")

#Creo una nueva columna desde una lista contenida en una serie
DF_dict_list["Precio al publico"] = pd.Series([110,210,310,410])
print(DF_dict_list)
print("----------------------------------------------------------------------")
#creo una nueva columna construida con otras contenidas dentro del DF
DF_dict_list["% de Ganancia"] = (DF_dict_list["Precio al publico"]
                                    -DF_dict_list["Precio"])*100/DF_dict_list["Precio al publico"]
print(DF_dict_list)
print("----------------------------------------------------------------------")
# Y de nuevo borro la columna
del DF_dict_list["% de Ganancia"]
print(DF_dict_list)

DataFrame desde una lista de diccionarios
  Referencia  Precio   Descripcion
0        001     100  referencia 1
1        002     200           NaN
2        003     300  referencia 3
3        004     400           NaN
----------------------------------------------------------------------
  Referencia  Precio   Descripcion  Precio al publico
0        001     100  referencia 1                110
1        002     200           NaN                210
2        003     300  referencia 3                310
3        004     400           NaN                410
----------------------------------------------------------------------
  Referencia  Precio   Descripcion  Precio al publico  % de Ganancia
0        001     100  referencia 1                110       9.090909
1        002     200           NaN                210       4.761905
2        003     300  referencia 3                310       3.225806
3        004     400           NaN                410       2.439024
--------------------------

### Seleccionar, añadir y borrar filas
De manera similar los DF permiten seleccionar, añadir y borrar filas. 

__Ejemplos:__


In [17]:
#Usando un DF de un ejemplo pasado 
dictionary = {'Referencias':["0001","0002","0003","0004","0005"],'precios':[100,200,300,400,500]}
DF_dic = pd.DataFrame(dictionary,index=["fila1","fila2","fila3","fila4","fila5"])  #Cambio el indice de las filas
print("Antes de editar columna")
print(DF_dic)
print("------------------------------------")

Antes de editar columna
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------


In [18]:
# Seleccionemos una filas, se hace pasandole el indice a la funcion loc
#o tambien pasandole el numero el número de localización a iloc 
#Ojo son brackets [] no ()
fila3 = DF_dic.loc["fila3"]
fila4 = DF_dic.iloc[3]
#Si se trata de modificar, no quedan guardadas en el DF (ojo con esto)
fila3["Referencias"] = "003"
#Cambio el nombre  (No lo hace)!!!!!!!!!!!!!!!!!!
fila3.name = "fila6"
print(fila3) 
print(".....................................")
print(fila4) 
print(".....................................")
print(DF_dic)
print("------------------------------------")

Referencias    003
precios        300
Name: fila6, dtype: object
.....................................
Referencias    0004
precios         400
Name: fila4, dtype: object
.....................................
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fila3["Referencias"] = "003"


In [19]:
# Añado un par de filas (mire muy bien la redaccion)
DF_dic = DF_dic.append(fila3)
DF_dic = DF_dic.append(fila4)
print(DF_dic)
print("------------------------------------")
# Borro las fila4 pues tiene un index repetido 
# Tenga cuidado con la forma del codigo
DF_dic = DF_dic.drop("fila4")
print(DF_dic)
print("------------------------------------")

      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
fila6         003      300
fila4        0004      400
------------------------------------
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila5        0005      500
fila6         003      300
------------------------------------


Los DataFrames son las estructuras que más vamos a usar, luego es bueno tener algunos de sus atributos y métodos

| FUNCTION                  | DESCRIPTION                                                                                                                                                                                                                      |
|---------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `index()`                   | Entrega el `index` (etiqueta de la fila) del DataFrame                                                                                                                                                                               |
| `insert()`                  | Inserta una columna en el DF                                                                                                                                                                                         |
| `add()`                     | Suma de dos DF                                                                                                                                               |
| `sub()`                     | Resta de dos DF                                                                                                                                            |
| `mul()`                     | Multiplicación de dos DF                                                                                                                                         |
| `div()`                     | División de dos DF                                                                                                                                  |
| `unique()`                  | Método que extrae los valores únicos del DF                                                                                                                                                                               |
| `nunique()`                 | Entrega el número de valores únicos del DF                                                                                                                                                                       |
| `value_counts()`            | Cuanta las ocurrencias de cada valor único dentro de la serie                                                                                                                                                     |
| `columns()`                 | Entrega las etiquetas de las columnas                                                                                                                                                                                |
| `axes`                      | Lista con los ejes (etiquetas de filas y columnas)                                                                                                                                                                     |
| `isnull()`                  | Crea una lista de boleanos con True donde los valores son nulos                                                                                                                                                             |
| `notnull()`                 | Crea una lista de boleanos con True donde los valores no son nulos                                                                                                                                                         |
| `between()`                 | Extrae filas donde el valor de una columna se encuentra entre un rango predefinido                                                                                                                                                    |
| `isin()`                    | Extrae filas de un DataFrame donde existe un valor de columna en una colección predefinida                                                                                                                                     |
| `dtypes()`                  | Devuelve una serie con el tipo de datos de cada columna. El índice del resultado son las columnas del DataFrame original.                                                                                                                |
| `astype()`                  | Convierte los tipos de datos en una serie                                                                                                                                                                                       |
| `values`                  | Devuelve una representación Numpy del DataFrame, es decir, solo se devolverán los valores en el DataFrame, se eliminarán las etiquetas de los ejes                                                                                   |
| `sort_values()`- `Set1`, `Set2` | Ordena un marco de datos en orden ascendente o descendente de la columna que se pasa como argumento                                                                                                                                                      |
| `sort_index()`              | Ordena los valores en un DF en función de sus posiciones de índice o etiquetas en lugar de sus valores, y cuando un DF está hecho de dos o más DF el índice posterior se puede cambiar usando este método |
| `loc[]`                     | Entrega filas según la etiqueta de índice                                                                                                                                                                                    |
| `iloc[]`                    | Entrega filas según la posición de índice.                                                                                                                                                                                     |
| `ix[]`                      | Entrega filas de DF según la etiqueta del índice o la posición del índice. Este método combina las mejores características de los métodos .loc [] y .iloc []                                                                           |
| `rename()`                  | Para cambiar los nombres de las etiquetas de índice o los nombres de las columnas                                                                                                                                          |
| `columns()`                 | Atributo alternativo para cambiar el nombre de la columna                                                                                                                                                                    |
| `drop()`                    | Método para eliminar filas o columnas de un DataFrame                                                                                                                                                                        |
| `pop()`                     | Método para eliminar filas o columnas de un DataFrame                                                                                                                                                                         |
| `sample()`                  | Extrae una muestra aleatoria de filas o columnas de un DataFrame                                                                                                                                                             |
| `nsmallest()`               | Entrega las filas con los valores más pequeños en una columna                                                                                                                                                                   |
| `nlargest()`                | Entrega las filas con los valores más grandes en una columna                                                                                                                                                                    |
| `shape()`                   | Entrega una tupla con la dimensión                                                                                                                                                          |
| `ndim()`                    | Entrega un entero que representa el número de ejes o dimensiones de matriz. Devuelve 1 si Serie, de lo contrario devuelve 2 si DF                                                                                                |
| `dropna()`                  | Permite al usuario analizar y eliminar filas o columnas con valores nulos de diferentes formas.                                                                                                                                       |
| `fillna()`                  | Permite que el usuario reemplace los valores de `NaN` con algún valor propio                                                                                                                                                  |
| `rank()`                    | Clasifica las entradas de una serie por sus valores                                                                                                                                                                      |
| `query()`                   | Sintaxis alternativa basada en cadenas de caracteres para extraer un subconjunto de un DataFrame                                                                                                                                              |
| `copy()`                    | Crea una copia independiente de un objeto pandas                                                                                                                                                                           |
| `duplicated()`              | Crea una serie booleana y la usa para extraer filas que tienen valores duplicados                                                                                                                                           |
| `drop_duplicates()`         | Opción alternativa para identificar filas duplicadas y eliminarlas mediante el filtrado                                                                                                                                |
| `set_index()`               | Establece el índice de DF (etiquetas de fila) usando una o más columnas existentes                                                                                                                                                  |
| `reset_index()`             | Restablece el índice de un DF. Este método establece una lista de enteros que van desde 0 hasta la longitud de los datos como índice                                                                                                                |
| `where()`                   | Verificar un marco de datos para una o más condiciones y devuelve el resultado en consecuencia. De forma predeterminada, las filas que no cumplen la condición se rellenan con el valor NaN  |


__Ejemplos:__ Algunos ejemplos del uso de los anteriores (y otros) atributos y métodos                                                  

In [20]:
#Creemos una serie con 10 números aleatorios
random_series = pd.Series(np.random.randn(10))
#print(random_series)
# Miremos los ejes (axes)
print("Axes")
print(random_series.axes)
print("------------------------------------")
print("random_series está vacio?")
print(random_series.empty)
print("------------------------------------")
print("Número de dimensiones del objeto:")
print(random_series.ndim)
print("------------------------------------")
print("Tamaño del objeto:")
print(random_series.size)
print("------------------------------------")
print("Elementos únicos:")
print(random_series.unique())
print("------------------------------------")
print("Los tres primeros elelmentos:")
print(random_series.head(3))
print("------------------------------------")
print("Los tres últimos elelmentos:")
print(random_series.tail(3))
print("------------------------------------")

Axes
[RangeIndex(start=0, stop=10, step=1)]
------------------------------------
random_series está vacio?
False
------------------------------------
Número de dimensiones del objeto:
1
------------------------------------
Tamaño del objeto:
10
------------------------------------
Elementos únicos:
[-0.48495118  1.58607879  1.32709067  1.11838326  0.35785394  0.01376912
  0.50861365  0.44959899 -1.47746621 -0.56076286]
------------------------------------
Los tres primeros elelmentos:
0   -0.484951
1    1.586079
2    1.327091
dtype: float64
------------------------------------
Los tres últimos elelmentos:
7    0.449599
8   -1.477466
9   -0.560763
dtype: float64
------------------------------------


In [21]:
#Desde un diccionario
Grades_Dict = {'Nombre':pd.Series(['Tomas','Jaime','Ricardo','Viviana','Estefania','Carlos','Jorge']),
   'Edad':pd.Series([25,26,25,23,30,29,23]),
   'Calificacion':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# DataFrame
Grades_DF = pd.DataFrame(Grades_Dict)
print(Grades_DF)
print("------------------------------------")
# Transpuesta
print(Grades_DF.T)
print("------------------------------------")

      Nombre  Edad  Calificacion
0      Tomas    25          4.23
1      Jaime    26          3.24
2    Ricardo    25          3.98
3    Viviana    23          2.56
4  Estefania    30          3.20
5     Carlos    29          4.60
6      Jorge    23          3.80
------------------------------------
                  0      1        2        3          4       5      6
Nombre        Tomas  Jaime  Ricardo  Viviana  Estefania  Carlos  Jorge
Edad             25     26       25       23         30      29     23
Calificacion   4.23   3.24     3.98     2.56        3.2     4.6    3.8
------------------------------------


## Operaciones entre elementos del DF

In [22]:
import random
#Creemos un diccionario de Series con los nombres, apellidos,.....
List_Dict = {"Documento": pd.Series([100064169,100363539,107905013,7432675,100025427,115715207,100113849,10008685,10456246,10001883,10113589,10075864,1516857,10031883,10054782,10078124,10032997,4271868,10537010,10016972,10628816,10651441,10403569,10081111,10251071,10477629,10171337],dtype=np.int64)

,"Apellido1" : pd.Series(["BOHORQUEZ","CABRA","CAICEDO","CARDENAS","CASTELLANOS","CATANO","DUQUE","DUQUE","GALEANO","GIRALDO","GOMEZ","HENAO","HERNANDEZ","LAGOS","MEJIA","MEJIA","MONSALVE","ORTIZ","PENAGOS","PEREZ","PULGARIN","RIOS","RUIZ","SALDARRIAGA","SASTOQUE","VARGAS","ZAPATA"])

,"Apellido2" : pd.Series(["CHACON","PATINO","MARTINEZ","COLMENARES","GONZALEZ","MONSALVE","HOYOS","QUINTERO","VAHOS","CARDENAS","POSADA","CUERVO","GOMEZ","OSORIO","FUENTES","GONZALEZ","TORRES","VELASQUEZ","GONZALEZ","GOMEZ","ESTRADA","PEREZ","GUERRA","MAZO","BUITRAGO","ARIAS","HERNANDEZ"])

,"Nombre1" : pd.Series(["DIEGO","SANTIAGO","YEIMAR","MANUEL","ANGIE","JULIAN","ANDRES","SEBASTIAN","JAVIER","MARIANA","CAMILO","DAVID","JUAN","LUIS","JUAN","ANDRES","SIMON","GLADIS","JUAN","MATEO","JUAN","KATLEEN","JORGE","HEYDI","SEBASTIAN","DANIEL","VENANCIO"])

,"Nombre2" : pd.Series(["ALEJANDRO","","","ARAUJO","DANIELA","","FELIPE","","DARIO","","ANDRES","FELIPE","CAMILO","FERNANDO","MANUEL","","","JESUS","PABLO","","DIEGO","JOHANA","IGNACIO","DAYANA"])

,"Nota1": pd.Series([random.randrange(0,5) for i in range(27)],dtype=np.int64)

,"Nota2": pd.Series([random.randrange(0,5) for i in range(27)],dtype=np.int64)

,"Nota3": pd.Series([random.randrange(0,5) for i in range(27)],dtype=np.int64)

,"NotaFinal" : pd.Series(dtype=np.int64)}

# DataFrame
List_DF = pd.DataFrame(List_Dict)
List_DF

Unnamed: 0,Documento,Apellido1,Apellido2,Nombre1,Nombre2,Nota1,Nota2,Nota3,NotaFinal
0,100064169,BOHORQUEZ,CHACON,DIEGO,ALEJANDRO,2,4,2,
1,100363539,CABRA,PATINO,SANTIAGO,,0,4,2,
2,107905013,CAICEDO,MARTINEZ,YEIMAR,,0,1,3,
3,7432675,CARDENAS,COLMENARES,MANUEL,ARAUJO,0,4,1,
4,100025427,CASTELLANOS,GONZALEZ,ANGIE,DANIELA,0,4,2,
5,115715207,CATANO,MONSALVE,JULIAN,,4,3,4,
6,100113849,DUQUE,HOYOS,ANDRES,FELIPE,3,2,3,
7,10008685,DUQUE,QUINTERO,SEBASTIAN,,1,1,3,
8,10456246,GALEANO,VAHOS,JAVIER,DARIO,4,2,3,
9,10001883,GIRALDO,CARDENAS,MARIANA,,4,1,4,


In [23]:
print("Sumando Sobre el primer eje del DataFrame (suma las columnas)\n")
print(List_DF.sum(0))
print("------------------------------------") 
#En el caso que hayan varios tipos de datos, la suma se hace binaria
print("Sumando Sobre el segundo eje del DataFrame (suma las Filas) \n")
print(List_DF.sum(1))
print("------------------------------------")

Sumando Sobre el primer eje del DataFrame (suma las columnas)

Documento                                            821481613
Apellido1    BOHORQUEZCABRACAICEDOCARDENASCASTELLANOSCATANO...
Apellido2    CHACONPATINOMARTINEZCOLMENARESGONZALEZMONSALVE...
Nombre1      DIEGOSANTIAGOYEIMARMANUELANGIEJULIANANDRESSEBA...
Nota1                                                       51
Nota2                                                       65
Nota3                                                       67
NotaFinal                                                  0.0
dtype: object
------------------------------------
Sumando Sobre el segundo eje del DataFrame (suma las Filas) 

0     100064177.0
1     100363545.0
2     107905017.0
3       7432680.0
4     100025433.0
5     115715218.0
6     100113857.0
7      10008690.0
8      10456255.0
9      10001892.0
10     10113597.0
11     10075869.0
12      1516865.0
13     10031887.0
14     10054787.0
15     10078129.0
16     10033001.0
17      427187

In [24]:
#El promedio de la suma de las columnas numéricas
print(List_DF.mean(0))
print("------------------------------------")
#La desviación estandar tipo bessel de las columnas numéricas
print(List_DF.std())
print("------------------------------------")

Documento    3.042524e+07
Nota1        1.888889e+00
Nota2        2.407407e+00
Nota3        2.481481e+00
NotaFinal             NaN
dtype: float64
------------------------------------
Documento    4.024557e+07
Nota1        1.648620e+00
Nota2        1.448056e+00
Nota3        1.251779e+00
NotaFinal             NaN
dtype: float64
------------------------------------


Algunas funciones que actuan sobre todo el DF

| Function  | Description                      |
|-----------|----------------------------------|
| count()   | Numero de los valores no nulos   |
| sum()     | Suma de los valores              |
| mean()    | Media de los Valores             |
| median()  | Mediana de los valores           |
| mode()    | Moda de los valores              |
| std()     | Desviación estándar              |
| min()     | Mínimo Valor                     |
| max()     | Máximo Valor                     |
| abs()     | Valor Absoluto                   |
| prod()    | Producto                         |
| cumsum()  | Suma cumulativa                  |
| cumprod() | Producto Cumulativo              |

In [25]:
# Todo lo anterior se puede hacer con describe. Si se le pasa el argumento include='all', 
#muestra todas las columnas.
# print(describe(include='all'))
print(List_DF.describe())

          Documento      Nota1      Nota2      Nota3  NotaFinal
count  2.700000e+01  27.000000  27.000000  27.000000        0.0
mean   3.042524e+07   1.888889   2.407407   2.481481        NaN
std    4.024557e+07   1.648620   1.448056   1.251779        NaN
min    1.516857e+06   0.000000   0.000000   0.000000        NaN
25%    1.003244e+07   0.000000   1.000000   2.000000        NaN
50%    1.017134e+07   2.000000   3.000000   3.000000        NaN
75%    1.064013e+07   4.000000   4.000000   3.500000        NaN
max    1.157152e+08   4.000000   4.000000   4.000000        NaN


In [26]:
#List_DF.describe?

### Función `pipe`
Una de las funciones más útiles de las hojas de cálculo es crear funciones y aplicarlas sobre el conjuntos de datos.
La función pipe permite aplicar funciones.

__Ejemplo:__

In [27]:
#Creemos una función
def Suma(a,b):
   return a+b
RandomDataFrame = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(RandomDataFrame)
# Se debe pasar los argumentos usando comas, la función "suma" toma los dos argumentos que se le pasa
#y devuelve la suma, a pipe se le pasa el nombre de la función y los argumentos separados por comas
print("---------------------------------")
print(RandomDataFrame.pipe(Suma,4)) #Le suma 4 a todas las entradas del DF

       col1      col2      col3
0 -0.480100  1.053953  0.518694
1  0.859653 -0.222037  0.567539
2 -0.163555  0.005021 -0.336091
3 -2.104480  0.039931 -0.309088
4  0.860877  2.193744 -1.843029
---------------------------------
       col1      col2      col3
0  3.519900  5.053953  4.518694
1  4.859653  3.777963  4.567539
2  3.836445  4.005021  3.663909
3  1.895520  4.039931  3.690912
4  4.860877  6.193744  2.156971


### Función `apply`
Funciones arbitrarias se pueden aplicar a lo largo de los ejes de un DataFrame o Panel usando el método `apply()`, esta toma un argumento de eje opcional. De forma predeterminada, la operación se realiza en columnas, tomando cada columna como una matriz.

__Sintaxis:__
>```
>   DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds)
>```

donde `func` es la función que se aplicará a cada columna o fila. Esta función acepta una serie y devuelve una serie. `eje` eje a lo largo del cual se aplica la función en el marco de datos. Valor predeterminado 0. Si el valor es 0, aplica la función a cada columna. Si el valor es 1, aplica la función a cada fila.
`args` lista de argumentos para pasar a la función.

__Ejemplo:__

In [28]:
#Creemos una función
def Func(a,b):
   return a*b+a
RandomDataFrame = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(RandomDataFrame)
print("---------------------------------")
print(RandomDataFrame.apply(Func,axis=1,args=[2]))

       col1      col2      col3
0 -0.822159 -1.552267  1.573095
1  2.970326 -2.361326 -0.838997
2  0.000018  0.600286  0.478594
3 -0.589752  0.530558 -0.317763
4 -1.266912 -0.345147  0.555195
---------------------------------
       col1      col2      col3
0 -2.466477 -4.656801  4.719285
1  8.910978 -7.083977 -2.516992
2  0.000055  1.800857  1.435782
3 -1.769255  1.591674 -0.953288
4 -3.800737 -1.035441  1.665586


## Iteraciones
La iteración de un DataFrame da nombres de columna. 

__Ejemplo:__

In [29]:
import random
#Creemos un diccionario de Series con los nombres, apellidos,.....
List_Dict = {"Documento": pd.Series([100064169,100363539,107905013,7432675,100025427,115715207,100113849,10008685,10456246,10001883,10113589,10075864,1516857,10031883,10054782,10078124,10032997,4271868,10537010,10016972,10628816,10651441,10403569,10081111,10251071,10477629,10171337],dtype=np.int64)

,"Apellido1" : pd.Series(["BOHORQUEZ","CABRA","CAICEDO","CARDENAS","CASTELLANOS","CATANO","DUQUE","DUQUE","GALEANO","GIRALDO","GOMEZ","HENAO","HERNANDEZ","LAGOS","MEJIA","MEJIA","MONSALVE","ORTIZ","PENAGOS","PEREZ","PULGARIN","RIOS","RUIZ","SALDARRIAGA","SASTOQUE","VARGAS","ZAPATA"])

,"Apellido2" : pd.Series(["CHACON","PATINO","MARTINEZ","COLMENARES","GONZALEZ","MONSALVE","HOYOS","QUINTERO","VAHOS","CARDENAS","POSADA","CUERVO","GOMEZ","OSORIO","FUENTES","GONZALEZ","TORRES","VELASQUEZ","GONZALEZ","GOMEZ","ESTRADA","PEREZ","GUERRA","MAZO","BUITRAGO","ARIAS","HERNANDEZ"])

,"Nombre1" : pd.Series(["DIEGO","SANTIAGO","YEIMAR","MANUEL","ANGIE","JULIAN","ANDRES","SEBASTIAN","JAVIER","MARIANA","CAMILO","DAVID","JUAN","LUIS","JUAN","ANDRES","SIMON","GLADIS","JUAN","MATEO","JUAN","KATLEEN","JORGE","HEYDI","SEBASTIAN","DANIEL","VENANCIO"])

,"Nombre2" : pd.Series(["ALEJANDRO","","","ARAUJO","DANIELA","","FELIPE","","DARIO","","ANDRES","FELIPE","CAMILO","FERNANDO","MANUEL","","","JESUS","PABLO","","DIEGO","JOHANA","IGNACIO","DAYANA"])

,"Nota1": pd.Series([random.randrange(0,5) for i in range(27)],dtype=np.int64)

,"Nota2": pd.Series([random.randrange(0,5) for i in range(27)],dtype=np.int64)

,"Nota3": pd.Series([random.randrange(0,5) for i in range(27)],dtype=np.int64)

,"NotaFinal" : pd.Series(dtype=np.int64)
}
# DataFrame
List_DF = pd.DataFrame(List_Dict)
for col in List_DF:
   print(col)

Documento
Apellido1
Apellido2
Nombre1
Nombre2
Nota1
Nota2
Nota3
NotaFinal


Para iterar sobre el DataFrame, podemos usar las funciones:
- `iteritems()` : para iterar sobre los pares (llave, valor).
- `iterrows()`  : itera sobre las filas como pares (índice, serie).
- `itertuples()`: itera sobre las filas como nombres de tuplas.

__Ejemplos:__ Usando el DF anterior

In [30]:
for key,value in List_DF.iteritems():
    #Imprimo llaves
    print(key)
    print("---------------------------------")
    # El contenido de la llave
    print(value)
    print("---------------------------------")

Documento
---------------------------------
0     100064169
1     100363539
2     107905013
3       7432675
4     100025427
5     115715207
6     100113849
7      10008685
8      10456246
9      10001883
10     10113589
11     10075864
12      1516857
13     10031883
14     10054782
15     10078124
16     10032997
17      4271868
18     10537010
19     10016972
20     10628816
21     10651441
22     10403569
23     10081111
24     10251071
25     10477629
26     10171337
Name: Documento, dtype: int64
---------------------------------
Apellido1
---------------------------------
0       BOHORQUEZ
1           CABRA
2         CAICEDO
3        CARDENAS
4     CASTELLANOS
5          CATANO
6           DUQUE
7           DUQUE
8         GALEANO
9         GIRALDO
10          GOMEZ
11          HENAO
12      HERNANDEZ
13          LAGOS
14          MEJIA
15          MEJIA
16       MONSALVE
17          ORTIZ
18        PENAGOS
19          PEREZ
20       PULGARIN
21           RIOS
22           RUIZ
23

In [31]:
#Itera sobre los indices de las filas, y el valor
for row_index,row in List_DF.iterrows():
    print(row_index)
    print("---------------------------------")
    print(row)
    print("---------------------------------")

0
---------------------------------
Documento    100064169
Apellido1    BOHORQUEZ
Apellido2       CHACON
Nombre1          DIEGO
Nombre2      ALEJANDRO
Nota1                0
Nota2                2
Nota3                4
NotaFinal          NaN
Name: 0, dtype: object
---------------------------------
1
---------------------------------
Documento    100363539
Apellido1        CABRA
Apellido2       PATINO
Nombre1       SANTIAGO
Nombre2               
Nota1                0
Nota2                2
Nota3                1
NotaFinal          NaN
Name: 1, dtype: object
---------------------------------
2
---------------------------------
Documento    107905013
Apellido1      CAICEDO
Apellido2     MARTINEZ
Nombre1         YEIMAR
Nombre2               
Nota1                2
Nota2                2
Nota3                1
NotaFinal          NaN
Name: 2, dtype: object
---------------------------------
3
---------------------------------
Documento       7432675
Apellido1      CARDENAS
Apellido2    COL

In [32]:
#Itera simplemete sobre la fila
for row in List_DF.itertuples():
    print(row,'\n')

Pandas(Index=0, Documento=100064169, Apellido1='BOHORQUEZ', Apellido2='CHACON', Nombre1='DIEGO', Nombre2='ALEJANDRO', Nota1=0, Nota2=2, Nota3=4, NotaFinal=nan) 

Pandas(Index=1, Documento=100363539, Apellido1='CABRA', Apellido2='PATINO', Nombre1='SANTIAGO', Nombre2='', Nota1=0, Nota2=2, Nota3=1, NotaFinal=nan) 

Pandas(Index=2, Documento=107905013, Apellido1='CAICEDO', Apellido2='MARTINEZ', Nombre1='YEIMAR', Nombre2='', Nota1=2, Nota2=2, Nota3=1, NotaFinal=nan) 

Pandas(Index=3, Documento=7432675, Apellido1='CARDENAS', Apellido2='COLMENARES', Nombre1='MANUEL', Nombre2='ARAUJO', Nota1=0, Nota2=4, Nota3=4, NotaFinal=nan) 

Pandas(Index=4, Documento=100025427, Apellido1='CASTELLANOS', Apellido2='GONZALEZ', Nombre1='ANGIE', Nombre2='DANIELA', Nota1=1, Nota2=0, Nota3=2, NotaFinal=nan) 

Pandas(Index=5, Documento=115715207, Apellido1='CATANO', Apellido2='MONSALVE', Nombre1='JULIAN', Nombre2='', Nota1=2, Nota2=2, Nota3=2, NotaFinal=nan) 

Pandas(Index=6, Documento=100113849, Apellido1='DUQUE'

## Clasificación
Hay dos formas de clasificación en pandas, usando las etiquetas `sort_index()` y usando los valores `sort_values()`.

### Por Etiquetas:

__Ejemplo:__

In [33]:
RandomDataFrame = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
DF_Ordenado = RandomDataFrame.sort_index(ascending=False)
print(DF_Ordenado)

       col1      col2      col3
9 -0.975675 -0.340279  0.300939
8  0.277723 -1.389186 -0.266570
7  0.207885 -0.032008  1.992937
6  0.151529 -1.176947  0.430692
5 -0.691784  0.122266 -0.910900
4 -1.093109 -0.222512 -0.580993
3 -0.085925  0.838165  0.565605
2 -0.704227  0.290640 -0.316406
1 -2.581657 -1.257559 -0.825738
0  0.022991  2.633983 -0.440371


Al pasar el argumento del eje con un valor 0 o 1, la clasificación se puede realizar en las etiquetas de las columnas (`axis=0` Por defecto).

__Ejemplo:__

In [34]:
#Este es el orden normal por etiqueta
DF_Ordenado_0 = RandomDataFrame.sort_index(axis=0)
print(DF_Ordenado_0)
print("--------------------------------")
#Cambia el orden de las columnas
DF_Ordenado_1 = RandomDataFrame.sort_index(axis=1,ascending=False)
print(DF_Ordenado_1)

       col1      col2      col3
0  0.022991  2.633983 -0.440371
1 -2.581657 -1.257559 -0.825738
2 -0.704227  0.290640 -0.316406
3 -0.085925  0.838165  0.565605
4 -1.093109 -0.222512 -0.580993
5 -0.691784  0.122266 -0.910900
6  0.151529 -1.176947  0.430692
7  0.207885 -0.032008  1.992937
8  0.277723 -1.389186 -0.266570
9 -0.975675 -0.340279  0.300939
--------------------------------
       col3      col2      col1
0 -0.440371  2.633983  0.022991
1 -0.825738 -1.257559 -2.581657
2 -0.316406  0.290640 -0.704227
3  0.565605  0.838165 -0.085925
4 -0.580993 -0.222512 -1.093109
5 -0.910900  0.122266 -0.691784
6  0.430692 -1.176947  0.151529
7  1.992937 -0.032008  0.207885
8 -0.266570 -1.389186  0.277723
9  0.300939 -0.340279 -0.975675


### Por Valor

`sort_values​​()` es el método para clasificar por valores. Acepta un argumento `by` que utilizará el nombre de columna del DataFrame con el que se ordenarán los valores.

__Ejemplo:__

In [35]:
RandomDataFrame = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
#Sin ordenar
print(RandomDataFrame)
print("--------------------------------")
#Se ordenan los datos respecto a la col3
DF_Ordenado_Valor_col3 = RandomDataFrame.sort_values(ascending=False,by="col3")
print(DF_Ordenado_Valor_col3)

       col1      col2      col3
0 -0.132155 -0.270913 -1.155414
1  0.476236  1.238734  0.268581
2  1.313335 -1.181399 -0.802071
3  1.529547 -0.631765  0.299760
4  0.392369  0.468817 -1.056699
5  2.681380 -0.491746 -1.192600
6 -1.458826 -0.310664 -0.397957
7  1.313602 -0.400679 -0.620010
8  0.274030 -0.724735  0.101084
9  0.099981 -0.734931 -0.986823
--------------------------------
       col1      col2      col3
3  1.529547 -0.631765  0.299760
1  0.476236  1.238734  0.268581
8  0.274030 -0.724735  0.101084
6 -1.458826 -0.310664 -0.397957
7  1.313602 -0.400679 -0.620010
2  1.313335 -1.181399 -0.802071
9  0.099981 -0.734931 -0.986823
4  0.392369  0.468817 -1.056699
0 -0.132155 -0.270913 -1.155414
5  2.681380 -0.491746 -1.192600
