# Pandas 1
es un paquete de código abierto para Python que contiene herramientas de análisis y manipulación de datos de alto desempeño.

## Estructuras de dato de Pandas
Actualmente _Pandas_ maneja tres tipos de estructuras de datos, construidos a partir de arreglos de numpy:
- __Series__    : Arreglos unidimencionales, cuyo tamaño es inmutable.
- __DataFrames__: Arreglo bidimencional, con tamaño mutable, se puede considerar un contenedor de _Series_.
- __Panel:__    : Arreglo tridimencional, con tamaño mutale, se puede considerar un contenedor de _DataFrames_.

### Series

__Sintaxis:__
>```
>   pandas.Series( data, index, dtype, copy)
>```

Donde `data` pueden ser listas de python o arreglos de numpy o diccionarios. `index` es un identificador, por defecto se usa `np.arrange(n)`, `dtype` es el tipo de datos que contiene, que por defecto python lo infiere. `copy` si se copian los datos, por defecto _False_. Se suele pensar en las series de _Pandas_ como una columna de Exel (openOffice, LibreOffice), con el nombre de la fila (_index_).

__Ejemplos:__ Creemos algunas series

In [1]:
import numpy as np
import pandas as pd

# Un arreglo vacio
empty_serie = pd.Series()
print("Serie Vacia")
print(empty_serie)

# Un arreglo de strings desde un arreglo de numpy
#como no se paso index, entonces usa el default
str_arr = np.array(["Camilo","Andres","Andrea","Paula","Carlos"])
str_serie = pd.Series(str_arr)
print("Serie de strings")
print(str_serie)

# Un arreglo de enteros desde un diccionario
#note que los indices cambiaron por las keys del diccionario
int_dic = {'a':21,'b':55,'c':31,'d':56,'e':90}
int_serie = pd.Series(int_dic)
print("Serie de Enteros")
print(int_serie)

Serie Vacia
Series([], dtype: float64)
Serie de strings
0    Camilo
1    Andres
2    Andrea
3     Paula
4    Carlos
dtype: object
Serie de Enteros
a    21
b    55
c    31
d    56
e    90
dtype: int64


Una vez construida la serie, se puede acceder a los datos de manera similar a los arreglos de numpy (narray), tambíen es posible recuperar los datos usando el indice (etiquetas en `index`). Tenga en cuenta que muchas veces estas dos formas van a coincidir (en el caso que se use el default)

__Ejemplo:__ Varias formas de acceder a los datos de una serie


In [2]:
# Imprimo el primer elemento de la lista usando:

#usando la posición como en un narray
print("int_serie[0]:", int_serie[0])
#usando el indice (etiqueta o label)
print("int_serie['a']:", int_serie['a'])

int_serie[0]: 21
int_serie['a']: 21


### DataFrames
Se suele comparar los `DataFrames` con hojas de calculo de Exel.

__Sintaxis:__ 

>```
>   pandas.DataFrame( data, index, columns, dtype, copy)
>```

Donde `data` pueden ser varios tipos de datos como narray, series, map, lists, dict, constants e inclusive otro _DataFrame_. `index` se usa para etiquetar las filas y el valor por defecto es posicional (como en el caso de las Series). `columns` Son las etiquetas para las columnas, es opcional y por defecto se pasa es posicional. `dtype` es el tipo de datos por columna. `copy` para copiar los datos, por defecto False.

__Ejemplos:__ Creemos algunos DataFrames


In [3]:
#Primero un DataFrame Vacio
empty_data_frame = pd.DataFrame()
print("DataFrame Vacio")
print(empty_data_frame)
print("------------------------------------")
#Ahora uno usando una lista de listas
lista_Listas = [["Camilo",10],["Carlos",40],["Mario",7],["Daniela",22],["Josefina",86]]
DF_lista = pd.DataFrame(lista_Listas,columns=["Nombre","Edad"],dtype=float)    #obligo a que los datos sean float
print("DataFrame Desde una lista de listas")
print(DF_lista) 
print("------------------------------------")
#Usando un diccionario
dictionary = {'Referencias':["0001","0002","0003","0004","0005"],'precios':[100,200,300,400,500]}
DF_dic = pd.DataFrame(dictionary,index=["fila1","fila2","fila3","fila4","fila5"])  #Cambio el indice de las filas
print("DataFrame desde un diccionario")
print(DF_dic)
print("------------------------------------")
#Dede una lista de diccionarios
dict_list = [
    {'Referencia':"001",'Precio':100, 'Descripcion':"referencia 1"},
    {'Referencia':"002",'Precio':200},
    {'Referencia':"003",'Precio':300, 'Descripcion':"referencia 3"},
    {'Referencia':"004",'Precio':400}]
DF_dict_list = pd.DataFrame(dict_list)
print("DataFrame desde una lista de diccionarios")
print(DF_dict_list)

DataFrame Vacio
Empty DataFrame
Columns: []
Index: []
------------------------------------
DataFrame Desde una lista de listas
     Nombre  Edad
0    Camilo  10.0
1    Carlos  40.0
2     Mario   7.0
3   Daniela  22.0
4  Josefina  86.0
------------------------------------
DataFrame desde un diccionario
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
DataFrame desde una lista de diccionarios
  Referencia  Precio   Descripcion
0        001     100  referencia 1
1        002     200           NaN
2        003     300  referencia 3
3        004     400           NaN


Note que en la última definición, donde faltaron items (descripcion) DataFrame pone automaticamente un NaN (Not a Number) para indicar que no se proporciono ese dato.
### Modificar la estructura de un DataFrame
Se puede modificar la estructura de un DataFrame Aumentando o borrando columnas al DF. También se puede seleccionar una columna y operar con ella de forma independiente, recordando que python usa _paso por referencia_.

__Ejemplo:__ Seleccionemos una columna de `DF_dic`

In [4]:
#Volvemos a crear el DF para evitar contaminación
dictionary = {'Referencias':["0001","0002","0003","0004","0005"],'precios':[100,200,300,400,500]}
DF_dic = pd.DataFrame(dictionary,index=["fila1","fila2","fila3","fila4","fila5"])  #Cambio el indice de las filas
print("Antes de editar columna")
print(DF_dic)
print("------------------------------------")
#Seleccion la columna Referencias y se la asigno al objeto RefCol
RefCol = DF_dic['Referencias']
#Modifico la fila3
RefCol['fila3'] = '03'
#Note que se modifica en el DataFrame 
print("Despúes de editar columna")
print(DF_dic)

Antes de editar columna
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
Despúes de editar columna
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3          03      300
fila4        0004      400
fila5        0005      500


#### Añadir o borrar columnas
Otra cosa que se puede hacer, es crear o borrar columnas al DF.

__Ejemplo:__ 

In [5]:
#Creamos el DF
dict_list = [
    {'Referencia':"001",'Precio':100, 'Descripcion':"referencia 1"},
    {'Referencia':"002",'Precio':200},
    {'Referencia':"003",'Precio':300, 'Descripcion':"referencia 3"},
    {'Referencia':"004",'Precio':400}]
DF_dict_list = pd.DataFrame(dict_list)
print("DataFrame desde una lista de diccionarios")
print(DF_dict_list)
print("----------------------------------------------------------------------")

#Creo una nueva columna desde una lista contenida en una serie
DF_dict_list["Precio al publico"] = pd.Series([110,210,310,410])
print(DF_dict_list)
print("----------------------------------------------------------------------")
#creo una nueva columna construida con otras contenidas dentro del DF
DF_dict_list["% de Ganancia"] = (DF_dict_list["Precio al publico"]-DF_dict_list["Precio"])*100/DF_dict_list["Precio al publico"]
print(DF_dict_list)
print("----------------------------------------------------------------------")
# Y de nuevo borro la columna
del DF_dict_list["% de Ganancia"]
print(DF_dict_list)

DataFrame desde una lista de diccionarios
  Referencia  Precio   Descripcion
0        001     100  referencia 1
1        002     200           NaN
2        003     300  referencia 3
3        004     400           NaN
----------------------------------------------------------------------
  Referencia  Precio   Descripcion  Precio al publico
0        001     100  referencia 1                110
1        002     200           NaN                210
2        003     300  referencia 3                310
3        004     400           NaN                410
----------------------------------------------------------------------
  Referencia  Precio   Descripcion  Precio al publico  % de Ganancia
0        001     100  referencia 1                110       9.090909
1        002     200           NaN                210       4.761905
2        003     300  referencia 3                310       3.225806
3        004     400           NaN                410       2.439024
--------------------------

### Seleccionar, añadir y borrar filas
De manera similar los DF permiten seleccionar, añadir y borrar filas. 

__Ejemplos:__


In [6]:
#Usando un DF de un ejemplo pasado 
dictionary = {'Referencias':["0001","0002","0003","0004","0005"],'precios':[100,200,300,400,500]}
DF_dic = pd.DataFrame(dictionary,index=["fila1","fila2","fila3","fila4","fila5"])  #Cambio el indice de las filas
print("Antes de editar columna")
print(DF_dic)
print("------------------------------------")
# Seleccionemos una filas, se hace pasandole el indice a la funcion loc
#o tambien pasandole el numero el número de localización a iloc 
#Ojo son brackets [] no ()
fila3 = DF_dic.loc["fila3"]
fila4 = DF_dic.iloc[3]
#Si se trata de modificar, no quedan guardadas en el DF
fila3["Referencias"] = "003"
#Cambio el nombre
fila3.name = "fila6"
print(fila3) 
print(".....................................")
print(fila4) 
print(".....................................")
print(DF_dic)
print("------------------------------------")
# Añado un par de filas (mire muy bien la redaccion)
DF_dic = DF_dic.append(fila3)
DF_dic = DF_dic.append(fila4)
print(DF_dic)
print("------------------------------------")
# Borro las fila4 pues tiene un index repetido 
# Tenga cuidado con la forma del codigo
DF_dic = DF_dic.drop("fila4")
print(DF_dic)
print("------------------------------------")

Antes de editar columna
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
Referencias    003
precios        300
Name: fila6, dtype: object
.....................................
Referencias    0004
precios         400
Name: fila4, dtype: object
.....................................
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
------------------------------------
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila4        0004      400
fila5        0005      500
fila6         003      300
fila4        0004      400
------------------------------------
      Referencias  precios
fila1        0001      100
fila2        0002      200
fila3        0003      300
fila5    

In [7]:
DF_dic.notnull()

Unnamed: 0,Referencias,precios
fila1,True,True
fila2,True,True
fila3,True,True
fila5,True,True
fila6,True,True


Los DataFrames son las estructuras que más vamos a usar, luego es bueno tener algunos de sus atributos y métodos

| FUNCTION                  | DESCRIPTION                                                                                                                                                                                                                      |
|---------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| index()                   | Entrega el `index` (etiqueta de la fila) del DataFrame                                                                                                                                                                               |
| insert()                  | Inserta una columna en el DF                                                                                                                                                                                         |
| add()                     | Suma de dos DF                                                                                                                                               |
| sub()                     | Resta de dos DF                                                                                                                                            |
| mul()                     | Multiplicación de dos DF                                                                                                                                         |
| div()                     | División de dos DF                                                                                                                                  |
| unique()                  | Método que extrae los valores únicos del DF                                                                                                                                                                               |
| nunique()                 | Entrega el número de valores únicos del DF                                                                                                                                                                       |
| value_counts()            | Cuanta las ocurrencias de cada valor único dentro de la serie                                                                                                                                                     |
| columns()                 | Entrega las etiquetas de las columnas                                                                                                                                                                                |
| axes                      | Lista con los ejes (etiquetas de filas y columnas)                                                                                                                                                                     |
| isnull()                  | Crea una lista de boleanos con True donde los valores son nulos                                                                                                                                                             |
| notnull()                 | Crea una lista de boleanos con True donde los valores no son nulos                                                                                                                                                         |
| between()                 | Extrae filas donde el valor de una columna se encuentra entre un rango predefinido                                                                                                                                                    |
| isin()                    | Extrae filas de un DataFrame donde existe un valor de columna en una colección predefinida                                                                                                                                     |
| dtypes()                  | Devuelve una serie con el tipo de datos de cada columna. El índice del resultado son las columnas del DataFrame original.                                                                                                                |
| astype()                  | Convierte los tipos de datos en una serie                                                                                                                                                                                       |
| values                  | Devuelve una representación Numpy del DataFrame, es decir, solo se devolverán los valores en el DataFrame, se eliminarán las etiquetas de los ejes                                                                                   |
| sort_values()- Set1, Set2 | Ordena un marco de datos en orden ascendente o descendente de la columna que se pasa como argumento                                                                                                                                                      |
| sort_index()              | Ordena los valores en un DF en función de sus posiciones de índice o etiquetas en lugar de sus valores, y cuando un DF está hecho de dos o más DF el índice posterior se puede cambiar usando este método |
| loc[]                     | Entrega filas según la etiqueta de índice                                                                                                                                                                                    |
| iloc[]                    | Entrega filas según la posición de índice.                                                                                                                                                                                     |
| ix[]                      | Entrega filas de DF según la etiqueta del índice o la posición del índice. Este método combina las mejores características de los métodos .loc [] y .iloc []                                                                           |
| rename()                  | Para cambiar los nombres de las etiquetas de índice o los nombres de las columnas                                                                                                                                          |
| columns()                 | Atributo alternativo para cambiar el nombre de la columna                                                                                                                                                                    |
| drop()                    | Método para eliminar filas o columnas de un DataFrame                                                                                                                                                                        |
| pop()                     | Método para eliminar filas o columnas de un DataFrame                                                                                                                                                                         |
| sample()                  | Extrae una muestra aleatoria de filas o columnas de un DataFrame                                                                                                                                                             |
| nsmallest()               | Entrega las filas con los valores más pequeños en una columna                                                                                                                                                                   |
| nlargest()                | Entrega las filas con los valores más grandes en una columna                                                                                                                                                                    |
| shape()                   | Entrega una tupla con la dimensión                                                                                                                                                          |
| ndim()                    | Entrega un entero que representa el número de ejes o dimensiones de matriz. Devuelve 1 si Serie, de lo contrario devuelve 2 si DF                                                                                                |
| dropna()                  | Permite al usuario analizar y eliminar filas o columnas con valores nulos de diferentes formas.                                                                                                                                       |
| fillna()                  | Permite que el usuario reemplace los valores de `NaN` con algún valor propio                                                                                                                                                  |
| rank()                    | Clasifica las entradas de una serie por sus valores                                                                                                                                                                      |
| query()                   | Sintaxis alternativa basada en cadenas de caracteres para extraer un subconjunto de un DataFrame                                                                                                                                              |
| copy()                    | Crea una copia independiente de un objeto pandas                                                                                                                                                                           |
| duplicated()              | Crea una serie booleana y la usa para extraer filas que tienen valores duplicados                                                                                                                                           |
| drop_duplicates()         | Opción alternativa para identificar filas duplicadas y eliminarlas mediante el filtrado                                                                                                                                |
| set_index()               | Establece el índice de DF (etiquetas de fila) usando una o más columnas existentes                                                                                                                                                  |
| reset_index()             | Restablece el índice de un DF. Este método establece una lista de enteros que van desde 0 hasta la longitud de los datos como índice                                                                                                                |
| where()                   | Verificar un marco de datos para una o más condiciones y devuelve el resultado en consecuencia. De forma predeterminada, las filas que no cumplen la condición se rellenan con el valor NaN  |


__Ejemplos:__ Algunos ejemplos del uso de los anteriores (y otros) atributos y métodos                                                  

In [8]:
#Creemos una serie con 10 números aleatorios
random_series = pd.Series(np.random.randn(10))
#print(random_series)
# Miremos los ejes (axes)
print("Axes")
print(random_series.axes)
print("------------------------------------")
print("random_series está vacio?")
print(random_series.empty)
print("------------------------------------")
print("Número de dimensiones del objeto:")
print(random_series.ndim)
print("------------------------------------")
print("Tamaño del objeto:")
print(random_series.size)
print("------------------------------------")
print("Elementos únicos:")
print(random_series.unique())
print("------------------------------------")
print("Los tres primeros elelmentos:")
print(random_series.head(3))
print("------------------------------------")
print("Los tres últimos elelmentos:")
print(random_series.tail(3))
print("------------------------------------")

Axes
[RangeIndex(start=0, stop=10, step=1)]
------------------------------------
random_series está vacio?
False
------------------------------------
Número de dimensiones del objeto:
1
------------------------------------
Tamaño del objeto:
10
------------------------------------
Elementos únicos:
[-0.07250103 -1.93209983  0.54541424  0.36990956  2.22029963  0.04161611
  1.21435497  0.92583226  1.87257201 -0.32026155]
------------------------------------
Los tres primeros elelmentos:
0   -0.072501
1   -1.932100
2    0.545414
dtype: float64
------------------------------------
Los tres últimos elelmentos:
7    0.925832
8    1.872572
9   -0.320262
dtype: float64
------------------------------------


In [9]:
#Desde un diccionario
Grades_Dict = {'Nombre':pd.Series(['Tomas','Jaime','Ricardo','Viviana','Estefania','Carlos','Jorge']),
   'Edad':pd.Series([25,26,25,23,30,29,23]),
   'Calificacion':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# DataFrame
Grades_DF = pd.DataFrame(Grades_Dict)
print(Grades_DF)
print("------------------------------------")
# Transpuesta
print(Grades_DF.T)
print("------------------------------------")

Nombre  Edad  Calificacion
0      Tomas    25          4.23
1      Jaime    26          3.24
2    Ricardo    25          3.98
3    Viviana    23          2.56
4  Estefania    30          3.20
5     Carlos    29          4.60
6      Jorge    23          3.80
------------------------------------
                  0      1        2        3          4       5      6
Nombre        Tomas  Jaime  Ricardo  Viviana  Estefania  Carlos  Jorge
Edad             25     26       25       23         30      29     23
Calificacion   4.23   3.24     3.98     2.56        3.2     4.6    3.8
------------------------------------


## Operaciones entre elementos del DF

In [10]:
import random
#Creemos un diccionario de Series con los nombres, apellidos,.....
List_Dict = {"Documento": pd.Series([100064169,100363539,107905013,7432675,100025427,115715207,100113849,10008685,10456246,10001883,10113589,10075864,1516857,10031883,10054782,10078124,10032997,4271868,10537010,10016972,10628816,10651441,10403569,10081111,10251071,10477629,10171337]),
"Apellido1" : pd.Series(["BOHORQUEZ","CABRA","CAICEDO","CARDENAS","CASTELLANOS","CATANO","DUQUE","DUQUE","GALEANO","GIRALDO","GOMEZ","HENAO","HERNANDEZ","LAGOS","MEJIA","MEJIA","MONSALVE","ORTIZ","PENAGOS","PEREZ","PULGARIN","RIOS","RUIZ","SALDARRIAGA","SASTOQUE","VARGAS","ZAPATA"]),
"Apellido2" : pd.Series(["CHACON","PATINO","MARTINEZ","COLMENARES","GONZALEZ","MONSALVE","HOYOS","QUINTERO","VAHOS","CARDENAS","POSADA","CUERVO","GOMEZ","OSORIO","FUENTES","GONZALEZ","TORRES","VELASQUEZ","GONZALEZ","GOMEZ","ESTRADA","PEREZ","GUERRA","MAZO","BUITRAGO","ARIAS","HERNANDEZ"]),
"Nombre1" : pd.Series(["DIEGO","SANTIAGO","YEIMAR","MANUEL","ANGIE","JULIAN","ANDRES","SEBASTIAN","JAVIER","MARIANA","CAMILO","DAVID","JUAN","LUIS","JUAN","ANDRES","SIMON","GLADIS","JUAN","MATEO","JUAN","KATLEEN","JORGE","HEYDI","SEBASTIAN","DANIEL","VENANCIO"]),
"Nombre2" : pd.Series(["ALEJANDRO","","","ARAUJO","DANIELA","","FELIPE","","DARIO","","ANDRES","FELIPE","CAMILO","FERNANDO","MANUEL","","","JESUS","PABLO","","DIEGO","JOHANA","IGNACIO","DAYANA"]),
"Nota1": pd.Series([random.randrange(0,5) for i in range(27)]),
"Nota2": pd.Series([random.randrange(0,5) for i in range(27)]),
"Nota3": pd.Series([random.randrange(0,5) for i in range(27)]),
"NotaFinal" : pd.Series()
}
# DataFrame
List_DF = pd.DataFrame(List_Dict)
print(List_DF)
print("------------------------------------")

Documento    Apellido1   Apellido2    Nombre1    Nombre2  Nota1  Nota2  \
0   100064169    BOHORQUEZ      CHACON      DIEGO  ALEJANDRO      3      0   
1   100363539        CABRA      PATINO   SANTIAGO                 3      1   
2   107905013      CAICEDO    MARTINEZ     YEIMAR                 3      2   
3     7432675     CARDENAS  COLMENARES     MANUEL     ARAUJO      1      0   
4   100025427  CASTELLANOS    GONZALEZ      ANGIE    DANIELA      1      1   
5   115715207       CATANO    MONSALVE     JULIAN                 4      4   
6   100113849        DUQUE       HOYOS     ANDRES     FELIPE      4      2   
7    10008685        DUQUE    QUINTERO  SEBASTIAN                 3      4   
8    10456246      GALEANO       VAHOS     JAVIER      DARIO      4      1   
9    10001883      GIRALDO    CARDENAS    MARIANA                 1      2   
10   10113589        GOMEZ      POSADA     CAMILO     ANDRES      3      2   
11   10075864        HENAO      CUERVO      DAVID     FELIPE      1 

In [11]:
#Sumando Sobre el primer eje del DataFrame (suma las columnas) 
print(List_DF.sum(0))
print("------------------------------------")
#Sumando Sobre el segundo eje del DataFrame (suma las Filas) 
#La suma se hace binaria
print(List_DF.sum(1))
print("------------------------------------")

Documento                                            821481613
Apellido1    BOHORQUEZCABRACAICEDOCARDENASCASTELLANOSCATANO...
Apellido2    CHACONPATINOMARTINEZCOLMENARESGONZALEZMONSALVE...
Nombre1      DIEGOSANTIAGOYEIMARMANUELANGIEJULIANANDRESSEBA...
Nota1                                                       53
Nota2                                                       58
Nota3                                                       57
NotaFinal                                                    0
dtype: object
------------------------------------
0     100064173.0
1     100363545.0
2     107905019.0
3       7432677.0
4     100025429.0
5     115715219.0
6     100113859.0
7      10008694.0
8      10456253.0
9      10001886.0
10     10113598.0
11     10075872.0
12      1516863.0
13     10031887.0
14     10054790.0
15     10078127.0
16     10033000.0
17      4271874.0
18     10537021.0
19     10016977.0
20     10628822.0
21     10651447.0
22     10403577.0
23     10081115.0
24     102510

In [12]:
#El promedio de la suma de las columnas numéricas
print(List_DF.mean(0))
print("------------------------------------")
#La desviación estandar tipo bessel de las columnas numéricas
print(List_DF.std())
print("------------------------------------")

Documento    3.042524e+07
Nota1        1.962963e+00
Nota2        2.148148e+00
Nota3        2.111111e+00
NotaFinal             NaN
dtype: float64
------------------------------------
Documento    4.024557e+07
Nota1        1.580688e+00
Nota2        1.292097e+00
Nota3        1.339728e+00
NotaFinal             NaN
dtype: float64
------------------------------------


Algunas funciones que actuan sobre todo el DF

| Function  | Description                      |
|-----------|----------------------------------|
| count()   | Numero de los valores no nulos   |
| sum()     | Suma de los valores              |
| mean()    | Media de los Valores             |
| median()  | Mediana de los valores           |
| mode()    | Moda de los valores              |
| std()     | Desviación estándar              |
| min()     | Mínimo Valor                     |
| max()     | Máximo Valor                     |
| abs()     | Valor Absoluto                   |
| prod()    | Producto                         |
| cumsum()  | Suma cumulativa                  |
| cumprod() | Producto Cumulativo              |

In [20]:
# Todo lo anterior se puede hacer con describe. Si se le pasa el argumento include='all', 
#muestra todas las columnas.
# print(describe(include='all'))
print(List_DF.describe())

Documento      Nota1      Nota2      Nota3  NotaFinal
count  2.700000e+01  27.000000  27.000000  27.000000        0.0
mean   3.042524e+07   1.962963   2.148148   2.111111        NaN
std    4.024557e+07   1.580688   1.292097   1.339728        NaN
min    1.516857e+06   0.000000   0.000000   0.000000        NaN
25%    1.003244e+07   0.500000   1.000000   1.000000        NaN
50%    1.017134e+07   2.000000   2.000000   2.000000        NaN
75%    1.064013e+07   3.000000   3.000000   3.000000        NaN
max    1.157152e+08   4.000000   4.000000   4.000000        NaN


### Función `pipe`
Una de las funciones más útiles de las hojas de cálculo es crear funciones y aplicarlas sobre el conjuntos de datos.
La función pipe permite aplicar funciones.

__Ejemplo:__

In [31]:
#Creemos una función
def Suma(a,b):
   return a+b
RandomDataFrame = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(RandomDataFrame)
# Se debe pasar los argumentos usando comas, la función "suma" toma los dos argumentos que se le pasa
#y devuelve la suma, a pipe se le pasa el nombre de la función y los argumentos separados por comas
print("---------------------------------")
print(RandomDataFrame.pipe(Suma,4)) #Le suma 4 a todas las entradas del DF

col1      col2      col3
0 -0.249071 -1.264126  1.025619
1  0.444940  1.553838 -0.075443
2  0.085262 -1.184409  0.406267
3 -0.560193 -1.427672 -2.723343
4 -0.702522 -0.014327 -0.435375
---------------------------------
       col1      col2      col3
0  3.750929  2.735874  5.025619
1  4.444940  5.553838  3.924557
2  4.085262  2.815591  4.406267
3  3.439807  2.572328  1.276657
4  3.297478  3.985673  3.564625


### Función `apply`
Funciones arbitrarias se pueden aplicar a lo largo de los ejes de un DataFrame o Panel usando el método `apply()`, esta toma un argumento de eje opcional. De forma predeterminada, la operación se realiza en columnas, tomando cada columna como una matriz.

__Sintaxis:__
>```
>   DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds)
>```

donde `func` es la función que se aplicará a cada columna o fila. Esta función acepta una serie y devuelve una serie. `eje` eje a lo largo del cual se aplica la función en el marco de datos. Valor predeterminado 0. Si el valor es 0, aplica la función a cada columna. Si el valor es 1, aplica la función a cada fila.
`args` lista de argumentos para pasar a la función.

__Ejemplo:__

In [30]:
#Creemos una función
def Multiplicacion(a,b):
   return a*b
RandomDataFrame = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(RandomDataFrame)
print("---------------------------------")
print(RandomDataFrame.apply(Multiplicacion,axis=1,args=[2]))

col1      col2      col3
0 -0.147834 -0.358156 -1.874743
1  0.375885  0.085600  1.551686
2  1.742657  0.224057  0.646626
3 -1.496342 -0.573427 -1.192100
4 -0.714013 -1.318013 -0.461503
---------------------------------
       col1      col2      col3
0 -0.295667 -0.716312 -3.749486
1  0.751770  0.171200  3.103373
2  3.485314  0.448114  1.293251
3 -2.992684 -1.146853 -2.384200
4 -1.428026 -2.636026 -0.923006


## Iteraciones
La iteración de un DataFrame da nombres de columna. 

__Ejemplo:__

In [33]:
import random
#Creemos un diccionario de Series con los nombres, apellidos,.....
List_Dict = {"Documento": pd.Series([100064169,100363539,107905013,7432675,100025427,115715207,100113849,10008685,10456246,10001883,10113589,10075864,1516857,10031883,10054782,10078124,10032997,4271868,10537010,10016972,10628816,10651441,10403569,10081111,10251071,10477629,10171337]),
"Apellido1" : pd.Series(["BOHORQUEZ","CABRA","CAICEDO","CARDENAS","CASTELLANOS","CATANO","DUQUE","DUQUE","GALEANO","GIRALDO","GOMEZ","HENAO","HERNANDEZ","LAGOS","MEJIA","MEJIA","MONSALVE","ORTIZ","PENAGOS","PEREZ","PULGARIN","RIOS","RUIZ","SALDARRIAGA","SASTOQUE","VARGAS","ZAPATA"]),
"Apellido2" : pd.Series(["CHACON","PATINO","MARTINEZ","COLMENARES","GONZALEZ","MONSALVE","HOYOS","QUINTERO","VAHOS","CARDENAS","POSADA","CUERVO","GOMEZ","OSORIO","FUENTES","GONZALEZ","TORRES","VELASQUEZ","GONZALEZ","GOMEZ","ESTRADA","PEREZ","GUERRA","MAZO","BUITRAGO","ARIAS","HERNANDEZ"]),
"Nombre1" : pd.Series(["DIEGO","SANTIAGO","YEIMAR","MANUEL","ANGIE","JULIAN","ANDRES","SEBASTIAN","JAVIER","MARIANA","CAMILO","DAVID","JUAN","LUIS","JUAN","ANDRES","SIMON","GLADIS","JUAN","MATEO","JUAN","KATLEEN","JORGE","HEYDI","SEBASTIAN","DANIEL","VENANCIO"]),
"Nombre2" : pd.Series(["ALEJANDRO","","","ARAUJO","DANIELA","","FELIPE","","DARIO","","ANDRES","FELIPE","CAMILO","FERNANDO","MANUEL","","","JESUS","PABLO","","DIEGO","JOHANA","IGNACIO","DAYANA"]),
"Nota1": pd.Series([random.randrange(0,5) for i in range(27)]),
"Nota2": pd.Series([random.randrange(0,5) for i in range(27)]),
"Nota3": pd.Series([random.randrange(0,5) for i in range(27)]),
"NotaFinal" : pd.Series()
}
# DataFrame
List_DF = pd.DataFrame(List_Dict)
for col in List_DF:
   print(col)

Documento
Apellido1
Apellido2
Nombre1
Nombre2
Nota1
Nota2
Nota3
NotaFinal


Para iterar sobre el DataFrame, podemos usar las funciones:
- `iteritems()` : para iterar sobre los pares (llave, valor).
- `iterrows()`  : itera sobre las filas como pares (índice, serie).
- `itertuples()`: itera sobre las filas como nombres de tuplas.

__Ejemplos:__ Usando el DF anterior

In [37]:

for key,value in List_DF.iteritems():
    #Imprimo llaves
    print(key)
    print("---------------------------------")
    # El contenido de la llave
    print(value)
    print("---------------------------------")

Documento
---------------------------------
0     100064169
1     100363539
2     107905013
3       7432675
4     100025427
5     115715207
6     100113849
7      10008685
8      10456246
9      10001883
10     10113589
11     10075864
12      1516857
13     10031883
14     10054782
15     10078124
16     10032997
17      4271868
18     10537010
19     10016972
20     10628816
21     10651441
22     10403569
23     10081111
24     10251071
25     10477629
26     10171337
Name: Documento, dtype: int64
---------------------------------
Apellido1
---------------------------------
0       BOHORQUEZ
1           CABRA
2         CAICEDO
3        CARDENAS
4     CASTELLANOS
5          CATANO
6           DUQUE
7           DUQUE
8         GALEANO
9         GIRALDO
10          GOMEZ
11          HENAO
12      HERNANDEZ
13          LAGOS
14          MEJIA
15          MEJIA
16       MONSALVE
17          ORTIZ
18        PENAGOS
19          PEREZ
20       PULGARIN
21           RIOS
22           RUIZ
23

In [39]:
#Itera sobre los indices de las filas, y el valor
for row_index,row in List_DF.iterrows():
    print(row_index)
    print("---------------------------------")
    print(row)
    print("---------------------------------")

0
---------------------------------
Documento    100064169
Apellido1    BOHORQUEZ
Apellido2       CHACON
Nombre1          DIEGO
Nombre2      ALEJANDRO
Nota1                4
Nota2                0
Nota3                0
NotaFinal          NaN
Name: 0, dtype: object
---------------------------------
1
---------------------------------
Documento    100363539
Apellido1        CABRA
Apellido2       PATINO
Nombre1       SANTIAGO
Nombre2               
Nota1                4
Nota2                4
Nota3                0
NotaFinal          NaN
Name: 1, dtype: object
---------------------------------
2
---------------------------------
Documento    107905013
Apellido1      CAICEDO
Apellido2     MARTINEZ
Nombre1         YEIMAR
Nombre2               
Nota1                1
Nota2                0
Nota3                4
NotaFinal          NaN
Name: 2, dtype: object
---------------------------------
3
---------------------------------
Documento       7432675
Apellido1      CARDENAS
Apellido2    COL

In [40]:
#Itera simplemete sobre la fila
for row in List_DF.itertuples():
    print(row)

Pandas(Index=0, Documento=100064169, Apellido1='BOHORQUEZ', Apellido2='CHACON', Nombre1='DIEGO', Nombre2='ALEJANDRO', Nota1=4, Nota2=0, Nota3=0, NotaFinal=nan)
Pandas(Index=1, Documento=100363539, Apellido1='CABRA', Apellido2='PATINO', Nombre1='SANTIAGO', Nombre2='', Nota1=4, Nota2=4, Nota3=0, NotaFinal=nan)
Pandas(Index=2, Documento=107905013, Apellido1='CAICEDO', Apellido2='MARTINEZ', Nombre1='YEIMAR', Nombre2='', Nota1=1, Nota2=0, Nota3=4, NotaFinal=nan)
Pandas(Index=3, Documento=7432675, Apellido1='CARDENAS', Apellido2='COLMENARES', Nombre1='MANUEL', Nombre2='ARAUJO', Nota1=3, Nota2=2, Nota3=1, NotaFinal=nan)
Pandas(Index=4, Documento=100025427, Apellido1='CASTELLANOS', Apellido2='GONZALEZ', Nombre1='ANGIE', Nombre2='DANIELA', Nota1=1, Nota2=1, Nota3=3, NotaFinal=nan)
Pandas(Index=5, Documento=115715207, Apellido1='CATANO', Apellido2='MONSALVE', Nombre1='JULIAN', Nombre2='', Nota1=0, Nota2=2, Nota3=3, NotaFinal=nan)
Pandas(Index=6, Documento=100113849, Apellido1='DUQUE', Apellido2=

## Clasificación
Hay dos formas de clasificación e pandas, usando las etiquetas `sort_index()` y usando los valores `sort_values()`.

### Por Etiquetas:

__Ejemplo:__

In [45]:
RandomDataFrame = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
DF_Ordenado = RandomDataFrame.sort_index(ascending=False)
print(DF_Ordenado)

col1      col2      col3
9  0.101888 -0.502766  0.656201
8 -1.032754 -0.036894  0.354144
7  1.188461  0.243872 -0.850906
6 -1.034004  0.146572  1.848103
5 -0.348173  0.642100  0.059945
4  0.189339 -2.079123 -0.613648
3  0.221440 -0.533091 -1.084757
2  0.230915 -0.161031 -0.274430
1  1.709499  0.150123  1.516888
0 -1.256078 -0.396244  0.854673


Al pasar el argumento del eje con un valor 0 o 1, la clasificación se puede realizar en las etiquetas de las columnas (`axis=0` Por defecto).

__Ejemplo:__

In [50]:
#Este es el orden normal por etiqueta
DF_Ordenado_0 = RandomDataFrame.sort_index(axis=0)
print(DF_Ordenado_0)
print("--------------------------------")
#Cambia el orden de las columnas
DF_Ordenado_1 = RandomDataFrame.sort_index(axis=1,ascending=False)
print(DF_Ordenado_1)

col1      col2      col3
0 -1.256078 -0.396244  0.854673
1  1.709499  0.150123  1.516888
2  0.230915 -0.161031 -0.274430
3  0.221440 -0.533091 -1.084757
4  0.189339 -2.079123 -0.613648
5 -0.348173  0.642100  0.059945
6 -1.034004  0.146572  1.848103
7  1.188461  0.243872 -0.850906
8 -1.032754 -0.036894  0.354144
9  0.101888 -0.502766  0.656201
--------------------------------
       col3      col2      col1
0  0.854673 -0.396244 -1.256078
1  1.516888  0.150123  1.709499
2 -0.274430 -0.161031  0.230915
3 -1.084757 -0.533091  0.221440
4 -0.613648 -2.079123  0.189339
5  0.059945  0.642100 -0.348173
6  1.848103  0.146572 -1.034004
7 -0.850906  0.243872  1.188461
8  0.354144 -0.036894 -1.032754
9  0.656201 -0.502766  0.101888


### Por Valor

`sort_values​​()` es el método para clasificar por valores. Acepta un argumento `by` que utilizará el nombre de columna del DataFrame con el que se ordenarán los valores.

__Ejemplo:__

In [56]:
RandomDataFrame = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
#Sin ordenar
print(RandomDataFrame)
print("--------------------------------")
#Se ordenan los datos respecto a la col3
DF_Ordenado_Valor_col3 = RandomDataFrame.sort_values(ascending=False,by="col3")
print(DF_Ordenado_Valor_col3)

col1      col2      col3
0  1.016737  0.623916 -0.738540
1 -2.570440 -1.439501  0.484256
2  2.457188  1.143239  0.100744
3 -0.833516 -0.518315 -0.779974
4 -0.296574 -0.556852 -0.814555
5  0.271371  1.134201 -0.165625
6 -0.339169 -0.504635 -0.202939
7  0.192877 -0.869813  0.808374
8  1.452775  0.949153 -0.031548
9  2.359158  0.857173 -2.217713
--------------------------------
       col1      col2      col3
7  0.192877 -0.869813  0.808374
1 -2.570440 -1.439501  0.484256
2  2.457188  1.143239  0.100744
8  1.452775  0.949153 -0.031548
5  0.271371  1.134201 -0.165625
6 -0.339169 -0.504635 -0.202939
0  1.016737  0.623916 -0.738540
3 -0.833516 -0.518315 -0.779974
4 -0.296574 -0.556852 -0.814555
9  2.359158  0.857173 -2.217713
--------------------------------
       col1      col2      col3
7  0.192877 -0.869813  0.808374
1 -2.570440 -1.439501  0.484256
2  2.457188  1.143239  0.100744
8  1.452775  0.949153 -0.031548
5  0.271371  1.134201 -0.165625
6 -0.339169 -0.504635 -0.202939
0  1.016737  