<a href="https://colab.research.google.com/github/EderDataDriven/EderDataDriven/blob/main/Python_Librerias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Librerias

Las librerias (o paquetes) son colecciones de funciones, métodos y objetos desarrollados por terceras personas, pero que pueden ser utilizadas por cualquier persona que posea Python, y que buscan atacar una necesidad de análisis específica.

Como se mencionó, este aspecto constituye una importante fortaleza de los lenguajes open source.

En este curso, se utilizarán distintas librerias, entre las que se destacan

* numpy: análisis numérico
* pandas: manipulacion de tablas de datos
* matplotlib: visualización

Empecemos conociendo un poco de numpy, y aprovechemos para saber como importar (o cargar) una libreria en Python

In [None]:
# Importamos la libreria:
import numpy as np

Objeto ndarray

In [None]:
# Crear una lista de listas:
compras = [ ['Cebolla', 'Tomate', 'Papa'], ['Naranjas', 'Manzanas', 'Peras'], ['Aceite', 'Sal', 'Condimentos'], ['Detergente', 'Jabon', 'Shampoo'] ]
print(compras)
print(type(compras))

[['Cebolla', 'Tomate', 'Papa'], ['Naranjas', 'Manzanas', 'Peras'], ['Aceite', 'Sal', 'Condimentos'], ['Detergente', 'Jabon', 'Shampoo']]
<class 'list'>


In [None]:
# Transformamos la lista en arreglo:
compras_array = np.array(compras)
print(compras_array)
print(type(compras_array))

[['Cebolla' 'Tomate' 'Papa']
 ['Naranjas' 'Manzanas' 'Peras']
 ['Aceite' 'Sal' 'Condimentos']
 ['Detergente' 'Jabon' 'Shampoo']]
<class 'numpy.ndarray'>


In [None]:
compras_array.ndim

2

In [None]:
compras_array.shape

(4, 3)

In [None]:
# Cambiar las dimensiones del array:
compras_array.reshape(6,2)

array([['Cebolla', 'Tomate'],
       ['Papa', 'Naranjas'],
       ['Manzanas', 'Peras'],
       ['Aceite', 'Sal'],
       ['Condimentos', 'Detergente'],
       ['Jabon', 'Shampoo']], dtype='<U11')

In [None]:
# Combertir dimensiones a una sola fila:
compras_array.flatten()

array(['Cebolla', 'Tomate', 'Papa', 'Naranjas', 'Manzanas', 'Peras',
       'Aceite', 'Sal', 'Condimentos', 'Detergente', 'Jabon', 'Shampoo'],
      dtype='<U11')

In [None]:
arr = np.array([10,2,9,17])
arr.sort()
print(arr)

[ 2  9 10 17]


In [None]:
arr.size

4

In [None]:
len(arr)

4

## Funciones Matemáticas en NumPy

In [None]:
# Crear 2 arreglos numericos
a1 = np.array([9,7,5,2,1,6,9])
a2 = np.array([8,3,1,9,0,2,1])
print(a1)
print(a2)

[9 7 5 2 1 6 9]
[8 3 1 9 0 2 1]


**Bibliografía**.

> [pandas 1.4.2 documentation](http://pandas.pydata.org/pandas-docs/stable/index.html)  
[10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html) 


# Lectura y escritura de archivos usando Pandas
 > [`pandas.DataFrame`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) 

In [None]:
# Importar pandas y usarlo como método:
# pip install pandas
# conda install pandas
import pandas as pd

## Formato nativo de Python con Pandas

> [`pandas.DataFrame`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)  
[`pandas.DataFrame.to_pickle`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_pickle.html)  
[`pandas.to_pickle`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)  
[`pandas.read_pickle`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)

In [14]:
pd.read_pickle('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.pickle')

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

### Archivos delimitados por caracteres con Pandas
> [`pandas.DataFrame.to_csv`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html)  
[`pandas.DataFrame.from_csv`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html)  
[`pandas.to_csv`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-store-in-csv)  
[`pandas.read_csv`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table)

In [18]:
pd.read_csv('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.csv',  # Ruta del archivo
            sep = ',',                                                                              # Indicar el separador que debo usar para leer el dataset
            thousands = None,                                                                       # Separador de miles 
            decimal = '.')                                                                          # Indicar cual es el signo usado para distinguir decimales

Unnamed: 0,index,name,value
0,1,A,3.03
1,2,B,5.14
2,3,C,0.4
3,4,D,1.13
4,5,E,8.25


In [33]:
pd.read_csv('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.csv2',
            sep = ';', 
            decimal = ',',
            index_col = 0)        # Quitamos los indices de las filas.

Unnamed: 0_level_0,name,value
index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,A,3.03
2,B,5.14
3,C,0.4
4,D,1.13
5,E,8.25


In [30]:
# No se puede abrir porque no es capaz de manejar archivos desde una fuente lejana de su path por el OS
print(open('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.csv2', 'r').read())

FileNotFoundError: ignored

In [37]:
pd.read_table('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.txt',
              sep = ' ',
              decimal = '.',
              thousands = ',',
              index_col = 0)

Unnamed: 0_level_0,name,value
index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,A,3.03
2,B,5.14
3,C,0.4
4,D,1.13
5,E,8.25


In [41]:
# Vamos a crear un archivo con multiples separadores de espacio en blanco:
# los nombres de las columnas estan separadas por comas
text = """ indexnames       valuescodes
1john wick  2.13  10
2mark twin  3.14  11"""

# Escribir o guardar en una carpeta especifica
"""
with open('https://drive.google.com/drive/folders/1upvY_eLnfQ_IEEnb38VMXV6HclQ54h3y', 'w') as f: 
  # Guardamos en la carpeta especificada, un archivo con los datos de la variable text:
  f.write()
"""
text




' indexnames       valuescodes\n1john wick  2.13  10\n2mark twin  3.14  11'

In [67]:
pd.read_fwf('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data2.txt',
            colspecs = 'infer',
            widths = [5, 9, 8, 5])

Unnamed: 0,index,names,values,codes
0,1,john wick,2.13,10
1,2,mark twin,3.14,11
2,3,louis ng,4.34,12
3,4,dan brown,2.31,13
4,5,ann marie,4.98,14


# Seleccion en pandas
Verificar datos en un dataset

In [47]:
# Leer el archivo con pandas, pero lo vamos a poner en una variable::
archivo = pd.read_csv('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/iris.csv',
                      sep = ',',
                      thousands = None,
                      decimal = '.')
archivo

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [48]:
archivo.describe()

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [50]:
# Medir el tamaño del archivo en filas:
len(archivo)

150

In [51]:
# imprima el numero de columnas que contiene dataframe:
len(list(archivo.axes[1]))

5

In [52]:
# Cantidad de datos que contiene el dataframe:
archivo.size

750

In [53]:
# Extraer la matriz traspuesta del dataframe:
print(archivo.T.head())

                 0       1       2       3       4       5       6       7    \
Sepal_Length     5.1     4.9     4.7     4.6     5.0     5.4     4.6     5.0   
Sepal_Width      3.5     3.0     3.2     3.1     3.6     3.9     3.4     3.4   
Petal_Length     1.4     1.4     1.3     1.5     1.4     1.7     1.4     1.5   
Petal_Width      0.2     0.2     0.2     0.2     0.2     0.4     0.3     0.2   
Species       setosa  setosa  setosa  setosa  setosa  setosa  setosa  setosa   

                 8       9    ...        140        141        142        143  \
Sepal_Length     4.4     4.9  ...        6.7        6.9        5.8        6.8   
Sepal_Width      2.9     3.1  ...        3.1        3.1        2.7        3.2   
Petal_Length     1.4     1.5  ...        5.6        5.1        5.1        5.9   
Petal_Width      0.2     0.1  ...        2.4        2.3        1.9        2.3   
Species       setosa  setosa  ...  virginica  virginica  virginica  virginica   

                    144        1

In [61]:
print(archivo.head())

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [62]:
# Mostrar los 3 primeros elementos de la tabla:
print(archivo.head(3))

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa


In [65]:
# Mostrar las ultimas filas:
print(archivo.tail(10))

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
140           6.7          3.1           5.6          2.4  virginica
141           6.9          3.1           5.1          2.3  virginica
142           5.8          2.7           5.1          1.9  virginica
143           6.8          3.2           5.9          2.3  virginica
144           6.7          3.3           5.7          2.5  virginica
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [76]:
# Extraer el nombre de las columnas del dataset:
list(archivo.axes[1])

['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']

In [77]:
# Columnas. Nombre de las columnas que encuentra en la cabecera del archivo
archivo.columns[:]

Index(['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width',
       'Species'],
      dtype='object')

In [78]:
# Filas. Nombre que obtiene cada fila de datos
archivo.index

RangeIndex(start=0, stop=150, step=1)

In [80]:
# Imprimir el nombre de las filas en una lista:
print(list(archivo.index))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149]


In [81]:
# Indice por Columnas
archivo['Species'].head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: Species, dtype: object

In [84]:
# Indexar por varias columnas
archivo[['Species', 'Sepal_Length', 'Petal_Length']].head()

Unnamed: 0,Species,Sepal_Length,Petal_Length
0,setosa,5.1,1.4
1,setosa,4.9,1.4
2,setosa,4.7,1.3
3,setosa,4.6,1.5
4,setosa,5.0,1.4


In [85]:
# Acceder al valor de la columna a traves del operador '.'
archivo.get('Petal_Length').head()

0    1.4
1    1.4
2    1.3
3    1.5
4    1.4
Name: Petal_Length, dtype: float64

In [86]:
my_df = archivo[['Species', 'Sepal_Length', 'Petal_Length']].head(20)
my_df

Unnamed: 0,Species,Sepal_Length,Petal_Length
0,setosa,5.1,1.4
1,setosa,4.9,1.4
2,setosa,4.7,1.3
3,setosa,4.6,1.5
4,setosa,5.0,1.4
5,setosa,5.4,1.7
6,setosa,4.6,1.4
7,setosa,5.0,1.5
8,setosa,4.4,1.4
9,setosa,4.9,1.5


# Indexación

La indexación de filas y columnas es posible a través de las funciones loc y iloc. 

loc permite indexar a través de los nombres de las filas y columnas

iloc permite la indexación a traves de la indexación númerica dentro de las posiciones de la tabla.

## **loc[fila,columna]**

In [101]:
archivo.loc[:].Species.head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: Species, dtype: object

# Manipulacion de Archivos en Pandas

In [89]:
import pandas as pd
import numpy as np

In [106]:
# Leer el archivo con pandas, pero lo vamos a poner en una variable::
archivo = pd.read_csv('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/iris.csv',
                      sep = ',',
                      thousands = None,
                      decimal = '.')
archivo

# pd.set_option('display.notebook_repr_html', False)

# Agrupamiento

In [107]:
fl = archivo    # Renombre el archivo
fl.sort_index(1, ascending = True).head()

  


In [111]:
# Ordenar por varias columnas
# Devolver el indice de las filas
# Ordenar : 1. Sepal_Width y luego Sepal_Lenght
fl.sort_values(by = ['Sepal_Width', 'Sepal_Length']).head(10)

In [113]:
# particionamos por los valores de una columna:
pt = fl.groupby('Species')                    # Objeto agrupado
pt.groups.keys()

dict_keys(['setosa', 'versicolor', 'virginica'])

In [115]:
pt.size()

Species
setosa        50
versicolor    50
virginica     50
dtype: int64

In [117]:
# Elementos de un subgrupo Similar a: select * from fl where Species = 'setosa' limit = 5
fl.loc[pt.groups['setosa']].head()

In [120]:
fl.loc[pt.groups['virginica']].head()

In [121]:
fl.loc[pt.groups['versicolor']].head()

In [125]:
fl.loc[pt.groups['versicolor']].head()

# Agregaciones

Es posible realizar operaciones simples sobre las columnas o filas de un dataframe de Pandas. A continuación algunas de ellas:

            _______________________________________________________________
            |      Funciones que pueden ser aplicadas a un DataFrame      |
            ---------------------------------------------------------------
            |abs        all       any       clip    clip_lower  clip_upper|
            |corr       corrwith  count     cov     cummax      cummin    |
            |cumprod    cumsum    describe  diff    eval        kurt      |
            |mad        max       mean      median  min         mode      |
            |ct_change  prod      quantile  rank    round       sem       |
            |skew  sum  std       var`                                    |
            ---------------------------------------------------------------

In [126]:
# Agrupar por la columan Species y aplicar una agregación
fl.groupby('Species').sum()

In [131]:
(fl.groupby('Species').sum())[['Sepal_Width', 'Petal_Width', 'Sepal_Length']]

In [132]:
fl

In [134]:
# Conteo de elementos de una columna:
fl['Sepal_Width'].value_counts()

3.0    26
2.8    14
3.2    13
3.4    12
3.1    11
2.9    10
2.7     9
2.5     8
3.5     6
3.3     6
3.8     6
2.6     5
2.3     4
3.6     4
3.7     3
2.4     3
2.2     3
3.9     2
4.4     1
4.0     1
4.1     1
4.2     1
2.0     1
Name: Sepal_Width, dtype: int64

In [135]:
# Aplicando matematicas a los valores de las columnas:
fl.describe()

In [137]:
# Para operaciones matematicas usamos numpy:
fl[['Sepal_Width', 'Petal_Width']].apply(np.mean)

Sepal_Width    3.057333
Petal_Width    1.199333
dtype: float64

In [138]:
# Calcular la media por un valor agrupado:
(fl.groupby('Species').mean())['Sepal_Width']

Species
setosa        3.428
versicolor    2.770
virginica     2.974
Name: Sepal_Width, dtype: float64

In [139]:
(fl.groupby('Species').mean())[['Sepal_Width', 'Petal_Width']]

# Pivotes:
Los pivotes consiste en obtener varias columnas como index y operar a partir de las que permanecen dinámicas para apilarlas

In [141]:
# Agregamos una columna nueva a mi dataset:
fl['key'] = list(range(150))
fl.head()

In [143]:
# Realizando pivotes:
pvt = pd.melt(fl,                               # DataFrame
              id_vars = ['key', 'Species'],     # Columnas que no se apilan
              var_name = 'Variables',           # Nombre de la columna que contiene las columnas apiladas
              value_name = 'Valores')           # Nombre de la columna con los valores

In [144]:
pvt.head()

In [145]:
# Eliminar una columna del dataset:
del fl['key']

In [146]:
fl

# Transformaciones 

In [148]:
# Funciones Stack & UnStack
fl.stack().head(20)
# Stack apila los elementos del dataframe:

0  Sepal_Length       5.1
   Sepal_Width        3.5
   Petal_Length       1.4
   Petal_Width        0.2
   Species         setosa
1  Sepal_Length       4.9
   Sepal_Width        3.0
   Petal_Length       1.4
   Petal_Width        0.2
   Species         setosa
2  Sepal_Length       4.7
   Sepal_Width        3.2
   Petal_Length       1.3
   Petal_Width        0.2
   Species         setosa
3  Sepal_Length       4.6
   Sepal_Width        3.1
   Petal_Length       1.5
   Petal_Width        0.2
   Species         setosa
dtype: object

In [149]:
(fl.stack()).unstack().head()

# Unión

En pandas podemos unir 2 datasets usando la funcion merge

In [177]:
d1 = pd.DataFrame({'x' : list(range(2,6)), 
                   'y' : list(range(6,10))})
d2 = pd.DataFrame({'x' : [1, 2, 3, 4, 5, 1, 2, 3, 4, 5],
                   'w' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]})

# union de dataframe:

print(d1)
print(d2)

pd.merge(d1, d2)

   x  y
0  2  6
1  3  7
2  4  8
3  5  9
   x    w
0  1   10
1  2   20
2  3   30
3  4   40
4  5   50
5  1   60
6  2   70
7  3   80
8  4   90
9  5  100


# Insercion de columnas:


In [181]:
# Agregar una columna nueva y asignarle valores predeterminados
fl['colnew'] = 1
fl.head(8)

In [183]:
# Modificamos un valor en particular:
fl.iat[5, 5] = 10
fl.head(8)

In [184]:
del fl['colnew']

In [186]:
fl.head()

In [191]:
# Funcion insert para agregar una columna con datos a partir de un filtro:
fl.insert(2, 'Valor_logico', fl['Sepal_Length'] > 4)

ValueError: ignored

In [192]:
fl.head()

In [190]:
(fl['Sepal_Width'] < 4).head(20)

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14    False
15    False
16     True
17     True
18     True
19     True
Name: Sepal_Width, dtype: bool

## Caso duplicados y faltantes:

In [193]:
u = np.random.choice(range(150), size=20, replace=False)

In [194]:
u

array([  0, 133, 129, 101,   7, 132,  69,  61, 104,  71, 144, 149, 145,
       118,  47,  84,  56,  82,  98,  95])

In [None]:
# Submuestra de dataframe original 

Guardar Dataframes procesados:




In [None]:
"""
df.to_cvs('ruta_a_guardar', 'w') as archivo:
  archivo.write()

"""