<a href="https://colab.research.google.com/github/EderDataDriven/EderDataDriven/blob/main/Python_Librerias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Librerias

Las librerias (o paquetes) son colecciones de funciones, métodos y objetos desarrollados por terceras personas, pero que pueden ser utilizadas por cualquier persona que posea Python, y que buscan atacar una necesidad de análisis específica.

Como se mencionó, este aspecto constituye una importante fortaleza de los lenguajes open source.

En este curso, se utilizarán distintas librerias, entre las que se destacan

* numpy: análisis numérico
* pandas: manipulacion de tablas de datos
* matplotlib: visualización

Empecemos conociendo un poco de numpy, y aprovechemos para saber como importar (o cargar) una libreria en Python

In [None]:
# Importamos la libreria:
import numpy as np

Objeto ndarray

In [None]:
# Crear una lista de listas:
compras = [ ['Cebolla', 'Tomate', 'Papa'], ['Naranjas', 'Manzanas', 'Peras'], ['Aceite', 'Sal', 'Condimentos'], ['Detergente', 'Jabon', 'Shampoo'] ]
print(compras)
print(type(compras))

[['Cebolla', 'Tomate', 'Papa'], ['Naranjas', 'Manzanas', 'Peras'], ['Aceite', 'Sal', 'Condimentos'], ['Detergente', 'Jabon', 'Shampoo']]
<class 'list'>


In [None]:
# Transformamos la lista en arreglo:
compras_array = np.array(compras)
print(compras_array)
print(type(compras_array))

[['Cebolla' 'Tomate' 'Papa']
 ['Naranjas' 'Manzanas' 'Peras']
 ['Aceite' 'Sal' 'Condimentos']
 ['Detergente' 'Jabon' 'Shampoo']]
<class 'numpy.ndarray'>


In [None]:
compras_array.ndim

2

In [None]:
compras_array.shape

(4, 3)

In [None]:
# Cambiar las dimensiones del array:
compras_array.reshape(6,2)

array([['Cebolla', 'Tomate'],
       ['Papa', 'Naranjas'],
       ['Manzanas', 'Peras'],
       ['Aceite', 'Sal'],
       ['Condimentos', 'Detergente'],
       ['Jabon', 'Shampoo']], dtype='<U11')

In [None]:
# Combertir dimensiones a una sola fila:
compras_array.flatten()

array(['Cebolla', 'Tomate', 'Papa', 'Naranjas', 'Manzanas', 'Peras',
       'Aceite', 'Sal', 'Condimentos', 'Detergente', 'Jabon', 'Shampoo'],
      dtype='<U11')

In [None]:
arr = np.array([10,2,9,17])
arr.sort()
print(arr)

[ 2  9 10 17]


In [None]:
arr.size

4

In [None]:
len(arr)

4

## Funciones Matemáticas en NumPy

In [None]:
# Crear 2 arreglos numericos
a1 = np.array([9,7,5,2,1,6,9])
a2 = np.array([8,3,1,9,0,2,1])
print(a1)
print(a2)

[9 7 5 2 1 6 9]
[8 3 1 9 0 2 1]


**Bibliografía**.

> [pandas 1.4.2 documentation](http://pandas.pydata.org/pandas-docs/stable/index.html)  
[10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html) 


# Lectura y escritura de archivos usando Pandas
 > [`pandas.DataFrame`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) 

In [None]:
# Importar pandas y usarlo como método:
# pip install pandas
# conda install pandas
import pandas as pd

## Formato nativo de Python con Pandas

> [`pandas.DataFrame`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)  
[`pandas.DataFrame.to_pickle`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_pickle.html)  
[`pandas.to_pickle`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)  
[`pandas.read_pickle`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)

In [14]:
pd.read_pickle('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.pickle')

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

### Archivos delimitados por caracteres con Pandas
> [`pandas.DataFrame.to_csv`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html)  
[`pandas.DataFrame.from_csv`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html)  
[`pandas.to_csv`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-store-in-csv)  
[`pandas.read_csv`](http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table)

In [18]:
pd.read_csv('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.csv',  # Ruta del archivo
            sep = ',',                                                                              # Indicar el separador que debo usar para leer el dataset
            thousands = None,                                                                       # Separador de miles 
            decimal = '.')                                                                          # Indicar cual es el signo usado para distinguir decimales

Unnamed: 0,index,name,value
0,1,A,3.03
1,2,B,5.14
2,3,C,0.4
3,4,D,1.13
4,5,E,8.25


In [33]:
pd.read_csv('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.csv2',
            sep = ';', 
            decimal = ',',
            index_col = 0)        # Quitamos los indices de las filas.

Unnamed: 0_level_0,name,value
index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,A,3.03
2,B,5.14
3,C,0.4
4,D,1.13
5,E,8.25


In [30]:
# No se puede abrir porque no es capaz de manejar archivos desde una fuente lejana de su path por el OS
print(open('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.csv2', 'r').read())

FileNotFoundError: ignored

In [37]:
pd.read_table('https://raw.githubusercontent.com/EderDataDriven/EderDataDriven/main/files/data.txt',
              sep = ' ',
              decimal = '.',
              thousands = ',',
              index_col = 0)

Unnamed: 0_level_0,name,value
index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,A,3.03
2,B,5.14
3,C,0.4
4,D,1.13
5,E,8.25


In [38]:
# Vamos a crear un archivo con multiples separadores de espacio en blanco:
# los nombres de las columnas estan separadas por comas
text = """ indexnames       valuescodes
1john wick  2.13  10
2mark twin  3.14  11"""

# Creamos un archivo con los datos de la variable text
with open('')

' indexnames       valuescodes\n1john wick  2.13  10\n2mark twin  3.14  11'