# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# <font color=green> NUMPY BÁSICO
---

Numpy es la abreviatura de Python numérico y es una de las librería más importantes para el procesamiento numérico en Python. Numpy proporciona la base para la mayoría de las libreríaa de aplicaciones científicas que usan datos numéricos en Python (estructuras de datos y algoritmos). Es posible resaltar las siguientes características que contiene la librería Numpy:

- Un poderoso objeto de matriz multidimensional;
- Funciones matemáticas sofisticadas para operaciones con matrices sin la necesidad de usar *for* loops;
- Álgebra lineal y características de generación de números aleatorios

Además de sus usos científicos obvios, la librería NumPy también se usa ampliamente en el análisis de datos como un contenedor multidimensional eficiente de datos genéricos para transporte entre varios algoritmos y librerías en Python.

**Instalación:** https://scipy.org/install.html

**Documentación:** https://numpy.org/doc

### Librerías

Existen varias librerías de Python disponibles para descargar en Internet. Cada librería tiene como objetivo resolver un cierto tipo de problema y para ello se desarrollan nuevos tipos, funciones y métodos.

Algunas librería se usan ampliamente en un contexto de ciencia de datos como:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Algunas librería no son distribuídas con la instalación default de Python. En este caso debemos instalar las librería que necesitamos en nuestro sistema para poder utilizar sus funcionalidades.

### Importando toda la librería

In [None]:
import numpy as np

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [None]:
np.arange(10)

### Importando toda la librería y asignadole un alias

In [None]:
import numpy as np

In [None]:
np.arange(10)

### Importando parte de la librería

In [None]:
from numpy import arange

In [None]:
arange(10)

# 5.1 Creando arrays Numpy

In [None]:
import numpy as np

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [None]:
Km = np.array([100, 2300 ,2500])

In [None]:
type(Km)

In [None]:
Km.dtype

https://numpy.org/doc/1.16/user/basics.types.html

### A partir de datos externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [None]:
Km = np.loadtxt('data/carros-km.txt', dtype= int)

In [None]:
Km

In [None]:
Km.dtype

### Arrays con dos dimensiones

In [None]:
datos = [ 
    ['Llantas de aleación', 'Cerraduras elétricas', 'Piloto automático', 'Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de lluvia'],
    ['Central multimídia', 'Techo panorâmico', 'Frenos ABS', '4 X 4', 'Panel digital', 'Piloto automático', 'Asientos de cuero', 'Cámara de estacionamiento'],
    ['Piloto automático', 'Control de estabilidad', 'Sensor crepuscular', 'Frenos ABS', 'Cambio automático', 'Asientos de cuero', 'Central multimídia', 'Vidros eléctricos']
]
datos

In [None]:
Accesorios = np.array(datos)

In [None]:
Accesorios

In [None]:
Km.shape

In [None]:
Accesorios.shape

### Comparando el desempeño con listas

In [None]:
np_array = np.arange(1000000)

In [None]:
py_list = list(range(1000000))

In [None]:
%time for _ in range(100): np_array *= 2

In [None]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

# 5.2 Operaciones aritméticas con arrays Numpy

### Operaciones entre arrays y constantes

In [None]:
km = [44410., 5712., 37123., 0., 25757.]
anhos = [2003, 1991, 1990, 2019, 2006]

In [None]:
edades = []
for anho in anhos:
    edades.append(2019 - anho)
edades

In [None]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anhos = np.array([2003, 1991, 1990, 2019, 2006])

In [None]:
edad = 2019 - anhos
edad

In [None]:
Km

### Operaciones entre arrays

In [None]:
Km_media = km / edad

In [None]:
Km_media

In [None]:
44410 / (2019 - 2003)

### Operaciones con arrays de dos dimensiones

In [None]:
datos = np.array([km, anhos])
datos

In [None]:
datos.shape

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
datos[0]

In [None]:
datos[1]

In [None]:
km_medio_datos = datos[0] / (2019 - datos[1])
km_medio_datos

# 5.3 Selecciones con arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexación 

<font color=red>**Observación:**</font> La indexación tiene origen en cero.

In [None]:
contador = np.arange(10)
contador

In [None]:
contador[1]

In [None]:
contador[-1]

In [None]:
datos[0]

## <font color=green>**Consejos:**</font>
### *ndarray[ línea ][ columna ]* o *ndarray[ línea, columna ]*

In [None]:
datos[1][2]

In [None]:
datos[1,2]

 ### Rebanar
 
La sintaxis para realizar el rebanado en un array Numpy es $i : j : k$ donde $i$ es el índice inicial, $j$ es el índice de parada, y $k$ es el indicador de paso ($k\neq0$)
 
<font color=red>**Observación:**</font> En las rebanadas (*slices*) el item con índice i es **incluído** y el item con índice j **no es incluído** en el resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
contador_ = np.arange(10)
contador_

In [None]:
contador_[1:4]

In [None]:
contador_[1:8:2]

In [None]:
contador_[0:9:2]

In [None]:
contador_[::2]

In [None]:
contador_[1::2]

In [None]:
datos[:, 1:4]

In [None]:
datos[:, 1:3][0] / (2019 - datos[:, 1:3][1])

In [None]:
datos[:, 1:4][1]

In [None]:
datos[0] / (2019 - datos[1])

### Indexación con array booleano

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según los rótulos o un array booleano.

In [None]:
contador = np.arange(10)
contador

In [None]:
contador > 5

In [None]:
contador[contador > 5]

In [None]:
contador[[False, False, False, False, False, False,  True,  True,  True,
        True]]

In [None]:
datos

In [None]:
datos[1] > 2000

In [None]:
datos[:, datos[1] > 2000]

In [None]:
datos_test = np.array(
    [
        ['Roberto', 'casado', 'masculino'],
        ['Sheila', 'solteiro', 'femenino'],
        ['Bruno', 'solteiro', 'masculino'],
        ['Rita', 'casado', 'femenino']
    ]
)

In [None]:
datos_test[0::2, :2]

In [None]:
datos_test[0:2, datos_test[2] == 'masculino']
datos_test

In [None]:
datos_test.shape

# 5.4 Atributos y métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

In [None]:
datos.shape

## *ndarray.shape*

Retorna una tupla con las dimensiones del array.

In [None]:
datos.shape

## *ndarray.ndim*

Retorna el número de dimensiones del array.

In [None]:
datos.ndim

## *ndarray.size*

Retorna el número de elementos del array.

In [None]:
datos.size

## *ndarray.dtype*

Retorna el tipo de datos de los elementos del array.

In [None]:
datos.dtype

## *ndarray.T*

Retorna el array transpuesto, esto es, convierte líneas en columnas y vice-versa.

In [None]:
datos.T

In [None]:
datos.transpose()

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna el array como una lista Python.

In [None]:
datos.tolist()

## *ndarray.reshape(shape[, order])*

Retorna un array que contiene los mismos datos con una nueva forma.

In [None]:
contador_t = np.arange(10)
contador_t

In [None]:
contador_t.reshape((5 ,2))

In [None]:
contador_t.reshape((5 ,2), order='C')

In [None]:
contador_t.reshape((5,2), order='F')

In [None]:
km = [44410, 5712, 37123, 0, 25757]
anhos = [2003, 1991, 1990, 2019, 2006]

In [None]:
km = [44410, 5712, 37123, 0, 25757]
anhos = [2003, 1991, 1990, 2019, 2006]

In [None]:
info_autos = km + anhos
info_autos

In [None]:
np.array(info_autos).reshape((2,5))

In [None]:
np.array(info_autos).reshape((5,2), order='F')

## *ndarray.resize(new_shape[, refcheck])*

Altera la forma y el tamaño del array.

In [None]:
datos_new = datos.copy()
datos_new

In [None]:
datos_new.resize((3,5) ,refcheck=False)

In [None]:
datos_new

In [None]:
datos_new[2] = datos_new[0] / (2019 - datos_new[1])

In [None]:
datos_new

# 5.5 Estadísticas con arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

y

https://numpy.org/doc/1.16/reference/routines.statistics.html

y

https://numpy.org/doc/1.16/reference/routines.math.html

In [None]:
anhos = np.loadtxt(fname = "data/carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "data/carros-km.txt")
valor = np.loadtxt(fname = "data/carros-valor.txt")

In [None]:
anhos.shape

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [None]:
dataset = np.column_stack((anhos, km, valor))
dataset

In [None]:
dataset.shape

## *np.mean()*

Retorna la média de los elementos del array a lo largo del eje especificado.

In [None]:
np.mean(dataset, axis = 0)

In [None]:
np.mean(dataset[:, 1])

In [None]:
np.mean(dataset[:, 2])

## *np.std()*

Retorna el desvío padrón de los elementos del array a lo largo del eje especificado.

In [None]:
np.std(dataset[:, 2])

## *ndarray.sum()*

Retorna la suma de los elementos del array a lo largo del eje especificado.

In [None]:
np.sum(dataset[:,1])

In [None]:
dataset.sum(axis= 0)

In [None]:
dataset[:, 1].sum()

## *np.sum()*

Retorna la suma de los elementos del array a lo largo del eje especificado.

In [None]:
np.sum(dataset, axis=0)

In [None]:
np.sum(dataset[:, 2])

In [None]:
edades = np.array([10, 23, 45, 34, 25])

In [None]:
np.sum(edades) / edades.size

In [None]:
np.mean(edades)

In [None]:
edades.mean()