# **Python for data science and data analysis from scratch**



## **Numpy y Pandas**

Librerías que usaremos en esta sesión

**Numpy**

Agrega manejo de arreglos multidimensionales o matrices, junto con varias funciones matemáticas de alto nivel para operar en esas estructuras.

---

---

**Pandas**
Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

In [0]:
import numpy as np
import pandas as pd

### Diferentes métodos para crear arreglos en numpy

In [0]:
a = np.array([1, 2, 3])  
print(type(a))           
print(a.shape)            
print(a[0], a[1], a[2]) 
a[0] = 5                
print(a)          


<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]


Para crear arreglos de varias dimensiones usamos la misma sintáxis

In [0]:
b = np.array([[1,2,3], 
              [4,5,9]])   
print(b.shape)
# los indices se manejan como coordenadas (renglon, columna)
print(b[0, 0], b[0, 1], b[1, 0]) 

(2, 3)
1 2 4


Operaciones básicas con arreglos

In [0]:
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.array([[7, 8, 9], [10, 11, 12]])

In [0]:
print(x + y)
print(np.add(x, y))
print("-" * 20)
 
print(x - y)
print(np.subtract(x, y))
print("-" * 20)
 
print(x * y)
print(np.multiply(x, y))
print("-" * 20)
 
print(x / y)
print(np.divide(x, y))
print("-" * 40)



v = np.array([9,10])
w = np.array([11, 12])

print(np.dot(v, w))

print(x.T)

x

[[ 8 10 12]
 [14 16 18]]
[[ 8 10 12]
 [14 16 18]]
--------------------
[[-6 -6 -6]
 [-6 -6 -6]]
[[-6 -6 -6]
 [-6 -6 -6]]
--------------------
[[ 7 16 27]
 [40 55 72]]
[[ 7 16 27]
 [40 55 72]]
--------------------
[[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]]
[[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]]
----------------------------------------
219
[[1 4]
 [2 5]
 [3 6]]


array([[1, 2, 3],
       [4, 5, 6]])

Algunos métodos para crear arreglos:

In [0]:
a = np.zeros((2,2))   # Crea un arreglo con ceros
print(a)  

print("-" * 10)

b = np.ones((1,2))    # Crea un arreglo con unos
print(b) 

print("-" * 10)

c = np.full((2,2), 7)  # Crea arreglo con constante
print(c)    

print("-" * 10)
                       
d = np.eye(5)         # Crea una matriz indentidad de 2X2
print(d)    

print("-" * 10)

e = np.random.random((2,2))  # Crea un arreglo lleno de numeros aleatorios
print(e)  

[[0. 0.]
 [0. 0.]]
----------
[[1. 1.]]
----------
[[7 7]
 [7 7]]
----------
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]
----------
[[0.83949148 0.19812285]
 [0.84400293 0.8015037 ]]


Con numpy también podemos crear arreglos con diferentes secuencias usando el método **linspace(Start, End, Number of elements)**

In [0]:
 array1d = np.linspace(1, 12, 2)
print(array1d)

print("-" * 10)
 
array1d = np.linspace(1, 12, 4)
print(array1d)


[ 1. 12.]
----------
[ 1.          4.66666667  8.33333333 12.        ]


Otro método parecido es **arange(Start, End, Increment)**:

In [0]:
array1d = np.arange(1, 12, 2) 
print(array1d)

print("-" * 10)

array1d = np.arange(1, 12, 4)
print(array1d)

[ 1  3  5  7  9 11]
----------
[1 5 9]


Para cambiar las dimensiones de un arreglo podemos usar **reshape()**:

In [0]:
array2d = np.arange(1, 12, 2).reshape(2, 3) 

print(array2d)

[[ 1  3  5]
 [ 7  9 11]]


**Ejercicios**

1. Crear un arreglo de 7 X 2, lleno de 1's
2. Crear un arreglo de 4 X 2, lleno de números pares


In [0]:
a = np.ones((7,2))  
print(a) 


b = np.arange(2, 17, 2).reshape(4, 2)
print(b) 

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[ 2  4]
 [ 6  8]
 [10 12]
 [14 16]]


### Array indexing
Numpy ofrece varias maneras de acceder a los índices de un arreglo.

Al igual que las listas en Python, los arreglos en numpy pueden ser indexados. 

In [0]:
array1d = np.array([1, 2, 3])
print(array1d[0]) 
print(array1d[3]) 

print("-" * 10)

print(array1d[-1])  
print(array1d[-5])

1


IndexError: ignored

Ya que los arreglos pueden ser multidimensionales, podemos especificar un pedazo en cada dimensión del arreglo:

In [0]:
a = np.array([[1,2,3,4], 
              [5,6,7,8], 
              [9,10,11,12]])

# primeras dos renglones
# y columnas 1 y 2 (3 no esta incluido)
b = a[:2, 1:3]
print(b)

a = np.array([2,3,4,5,6,7])

# a[i:f:p]

a[4::-2]


[[2 3]
 [6 7]]


array([6, 4, 2])

Podemos seleccionar una sola columna o renglón, pero esto crea un arreglo de una sola dimensión:

In [0]:
a = np.array([[1,2,3,4], 
              [5,6,7,8], 
              [9,10,11,12]])

# un solo renglon
row_r1 = a[1, :] 
print(row_r1)

print("-" * 10)

# una columna
col_c2 = a[:, 2] 
print(col_c2)


[5 6 7 8]
----------
[ 3  7 11]


Al igual que en Python, podemos tener 3 argumentos para acceder a los índices:

In [0]:
array1d = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(array1d[::-1]) 
# inicia, fin, pasos 
 
print(array1d[4::-1])
 
print(array1d[-2::-2])

[9 8 7 6 5 4 3 2 1 0]
[4 3 2 1 0]
[8 6 4 2 0]


También podemos acceder a elementos en específico:

In [0]:
a = np.array([1,2,3,4])
a[[0, 3, 2]]

array([1, 4, 3])

Podemos usar el indexado para modificar elementos en el arreglo:

In [0]:
a = np.array([[1,2,3], 
              [4,5,6], 
              [7,8,9]])

temp = np.arange(3)
temp

a[np.arange(3), 1] += 10
print(a)

[[ 1 12  3]
 [ 4 15  6]
 [ 7 18  9]]


In [0]:
temp = np.arange(3)
temp

array([0, 1, 2])

Ejercicios:

1. Leer la 2da columna del arreglo y multiplicarla por 3

In [0]:
a = np.array([[1, 5],
              [6, 9]])

a[np.arange(2), 1] *= 3
print(a)


[[ 1 15]
 [ 6 27]]


In [0]:
a[:, 1] *= 3
print(a)

[[  1 135]
 [  6 243]]


2. Mostrar los elementos impares en orden inverso

In [0]:
a = np.array([1, 2, 3, 4, 5, 6])

print(a[-2::-2])


[5 3 1]


Numpy tiene operaciones estadísticas básicas:

In [0]:
array1 = np.array([[10, 20, 30], [40, 50, 60]])
 
print("Mean: ", np.mean(array1))
 
print("Std: ", np.std(array1))
 
print("Var: ", np.var(array1))
 
print("Sum: ", np.sum(array1))
 
print("Prod: ", np.prod(array1))

Mean:  35.0
Std:  17.07825127659933
Var:  291.6666666666667
Sum:  210
Prod:  720000000


## Pandas

Podemos crear un DataFrame, que es una estructura tabular de dos dimensiones (renglones y columnas) con sus ejes etiquetados.

In [0]:
data = pd.DataFrame({'group':['a', 'a', 'a', 'b','b', 'b', 'c', 'c','c'],'ounces':[4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,group,ounces
0,a,4.0
1,a,3.0
2,a,12.0
3,b,6.0
4,b,7.5
5,b,8.0
6,c,3.0
7,c,5.0
8,c,6.0


Algunas operaciones básicas es poder ordenar nuestro dataset:

In [0]:
data.sort_values(by=['ounces'], ascending=True, inplace=False)

Unnamed: 0,group,ounces
1,a,3.0
6,c,3.0
0,a,4.0
7,c,5.0
3,b,6.0
8,c,6.0
4,b,7.5
5,b,8.0
2,a,12.0


In [0]:
data

Unnamed: 0,group,ounces
0,a,4.0
1,a,3.0
2,a,12.0
3,b,6.0
4,b,7.5
5,b,8.0
6,c,3.0
7,c,5.0
8,c,6.0


Podemos ordenar por varias columnas

In [0]:
data.sort_values(by=['group','ounces'], ascending=[True,False],inplace=False)

Unnamed: 0,group,ounces
2,a,12.0
0,a,4.0
1,a,3.0
5,b,8.0
4,b,7.5
3,b,6.0
8,c,6.0
7,c,5.0
6,c,3.0


Podemos eliminar registros duplicados:

In [0]:
data = pd.DataFrame({'k1':['one']*3 + ['two']*4, 'k2':[3,2,1,3,3,4,4]})
data

Unnamed: 0,k1,k2
0,one,3
1,one,2
2,one,1
3,two,3
4,two,3
5,two,4
6,two,4


In [0]:
data.sort_values(by='k2')

Unnamed: 0,k1,k2
2,one,1
1,one,2
0,one,3
3,two,3
4,two,3
5,two,4
6,two,4


In [0]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,3
1,one,2
2,one,1
3,two,3
5,two,4


Podemos especificar la columna que usaremos como criterio para los duplicados:

In [0]:
data.drop_duplicates(subset='k1')

Unnamed: 0,k1,k2
0,one,3
3,two,3


Numpy + Pandas: Estas dos librerías pueden trabajar juntas.

Por ejemplo, podemos crear un dataset usando el método de arange de numpy:


In [0]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)), columns=['one', 'two', 'three', 'four']) 
data

Unnamed: 0,one,two,three,four
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [0]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)), columns=['name','one', 'two', 'three']) 
data

Unnamed: 0,name,one,two,three
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


Con pandas podemos agregar índices a nuestros registros:

In [0]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),index=['Ohio', 'Colorado', 'New York'], columns=['name','one', 'two', 'three']) 
data

Unnamed: 0,name,one,two,three
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


También nos permite renombrar columnas e índices:

In [0]:
temp = data.rename(index = {'Ohio':'SanF'}, columns={'one':'one_p','two':'two_p'}, inplace=False)
data

Unnamed: 0,name,one_p,two_p,three
SanF,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


o renombrar usando funciones:

In [0]:
data.rename(columns=str.title, inplace=True)

data

Unnamed: 0,Name,One_P,Two_P,Three
SanF,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


**Ejercicio:**

Crear un horario, usando los nombres de la semana (lunes, martes, miercoles, jueves, viernes) como columnas, y como renglones los siguientes nombres: mary, jessica, juan, miguel, jorge; con esto vamos a simular un horario de guardia con el siguiente formato:

 <table>
  <tr>
    <th></th>
    <th>lunes</th>
    <th>martes</th>
    <th>miercoles</th>
    <th>jueves</th>
    <th>viernes</th>
  </tr>
  <tr>
    <td>mary</td>
    <td>1</td>
    <td>0</td>
    <td>0</td>
    <td>0</td>
    <td>0</td>
  </tr>
  <tr>
    <td>jessica</td>
    <td>0</td>
    <td>1</td>
    <td>0</td>
    <td>0</td>
    <td>0</td>
  </tr>
  <tr>
    <td>juan</td>
    <td>0</td>
    <td>0</td>
    <td>1</td>
    <td>0</td>
    <td>0</td>
  </tr>
  <tr>
    <td>miguel</td>
    <td>0</td>
    <td>0</td>
    <td>0</td>
    <td>1</td>
    <td>0</td>
  </tr>
  <tr>
    <td>jorge</td>
    <td>0</td>
    <td>0</td>
    <td>0</td>
    <td>0</td>
    <td>1</td>
  </tr>
</table> 



In [0]:
# usar numpy y pandas
data = pd.DataFrame(
    np.eye(5),
    index=['mary', 'jessica', 'juan', 'miguel', 'jorge'], 
    columns=['lunes','martes', 'miércoles', 'jueves', 'viernes']
) 
data

Unnamed: 0,lunes,martes,miércoles,jueves,viernes
mary,1.0,0.0,0.0,0.0,0.0
jessica,0.0,1.0,0.0,0.0,0.0
juan,0.0,0.0,1.0,0.0,0.0
miguel,0.0,0.0,0.0,1.0,0.0
jorge,0.0,0.0,0.0,0.0,1.0


2. Modificar el dataframe anterior, para que los nombres de las columnas estén en mayúsculas



In [0]:
data.rename(columns=str.upper, index=str.title, inplace=True)
data

Unnamed: 0,LUNES,MARTES,MIÉRCOLES,JUEVES,VIERNES
Mary,1.0,0.0,0.0,0.0,0.0
Jessica,0.0,1.0,0.0,0.0,0.0
Juan,0.0,0.0,1.0,0.0,0.0
Miguel,0.0,0.0,0.0,1.0,0.0
Jorge,0.0,0.0,0.0,0.0,1.0


3. Cambiar los valores 0.0 por '-' y los 1.0 por 'Guardia'

In [0]:
data.replace({0:0, 1:'Guardia'}, inplace=True)

data

v = 6.7
i = int(v)
i

6

In [0]:
data.replace([0,1],['-','Guardia'], inplace=True)

data

Unnamed: 0,lunes,martes,miércoles,jueves,viernes
mary,Guardia,-,-,-,-
jessica,-,Guardia,-,-,-
juan,-,-,Guardia,-,-
miguel,-,-,-,Guardia,-
jorge,-,-,-,-,Guardia
