# Unidad 3
Trabajamos con análisis de datos con **numpy, pandas y matplotlib**.
**Numpy** trabaja con vectores y el conjunto o estructuras de datos de numpy ofrece ventajas:
- Los datos son homogéneos
- Las matrices son más rápidas y compactas.
- Usan menos memoria
Las estructuras numpy están diseñadas para tener un mejor rendimiento y mejorar la administración del espacio.

## Matriz
Es una cuadricula de datos, son del mismo tipo (*dtype*), tienen un índice entero positivo y tiene una dimensión o **rank**.


In [1]:
import numpy as np

In [4]:
# Acá se define una estructura de tipo array que contiene una lista a la cual se le define el tipo de dato
# y como todos los elementos deben ser del mismo tipo, ésto quiere decir que no se va a poder trabajar con estructuras de datos múltiples (datos variasos dentro del mismo vector)
lista = [1, 2, 3]
mat = np.array(lista, dtype=np.int32)

print(type(mat)) # Acá mostramos el tipo
print(mat) # Mostramos los valores de la lista
print(mat.ndim) # Vemos la cantidad de dimensiones
print(np.shape(mat)) # Preguntamos cuantos elementos tiene la estructura

<class 'numpy.ndarray'>
[1 2 3]
1
(3,)


In [10]:
# Podemos crear estructuras inicializadas
mat_zeros = np.zeros( (3, 3) )
mat_unos = np.ones( (3, 3) )
mat_empty = np.empty( (3, 3) )

print(mat_zeros)
print(mat_unos)
# "np.empty" crea una estructura con valores al azar y regularmente suele estar llena de basura
# así que puedde estár llena de ceros o de numero aleatorios
print(mat_empty)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [11]:
# Tambien se puden multiplicar, sumar, restar, dividir, etc
mat_multiplicacion = np.ones( (3, 4) )
print(mat * 5)
print(np.sum(mat)) # Aca suma todos los elementos en una sola funcion

[0. 0. 0.]
0.0


In [15]:
# Otro ejemplo de suma
lista_matriz = [ [1, 2], [3, 4], [5, 6], [7, 8] ]
lista_matriz = np.array(lista_matriz, dtype=np.int32)
print(lista_matriz)

# "flip" convierte una matriz. Lo que hace es invertirla.
print("\nUso de flip:")
print(np.flip(lista_matriz))

print("\nUso de flip, para afectar solo fias:")
# Usar flip para invertir solo las filas
print(np.flip(lista_matriz, axis=0))

[[1 2]
 [3 4]
 [5 6]
 [7 8]]

Uso de flip:
[[8 7]
 [6 5]
 [4 3]
 [2 1]]

Uso de flip, para afectar solo fias:
[[7 8]
 [5 6]
 [3 4]
 [1 2]]


In [20]:
# Creando una matriz de una dimension con numeros ordenados ascendentemente. Solo se indica cantidad de elementos
matriz_2 = np.arange(8)
print(matriz_2)

# Acá se reestructura la matriz creada para hacerla bideimensional. Hay que tener en cuenta que la reestructuracion
# no la hace de forma inteligente sino que hay que pasarle la distribucion correcta para que no rompa
print("\nReshape")
matriz_redimensionada = matriz_2.reshape(4, 2)
print(matriz_redimensionada)

# "flatten" agarra todas las dimensiones de la matriz y la convierte en una sola dimension
# Convierte una matroz en un vector
print("\nFlatten")
print(matriz_redimensionada.flatten())


[0 1 2 3 4 5 6 7]

Reshape
[[0 1]
 [2 3]
 [4 5]
 [6 7]]

Flatten
[0 1 2 3 4 5 6 7]


In [24]:
# Se puede crear una matriz con datos random.
# Genera un vector al azar con valores entre 0 y 4 (éstos valores lo define el primer parametro), pero con 5 nodos (esto lo define el "size")
matriz_random = np.random.randint(5, size=(5))
print(matriz_random)

print("\nGenerando matriz con datos random pero con 5 Filas y 2 Columnas")
matriz_random_2 = np.random.randint(5, size=(5, 2))
print(matriz_random_2)

# Tambien se pueden obtener máximos, mínimos, datos sin repetir, entre otros.
# Consultar la docu para mas opciones

[0 3 4 4 2]

Generando matriz con datos random pero con 5 Filas y 2 Columnas
[[0 2]
 [0 4]
 [0 0]
 [1 1]
 [1 2]]


In [27]:
# Agregar y quitar valores en una estructura
mat_add_q = np.random.randint(5, size=(5)) # Creo una estructura
print("\nMatriz con numeros random")
print(mat_add_q)
# Piso esa misma variable para agregarle "mat_add_q" y un 9. El 9 lo agrega al final
mat_add_q = np.append(mat_add_q, [9])
print("\nMatriz con elemento agregado")
print(mat_add_q)

# Delete borra por posición
mat_add_q = np.delete(mat_add_q, [0]) # Borra la posición cero
print("\nBorrar elemento de la posición cero")
print(mat_add_q)

# Despues de borrar el primero, ahora le digo que borre los dos primeros de lo que quedó
mat_add_q = np.delete(mat_add_q, [0, 1]) # Borra la posición cero y uno
print("\nBorra posición 0 y 1 de lo que quedó")
print(mat_add_q)

# Insert agrega en la posición 0 un elemento "100"
mat_add_q = np.insert(mat_add_q, 0, [100])
print("\nInserta elementos")
print(mat_add_q)




Matriz con numeros random
[1 3 1 2 1]

Matriz con elemento agregado
[1 3 1 2 1 9]

Borrar elemento de la posición cero
[3 1 2 1 9]

Borra posición 0 y 1 de lo que quedó
[2 1 9]

Inserta elementos
[100   2   1   9]


## Pandas

In [29]:
import pandas as pd

In [32]:
# ESTRUCTURAS DE UNA SOLA DIMENSION
# Las series son inmutables igual que las tuplas y tienen un índice con el cual podemos acceder a los datos
# index: sirve para modificar lo que lleva dentro, y le agrega indice (se lo renombra con otra lista con los nombres)
series = pd.Series([1,2,2,3,4,5], dtype='int32', index=['a','b','c','d','e','f'])
print(series)

# Recorriendo una serie con un "for"
print("\nRecorriendo una serie con un 'for'")
for i in series:
    print(i, end='-')

print("\nMetodo para contar la repeticion de cada elemento")
print(series.value_counts()) # Me dice que el 2 está 2 veces y el resto una

# Ubicar un valor dentro de la serie tomando el índex
print("\nMostrar la posición 3 de la estructura 'Serie'")
print(series.iloc[2])

# Busca por la mascara ('e') que se le da a la serie
print('\nMostrar usando "loc", que es la "mascara", "etiqueta" o "el índice renombrado": ', series.loc['e'])
print(series.loc['e'])

a    1
b    2
c    2
d    3
e    4
f    5
dtype: int32

Recorriendo una serie con un 'for'
1-2-2-3-4-5-
Metodo para contar la repeticion de cada elemento
2    2
1    1
3    1
4    1
5    1
dtype: int64

Mostrar la posición 3 de la estructura 'Serie'
2

Mostrar usando "loc", que es la "mascara", "etiqueta" o "el índice renombrado":  4
4


In [34]:
# ESTRUCTURAS MAS COMPLEJAS COMO LOS DATAFRAMES
dic={'nombres':['juan', 'leo'], 'materia':['p2','bd'], 'nota':[10,8]}

# Se pueden renombrar los indices. Es decir la primer columna que indica la posición de la fila
df=pd.DataFrame(dic, index=['primer parcial', 'final'])
print(df)

# Se puede recorrer el data frame.
print("\nRecorriendo el dataframe")
for i in df:
    print(i)

               nombres materia  nota
primer parcial    juan      p2    10
final              leo      bd     8

Recorriendo el dataframe
nombres
materia
nota


### Ejemplo Pandas y Matplot
```python
import pandas as pd
import matplotlib.pyplot as mp
import os


# Se puede trabajar con archivos externos --> .csv
# fuente: https://datos.gob.ar/dataset/sspm-canasta-basica-alimentaria-regiones-pais
df=pd.read_csv('./Numpy/canasta-basica.csv')
df.plot(kind='bar',x='indice_tiempo',xlabel='Valores en Pesos', ylabel='Referencia en Pesos', title='Grafico')
mp.show()

# Hacer un grafico tomando la libreria de matplot pero metiendole datos
file=df.iloc[1]
# Le digo que me traiga de esta fila, todos los indices (osea los nombres de las columnas).
# Y a esto lo voy a convertir en una lista. y despues hago lo mismo con los valores
indices=['a','b']
valores=[1,2]
mp.bar(indices,valores,color='green')
mp.xlabel='Prov'
mp.ylabel='Valores'
mp.title('Grafico')
mp.show()

print(indices)
print(valores)

# Rutas relativas
os.system('cls')
path=os.path.abspath('clasePandas.py')
path=os.path.dirname(path)
print(path)
```

### Datasets
```python
import numpy as np
import os
import pandas as pd
import matplotlib.pyplot as mp

# Extraccion de datos
# Transformar los datos. (Porque pueden tener fuentes diferentes, o no ser homogeneos. Por eso hay que depurarlos en ésta instancia)
# Cargar/Procesar los datos.

# Leemos los datos del archivo para convertirlos en un dataframe.
df = pd.read_csv('./Numpy/canasta-basica.csv') # con ésta linea ya se convierten
# Si el archivo tiene un separador distinto a la coma ',' se puede agregar en la apertura del archivo
# el separador que se está usando para distinguir las columnas. Ej: sep=';'
df = pd.read_csv('./Numpy/ejemplo2.csv', sep=';') # Usando separador
df2 = pd.read_csv('./Numpy/ejemplo2.csv') # Sin usar separador

print(df)
print(df2)

# Es como un 'group by' de un 'select', agrupa los datos.
# "size()" me indica el tamaño y me genera una columna más con la cantidad agrupada, pero por defecto no tiene nombre
# por eso se agrega "reset_index(name='Total')", ésto es para nombrar la columna con "Total"
df1 = df.groupby(['01/12/2020']).size().reset_index(name='Total') # Se puede agrupar por más de una columna
df2 = df.groupby(['01/12/2021']).size().reset_index(name='Total') # Se puede agrupar por más de una columna

# Se pueden renombrar las columnas del df2 para poder compararlas
df2 = df2.rename(columns={'noreste':'pa alla'})
df_full = pd.merge(df1, df2, on='01/12/2020') # on es la columna en comun que los combina


print(df1)
print(df2)
print(df_full) # Revisar bien como es

# "value_counts()" devuelve una serie con la primera columna con el "nombre de indice" y una
# segunda columna indicando cuantas veces se repite. Todo ésto devuelve una estructura que no
# es una lista. Así que lo convertimos a lista con el método "list()"
x = list(df_full.value_counts())
y=[0,0,0,0,0]

# Recorre la estructura, usa el largo de "df_full"
for i in range(len(df_full)):
    if(df_full.iloc[i]['nombre_columna'] == x[i]):
        # le suma al vector "y" los valores
        y[i] += df_full.iloc[i]['Total_x'] + df_full.iloc[i]['Total_y']


print(len(x)) # devuelve los nodos que tiene
```