## NUMPY

In [1]:
#Referencia - McKinney Data Analysis

In [None]:
import numpy as np
# Importamos NumPy y lo renombramos como 'np' para mayor comodidad.

# Generamos datos aleatorios en una matriz de 2x3.
data = np.random.randn(2, 3)
print(data)

# Multiplicamos cada elemento de la matriz por 10.
data * 10

# Sumamos la matriz consigo misma.
data + data

# Creamos una lista de datos.
data1 = [6, 7.5, 8, 0, 1]

# Convertimos la lista a un array de NumPy.
arr1 = np.array(data1)
print(arr1)
print(arr1.shape)  # Mostramos la forma (shape) del array.

# Creamos matrices de ceros y unos.
print(np.zeros((3, 6)))
print(np.ones((3, 6)))

# Creamos un array con valores de 0 a 14.
print(np.arange(15))

# Realizamos operaciones elemento por elemento en arrays.
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr * arr)
print(arr - arr)

# Realizamos operaciones matemáticas en cada elemento.
1 / arr

# Indexing y slicing en arrays de una dimensión.
arr = np.arange(10)
print(arr[5])
print(arr[5:8])

# Indexing en arrays bidimensionales.
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[0][2])
print(arr2d[0, 2])

# Slicing en filas y columnas.
print(arr2d[:2])
print(arr2d[:, :2])

# Reshape de un array.
arr = np.arange(32)
print(arr)
print(arr.reshape(8, 4))

# Transposición de un array.
print(arr.T)

# Transformaciones matemáticas en cada elemento del array.
arr = np.arange(10)
print(np.sqrt(arr))
print(np.exp(arr))

# Generación de números aleatorios.
np.random.randint(1, 20, 20)

# Fijamos la semilla para reproducibilidad.
np.random.seed(234)
np.random.randint(1, 20, 20)

# Funciones estadísticas básicas.
arr = np.arange(1, 100)
print(arr)
print(arr.mean())
print(arr.sum())
print(arr.std())

# RANDOM WALK utilizando NumPy y visualización con Matplotlib.
import random
import matplotlib.pyplot as plt
%matplotlib inline

position = 0
walk = [position]
steps = 1000

# Simulamos un paseo aleatorio.
for i in range(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

# Visualizamos las primeras 50 posiciones del paseo aleatorio.
plt.plot(walk[:50])

# PRÁCTICA 1: Simulación de lanzamientos de dados y visualización.
import random
import matplotlib.pyplot as plt

# Simulamos 3 lanzamientos de dados.
dice_rolls = [np.random.randint(1, 7) for _ in range(3)]
print(dice_rolls)
plt.plot(dice_rolls)

# Simulamos 30 lanzamientos de dados y visualizamos los resultados.
dice_rolls2 = [np.random.randint(1, 7) for _ in range(30)]
print(dice_rolls2)
plt.plot(dice_rolls2)

## PANDAS

In [56]:
#Referencia McKinney Data Analysis

In [None]:
import pandas as pd
import numpy as np

# Creamos una Serie 'obj' con valores 4, 7, -5, 3.
obj = pd.Series([4, 7, -5, 3])
print(obj)

# Creamos otra Serie 'obj2' con valores y etiquetas.
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj2)

# Accedemos a un elemento específico en 'obj2' por etiqueta.
print(obj2['d'])

# Accedemos a varios elementos en 'obj2' por etiqueta.
print(obj2[['c', 'a', 'd']])

# Usamos una condición para filtrar elementos en 'obj2'.
print(obj2[obj2 > 0])

# Creamos una Serie 'obj3' a partir de un diccionario.
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
print(obj3)

# Creamos un DataFrame 'frame' a partir de un diccionario.
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
print(frame)

# Limitamos la visualización de las primeras 3 filas de 'frame'.
print(frame.head(3))

# Limitamos la visualización de las últimas 3 filas de 'frame'.
print(frame.tail(3))

# Controlamos el orden de las columnas en 'frame'.
pd.DataFrame(data, columns=['year', 'state', 'pop'])

# Seleccionamos una columna de 'frame' de dos maneras diferentes.
print(frame['state'])
print(frame.state)

# Creamos una nueva columna 'debt' y le asignamos valores.
frame['debt'] = np.arange(6.)
print(frame)

# Obtenemos los valores de 'frame' como un array.
frame.values

# Eliminamos filas del DataFrame 'data' basándonos en etiquetas.
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
print(data)

data = data.drop(['Colorado', 'Ohio'])
print(data)

# Modificamos columnas en 'data' y eliminamos una columna.
data.drop('three', inplace=True, axis=1)
print(data)

# Seleccionamos y filtramos elementos en una Serie 'obj'.
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
print(obj)

# Accedemos a un elemento por etiqueta.
print(obj['b'])

# Accedemos a elementos por índices numéricos.
print(obj[2:4])

# Accedemos a varios elementos por etiqueta.
print(obj[['b', 'a', 'd']])

# Filtramos elementos en 'obj' con una condición.
print(obj[obj < 2])

# Accedemos a un rango de elementos por etiqueta.
print(obj['b':'c'])

# Seleccionamos columnas de un DataFrame 'data'.
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
print(data)

# Seleccionamos columnas específicas de 'data'.
data[['three', 'one']]

# Seleccionamos filas de 'data'.
data[:2]

# Filtramos filas de 'data' basándonos en una condición.
data[data['three'] > 5]

# Realizamos comparaciones y devolvemos un DataFrame booleano.
data < 5

# Filtramos 'data' basándonos en la comparación.
data[data < 5]

# Filtramos 'data' basándonos en una columna específica.
data[data['three'] < 5]

# Accedemos a elementos en 'data' utilizando las etiquetas con 'loc'.
data.loc['Colorado', ['two', 'three']]

# Accedemos a elementos en 'data' utilizando índices numéricos con 'iloc'.
data.iloc[2, [3, 0, 1]]

# Aplicamos funciones a un DataFrame 'frame'.
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(frame)

# Aplicamos la función de valor absoluto a 'frame'.
np.abs(frame)

# Aplicamos una función lambda a 'frame'.
frame.apply(lambda x: x ** 2)

# Ordenamos una Serie 'obj' por etiquetas.
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

# Creamos un DataFrame 'frame' y lo ordenamos por etiquetas.
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()

# Ordenamos 'frame' por columnas.
frame.sort_index(axis=1)

# Ordenamos 'frame' por columnas en orden descendente.
frame.sort_index(axis=1, ascending=False)

# Ordenamos una Serie 'obj' por valores.
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

# Creamos un DataFrame 'frame' y lo ordenamos por una columna.
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame.sort_values(by='b')

# PRACTICA 2: Creamos un DataFrame 'perudf' con información de departamentos del Perú.
import pandas as pd
datos = {
    'dep': ['Amazonas', 'Ancash', 'Apurimac', 'Arequipa', 'Ayacucho', 'Cajamarca',
            'Callao', 'Cusco', 'Huancavelica', 'Huanuco', 'Ica', 'Junin',
            'La Libertad', 'Lambayeque', 'Lima', 'Loreto', 'Madre de Dios',
            'Moquegua', 'Pasco', 'Piura', 'Puno', 'San Martin', 'Tacna', 'Tumbes', 'Ucayali'],
    'cap': ['Chachapoyas', 'Huaraz', 'Abancay', 'Arequipa', 'Ayacucho', 'Cajamarca',
            'Callao', 'Cusco', 'Huancavelica', 'Huanuco', 'Ica', 'Huancayo',
            'Trujillo', 'Chiclayo', 'Lima', 'Iquitos', 'Puerto Maldonado',
            'Moquegua', 'Cerro de Pasco', 'Piura', 'Puno', 'Moyobamba', 'Tacna', 'Tumbes', 'Pucallpa'],
    'pob': [379, 1083, 405, 1382, 616, 1341, 994, 1205,
            347, 721, 850, 1246, 1778, 1197, 9485, 883,
            141, 174, 254, 1856, 1172, 813, 329, 224, 496]
}
perudf = pd.DataFrame(datos)
perudf = perudf.set_index('dep')