# Librerías NumPy y Pandas

## Librería NumPy (Fundamentos)

In [2]:
import numpy as np

In [3]:
# Creamos una list de Python
lista = [1, 2, 3, 4, 5]

# Conversión a array de NumPy
np_array = np.array(lista)

#
print(lista)
print(f"Array de numpy {np_array} - Tipo: {type(np_array)} ")

[1, 2, 3, 4, 5]
Array de numpy [1 2 3 4 5] - Tipo: <class 'numpy.ndarray'> 


In [5]:
# Operar cada elemento de un array
print(f"Array original: {np_array}")
print(f"Multiplicar por 2: {np_array * 2 = }")
print (lista * 2)
print(f"Sumar 10: {np_array + 10 = }")

l = []
for i in lista:
    l.append(i * 2)

print( l )

Array original: [1 2 3 4 5]
Multiplicar por 2: np_array * 2 = array([ 2,  4,  6,  8, 10])
[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
Sumar 10: np_array + 10 = array([11, 12, 13, 14, 15])
[2, 4, 6, 8, 10]


## Comparar list de Python con Array de NumPy

In [6]:
import time

In [9]:
datos = np.arange(10_000_000)

In [10]:
# Tiempo para procesar x elementos con for y list
inicio = time.time()

l = []
for num in datos:
  l.append(num * 2)

fin = time.time()
print(f"Tiempo de ejecución: {fin - inicio}")


Tiempo de ejecución: 2.009357213973999


In [11]:
# Tiempo para procesar x elementos con NumPy
inicio = time.time()

l1 = datos * 2

fin = time.time()
print(f"Tiempo de ejecución: {fin - inicio}")


Tiempo de ejecución: 0.03483700752258301


## Librería Pandas (fundamentos)

In [14]:
import pandas as pd
from pprint import pprint

In [15]:

# Crear un diccionario de datos
datos = {
    "cliente": ["Ana", "Juan", "Pedro", "María", "Lucía"],
    "edad": [28, 35, 42, 30, 25],
    "ciudad": ["Santiago", "Valparaíso", "Santiago", "Concepción", "Santiago"],
    "ventas": [120_000, 95_000, 143_000, 110_000, 70_000]
}

print( type(datos) )
pprint( datos )

<class 'dict'>
{'ciudad': ['Santiago', 'Valparaíso', 'Santiago', 'Concepción', 'Santiago'],
 'cliente': ['Ana', 'Juan', 'Pedro', 'María', 'Lucía'],
 'edad': [28, 35, 42, 30, 25],
 'ventas': [120000, 95000, 143000, 110000, 70000]}


In [16]:
# Pandas DataFrame = df
df = pd.DataFrame(datos)

print( type(df) )
print(df)

<class 'pandas.core.frame.DataFrame'>
  cliente  edad      ciudad  ventas
0     Ana    28    Santiago  120000
1    Juan    35  Valparaíso   95000
2   Pedro    42    Santiago  143000
3   María    30  Concepción  110000
4   Lucía    25    Santiago   70000


In [20]:
# muestra las primeras 5 líneas del ds (DataSet)
print( df.head() )

  cliente  edad      ciudad  ventas
0     Ana    28    Santiago  120000
1    Juan    35  Valparaíso   95000
2   Pedro    42    Santiago  143000
3   María    30  Concepción  110000
4   Lucía    25    Santiago   70000


In [21]:
# Muestra las últimas 5 filas
print(df.tail())

  cliente  edad      ciudad  ventas
0     Ana    28    Santiago  120000
1    Juan    35  Valparaíso   95000
2   Pedro    42    Santiago  143000
3   María    30  Concepción  110000
4   Lucía    25    Santiago   70000


In [22]:
print( df.info() )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   cliente  5 non-null      object
 1   edad     5 non-null      int64 
 2   ciudad   5 non-null      object
 3   ventas   5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None


In [23]:
# Estadistica descriptiva
print(df.describe())

            edad         ventas
count   5.000000       5.000000
mean   32.000000  107600.000000
std     6.670832   27318.491906
min    25.000000   70000.000000
25%    28.000000   95000.000000
50%    30.000000  110000.000000
75%    35.000000  120000.000000
max    42.000000  143000.000000


In [28]:
# Ver contenido de una sola columna
print (type( df["ventas"]), "\n")
print ( df["ventas"])

<class 'pandas.core.series.Series'> 

0    120000
1     95000
2    143000
3    110000
4     70000
Name: ventas, dtype: int64


In [32]:
# Seleccionar varias columnas
print(type(df[ ["ciudad", "ventas"]  ]), "\n")
print(df[ ["ciudad", "ventas"]  ])

<class 'pandas.core.frame.DataFrame'> 

       ciudad  ventas
0    Santiago  120000
1  Valparaíso   95000
2    Santiago  143000
3  Concepción  110000
4    Santiago   70000


In [33]:
# Filtrar por columna
print(df[  df['ventas']  > 100_000   ])

  cliente  edad      ciudad  ventas
0     Ana    28    Santiago  120000
2   Pedro    42    Santiago  143000
3   María    30  Concepción  110000
