## Numpy

In [1]:
# Ejemplo 1. Conversión de temperaturas Celsius a Fahrenheit
# Antes de poder utilizar Numpy primero se tiene que importar
import numpy as np

In [2]:
# Se declara una lista con los valores de las temperaturas
valores_celsius = [20.1, 20.8, 21.9, 22.5, 22.7, 22.3, 21.8, 21.2, 20.9, 20.1]

In [3]:
# Se convierte la lista valores_celsius en un arreglo de una dimensión de Numpy
C = np.array(valores_celsius)
print(C)

[20.1 20.8 21.9 22.5 22.7 22.3 21.8 21.2 20.9 20.1]


In [4]:
type(C)

numpy.ndarray

In [8]:
# Se realiza la conversión y se imprime
print(C * 9 / 5 + 32)

[68.18 69.44 71.42 72.5  72.86 72.14 71.24 70.16 69.62 68.18]


In [None]:
# Esta es la solución utilzando listas
valores_fahrenheit = [x * 9 / 5 + 32 for x in valores_celsius ]
print(valores_fahrenheit)

[68.18, 69.44, 71.42, 72.5, 72.86, 72.14, 71.24000000000001, 70.16, 69.62, 68.18]


In [None]:
type(valores_fahrenheit)

list

## Pandas

In [1]:
# Importar biblioteca
import pandas as pd

**Series**

In [18]:
# Definición de objeto Serie
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [21]:
# Cambiar un valor
obj.replace(-5, 10, inplace=True)

In [24]:
# Acceso al índice y a los valores de la serie
print(obj.index)
print(obj[0])
print(obj.values)

RangeIndex(start=0, stop=4, step=1)
4
[ 4  7 10  3]


In [23]:
# Definición de objeto Serie con índices individuales
frutas = ['manzanas', 'naranjas', 'cerezas', 'peras']
cantidades = [20, 33, 52, 10]
serie = pd.Series(cantidades, index=frutas)
serie

manzanas    20
naranjas    33
cerezas     52
peras       10
dtype: int64

Si se suman dos series con el mismo índice, se obtiene una nueva serie con el mismo índice y los valores correspondientes se suman:

In [27]:
frutas = ['manzanas', 'naranjas', 'cerezas', 'peras']
serie = pd.Series([20, 33, 52, 10], index=frutas)
serie2 = pd.Series([17, 13, 31, 32], index=frutas)
print(serie + serie2)
print("La suma de la primera serie es: ", sum(serie))
print("La suma de la segunda serie es: ", sum(serie2))

manzanas    37
naranjas    46
cerezas     83
peras       42
dtype: int64
La suma de la primera serie es:  115
La suma de la segunda serie es:  93


**DataFrame**

Hay muchas formas de construir un DataFrame, aunque una de las más comunes es desde un diccionario de listas de la misma longitud o arreglos Numpy:

In [31]:
datos = {"estado": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
         "año": [2000, 2001, 2002, 2001, 2003, 2003],
         "población" : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(datos)
frame

Unnamed: 0,estado,año,población
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9
5,Nevada,2003,3.2


Para DataFrames más grandes, el método head selecciona solo las primeros cinco filas:

In [34]:
frame.head()

Unnamed: 0,estado,año,población
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9


In [35]:
frame.head(2)


Unnamed: 0,estado,año,población
0,Ohio,2000,1.5
1,Ohio,2001,1.7


De igual forma, tail regresa las últimas cinco filas:

In [36]:
frame.tail()

Unnamed: 0,estado,año,población
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9
5,Nevada,2003,3.2


Si se especifica una secuencia de columnas, las columnas del DataFrame se organizan en ese orden:

In [44]:
pd.DataFrame(datos, columns=["año", "estado", "población"])

Unnamed: 0,año,estado,población
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2003,Nevada,2.9
5,2003,Nevada,3.2


Para renombrar las columnas se utiliza el método rename. Se establece el parámetro inplace a True para cambiar el DataFrame en lugar de regresar un DataFrame nuevo.

In [47]:
frame.rename(columns={"estado": "Estado",
                      "año": "Año",
                      "población": "Población"},
             inplace=True)
frame

Unnamed: 0,Estado,Año,Población
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9
5,Nevada,2003,3.2


Una columna en un DataFrame se puede recuperar como una serie, ya sea mediante una notación similar a la de un diccionario o utilizando la notación del atributo de punto:

In [48]:
frame["Estado"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: Estado, dtype: object

In [49]:
frame.Año

0    2000
1    2001
2    2002
3    2001
4    2003
5    2003
Name: Año, dtype: int64

In [50]:
frame

Unnamed: 0,Estado,Año,Población
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9
5,Nevada,2003,3.2


**Ordenar DataFrames**

A continuación, se ordena el DataFrame de acuerdo con la población:

In [51]:
frame = frame.sort_values(by="Población", ascending=False)
frame

Unnamed: 0,Estado,Año,Población
2,Ohio,2002,3.6
5,Nevada,2003,3.2
4,Nevada,2003,2.9
3,Nevada,2001,2.4
1,Ohio,2001,1.7
0,Ohio,2000,1.5


Importar datos

In [56]:
pip install ucimlrepo

Note: you may need to restart the kernel to use updated packages.


In [57]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
iris = fetch_ucirepo(id=53)

# data (as pandas dataframes)
X = iris.data.features
y = iris.data.targets

# metadata
print(iris.metadata)

# variable information
print(iris.variables)


{'uci_id': 53, 'name': 'Iris', 'repository_url': 'https://archive.ics.uci.edu/dataset/53/iris', 'data_url': 'https://archive.ics.uci.edu/static/public/53/data.csv', 'abstract': 'A small classic dataset from Fisher, 1936. One of the earliest known datasets used for evaluating classification methods.\n', 'area': 'Biology', 'tasks': ['Classification'], 'characteristics': ['Tabular'], 'num_instances': 150, 'num_features': 4, 'feature_types': ['Real'], 'demographics': [], 'target_col': ['class'], 'index_col': None, 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_of_dataset_creation': 1936, 'last_updated': 'Tue Sep 12 2023', 'dataset_doi': '10.24432/C56C76', 'creators': ['R. A. Fisher'], 'intro_paper': {'ID': 191, 'type': 'NATIVE', 'title': 'The Iris data set: In search of the source of virginica', 'authors': 'A. Unwin, K. Kleinman', 'venue': 'Significance, 2021', 'year': 2021, 'journal': 'Significance, 2021', 'DOI': '1740-9713.01589', 'URL': 'https://www.semanticscholar.org

In [58]:
X

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [59]:
X.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [60]:
y

Unnamed: 0,class
0,Iris-setosa
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa
...,...
145,Iris-virginica
146,Iris-virginica
147,Iris-virginica
148,Iris-virginica


In [61]:
y.describe()

Unnamed: 0,class
count,150
unique,3
top,Iris-setosa
freq,50


In [62]:
y.value_counts()

class          
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

In [63]:
pd.concat([X,y], axis="columns")

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
