# Trabajo con Python

1. Importar librerías:

- Asegúrate de tener ```NumPy``` y ```Pandas``` instalados en tu entorno de Python. Si no están instalados, puedes hacerlo mediante el siguiente comando:
```pip install numpy pandas```

- Importa las librerías al principio del script:
```
import numpy as np
import pandas as pd
```

2. Ejecutar secciones del código:
- Copia y pega cada bloque de código en un entorno de Python (un archivo ```.py``` o un entorno de Jupyter Notebook) para ejecutarlo por separado.

3. Revisar los comentarios:
- Los comentarios en el código explican cada acción y operación realizada con NumPy y Pandas.

4. Instalar Google Colab (si es necesario):
- Para ejecutar la parte del código relacionada con Google Colab, necesitarás un entorno que lo admita, como Google Colab.
- Si no estás utilizando Google Colab, puedes omitir esa parte del código o adaptarlo a tu entorno local.

5. Adaptar rutas de archivos (si es necesario):
- Si estás utilizando la lectura o escritura de archivos locales, asegúrate de que las rutas sean válidas para tu sistema de archivos.

6. Asegurar los datos de entrada:
- En algunos casos, el código utiliza datos aleatorios o archivos CSV. Asegúrate de tener esos datos disponibles o modifica el código para utilizar tus propios datos.

7. Revisar resultados:
- Verifica los resultados mostrados mediante print() o las operaciones realizadas en cada bloque de código para entender mejor la manipulación de datos con NumPy y Pandas.

In [2]:
%pip install numpy
%pip install pandas

Note: you may need to restart the kernel to use updated packages.
Collecting pandas
  Using cached pandas-2.0.3-cp38-cp38-macosx_10_9_x86_64.whl.metadata (18 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2023.3.post1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.1 (from pandas)
  Using cached tzdata-2023.3-py2.py3-none-any.whl (341 kB)
Using cached pandas-2.0.3-cp38-cp38-macosx_10_9_x86_64.whl (11.7 MB)
Using cached pytz-2023.3.post1-py2.py3-none-any.whl (502 kB)
Installing collected packages: pytz, tzdata, pandas
Successfully installed pandas-2.0.3 pytz-2023.3.post1 tzdata-2023.3
Note: you may need to restart the kernel to use updated packages.


## Trabajo con Numpy

In [3]:
# Importar la librería NumPy y asignarle un alias 'np'
import numpy as np

In [4]:
# Creación de una lista de números
arr = [7, 2, 9, 10]

# Verificar el tipo de la variable 'arr'
type(arr)

list

In [5]:
# Convertir la lista 'arr' a un arreglo de NumPy
arr_np = np.array(arr)

# Verificar el tipo de la variable 'arr_np'
type(arr_np)

numpy.ndarray

In [6]:
# Multiplicar cada elemento del arreglo 'arr_np' consigo mismo
result = arr_np * arr_np
result

array([ 49,   4,  81, 100])

In [8]:
# Crear una matriz mediante la multiplicación de 'arr_np' con su transpuesta
matrix = arr_np * np.transpose(arr_np)
matrix

array([ 49,   4,  81, 100])

In [9]:
# Crear una lista de listas para representar una matriz
mat = [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15]]
mat

[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15]]

In [10]:
# Crear un arreglo bidimensional con NumPy a partir de la lista 'mat'
mat2D = np.array(mat)
mat2D

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [11]:
# Obtener la forma (shape) del arreglo 'arr_np'
arr_np.shape

(4,)

In [12]:
# Obtener la forma del arreglo bidimensional 'mat2D'
mat2D.shape

(3, 5)

Notar aqui la diferencia entre las dimensiones de ```arr_np``` y ```mat2D```. Las dimensiones, qué indican?

In [13]:
# Crear un arreglo tridimensional y convertirlo a un arreglo de NumPy
arr_3d = [[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]], [[13, 14, 15], [16, 17, 18]]]
mat3D = np.array(arr_3d)
mat3D

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18]]])

In [14]:
mat3D.shape

(3, 2, 3)

Alguna idea sobre los valores de las dimensiones?

In [15]:
# Modificar un valor en la matriz tridimensional 'mat3D'
mat3D[1, 1, 0] = "Lazaro"
mat3D

ValueError: invalid literal for int() with base 10: 'Lazaro'

Este error, ```ValueError: invalid literal for int() with base 10: 'Lazaro'```, se produce cuando intentas asignar un valor de tipo str (cadena de texto) a una posición en una matriz NumPy que espera valores numéricos.

El mensaje ```invalid literal for int() with base 10``` indica que se está intentando convertir una cadena en un número entero, pero la cadena no representa un número válido en base 10.

En tu código, estás intentando asignar el valor "Lazaro" a una posición específica de la matriz mat3D que se espera que contenga números enteros. Esto causa el error, ya que "Lazaro" no es un número y no puede ser convertido a un entero.

Para evitar este error, asegúrate de asignar valores numéricos a las posiciones de la matriz NumPy si estás trabajando con datos numéricos. Si necesitas manejar datos mixtos (por ejemplo, cadenas y números) en una matriz, tendrías que utilizar un tipo de dato que permita esta flexibilidad, como un array de tipo object en NumPy, pero esto puede tener limitaciones en operaciones numéricas y de rendimiento.

In [16]:
# Modificar un valor en la matriz bidimensional 'mat2D'
mat2D[1, 4] = 2023
mat2D

array([[   1,    2,    3,    4,    5],
       [   6,    7,    8,    9, 2023],
       [  11,   12,   13,   14,   15]])

In [17]:
# Seleccionar elementos específicos en 'mat2D' utilizando slicing
mat2D[::2, ::3]

array([[ 1,  4],
       [11, 14]])

In [18]:
# Crear un arreglo de ceros con una forma específica
temp0 = np.zeros((3, 12), dtype=int)
temp0

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [19]:
# Crear un arreglo de unos con una forma específica
temp1 = np.ones((3, 12), dtype=int)
temp1

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

In [20]:
# Crear un arreglo con valores aleatorios con una forma específica
temp_rnd = np.random.randn(3, 12)
temp_rnd

array([[-0.21947941, -1.51259532,  0.20785417, -0.05319023,  0.13649817,
         0.69702683, -1.67155764, -0.2061652 , -0.71148774, -0.65756878,
         0.27065565, -0.77433359],
       [-0.81458147,  1.44344405, -2.51716783, -0.34261806, -0.80943797,
        -0.4243634 , -1.95541571, -1.10586121, -1.53516259, -1.04867304,
        -1.47047712,  0.16111496],
       [ 1.25377645, -0.81827255, -0.68268254,  0.07216883, -1.15878647,
        -0.23229533,  0.8532052 , -1.22907992,  0.81337464,  2.19566017,
        -0.998245  , -0.11959636]])

In [21]:
# Llenar un arreglo con un valor específico
temp23 = temp0
temp23.fill(2023)
temp23

array([[2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
        2023],
       [2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
        2023],
       [2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
        2023]])

In [22]:
# Crear una copia de un arreglo
temp23 = np.copy(temp0)
temp23

array([[2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
        2023],
       [2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
        2023],
       [2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
        2023]])

## Trabajo con Pandas

In [23]:
# Operaciones con Series en Pandas
import pandas as pd

# Crear una Serie con diferentes tipos de datos
s = pd.Series(['Matemáticas', 6, 'Economía', True, 'Inglés'])
s

0    Matemáticas
1              6
2       Economía
3           True
4         Inglés
dtype: object

In [24]:
# Realizar operaciones con elementos de la Serie
p = s[1] + 7
print(p)

l = not s[3]
print(l)

o = s[0] + 7
print(o)

13
False


TypeError: can only concatenate str (not "int") to str

Este error, ```TypeError: can only concatenate str (not "int") to str```, ocurre cuando intentas realizar una operación de concatenación entre una cadena de texto (```str```) y un número entero (```int```).

En este código, se está intentando sumar un número entero (```7```) a un elemento específico de una Serie (```s[0]```), que es una cadena de texto.

La razón de este error es que no puedes sumar directamente un número entero a una cadena de texto en Python. Si se desea realizar esta operación, es necesario asegurarse de convertir el número a una cadena de texto para que la concatenación funcione correctamente.

Se puede solucionar este error convirtiendo el número ```7``` a una cadena de texto utilizando la función ```str()```:
```
o = s[0] + str(7)
print(o)
```
Esto convertirá el número 7 en una cadena de texto y luego realizará la concatenación con el elemento s[0], evitando así el error.

In [39]:
# Crear una Serie con datos numéricos y realizar operaciones matemáticas
s = pd.Series({'Matemáticas': 6.0, 'Economía': 4.5, 'Programación': 8.5})
print(s.sum())
print(s.max())
print(s.describe())

19.0
8.5
count    3.000000
mean     6.333333
std      2.020726
min      4.500000
25%      5.250000
50%      6.000000
75%      7.250000
max      8.500000
dtype: float64


In [26]:
# Crear una Serie con valores nulos y realizar operaciones
s = pd.Series([1, 2, None, 4, np.NaN, 6])
s.describe()

count    4.000000
mean     3.250000
std      2.217356
min      1.000000
25%      1.750000
50%      3.000000
75%      4.500000
max      6.000000
dtype: float64

In [27]:
# Eliminar valores nulos de una Serie
s1 = s.dropna()
s1

0    1.0
1    2.0
3    4.0
5    6.0
dtype: float64

In [40]:
# Crear un DataFrame con un diccionario de datos
datos = {'nombre': ['María', 'Luis', 'Carmen', 'Antonio'], 'edad': [18, 22, 20, 21], 'grado': ['Economía', 'Medicina', 'Arquitectura', 'Economía'], 'correo': ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']}
df = pd.DataFrame(datos)
df

Unnamed: 0,nombre,edad,grado,correo
0,María,18,Economía,maria@gmail.com
1,Luis,22,Medicina,luis@yahoo.es
2,Carmen,20,Arquitectura,carmen@gmail.com
3,Antonio,21,Economía,antonio@gmail.com


In [41]:
# Crear un DataFrame con listas de columnas y filas
col_names = ["nombre", "edad", "grado", "correo"]
row_names = [0, 1, 2, 3]
nombre = ["Maria", "Luis", "Carmen", "Antonio"]
edad = [18, 22, 20, 21]
grado = ["Economia", "Medicina", "Arq", "Economia"]
correo = ["1@1.com", "2@2.com", "3@3.com", "4@4.com"]
df_1 = pd.DataFrame(np.transpose([nombre, edad, grado, correo]), columns=col_names, index=row_names)
df_1

Unnamed: 0,nombre,edad,grado,correo
0,Maria,18,Economia,1@1.com
1,Luis,22,Medicina,2@2.com
2,Carmen,20,Arq,3@3.com
3,Antonio,21,Economia,4@4.com


In [42]:
# Crear un DataFrame con valores aleatorios
val = np.random.randn(5, 12)
df_2 = pd.DataFrame(val)
df_2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,-0.574671,0.136197,-0.529689,-1.202724,0.75489,0.282959,1.481445,-2.186915,-0.500126,-2.669571,0.286891,-0.797401
1,0.766475,0.658188,0.507473,0.73151,0.76593,2.710272,0.08292,2.150814,-0.965145,-0.537138,-2.22684,-1.106158
2,0.936582,-0.588241,-0.116269,-0.787549,1.542185,-0.112941,-0.265454,0.544806,1.505864,0.600594,0.000401,1.841152
3,-0.250272,1.088087,-1.246709,2.194722,1.601932,-1.269678,0.736115,0.104156,0.358034,1.939821,0.325904,-0.029678
4,0.301868,0.126227,-0.294421,-0.785904,-0.794558,1.469073,-0.144778,0.939354,0.158426,0.026125,-0.371599,0.451776


In [43]:
# Leer un archivo CSV desde una URL y guardar en un DataFrame
colesterol = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=';', decimal=',')

# Escribir un DataFrame en un archivo CSV local
colesterol.to_csv("test.csv", sep="*")

colesterol

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [44]:
# Explorar y manipular un DataFrame
colesterol.info()
print(colesterol.size)
print(colesterol.dtypes)
print(colesterol.head(3))
print(colesterol.tail(3))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      14 non-null     object 
 1   edad        14 non-null     int64  
 2   sexo        14 non-null     object 
 3   peso        13 non-null     float64
 4   altura      14 non-null     float64
 5   colesterol  13 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 800.0+ bytes
84
nombre         object
edad            int64
sexo           object
peso          float64
altura        float64
colesterol    float64
dtype: object
                         nombre  edad sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
1                Rosa Díaz Díaz    32    M  65.0    1.73       232.0
2         Javier García Sánchez    24    H   NaN    1.81       191.0
                             nombre  edad sexo   peso  altura  colesterol
11  

In [45]:
# Renombrar columnas de un DataFrame
newcolnames = {"nombre": "name", "edad": "age", "sexo": "sex", "peso": "weight", "altura": "height", "colesterol": "colesterol"}
df = colesterol.rename(columns=newcolnames)
df

Unnamed: 0,name,age,sex,weight,height,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [49]:
# Seleccionar datos específicos de un DataFrame
df.loc[(1, 5, 7), ("age", "sex")]


Unnamed: 0,age,sex
1,32,M
5,68,H
7,22,M


In [48]:
df.iloc[3:, 4::2]

Unnamed: 0,height
3,1.7
4,1.58
5,1.74
6,1.72
7,1.66
8,1.94
9,1.85
10,1.62
11,1.87
12,1.98


In [50]:
# Manipulación de datos en un DataFrame
df["weight"].fillna(np.mean([69.66, 79.77]), inplace=True)
df.isna().sum()

name          0
age           0
sex           0
weight        0
height        0
colesterol    1
dtype: int64

In [51]:
# Operaciones y filtrado en un DataFrame
df.loc[(df["weight"] >= 70) & (df["weight"] <= 75) & (df["height"] > 1.7) & (df["colesterol"] >= 200), "colesterol"] = True
df["height"] = df["height"] * 100
df.loc[df["sex"] == 'M']

Unnamed: 0,name,age,sex,weight,height,colesterol
1,Rosa Díaz Díaz,32,M,65.0,173.0,232.0
3,Carmen López Pinzón,35,M,65.0,170.0,200.0
4,Marisa López Collado,46,M,51.0,158.0,148.0
7,Pilar Martín González,22,M,60.0,166.0,
10,Macarena Álvarez Luna,53,M,55.0,162.0,262.0
13,Carolina Rubio Moreno,20,M,61.0,177.0,194.0


In [52]:
# Operaciones con Series y DataFrames
s = pd.Series([1, 2, None, 4, np.NaN, 6])
s1 = s.dropna()
df1 = df.drop([1, 3])
df1

Unnamed: 0,name,age,sex,weight,height,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,179.0,182.0
2,Javier García Sánchez,24,H,74.715,181.0,191.0
4,Marisa López Collado,46,M,51.0,158.0,148.0
5,Antonio Ruiz Cruz,68,H,66.0,174.0,249.0
6,Antonio Fernández Ocaña,51,H,62.0,172.0,276.0
7,Pilar Martín González,22,M,60.0,166.0,
8,Pedro Gálvez Tenorio,35,H,90.0,194.0,241.0
9,Santiago Reillo Manzano,46,H,75.0,185.0,True
10,Macarena Álvarez Luna,53,M,55.0,162.0,262.0
11,José María de la Guía Sanz,58,H,78.0,187.0,198.0


In [53]:
df.dropna(inplace=True)
df["height"] = df["height"] * 100
df.groupby("sex").groups
df["talla"] = "Chico"
df.loc[(df["height"] > 160) & (df["height"] <= 175), "talla"] = "Medio"
df.loc[df["height"] > 175, "height"] = "Alto"
df.groupby(["sex", "talla"]).get_group(("H", "Chico"))

Unnamed: 0,name,age,sex,weight,height,colesterol,talla
0,José Luis Martínez Izquierdo,18,H,85.0,Alto,182.0,Chico
2,Javier García Sánchez,24,H,74.715,Alto,191.0,Chico
5,Antonio Ruiz Cruz,68,H,66.0,Alto,249.0,Chico
6,Antonio Fernández Ocaña,51,H,62.0,Alto,276.0,Chico
8,Pedro Gálvez Tenorio,35,H,90.0,Alto,241.0,Chico
9,Santiago Reillo Manzano,46,H,75.0,Alto,True,Chico
11,José María de la Guía Sanz,58,H,78.0,Alto,198.0,Chico
12,Miguel Angel Cuadrado Gutiérrez,27,H,109.0,Alto,210.0,Chico


In [54]:
# Ejemplo con un diccionario de datos y su manipulación en un DataFrame
datos = {'nombre': ['María', 'Luis', 'Carmen'], 'edad': [18, 22, 20], 'Matemáticas': [8.5, 7, 3.5], 'Economía': [8, 6.5, 5], 'Programación': [6.5, 4, 9]}
eje = pd.DataFrame(datos)
df1 = eje.melt(id_vars=['nombre', 'edad'], var_name='asignatura', value_name='nota')
print(df1.pivot(index='nombre', columns='asignatura', values='nota'))

asignatura  Economía  Matemáticas  Programación
nombre                                         
Carmen           5.0          3.5           9.0
Luis             6.5          7.0           4.0
María            8.0          8.5           6.5


In [55]:
# Ejemplo con redondeo de un número
p = 1.236589
print(round(p, 2))

1.24


## Usando Google Colab

Google Colab, conocido como Colaboratory, es un entorno de notebook en la nube ofrecido por Google. Este entorno brinda la capacidad de escribir y ejecutar código Python directamente en un navegador web. Una de sus ventajas clave es el acceso gratuito a recursos de hardware, como GPU y TPU, lo que resulta útil para tareas computacionalmente intensivas. Además, se integra con Google Drive, facilitando la importación y exportación de datos y notebooks. Colab es popular en investigación, aprendizaje automático y análisis de datos debido a su capacidad de colaboración en tiempo real y su compatibilidad con librerías estándar de Python. Ofrece un espacio de almacenamiento temporal en la nube para notebooks y archivos durante la sesión, pero no garantiza almacenamiento a largo plazo.

In [None]:
# Operaciones con archivos en Google Colab (solo funcionará en ese entorno)
import io
from google.colab import files
uploaded = files.upload()
df = pd.read_csv(io.BytesIO(uploaded["colesteroles.csv"]), sep=";", decimal=",")