# Science for Sea: Fundamentos de Python para Ciencia de Datos

<img src="https://qselmer.netlify.app/images/hero.png" alt="S4S" width="200">


+ <img src="http://img.shields.io/badge/-WebSite-2088FF?style=flat&logo=Google&logoColor=ffffff" alt="Website" >  https://qselmer.netlify.app/
+ <img src="http://img.shields.io/badge/-Gmail-2088FF?style=flat&logo=gmail&logoColor=ffffff" alt="ResGmailearchGate"> qselmer@gmail.com

 Última modificación: 09-02-2024

## Introducción

+ Python es una lenguage de programación, esto es, un lenguaje en el que podemos comunicar órdenes a la computadora.
+ Estas órdenes se dan en forma de **algortimos** que el *programador* debe traducir al lenguaje de programación.
+ Los algortimos contienen la lógica que debe seguir la computadora, a través de operaciones simples que, al agregarse, van complejizándose hasta cumplir la tarea encomendada. Por supuesto, en el entendido de que las instrucciones que contienen efectivamente conduzcan, al final, a dicha solución.
+ En este curso aprenderemos algunos de los fundamentos del Python, así como sus librerías más usadas para comenzar a trabajar en la Ciencia de Datos. Esta librerías son: ```NumPy```, ```Pandas```, ```MatPlotLib``` (y una librería derivada de esta última llamada, ```Seaborn```).


## Módulo I: Variables, tipos y estructuras de datos

### Variables

+ Una variable en cualquier lenguaje de programación es una etiqueta (un símbolo o un nombre) que reserva un espacio en la memoria de un computador para contener valores. Estos valores son asignados en el programa y pueden cambiar de un punto al siguiente, si su valor es reasignado (de ahí el nombre *variable*).

Por ejemplo:

Creemos, inicialicemos e imprimamos la variable ```x``` en Python:

In [1]:
x = 5      # Crea la variable x y le asigna 5 como valor
x          # Imprime por pantalla (o consola) el valor de la variable x

5

Al obedecerse estas instrucciones, tenemos en memoria una variable llamada ```x``` que contiene un valor entero 5.

Hagamos otra llamada ```y```...

In [6]:
y = 10
y

10

Ahora, además de contar con una variable llamada ```x``` en la memoria, también contamos con otra variable llamada ```y```.

Hagamos la suma $x+y$...

In [5]:
suma_xy = x+y      # Suma los valores contenidos en x, y. Su resultado lo recibe la nueva variable
                    # llamada suma_x_y
suma_xy

15

La nueva variable ```suma_xy``` contiene la suma de los valores 5 (en ```x```) y 10 (en ```y```). Los lenguajes de programación resuelven las operaciones a la derecha del símbolo de asignación (en **Python**, el ```=```) y finalmente asignan a la variable (o variables) a la izquierda de la ecuación.

Obsérvese los siguiente:

+ Ni en ```x```, ```y```, ```suma_x_y``` hemos necesitado indicar el tipo de datos que corresponde. En todos los casos este tipo de datos se ha asumido (o deducido) a partir del valor que asignamos. En las tres variables los valores asignados son enteros, y por lo tanto, las tres se han definido como variables de tipo entero.
+ A la tercera variable que creamos (```suma_x_y```) le hemos asignado un nombre más explicativo que el que le asignamos a las dos restantes. Es de buen estilo de programación y de mucha utilidad futura, poner nombres explicativos a las variables. Estos nombres no deben comenzar con números, sino con letras, y no pueden contener espacios en blanco. Será muy útil esta práctica cuando tengamos que leer y comprender nustros programas algún tiempo después de completados.
+ Tampoco es buena idea exagerar con esto. En el ejemplo, podríamos llamar a la variable ```suma_de_los_valores_de_x_y_y```, por ejemplo, acción que no sería para nada práctica. Un buen balance en los nombres es la idea: explicativos pero cortos.

### Tipado dinámico

+ **Python** es un lenguaje en el que los tipos no tienen que ser declarados previo al uso de las variables. Algunos otros lenguajes de programación, exigen la declaración de tipos, previo al uso de las variables. No así el **Python** que se considera de *tipado dinámico*.
+ El tipado dinámico no significa que la computadora no deba conocer el tipo de cada variable, efectivamente DEBE conocerlo. Sólo significa que el tipo de una variable puede cambiar con el tiempo y se deduce a partir del tipo del último valor que le ha sido asignado.

Continuando con el ejemplo anterior, ¿cuánto valen ```x```, ```y```, ```suma_xy``` en este momento?

In [7]:
print("x =", x)
print("y =", y)
print("x + y =", suma_xy)

x = 5
y = 10
x + y = 15


Ahora, cambiemos el valor de ```x```...

In [None]:
x = 10

y comprobemos los valores nuevamente...

In [None]:
print("x =", x)
print("y =", y)
print("x + y =", suma_xy)

x = 10
y = 10
x + y = 15


**¡Horror!**. Algo no anduvo bien... Calculemos nuevamente la suma:

In [None]:
suma_xy = x+y # Recalculando la suma, pues cambió el valor de x

print("x =", x)
print("y =", y)
print("x + y =", suma_xy)

x = 10
y = 10
x + y = 20


Ahora sí...

En los lenguajes de programación, los cambios en el valor de una variable que ha sido utilizada en un cálculo, producen efectos sobre la variable, pero no sobre el cálculo. Para actualizar el valos del resultado hay que recalcular explícitamente.

Por otro lado, ¿qué queremos decir con tipado dinámico? Cambienos nuevamente el valor de ```x```...

In [None]:
x = 25.73
x

25.73

In [None]:
suma_xy = x+y

print("x =", x)
print("y =", y)
print("x + y =", suma_xy)

x = 25.73
y = 10
x + y = 35.730000000000004


Ahora hemos asignado a ```x``` un valor real (no entero). No ha habido ningún problema con ello, **Python** lo ha reconocido y ha tomado nota. Cuando recalculamos la suma, ahora la variable ```suma_xy```, resultado de sumar un número real y un entero, se reconoce con un número real.

Nótese, por otro lado, que hay un error en el cálculo de la suma, que se expresa en el decimal 16. Cuando los lenguajes de programación, que trabajan sobre máquinas de precisión finita, se entienden con números reales, son MUY frecuentes los **Errores de redondeo**, como este que estamos viendo. Las operaciones en los computadores no se realizan de forma simbólica, sino numérica y, por lo tanto, pueden arrastrar errores debido a la precisión de los tipos de datos.

Para alcanzar una precisión casi perfecta (la prefección no existe), podemos importar de la librería ```decimal``` el objeto ```Decimal``` y utilizarlo:

In [None]:
# Importar de la librería decimal, el objeto Decimal
from decimal import Decimal

# Ahora usémoslo
x = Decimal(x)      # Transforme el valor de x, de real convencional a real de precisión
y = Decimal(y)      # Transforme el valor de y, de real convencional a real de precisión
suma_xy = x+y

print("x =", x)
print("y =", y)
print("x + y =", suma_xy)

x = 25.73
y = 10.00
x + y = 35.73


Veamos otro ejemplo...

In [None]:
x = "Uno"
x

'Uno'

In [None]:
suma_xy = x+y

TypeError: can only concatenate str (not "decimal.Decimal") to str

Se ha producido un error de ejecución (esto es, un error que se produce cuando el programa se ejecuta). Estamos tratando de sumar una cadena de caracteres ("Uno") con un valor decimal (10). **Python** es un lenguaje *fuertemente tipado*, es decir, un lenguaje que chequea los tipos de las variables e intenta resolver los cálculos, pero cuando esto no es posible, produce un error de ejecución. El programador DEBE asegurarse que los tipos que están involucrados en las operaciones sean compatibles. En uno de los ejemplos anteriores, sumamos un número real y un número entero. Estos dos tipos son obviamente compatibles. En este ejemplo, sin embargo, tratamos de sumar una cadena de caracteres y un número. Estos dos tipos no son compatibles.

¿Y qué le ocurrió a ```suma_xy```?

In [None]:
print("x + y =", suma_xy)

x + y = 35.73


Se quedó como estaba ANTES de la asignación fallida...

### Tipos de datos

En **Python** hay muchos tipos de datos diferentes que cubren casi cualquier necesidad imaginable. Además, el programador puede definir sus propios tipos si lo desea. En este curso sólo cubriremos algunos tipos básicos, que son suficientes para la gran mayoría de las aplicaciones de Ciencia de Datos. Estos son:

| Tipo | Python | Valores |
|:--|:--|:--|
| Lógico o Booleano | ```bool``` | ```True```, ```False``` |
| Entero | ```int``` | $$\cdots, -2, -1, 0, 1, 2, \cdots$$ |
| Flotante o Real | ```float``` | $$\in\Re$$ |
| Cadena de caracteres | ```str``` | "a", "z", "abc", "A*", etc. |

Veamos algunos ejemplos...

In [None]:
una_logica = True
un_entero= 17
un_flotante = 10.55
una_cadena = "¡Hola mundo!"

¿Cómo verificamos los tipos?

In [None]:
type(una_logica)     # Usando la función type

bool

In [None]:
type(un_entero)

int

In [None]:
type(un_flotante)

float

In [None]:
type(una_cadena)

str

Las operaciones con números son bastante obvias y no ahondaremos en ellas. Sólo hay que tener cuidado con las conversiones de tipos. Por ejemplo...

In [None]:
res1 = una_logica + un_entero
display(res1)
type(res1)

18

int

In [None]:
res2 = una_logica - un_flotante
display(res2)
type(res2)

-9.55

float

In [None]:
res3 = un_flotante / un_entero
display(res3)
type(res3)

0.6205882352941177

float

In [None]:
res4 = una_cadena + una_cadena
display(res4)
type(res4)

'¡Hola mundo!¡Hola mundo!'

str

### Operadores

Hay dos tipos de operadores: Operadores aritméticos y Operadores lógicos (o de comparación). Veamos primero los aritméticos:

| Símbolo | Significado |
| :--: | :-- |
| ```+``` | suma (números) o concatenación (cadenas) |
| ```-``` | resta (números) |
| ```*``` | multiplicación (números) o concatenación (cadenas) |
| ```/``` | división (números) |
| ```**``` | potencia (números) |
| ```//``` | división entera (números) |
| ```%``` | módulo (números) |

y algunos ejemplos...

In [None]:
x, y = 10, 20.5

display(x)
display(y)

10

20.5

In [None]:
x+y     # La suma

30.5

In [None]:
x-y     # La resta

-10.5

In [None]:
x*y     # La multiplicación

205.0

In [None]:
x/y     # La división

0.4878048780487805

In [None]:
x**y     # La potencia

3.1622776601683794e+20

In [None]:
y//x     # La división entera

2.0

In [None]:
y%x     # El módulo (o resto, luego de la división entera)

0.5

In [None]:
c1, c2, c3 = "Hola", " ", "Mundo"

display(c1)
display(c2)
display(c3)

'Hola'

' '

'Mundo'

In [None]:
c1 + c2 + c3       # La concatenación simple

'Hola Mundo'

In [None]:
(c1+c2)*x          # La concatenación repetida

'Hola Hola Hola Hola Hola Hola Hola Hola Hola Hola '

Ahora, veamos los **operadores lógicos o de comparación**. Estos son operadores cuyo resultado es siempre un valor lógico (```True``` o ```False```):

| Símbolo | Significado | Uso |
| :--: | :-- | :--: |
| ```==``` | igual que | ```x == y``` |
| ```!=``` | diferente de | ```x != y``` |
| ```>``` | mayor que | ```x > y``` |
| ```<``` | menor que | ```x < y``` |
| ```>=``` | mayor o igual que | ```x >= y``` |
| ```<=``` | menor o igual que | ```x <= y``` |
| ```not``` | negación | ```not x``` |

y algunos ejemplos...

In [None]:
x, y = 10, 5

display(x)
display(y)

10

5

In [None]:
x == y

False

In [None]:
x != y

True

In [None]:
x > y

True

In [None]:
x < y

False

In [None]:
x >= y

True

In [None]:
x <= y

False

In [None]:
not (x <= y)

True

In [None]:
c1, c2 = "Hola", "Mundo"
display(c1)
display(c2)

'Hola'

'Mundo'

In [None]:
c1 == c2

False

In [None]:
c1 != c2

True

In [None]:
c1 > c2 # Comparación lexicográfica, es decir, caracter a caracter, en orden

False

In [None]:
c1 < c2

True

### Tratamiento de cadenas de caracteres

Por su importancia y porque a veces las operaciones no lucen tan naturales como con los números, veamos algunas características del tratamiento de cadenas de caracteres (o "strings", en inglés).

In [2]:
# Una cadena de caracteres...
cadena = "Érase una vez en un viejo pueblo pesquero llamado 'El Muelle'"
cadena

"Érase una vez en un viejo pueblo pesquero llamado 'El Muelle'"

#### Un caracter de la cadena

**Python** cuenta desde el 0 en adelante.

In [3]:
display(cadena[0])
display(cadena[1])
display(cadena[2])
display(cadena[3])
display(cadena[4])

'É'

'r'

'a'

's'

'e'

#### Una subcadena desde el comienzo

Por defecto, **Python** llega hasta el caracter inmediato anterior al señalado. Así que esta instrucción devuelve la concatenación de los caracteres 0,1,2,3,4.

In [4]:
cadena[:5]

'Érase'

#### Una subcadena hasta el final

In [5]:
cadena[6:]

"una vez en un viejo pueblo pesquero llamado 'El Muelle'"

#### Desde y hasta otro lugar

In [6]:
cadena[6:9]

'una'

#### La longitud de la cadena

Entendida como el número de caracteres que contiene

In [7]:
largo = len(cadena)
largo

61

Entonces, del primero al último:

In [8]:
cadena[:largo]

"Érase una vez en un viejo pueblo pesquero llamado 'El Muelle'"

o simplemente

In [9]:
cadena[:]

"Érase una vez en un viejo pueblo pesquero llamado 'El Muelle'"

o mejor

In [10]:
cadena

"Érase una vez en un viejo pueblo pesquero llamado 'El Muelle'"

Ahora, saltando un número dado de caracteres...

In [11]:
cadena[6:20:2]

'uavze n'

#### De atrás hacia adelante

In [12]:
cadena[::-1]

"'elleuM lE' odamall oreuqsep olbeup ojeiv nu ne zev anu esarÉ"

#### Transformando en letras mayúsculas

In [13]:
cadena.upper()

"ÉRASE UNA VEZ EN UN VIEJO PUEBLO PESQUERO LLAMADO 'EL MUELLE'"

#### Transformando en letras minúsculas

In [14]:
cadena.lower()

"érase una vez en un viejo pueblo pesquero llamado 'el muelle'"

#### Transformando en un título (al estilo del inglés)

In [15]:
cadena.title()

"Érase Una Vez En Un Viejo Pueblo Pesquero Llamado 'El Muelle'"

#### Buscando la posición de sub cadenas

In [17]:
cadena.find("un")    # Encuentra la primera aparición de la subcadena

6

In [27]:
display(largo)
cadena.find("un", 7, largo)

61

17

#### Reemplazando sub cadenas

In [19]:
otra_cad = cadena.replace("Muelle", "Barco")
otra_cad

"Érase una vez en un viejo pueblo pesquero llamado 'El Barco'"

#### Quitando espacios en blanco de los extremos

In [20]:
tercera_cad = cadena[5:14]
tercera_cad

' una vez '

In [21]:
# Quitando los blancos a la izquierda
tercera_cad.lstrip()

'una vez '

In [22]:
# Quitando los blancos a la derecha
tercera_cad.rstrip()

' una vez'

In [23]:
# Quitando los blancos a ambos lados
tercera_cad.strip()

'una vez'

#### Separando las palabras de la cadena

In [24]:
cadena.split()

['Érase',
 'una',
 'vez',
 'en',
 'un',
 'viejo',
 'pueblo',
 'pesquero',
 'llamado',
 "'El",
 "Muelle'"]

In [25]:
cuarta_cad = cadena.replace("vez en", "vez, en") # Poniendo una coma
display(cuarta_cad)

# Indicando el separador
cuarta_cad.split(",")

"Érase una vez, en un viejo pueblo pesquero llamado 'El Muelle'"

['Érase una vez', " en un viejo pueblo pesquero llamado 'El Muelle'"]

#### Buscando si una sub cadena está o no

In [None]:
"pesquero" in cadena

True

In [None]:
"érase" in cadena

False

In [None]:
"Erase" in cadena

False

In [None]:
"Érase" in cadena

True

#### Contando la aparición de sub cadenas

In [None]:
cadena.count("un")

2

In [None]:
cadena.count("o")

4

In [None]:
cadena.count("Pesquero")    # Esta no está

0

#### Tipo representado por la cadena

In [None]:
x_cad = "10"
y_cad = "10.5"
z_cad = "abc"

# ¿Son todos los caracteres alfanuméricos?
display(x_cad.isalnum())
display(y_cad.isalnum())
display(z_cad.isalnum())

True

False

True

In [None]:
# ¿Son todos los caracteres alfabéticos?
display(x_cad.isalpha())
display(y_cad.isalpha())
display(z_cad.isalpha())

False

False

True

In [None]:
# ¿Pertenecen todos a la tabla ASCII?
display(x_cad.isascii())
display(y_cad.isascii())
display(z_cad.isascii())

True

True

True

In [None]:
# ¿Son todos los caracteres números decimales?
display(x_cad.isdecimal())
display(y_cad.isdecimal())
display(z_cad.isdecimal())

True

False

False

In [None]:
# ¿Son todos los caracteres dígitos?
display(x_cad.isdigit())
display(y_cad.isdigit())
display(z_cad.isdigit())

True

False

False

In [None]:
# ¿Son todos los caracteres dígitos?
display(x_cad.isnumeric())
display(y_cad.isnumeric())
display(z_cad.isnumeric())

True

False

False

### <img src="https://qselmer.netlify.app/images/hero.png" alt="S4S" width="100"> Ejercicio

Dada la cadena "Bienvenidos a la Ciencia para el Mar", se pide que Ud.:

1. Defina una variable que la contenga
2. Defina una variable que contenga las palabras separadas
3. Encuentre la posición en que aparece la subcadena "Ciencia"
4. Construya programáticamente una cadena como la anterior, pero que no tenga la palabra "Ciencia" ni espacios en blanco en los extremos
5. Construya programáticamente una cadena como la anterior, pero que tenga una coma antes de "Ciencia"
6. Cuente programáticamente el número de veces que aparece la letra "s", sin importar si está en mayúsculas o minúsculas.
7. Construya programáticamente una cadena como la anterior, pero que tenga la palabra "Python" en lugar de "Ciencia"
8. Escriba la cadena en sentido inverso