# 1. Python

## 1.1. Intro

Python es un lenguaje de programación interpretado de tipado dinámico cuya filosofía hace hincapié en una sintaxis que favorezca un código legible. Se trata de un lenguaje de programación multiparadigma y disponible en varias plataformas.

Características de Python:

- Propósito general: sirve para multitud de propósitos diferentes: desarrollo web, apps, data science...etc.

- Multiplataforma: se puede correr en culquier sistema operativo.

- Interpretado: no es necesario compilar (traducir a lenguaje máquina) el código antes de su ejecución. En verdad se realiza, pero es una tarea transparente para el desarrollador, es por lo tanto un lenguaje de alto nivel.

- Orientado a objetos: la programación orientada a objetos está soportada en Python y ofrece en muchos casos una manera sencilla de crear programas con componentes reutilizables.

- Tipado dinámico: Las variables se comprueban en tiempo de ejecución.

- Funciones y librerías: dispone de muchas funciones incorporadas en el propio lenguaje, para el tratamiento de strings, números, archivos, etc. Además, existen muchos módulos que podemos importar en los programas para tratar temas específicos.

- Sintaxis clara: destacar que Python tiene una sintaxis muy visual, gracias a una notación identada (con márgenes) de obligado cumplimiento. Esto ayuda a que todos los programadores adopten unas mismas notaciones y que los programas de cualquier persona tengan un aspecto muy similar.

¿Por qué Python en Data Science?

Python está en movimiento y en pleno desarrollo, pero ya es una realidad y una interesante opción para realizar todo tipo de programas que se ejecuten en cualquier máquina. El equipo de desarrollo está trabajando de manera cada vez más organizada y cuentan con el apoyo de una comunidad que está creciendo rápidamente.

Debido a esto y a que un lenguaje de código abierto, la comundad puede ir desarrollando librerías que permitan la apliación de Python en campos de conocimiento concretos. Dentro de la escena del tratamiento de datos existen numérosos módulos que permiten que Python sea competente en el ámbito del data science, si sumamos a esto la versatilidad del lenguaje y su curva de aprendizaje moderada, es una opción muy buena para inciarse en el mundo de la ciencia de datos.

## 1.2. Nociones básicas en Python

### 1.2.1. Objetos

Todo en Python es un objeto. Cada objeto tiene en Python un tipo asociado, datos internos, y unos atributos u otros en función de su tipo. Se puede ejecutar el comando `type()` para saber el tipo de objeto de un objeto.

También se puede utlizar la función `isinstance(object,(type_of_object)` para comprobar si un objeto pertenece a un tipo en particular. Ejemplo: `isinstance(a, (int, float))`.

**Escalares:**

- int: número entero
- long: número entero grande
- float: número decimal
- str: string (cadena de caracteres)
- bool: True (1) or False (0)
- None: valor "null" en Python

**Estructuras de datos:**

- lista: secuencia mutable unidimensional de objetos de Python. Se escribe entre corchetes `[]`.
- tupla: sucuencia inmutable unidimensional de objetos de Python. Se escribe entre paréntesis `()`.
- diccionario: colección de pares llave-valor, donde las llaves y valores son objetos de Python. Se escribe entre llaves `{}`.
- set: colección única (sin duplicados) de valores. Se escribe entre llaves `{}`.

In [5]:
## Definimos diferentes tipos de objetos
a = 7
b = "hola"
c = [1, 2, 3]
d = (1, 2, 3)
e = False
f = {"nombre": "Carlos", "altura": 182, "peso": 57}
g = {1, 2, 3, "hola"}

## Consultamos el tipo de objeto de cada uno
type(a), type(b), type(c), type(d), type(e), type(f), type(g)

(int, str, list, tuple, bool, dict, set)

### 1.2.2. Atributos

Los atributos pueden definirse como objetos de Python alojados en el interior de otro objeto; o métodos, que son funciones asociadas a un objeto que permite obtener información interna de ese objeto.

Se puede acceder a los atributos de un objeto mediante la sintaxis `object_name.attribute_name`.

Cada tipo de objeto tiene unos atributos asociados diferentes, para saber cuales de ellos están disponibles en función del tipo de objeto, se pueden utilizar las siguientes funciones:

- `hasattr(object, attribute)`: consulta si el objeto tiene el atributo indicado, devuelve un valor booleano.
- `dir(object)`: devuelve el listado de atributos de ese objeto.

In [11]:
## Definimos una variable tipo string y consultamos los atributos disponibles
a = "hola"
dir(a)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',


### 1.2.3. Referenciar objetos

Al asignar (`=`) una variable en Python, lo que en verdad se está haciendo es crear una referencia al objeto en el lado derecho del signo igual. Al referenciar objetos, se aplican por igual los cambios realizados en la parte izquierda de la igualdad en la parte derecha.

In [6]:
## Creamos una lista a con 3 objetos, y referenciamos "b" a "a"
a = [1, 2, 3]
b = a
print(f"La lista a contiene los valores: {a}")
print(f"La lista b contiene los valores: {b}")

La lista a contiene los valores: [1, 2, 3]
La lista a contiene los valores: [1, 2, 3]


In [7]:
## Añadimos un objeto adicional a la lista "a"
a.append(4)

## Al estar "b" referenciada a "a" también habrá sido modificada
print(f"La lista a contiene los valores: {a}")
print(f"La lista b contiene los valores: {b}")

La lista a contiene los valores: [1, 2, 3, 4]
La lista b contiene los valores: [1, 2, 3, 4]


In [9]:
## Se puede realizar una comprobación adicional y ver que ambas variables apuntan al mismo hueco de memoria
id(a), id(b)

(1838939602184, 1838939602184)

## 1.3. Estructuras de control de flujo

Una estructura de control, es un bloque de código que permite agrupar instrucciones de manera controlada en base a una serie de condiciones. En Python, como en el resto de los lenguajes de programación, tenemos varios modos de controlar el flujo del programa:

- `if`: ejecuta un bloque particular de comandos en función del resultado de un test.
- `while`: ejecuta un bloque de comandos mientras que se cumpla un test determinado.
- `for`: ejecuta un bloque de comandos un cierto número de veces.

Es obligatoria la identación, que no es otra cosa que realizar una sangría de 4 espacios en blanco. La mayoría de IDE's o editores de texto identifican cuando comienza un estructura de control de flujo e identan automaticamente las siguientes lineas.

### 1.3.1. Estructura de control condicional - If

Los condicionales nos permiten comprobar condiciones y hacer que nuestro programa se comporte de una forma u otra, y que ejecute un bloque de código particular dependiendo de esta condición.

Mediante los comandos `if`, `elif` y `else`, le indicamos a Python que queremos ejecutar una porción de código solo si se cumple una determinada condición, es decir, si el resultado del condicional es `True`.

In [22]:
## Control de flujo que indica si cruzar una calle en función del sem´foro:
semaforo = "verde"

if semaforo == "verde": 
    print("Cruzar la calle")
elif semaforo == "ambar":
    print("No cruces, está en ambar...")
else: 
    print("Espera verde")

Cruzar la calle


### 1.3.2. Estructura de control iterativa - While

El comando `while` permite ejecutar una porción de código de forma repetida hasta que la condición especificada sea `False`; o, dicho de otro modo, ejecuta una porción de código mientras que la condición sea verdadera.

In [1]:
a = 1
while a < 4:
    print("¡Hola, mundo!")
    a = a + 1

¡Hola, mundo!
¡Hola, mundo!
¡Hola, mundo!


Mediante los comandos `break` y `continue` podemos establecer condiciones de parada o continuidad dentro del bucle.

In [5]:
a = 1
while a < 10:
    print(a)
    if a == 4:
        break
    a = a + 1

1
2
3
4


### 1.3.3. Estructura de control iterativa - For

El bucle `for` permite iterar sobre una estructura de datos, del tipo lista o tupla, y realizar una acción sobre cada uno de los objetos de éstas.

In [3]:
seq = [1, 2, 3, 4, "Hola"]

for i in seq:
    print(i)

1
2
3
4
Hola


Mediante los comandos `break` y `continue` podemos establecer condiciones de parada o continuidad dentro del bucle.

In [7]:
sequence=[1, 2, None, 4, None, 6]
total = 0

for i in sequence:
    if i is None:
        continue
    total = total + i
    print(total)

1
3
7
13


Los bucles `for` permiten también correr el proceso con dos variables, o incluso realizar bucles dentro de otros bucles.

In [22]:
seq = [1, 2, 3, 4, "Hola"]

for i, j in enumerate(seq):
    print(i, j)

0 1
1 2
2 3
3 4
4 Hola


## 1.4. Funciones

Una función es un bloque de código, que recibe cero o más argumentos como entrada, sigue una secuencia de sentencias las cuales ejecutan una operación deseada, y devuelve un valor y/o realiza una tarea. Una vez definido este bloque, puede ser llamado cuando se necesite.

El uso de funciones es una componente muy importante en el paradigma de la programación estructurada, y tiene varias ventajas:

- Modularización: permite segmentar un programa complejo en una serie de partes o módulos más simples, facilitando así la programación y el depurado.
- Reutilización: permite reutilizar una misma función en distintos programas.

Python dispone de una serie de funciones integradas que son nativas del lenguaje, pero también permite crear funciones definidas por el usuario para ser usadas en su propios programas.

### 1.4.1. Definir funciones

Para definir una función se emplea la siguiente sintaxis:

In [None]:
def function_name(param1, param2...):    ## Se define el nombre de la función y se indican los paráemtros de entrada
                                         ## Se describe el funcionamiento de la función
    '''Description
    '''
    actions                              ## Se indica lo que debe hacer
    return                               ## Devuelve el output

Las funciones pueden comunicarse con el exterior de las mismas usando la sentencia `return`. Si este parámetro no se indica el valor de salida de la función por defecto es `None`.

Se puede acceder a la información de una función mediante el comando `help(function)`. Como salida de este proceso se obtiene el descriptivo que haya indicado el desarrollador dentro de esa función.

### 1.4.2. Importar módulos

Un módulo es un fichero con extensión `.py` que contiene funciones y variables adicionales. Los módulos pueden ser creados por un desarrollador para mejorar y extender las funcionalidades de python, como por ejemplo un módulo con funciones matemáticas avanzadas.

Estos módulos permiten organizar el código, y hacerlo más modular y escalable.

La sintaxis para llamar a un módulo es: `import [module] as [alias]`, o `from [module] import [function] as [alias]`.

Dentro del ámbito del data science existen una serie de módulos que son de uso frecuente, y qué ademas se importan siempre bajo el mismo nombre, de modo que si otra persona leyera nuestro código supiera a que módulo pertenece cada función.

- `import pandas as pd`
- `import numpy as np`
- `import matplotlib.pyplot as plt`
- `import seaborn as sns`

Una buena práctica es extraer de cada módulo, solo aquellas funciones que vayan a utilizarse. De este modo quedan definidas al principio del script, y si se encontrara alguna función desconocida durante el código se puede analizar rápidamente si pertenece a uno de los módulo cargados, o no.

## 1.5. Escalares

Dentro de los objetos escalares podemos identificar:

- int: número entero
- long: número entero grande
- float: número decimal
- str: string (cadena de caracteres)
- bool: True (1) or False (0)
- None: valor "null" en Python

### 1.5.1. Numéricos

Son aquellos datos que hacen referencia exclusivamente a valores numéricos.

In [11]:
k = 12342
k, type(k)

(12342, int)

In [4]:
k = 3.141592
k, type(k)

(3.141592, float)

Con estos objetos se pueden llevar a cabo las operaciones matemáticas más clásicas como sumas, restas, multiplicaciones...etc. Para operaciones más avanzadas puede que sea necesario importar módulos específicos.

In [6]:
a = 3
b = 4
c = 5

print(a*b + (c-a)**b)

28


### 1.5.2. Strings

Los objetos de tipo string son aquellos que concatenan carácteres de tipo texto. Se introducen entre comillas simples o dobles. Un valor numérico se puede pasar como string si es entrecomillado.

Este tipo de objeto es inmutable, por lo que para modificarse debe ser alojado en una nueva variable.

In [6]:
a = 'this is a string'
type(a)

str

### 1.5.3. Booleanos

El tipo booleano sólo puede tener dos valores: `True` y `False`. Estos valores son especialmente importantes dentro de las estructuras de control de flujo.

En el contexto de las operaciones booleanas, y también cuando las expresiones son usadas bajo sentencias de flujo de control, los siguientes valores son interpretados como False:

- False
- None
- Número cero
- Cadena de caracteres vacia
- Contenedores, incluyendo cadenas de caracteres, tuplas, listas, diccionarios y conjuntos mutables e inmutables.

In [19]:
print(bool(0))
print(bool(0.))
print(bool(""))
print(bool([]))

False
False
False
False


# 2. Shell con Python

Desde jupyter también se pueden ejecutar comandos en la shell. La forma de realizar esto depende del sistema operativo:

- `!`: Linux y MacOS
- `!wsl`: Windows Subsystem for Linux

Como este notebook está escrito desde un Windows, se utilizará la segunda opción. También se puede recurrir a los magic commands:

- `%`: magic line
- `%%`: magic cell

Las magic functions con comandos propios del intérprete de Python, por lo que si se ejecutan en cualquier otro intérprete que no sea este, podría dar fallo. Cuando se indica con una exclamación `!` que un comando de shell va a ser introducido, en verdad se está haciendo referencia a la magic cell `%%!`.

Con la función `%lsmagic` se pueden listar todas las funciones mágicas disponibles. Con `%magic` se puede obtener información general sobre qué son las funciones mágicas.

In [41]:
!wsl pwd

/mnt/c/Users/Guillermo/Desktop/Developer/github_repositories/kschool_ds_master


In [71]:
%%bash
pwd

/mnt/c/Users/Guillermo/Desktop/Developer


Se le puede asignar a variables de Python, los outputs de los comandos ejecutados en la shell.

In [51]:
%%bash
ls -l

total 176
-rwxrwxrwx 1 gmachin gmachin   1168 Oct  1 11:59 README.md
-rwxrwxrwx 1 gmachin gmachin 144604 Oct  1 12:19 _01_shell_git.ipynb
-rwxrwxrwx 1 gmachin gmachin  27445 Oct  5 19:19 _02_python_algebra_estadistica.ipynb
drwxrwxrwx 1 gmachin gmachin   4096 Sep 29 13:43 _data_open_travel_data
drwxrwxrwx 1 gmachin gmachin   4096 Sep 29 17:43 _images


In [53]:
fichero_readme = ! cat README.md
type(fichero_readme)

IPython.utils.text.SList

Los output en python pueden tener los siguientes atributos especiales:

- .l (o .list) : lista
- .n (o .nlstr): newline-separated string
- .s (o .spstr): space-separated string

# 3. Algebra con Python

# 4. Estadística con Python

# 5. Ejercicios

## 5.1. Funciones y escalares

In [23]:
## 1. Escribe una función que indicando el nombre y el año de nacimiento de una persona,
## indique en qué año cunplirá 100 años. La función debe preever que el año de nacimiento
## pueda ser numérico o string.

def centenario(name, birth):
    if isinstance(birth, int):
        print(f"{name} will reach 100 years in {birth+100}")
    else:
        print(f"{name} will reach 100 years in {int(birth)+100}")
        

centenario("Guille", "1993")

Guille will reach 100 years in 2093


In [26]:
## 2. Define una función que contabilice la longitud de un texto, el número de palabras,
## y el número de lineas.

def word_count(string1):
    longitud = len(string1)
    palabras = len(string1.split(" "))
    lineas = len(string1.split("\n"))
    print(f"La longitud es {longitud}")
    print(f"El número de palabras es {palabras}")
    print(f"El número de lineas es {lineas}")

word_count("Vaya vaya,\n que tenemos aquí")

La longitud es 28
El número de palabras es 5
El número de lineas es 2


In [28]:
## 3. Escribe una función para eliminar el n-ésimo carácter de un string. Si el string
## estuviera vacío, indicarlo.

def remove_nth(word, n):
    if word == "":
        print("El string se encuentra en blanco.")
    else:
        first_part = word[:n]
        last_part = word[n+1:]
    return first_part + last_part

remove_nth('Python', 4)

'Pythn'

## 5.2. Shell

In [None]:
## 1. Contar las palabras en la frase "this is shell in python".

text = 'this is shell in python'
! echo {text} | wc -w

In [None]:
## 2. Para cada directorio del historial de directorios (_dh, %dhist), obtener el número de archivos.

for folder in _dh:
    n_files = ! ls $folder | wc -l    ## Las variables en shell se introducen mediante el símobolo $.
    print(folder, n_files)

In [None]:
## 3. Mediante comandos de shell, crea un fichero .py que al ejcutarse imprima "Hello World!".

! echo 'print("Hello World!")' > hello_world.py

# 6. Bibliografía

- KSchool Data Science Master Ed. 23.
- Python for Data Analysis. ISBN: 978-1-491-95766-0.
- https://es.wikipedia.org/wiki/Python