# ÍNDICE
# **Repsol D4D/D4B**
# **Introducción a Python para Análisis de Datos 🐍 📊**
# *Notebook 1: Básicos en Python*

---

### ÍNDICE DE CONTENIDO
1. INTRODUCCIÓN
2. ESTRUCTURAS DE DATOS BÁSICAS
3. OPERADORES
4. IMPORTAR LIBRERÍAS

### Juan Martin Bellido
* [linkedin.com/in/jmartinbellido](https://www.linkedin.com/in/jmartinbellido/) 

* jmbellido@isdi.education


# INTRODUCCIÓN
---



### Entornos
---
Existen distintas interfaces que nos permiten ejecutar código Python. Podemos destacar particularmente dos tipos:
* *IDEs (integrated development environments)*. Especilamente utilizadas para desarrollo de software, destacan por contar con funcionalidades que facilitan el *debugging* (detección y solución de errores). Ejemplo: PyCharm.
* *Notebooks*. Populares para el análisis de datos y Data Science. No están optimizados para operar con grandes volúmenes de código, pero resultan de utilidad para generar documentos que permitan visualizar fácilmente el resultado del código utilizado. Ejemplo: Jupyter Notebook.


En un notebook, el contenido está estructurado en celdas.
* Las celdas pueden ser de dos tipos: *texto* o *código*.
* Podemos crear tantas celdas como queramos y ejecutarlas de forma independiente.  
* En caso de celdas de código, primará el órden de ejecución de las mismas y no la posición en la que figuren en el documento.



> ✅ Este documento es de tipo *notebook*.



### Objetos
---
Python es un *lenguaje orientado a objetos*, al igual que la mayoría de lenguajes de programación modernos. Esto significa que podemos definir objetos (o *variables*) que se almacenarán en nuestro entorno de forma temporal y podremos invocar según lo necesitemos. 

* ⚠️ *Los objetos declarados se perderán al reiniciar nuestro entorno o al explícitamente eliminarlos.*

Para definir un objeto utilizamos la siguiente sintaxis:

```
new_object = X
```

In [None]:
# A continuación, un ejemplo sencillo de cómo podemos definir un objeto y luego invocarlo
my_name = "Martin" # definimos un objeto y almacenamos texto
# Esta celda no tendrá output, ya que estamos ALMACENANDO información, no INVOCÁNDOLA

In [None]:
my_name  # invocamos objeto

'Martin'

* ⚠️ *Los nombres de los objetos no pueden tener espacios*
* ⚠️ *Los nombres de los objetos no pueden empezar con números (ej. 1_nombre)*

### Tipos de objeto
---
Python base reconoce varios tipos de objetos (variables):
*  *Numéricos (números)*
*  *Alfanuméricos (texto)*
*  *Lógicos (verdadero/ falso)*


In [None]:
# Los objetos de tipo numéricos pueden ser (i) "int" (enteros) o (ii) "float" (con decimales)
numeric_obj = 2
type(numeric_obj)

int

In [None]:
numeric_obj = 1.2
type(numeric_obj)

float

In [None]:
# Los objetos alfanuméricos son definidos como "str"
string_obj = "Python"
type(string_obj)

str

In [None]:
# Por último, Python reconoce también el tipo de variable booleana ("bool")
bool_obj = True
type(bool_obj)

bool

#### Consideraciones al definir objetos de tipo string

In [None]:
# Al definir objetos de tipo string, debemos siempre utilizar comillas
# Las comillas pueden ser dobles ("") o simples ('')
string_obj = "Python"
stirng_obj = 'Python'

In [None]:
# Podemos combinar comillas, en caso de necesitarlo
string_obj = "El libro se titula 'Ficciones', de Jorge Luis Borges"
string_obj = 'El libro se titula "Ficciones", de Jorge Luis Borges'

# ESTRUCTURAS DE DATOS BÁSICAS
---
Python base contempla distintos formatos de almacenamiento de datos, cada uno de ellos con características y tratamiento propio. 

Las estructuras de datos básicas son cuatro (en orden de prioridad según su uso en análisis de datos),
*   *Lists* (listas)
*   *Dictionaries* (diccionarios)
*   *Tuples*
*   *Sets*

Por fuera de estas cuatro estructuras de datos básicas, existen estructuras adicionales que han sido incorporadas por medio de librerías, es decir, funcionalidades que no son parte del código fuente de Python. En concreto, en análisis de datos utilizamos principalmente DataFrames (tablas de datos) que han sido incorporadas por la libraría *Pandas*.









### Lists
---
Los *lists* son estructuras unidimensionales que permiten almacenar varios tipos de variables (objetos). Cada elemento almacenado en un list se encuentra indexado.

Para definir un vector utilizamos la siguiente sintaxis,

```
my_list = [1,2,3]
```



In [None]:
# Definimos una lista
my_list = [1,"a",3,False,5]
my_list

[1, 'a', 3, False, 5]

In [None]:
# Las listas pueden contener a su vez otras listas como elementos
my_list_v2 = [100,"cien",my_list]
my_list_v2

[100, 'cien', [1, 'a', 3, False, 5]]

In [None]:
# La característica principal de un list es que los elementos almacenados se encuentran indexados
## esto significa que cada elemento en un list contiene un número único que nos permite invocarlo
## nota importante: Python indexa al 0 (el 0 es el primer valor)
my_list_v2[0]

100

In [None]:
# Modificamos un elemento dentro del list
my_list_v2[0] = 101
my_list_v2

[101, 'cien', [1, 'a', 3, False, 5]]

### Dictionaries
---
Los *dictionaries* (diccionarios) son estructuras unidimensionales que permiten almacenar objetos bajo una lógica *key-pair*. Los *dictionaries* no admiten valores *key* duplicados y los elementos almacenados no mantienen un orden ni se encuentran indexados; los valores (*pair*) se invocan utilizando el *key*.

Para definir un vector utilizamos la siguiente sintaxis,

```
my_dic = {
  key_1:value_1,
  key_2:value_2,
  key_3:value_3
  }
```


In [None]:
# Definimos un diccionario
my_dic = {
  "ciudad": "Madrid",
  "nombre del curso": "Intro a Python",
  "año": 2021,
  "es curso de práctico": True,
  "asistentes":["Maria","Juan","Jose"],
  "cantidad de asistentes":3
}

# Invocamos el diccionario y verificamos que no mantiene el orden establecido al ser definido
my_dic

{'asistentes': ['Maria', 'Juan', 'Jose'],
 'año': 2021,
 'cantidad de asistentes': 3,
 'ciudad': 'Madrid',
 'es curso de práctico': True,
 'nombre del curso': 'Intro a Python'}

In [None]:
# Consultamos el valor para un elemento del diccionario, invocándolo con su valor "key"
my_dic['nombre del curso']

'Intro a Python'

In [None]:
# Reemplazamos el valor para un elemento del diccionario
my_dic['asistentes'] = ["Maria","Juan","Jose","Pepe"]
my_dic

{'asistentes': ['Maria', 'Juan', 'Jose', 'Pepe'],
 'año': 2021,
 'es curso de Python': True,
 'escuela': 'ISDI',
 'programa': 'MDA'}

### Tuples
---
Los *tuples* son estructuras unidimensionales similares a las *list*, con la diferencia de que son inmutables; esto significa que no pueden ser modificadas tras haberse definido.

```
my_tupple = (1,2,"c")
```


In [None]:
# Definimos un tupple y lo invocamos
my_tupple = (2,1,"c","a")
my_tupple

(2, 1, 'c', 'a')

In [None]:
# Seleccionamos un elemento en nuestra tupple
my_tupple[1]

1

* ⚠️ *La celda a continuación dará intencionalmente como resultado error*

In [None]:
# Intentamos modificar un elemento en el tupple, pero esto nos dará error
## como hemos anticipado, los tupples son inmutables
my_tupple[1] = 3 # esto generará error

TypeError: ignored

### Sets
---
Los *sets* son estructuras unidimensionales similares a las *list* y *tuples*, pero con las siguientes diferencias,
*   no permiten almacenar elementos duplicados;
*   los elementos no están indexados; y
*   no se puede manipular el orden de los elementos.

Para definir un set utilizamos la siguiente sintaxis,

```
my_set = {1,2,"c"}
```

In [None]:
my_set = {1,10,0,5,'b','c','a'} # definimos un set
my_set  # lo invocamos, verificamos que el orden de los elementos es distinto al que hemos establecido

{0, 1, 10, 5, 'a', 'b', 'c'}



> ⚠️ *La celda a continuación dará intencionalmente como resultado error*



In [None]:
# A continuación, verificamos que efectivamente un set no permite la indexación
my_set[2] # esto dará error

TypeError: ignored

### Operaciones avanzadas con Lists
---
De las estructuras de datos básicas disponibles en Python, las *lists* son las más utilizadas en Análisis de Datos. A continuación, introducimos algunas operaciones útiles al operar con este tipo de estructuras. 

#### Añadir objetos en una lista

In [None]:
# Definimos una list
city_list = ['Madrid','Barcelona','Paris','Buenos Aires']

In [None]:
# Utilizamos el método 
city_list.append('Milan')

In [None]:
# Invocamos list
city_list

['Madrid', 'Barcelona', 'Paris', 'Buenos Aires', 'Milan']

In [None]:
# El método append() añade un objeto en la última posición de la list
# A continuación, utilizaremos el método insert() para añadir un nuevo objeto en la lista, especificando su posición dentro de la estructura
city_list.insert(0,'Berlin') # lo introducimos en la primer posición

In [None]:
# Invocamos la lista
city_list

['Berlin', 'Madrid', 'Barcelona', 'Paris', 'Buenos Aires', 'Milan']

#### Eliminar objetos en lista

In [None]:
# Podemos remover objetos en una list, en función de su posición
del city_list[1] # removemos el segundo objeto

In [None]:
# Invocamos list para observar cambios
city_list

['Berlin', 'Barcelona', 'Paris', 'Buenos Aires', 'Milan']

In [None]:
# En ocasiones, nos resulta más cómodo remover objetos en función de su valor
city_list.remove('Milan')

In [None]:
# Invocamos list para observar cambios
city_list

['Berlin', 'Barcelona', 'Paris', 'Buenos Aires']

#### Consultar cantidad de elementos en una list

In [None]:
# Utilizamos la función len() para consultar cantidad de elementos almacenados en una list
len(city_list)

4

# OPERADORES
---
En programación, los operadores son símbolos específicos que permiten hacer comparaciones y realizar manipulaciones.

*   *Operadores aritméticos*: permiten realizar operaciones matemáticas
*   *Operadores de comparación*: contrastan objetos y comparan valores, arrojando un resultado true/false
*   *Operadores lógicos*: se utilizan para realizar pruebas lógicas sobre condiciones, arrojando un resultado true/false




### Operadores aritméticos
---


| Operator 	|   Description  	|
|----------	|:--------------:	|
| +        	| addition       	|
| -        	| subtraction    	|
| *        	| multiplication 	|
| /        	| division       	|
| **  	| exponentiation 	|

In [None]:
# Operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# Test 1
obj_1/obj_2

2.0

In [None]:
# Test 2
obj_1-obj_2

5

### Operadores de comparación
---

| Operator  	|        Description       	|
|-----------	|:------------------------:	|
| <         	| less than                	|
| <=        	| less than or equal to    	|
| >         	| greater than             	|
| >=        	| greater than or equal to 	|
| ==        	| exactly equal to         	|
| !=        	| not equal to             	|


In [None]:
# Operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# Test 1
## comprobar si objeto 1 es mayor a 8
obj_1 > 8

True

In [None]:
# Test 2
## comprobar si objeto 1 es igual a objeto 2
obj_1 == obj_2

False

### Operadores Lógicos
---

| Operator  	|        Description       	|
|-----------	|:------------------------:	|
| x and y    	| se cumplen condiciones X e Y                    	|
| x or y    	| se cumple  condiciones X o Y                   	|
| not x     	| negamos la condición X   	|


In [None]:
# Operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# Test 1
## comprobar si se cumple alguna de las dos condiciones
obj_1 > 8 or obj_2 > 8 # "objeto 1 es mayor a 8 u objeto 2 es mayor a 8"

True

In [None]:
# Test 2
## comprobar si se cumplen ambas condiciones
obj_1 > 8 and obj_2 > 8 # "objeto 1 es mayor a 8 y objeto 2 es mayor a 8"

False

In [None]:
# Test 3
## negando una condición
not obj_1 > 8

False

### Operador IN
---
El operador *in* permite comprobar si un valor se encuentra contenido en una list.

In [None]:
# Definimos una list
city_list = ['Madrid','Barcelona','Paris','Buenos Aires']

In [None]:
# ¿La list incluye el valor 'Madrid'? 
'Madrid' in city_list

True

In [None]:
# ¿La list incluye el valor 'New York'?
'New York' in city_list

False

# IMPORTAR LIBRERÍAS
---
Python es un lenguaje de programación *open-source* y *colaborativo*. Por tanto, está abierto a que cualquier persona cree y comparta nuevas funcionalidades. Las funcionalidades están agrupadas en *paquetes* o *librerías* que debemos instalar (una única vez) e importar cada vez que querramos utilizarlas.

Muchas librerías populares suelen estar pre-instaladas en nuestros entornos, por tanto únicamente necesitamos importarlas. Para importar una librería, utilizamos la siguiente sintaxis,

```
import (library) as (tag)
```

In [None]:
import pandas as pd

Únicamente podremos importar una librería si se encuentra instalada en nuestro entorno. Existen varias formas de instalar una librería en Python, la más popular es mediante *pip*, un sistema de gestión de librerías para Python desarrollado por el MIT.

A continuación, se presenta la sintaxis que se utilizaría para instalar la librería *pandas*. Nota: necesitamos tener instalado pip en nuestro entorno, algo que suele suceder por defecto.

```
pip install pandas
```



### Ejemplo de uso de librería
---
En la sección *Estructuras de Datos Básicas* comentamos brevemente acerca de los dataframes (tablas de datos), una estructura que no está presente en Python base, sino que ha sido desarrollada como funcionalidad adicional por la comunidad.

Tras haber importado la librería *pandas*, utilizaremos dos de sus funciones para importar datos de nuestro entorno en formato dataframe.

Importamos dataframe utilizando la función *pd.read_csv()*:

```
pd.read_csv('path')
```

* ⚠️ *Debemos utilizar el prefijo pd. para explicitar que la función forma parte de la librería pandas*



In [None]:
# Importamos un dataframe desde una URL
pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
5,You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
6,On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
7,Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
8,Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
9,The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,
