<a href="https://colab.research.google.com/github/juanmanuelga468/1784-python-para-data-science-introduccion/blob/main/Python_Data_Science_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# <font color=green> 1. INTRODUCCIÓN A PYTHON
---

# 1.1 Introducción

> Python es un lenguaje de programación de alto nivel con soporte a múltiples paradigmas de programación. Es un proyecto *open source* y desde su surgimiento, en 1991, viene convirtiéndose en uno de los lenguajes de programación interpretados más populares. 
>
> En los últimos años Python desarrolló una comunidad activa de procesamiento científico y análisis de datos y viene destacándose como uno de los lenguajes más relevantes cuando el asunto es ciencia de datos y machine learning, tanto en el entorno acadêmico como también en el entorno laboral.

# 1.2 Instalación y entorno de trabajo

### Instalación Local

### https://www.python.org/downloads/
### o
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versión

In [1]:
!python -V

Python 3.9.16


# 1.3 Trabajando con Numpy

In [2]:
import numpy as np

In [4]:
km = np.loadtxt('carros-km.txt', dtype = int)

In [None]:
km

In [6]:
años = np.loadtxt('carros-años.txt', dtype = int)

In [None]:
años

### Obtener el promedio de kilometros recorridos por año

In [8]:
km_promedio = km / (2020-años)

  km_promedio = km / (2020-años)


In [None]:
km_promedio

In [None]:
type(km_promedio)

# <font color=green> 2. CARACTERÍSTICAS BÁSICAS DEL LENGUAJE
---

# 2.1 Operaciones matemáticas

### Operadores aritméticos: $+$, $-$, $*$, $/$, $**$, $\%$, $//$

### Suma ($+$)

In [11]:
2+2

4

### Resta ($-$)

In [12]:
2-2

0

### Multiplicación ($*$)

In [13]:
2*3

6

### División ($/$) y ($//$)
La operación división siempre devuelve un número con punto decimal

In [14]:
10/3

3.3333333333333335

In [15]:
10//3

3

### Exponenciación ($**$)

In [16]:
2**3

8

### Resto de la división ($\%$)

In [17]:
10%3

1

In [18]:
10%2

0

### Expresiones matemáticas

In [19]:
5*2+3*2

16

In [20]:
(5*2)+(3*2)

16

In [21]:
5*(2+3)*2

50

### La variable _

En el modo interactivo, el último resultado impreso en pantalla es atribuído a la variable _

In [22]:
5*2

10

In [23]:
_+3*2

16

In [24]:
_/2

8.0

# 2.2 Variables

### Nombres de variables

- Nombres de variables pueden comenzar con letras (a - z, A - Z) o con el símbolo *underscore* (_):

    > Altura
    >
    > _peso
    
- El resto del nombre puede contener letras, números o el símbolo "_":

    > nombre_de_variable
    >
    > _valor
    >
    > dia_28_11_
    

- Los nombres son *case sensitive*:

    > Nombre_De_Variable $\ne$ nombre_de_variable $\ne$ NOMBRE_DE_VARIABLE
    
### <font color=red>Observaciones:
- Existen algumas palabras reservadas del lenguaje que no pueden ser utilizadas como nombres de variables:

| |Lista de palabras <br>reservadas en Python| |
|:-------------:|:------------:|:-------------:|
| and           | as           | not           | 
| assert        | finally      | or            | 
| break         | for          | pass          | 
| class         | from         | nonlocal      | 
| continue      | global       | raise         | 
| def           | if           | return        | 
| del           | import       | try           | 
| elif          | in           | while         | 
| else          | is           | with          | 
| except        | lambda       | yield         | 
| False         | True         | None          | 

### Declaración de variables

### Operadores de asignación: $=$, $+=$, $-=$, $*=$, $/=$, $**=$, $\%=$, $//=$

In [25]:
año_actual = 2020
año_fabricacion = 2003
km_total = 44410

In [26]:
año_actual

2020

In [27]:
año_fabricacion

2003

In [28]:
km_total

44410

# $$km_{promedio} = \frac {km_{total}}{(Año_{actual} - Año_{fabricación})}$$

### Operaciones con variables

In [29]:
km_promedio = km_total / (año_actual - año_fabricacion)
km_promedio

2612.3529411764707

In [30]:
año_actual = 2020
año_fabricacion = 2003
km_total = 44410
km_promedio = km_total / (año_actual - año_fabricacion)

km_total = km_total + km_promedio
km_total

47022.35294117647

In [31]:
año_actual = 2020
año_fabricacion = 2003
km_total = 44410
km_promedio = km_total / (año_actual - año_fabricacion)

km_total += km_promedio
km_total

47022.35294117647

### Conclusión:
```
"valor = valor + 1" es equivalente a "valor += 1"
```

### Declaración múltiple

In [32]:
año_actual, año_fabricacion, km_total = 2020, 2003, 44410

In [33]:
año_actual

2020

In [34]:
año_fabricacion

2003

In [35]:
km_total

44410

# 2.3 Tipos de datos

Los tipos de datos especifican como números y caracteres estarán guardados y manipulados dentro de un programa. Los tipos de datos básicos en Python son:

1. **Números**
    1. ***int*** - Enteros
    - ***float*** - Decimales
- **Booleanos** - Contiene valores True o False. Esencial cuando comenzamos a trabajar con declaraciones condicionales
- ***Strings*** - Secuencia de uno o más caracteres que puede incluir letras, números y otros tipos de caracteres. Representa un texto.
- **None** - Representa la ausencia de valor

### Números

In [36]:
año_actual = 2020

In [37]:
type(año_actual)

int

In [38]:
km_total = 44410.0

In [39]:
type(km_total)

float

### Booleanos

In [40]:
zero_km = True

In [41]:
type(zero_km)

bool

In [46]:
zero_km = False

In [47]:
type(zero_km)

bool

### Strings

In [48]:
nombre = 'Jetta Variant'
nombre

'Jetta Variant'

In [49]:
nombre = "Jetta Variant"
nombre

'Jetta Variant'

In [50]:
nombre = 'Jetta "Variant"'
nombre

'Jetta "Variant"'

In [51]:
nombre = "Jetta 'Variant'"
nombre

"Jetta 'Variant'"

In [52]:
carro = '''
  Nombre
  Edad
  Nota
'''

In [53]:
type(carro)

str

### None

In [55]:
kilometraje = None
kilometraje

In [56]:
type(kilometraje)

NoneType

# 2.4 Conversión de tipos

In [57]:
a = 10
b = 20
c = 'Python es '
d = 'genial'

In [58]:
type(a)

int

In [59]:
type(b)

int

In [60]:
type(c)

str

In [61]:
type(d)

str

In [62]:
a + b

30

In [63]:
c + d

'Python es genial'

In [64]:
#c + a

### Conversiones de tipo

Funciones int(), float(), str()

In [65]:
str(a)

'10'

In [66]:
type(str(a))

str

In [67]:
c + str(a)

'Python es 10'

In [68]:
float(a)

10.0

In [69]:
var = 3.141592

In [70]:
int(var)

3

In [71]:
var = 3.99

In [72]:
int(var)

3

# 2.5 Indentación, comentarios y formatación de *strings*

### Indentación

En el lenguaje Python los programas son estructurados por medio de indentación. En cualquier lenguaje de programación la práctica de colocar indentación es bastante útil, facilitando la lectura y también el mantenimiento del código. En Python la indentación no es solamente una cuestión de organización y estilo, sino que es un requisito del lenguaje.

In [73]:
año_actual = 2020
año_fabricacion = 2020

if (año_actual == año_fabricacion):
    print('Verdadero')
else:
    print('Falso')

Verdadero


### Comentarios

Comentarios son extremamente importantes en un programa. Consiste en un texto que describe lo que el programa o una parte específica del programa está haciendo. Los comentarios son ignorados por el interpretador Python. 

Podemos tener comentarios de una única linea o de múltiples líneas.

In [71]:
# Esto es un comentario
año_actual = 2020
año_actual

2020

In [72]:
# Esto
# es un 
# comentario
año_actual = 2020
año_actual

2020

In [73]:
'''Esto es un
comentario'''
año_actual = 2020
año_actual

2020

In [74]:
# Definiendo variables
año_actual = 2020
año_fabricacion = 2020

'''
Estructura condicional que vamos 
a aprender la próxima clase
'''
if (año_actual == año_fabricacion):   # Probando si la condición es verdadera
    print('Verdadero')
else:                               # Probando si la condición es falsa
    print('Falso')

Verdadero


### Formatación de *strings*

## *str.format()*

https://docs.python.org/3.6/library/stdtypes.html#str.format

In [74]:
print('Hola, {}'.format('Juan'))

Hola, Juan


In [75]:
print('Hola, {}! Esta es su visita número {}'.format('Juan', 32))

Hola, Juan! Esta es su visita número 32


In [76]:
print('Hola, {nombre}! Esta es su visita número {visita}'.format(visita = 32, nombre = 'Juan'))

Hola, Juan! Esta es su visita número 32


## *f-Strings*

https://docs.python.org/3.6/reference/lexical_analysis.html#f-strings

In [77]:
Nombre = 'Juan'
Visita = 32

In [78]:
print(f'Hola, {Nombre}! Esta es su visita número {Visita}')

Hola, Juan! Esta es su visita número 32


# <font color=green> 3. TRABAJANDO CON LISTAS
---

# 3.1 Creando listas

Listas son secuencias **mutables** que son utilizadas para guardar colecciones de objetos, generalmente homogéneos. Pueden ser construídas de varias formas:
```
- Utilizando un par de corchetes: [ ], [ 1 ]
- Utilizando un par de corchetes con objetos separados por comas: [ 1, 2, 3 ]
```

In [1]:
Accesorios = ['Cerraduras eléctricas', 'Piloto automático', 'Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamiento', 'Sensor de lluvia']
Accesorios

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [2]:
type(Accesorios)

list

### Lista con tipos de datos variados

In [3]:
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Cerraduras eléctricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimedia', 'Frenos ABS'], 106161.94]

In [4]:
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Cerraduras eléctricas', 'Piloto automático'],
 88078.64]

In [5]:
Carro_2

['Passat',
 'Motor Diesel',
 1991,
 5712.0,
 False,
 ['Central multimedia', 'Frenos ABS'],
 106161.94]

In [6]:
Carros = [Carro_1,Carro_2]
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Cerraduras eléctricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimedia', 'Frenos ABS'],
  106161.94]]

# 3.2 Operaciones con listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Devuelve **True** si un elemento de la lista *A es igual a x*.

In [7]:
Accesorios

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [8]:
'Cerraduras eléctricas' in Accesorios

True

In [9]:
'4 x 4' in Accesorios

False

In [10]:
'Cerraduras eléctricas' not in Accesorios

False

In [11]:
'4 x 4' not in Accesorios

True

## *A + B*

Concatena las listas *A y B*.

In [13]:
A = ['Cerraduras eléctricas', 'Piloto automático', 'Asientos de cuero']
B = ['Aire acondicionado', 'Sensor de estacionamiento', 'Sensor de lluvia']

In [12]:
1+1

2

In [14]:
'1'+'1'

'11'

In [15]:
A+B

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

## *len(A)*

Tamaño de la lista A.

In [95]:
len(Accesorios)

6

# 3.3 Selecciones en listas

## *A[ n ]*

Devuelve el n-ésimo objeto de la lista *A*.

<font color=red>**Observación:**</font> Listas tienen indexación con inicio en cero.

In [16]:
Accesorios

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [17]:
Accesorios[0]

'Cerraduras eléctricas'

In [18]:
Accesorios[1]

'Piloto automático'

In [19]:
Accesorios[-1]

'Sensor de lluvia'

In [20]:
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Cerraduras eléctricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimedia', 'Frenos ABS'],
  106161.94]]

In [21]:
Carros[0]

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Cerraduras eléctricas', 'Piloto automático'],
 88078.64]

In [22]:
Carros[0][0]

'Jetta Variant'

In [23]:
Carros[0][-2]

['Cerraduras eléctricas', 'Piloto automático']

In [24]:
Carros[0][-2][1]

'Piloto automático'

## *A[ i : j ]*

Recorta la lista A desde el índice i hasta j. En este recorte el elemento con índice i **es incluído** y el elemento con índice j **no es incluído** en el resultado.

In [25]:
Accesorios

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [26]:
Accesorios[2:5]

['Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamiento']

In [27]:
Accesorios[2:6]

['Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [28]:
Accesorios[2:]

['Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [29]:
Accesorios[:5]

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento']

# 3.4 Métodos en listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

## *A.sort()*

Ordena la lista *A*.

In [30]:
Accesorios

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [31]:
Accesorios.sort()
Accesorios

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Piloto automático',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

## *A.append(x)*

Añade el elemento *x al final de la lista A*

In [32]:
Accesorios.append('4 x 4')
Accesorios

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Piloto automático',
 'Sensor de estacionamiento',
 'Sensor de lluvia',
 '4 x 4']

## *A.pop(i)*

Elimina y devuelve el elemento de índice i de la lista *A*.

<font color=red>**Observación:**</font> Por *defecto* el método *pop()* elimina y devuelve el último elemento de una lista.

In [33]:
Accesorios.pop()

'4 x 4'

In [34]:
Accesorios

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Piloto automático',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [35]:
Accesorios.pop(3)

'Piloto automático'

In [36]:
Accesorios

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

## *A.copy()*

Crea una copia de la lista *A*.

<font color=red>**Observación:**</font> El mismo resultado puede ser obtenido con el seguinte código: 
```
A[:]
```

In [37]:
Accesorios_2 = Accesorios
Accesorios_2

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [41]:
Accesorios_2.append('4 X 4')
Accesorios_2

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 '4 X 4',
 '4 X 4',
 '4 X 4']

In [45]:

Accesorios_2.append('Sensor de lluvia')
Accesorios_2

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [46]:
Accesorios_2 = Accesorios.copy()
Accesorios_2

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [47]:
Accesorios_2.append('4 x 4')
Accesorios_2

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia',
 '4 x 4']

In [48]:
Accesorios

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [49]:
Accesorios_2 = Accesorios[:]
Accesorios_2

['Aire acondicionado',
 'Asientos de cuero',
 'Cerraduras eléctricas',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

# <font color=green> 4. ESTRUCTURAS DE REPETICIÓN Y CONDICIONALES
---

# 4.1 Instrucción *for*

#### Formato estándar

```
for <variable> in <coleccion>:
    <instrucciones>
```

### Loops con listas

In [50]:
Accesorios = ['Cerraduras eléctricas', 'Piloto automático', 'Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamiento', 'Sensor de lluvia']
Accesorios

['Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de lluvia']

In [51]:
for iten in Accesorios:
  print(iten)

Cerraduras eléctricas
Piloto automático
Asientos de cuero
Aire acondicionado
Sensor de estacionamiento
Sensor de lluvia


###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

In [52]:
range(10)

range(0, 10)

In [53]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [54]:
for i in range(10):
  print(i ** 2)

0
1
4
9
16
25
36
49
64
81


In [55]:
cuadrado = []
for i in range(10):
  cuadrado.append(i**2)

cuadrado

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [56]:
cuadrado = [i**2 for i in range(10)]

In [57]:
cuadrado

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

# 4.2 Loops anidados

In [58]:
datos = [ 
    ['Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático', 'Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamiento', 'Sensor de crepúsculo', 'Sensor de lluvia'],
    ['Central multimedia', 'Techo panorámico', 'Frenos ABS', '4 X 4', 'Panel digital', 'Piloto automático', 'Asientos de cuero', 'Cámara de estacionamiento'],
    ['Piloto automático', 'Control de estabilidad', 'Sensor crepuscular', 'Frenos ABS', 'Transmisión automática', 'Asientos de cuero', 'Central multimedia', 'Ventanas eléctricas']
]
datos

[['Llantas de aleación',
  'Cerraduras eléctricas',
  'Piloto automático',
  'Asientos de cuero',
  'Aire acondicionado',
  'Sensor de estacionamiento',
  'Sensor de crepúsculo',
  'Sensor de lluvia'],
 ['Central multimedia',
  'Techo panorámico',
  'Frenos ABS',
  '4 X 4',
  'Panel digital',
  'Piloto automático',
  'Asientos de cuero',
  'Cámara de estacionamiento'],
 ['Piloto automático',
  'Control de estabilidad',
  'Sensor crepuscular',
  'Frenos ABS',
  'Transmisión automática',
  'Asientos de cuero',
  'Central multimedia',
  'Ventanas eléctricas']]

In [59]:
for lista in datos:
  print(lista)

['Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático', 'Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamiento', 'Sensor de crepúsculo', 'Sensor de lluvia']
['Central multimedia', 'Techo panorámico', 'Frenos ABS', '4 X 4', 'Panel digital', 'Piloto automático', 'Asientos de cuero', 'Cámara de estacionamiento']
['Piloto automático', 'Control de estabilidad', 'Sensor crepuscular', 'Frenos ABS', 'Transmisión automática', 'Asientos de cuero', 'Central multimedia', 'Ventanas eléctricas']


In [60]:
for lista in datos:
  for iten in lista:
    print(iten)

Llantas de aleación
Cerraduras eléctricas
Piloto automático
Asientos de cuero
Aire acondicionado
Sensor de estacionamiento
Sensor de crepúsculo
Sensor de lluvia
Central multimedia
Techo panorámico
Frenos ABS
4 X 4
Panel digital
Piloto automático
Asientos de cuero
Cámara de estacionamiento
Piloto automático
Control de estabilidad
Sensor crepuscular
Frenos ABS
Transmisión automática
Asientos de cuero
Central multimedia
Ventanas eléctricas


In [61]:
Accesorios = []

for lista in datos:
  for iten in lista:
    Accesorios.append(iten)

Accesorios


['Llantas de aleación',
 'Cerraduras eléctricas',
 'Piloto automático',
 'Asientos de cuero',
 'Aire acondicionado',
 'Sensor de estacionamiento',
 'Sensor de crepúsculo',
 'Sensor de lluvia',
 'Central multimedia',
 'Techo panorámico',
 'Frenos ABS',
 '4 X 4',
 'Panel digital',
 'Piloto automático',
 'Asientos de cuero',
 'Cámara de estacionamiento',
 'Piloto automático',
 'Control de estabilidad',
 'Sensor crepuscular',
 'Frenos ABS',
 'Transmisión automática',
 'Asientos de cuero',
 'Central multimedia',
 'Ventanas eléctricas']

## *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

In [62]:
set(Accesorios)

{'4 X 4',
 'Aire acondicionado',
 'Asientos de cuero',
 'Central multimedia',
 'Cerraduras eléctricas',
 'Control de estabilidad',
 'Cámara de estacionamiento',
 'Frenos ABS',
 'Llantas de aleación',
 'Panel digital',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de crepúsculo',
 'Sensor de estacionamiento',
 'Sensor de lluvia',
 'Techo panorámico',
 'Transmisión automática',
 'Ventanas eléctricas'}

In [63]:
list(set(Accesorios))

['Asientos de cuero',
 'Cerraduras eléctricas',
 'Piloto automático',
 'Transmisión automática',
 'Aire acondicionado',
 'Sensor de lluvia',
 'Techo panorámico',
 'Llantas de aleación',
 'Sensor crepuscular',
 'Central multimedia',
 '4 X 4',
 'Control de estabilidad',
 'Panel digital',
 'Cámara de estacionamiento',
 'Sensor de estacionamiento',
 'Sensor de crepúsculo',
 'Ventanas eléctricas',
 'Frenos ABS']

### List comprehensions

In [64]:
Accesorios = list(set([iten for lista in datos for iten in lista]))

In [65]:
Accesorios

['Asientos de cuero',
 'Cerraduras eléctricas',
 'Piloto automático',
 'Transmisión automática',
 'Aire acondicionado',
 'Sensor de lluvia',
 'Techo panorámico',
 'Llantas de aleación',
 'Sensor crepuscular',
 'Central multimedia',
 '4 X 4',
 'Control de estabilidad',
 'Panel digital',
 'Cámara de estacionamiento',
 'Sensor de estacionamiento',
 'Sensor de crepúsculo',
 'Ventanas eléctricas',
 'Frenos ABS']

# 4.3 Instrucción *if*

#### Formato estándar

```
if <condicion>:
     <instrucciones en caso la condición sea verdadera>
```

### Operadores de comparación: $==$, $!=$, $>$, $<$, $>=$, $<=$
### y
### Operadores lógicos: $and$, $or$, $not$

In [66]:
# 1º objeto de la lista - Nombre del vehículo
# 2º objeto de la lista - Año de fabricación
# 3º objeto de la lista - Vehículo es cero km?

datos = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
datos

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['DS5', 2019, True],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [67]:
cero_km_T = []

for lista in datos:
  if(lista[2] == True):
    cero_km_T.append(lista)

cero_km_T 

[['DS5', 2019, True], ['A5', 2019, True]]

In [68]:
cero_km_F = []

for lista in datos:
  if(lista[2] == False):
    cero_km_F.append(lista)

cero_km_F

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

### List comprehensions

In [69]:
[lista for lista in datos if(lista[2] == True)]

[['DS5', 2019, True], ['A5', 2019, True]]

# 4.4 Instrucciones *if-else* y *if-elif-else*

#### Formato estándar

```
if <condicion>:
    <instrucciones en caso la condición sea verdadera>
else:
    <instrucciones en caso la condición no sea verdadera>
```

In [70]:
cero_km_T, cero_km_F = [], []

for lista in datos:
  if(lista[2] == True):
    cero_km_T.append(lista)
  else:
    cero_km_F.append(lista)


In [71]:
cero_km_T

[['DS5', 2019, True], ['A5', 2019, True]]

In [72]:
cero_km_F

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

#### Formato estándar

```
if <condicion 1>:
    <instrucciones en caso la condición 1 sea verdadera>
elif <condicion 2>:
    <instrucciones en caso la condición 2 sea verdadera>
elif <condicion 3>:
    <instrucciones en caso la condición 3 sea verdadera>
                        .
                        .
                        .
else:
    <instrucciones en caso las condiciones anteriores no sean verdaderas>
```

In [73]:
datos

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['DS5', 2019, True],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [148]:
print('AND')
print(f'(True and True) el resultado es: {True and True}')
print(f'(True and False) el resultado es: {True and False}')
print(f'(False and True) el resultado es: {False and True}')
print(f'(False and False) el resultado es: {False and False}')

AND
(True and True) el resultado es: True
(True and False) el resultado es: False
(False and True) el resultado es: False
(False and False) el resultado es: False


In [149]:
print('OR')
print(f'(True or True) el resultado es: {True or True}')
print(f'(True or False) el resultado es: {True or False}')
print(f'(False or True) el resultado es: {False or True}')
print(f'(False or False) el resultado es: {False or False}')

OR
(True or True) el resultado es: True
(True or False) el resultado es: True
(False or True) el resultado es: True
(False or False) el resultado es: False


In [74]:
A,B,C = [],[],[]

for lista in datos:
  if(lista[1] <= 2000):
    A.append(lista)
  elif( 2000< lista[1]<=2010):
    B.append(lista)
  else:
    C.append(lista)

In [75]:
A

[['Passat', 1991, False], ['Crossfox', 1990, False]]

In [76]:
B

[['Jetta Variant', 2003, False],
 ['Aston Martin DB4', 2006, False],
 ['Série 3 Cabrio', 2009, False]]

In [77]:
C

[['DS5', 2019, True],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

# <font color=green> 5. NUMPY BÁSICO
---

Numpy es la abreviación de Numerical Python y es uno de los paquetes más importantes para procesamiento numérico en Python. Numpy ofrece la base para la mayoría de los paquetes de aplicaciones científicas que usen datos numéricos en Python (estructuras de datos y algoritmos). Pueden destacarse los siguientes recursos que el paquete Numpy contiene:

- Un poderoso objeto array multidimensional;
- Funciones matemáticas sofisticadas para operaciones con arrays sin la necesidad de utilización de bucles *for*;
- Recursos de algebra linear y generación de números aleatórios

Además de sus obvios usos científicos, el paquete NumPy también es muy utilizado en análisis de datos como un eficiente contenedor multidimensional de datos genéricos para transporte entre diversos algoritmos y bibliotecas en Python.

**Versión:** 1.18.4

**Instalación:** https://scipy.org/install.html

**Documentación:** https://numpy.org/doc/1.18/

### Paquetes

Existen diversos paquetes Python disponibles para download en internet. Cada paquete tiene como objetivo la solución de determinado tipo de problema y para esto son desarrollados nuevos tipos, funciones y métodos.

Algunos paquetes son bastante utilizados en un contexto de ciencia de datos, como por ejemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Algunos paquetes no son distribuidos en la instalación estándar de Python. En este caso debemos instalar los paquetes que necesitamos en nuestro sistema para poder utilizar sus funcionalidades.

### Importando todo el paquete

In [1]:
import numpy

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [2]:
numpy.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando todo el paquete y asignándole un nuevo nombre 

In [3]:
import numpy as np

In [4]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando parte del paquete

In [5]:
from numpy import arange

In [6]:
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 5.1 Creando arrays Numpy

In [7]:
import numpy as np

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [8]:
km = np.array([1000, 2300, 4987, 1500])

In [9]:
km

array([1000, 2300, 4987, 1500])

In [10]:
type(km)

numpy.ndarray

https://numpy.org/doc/1.16/user/basics.types.html

In [11]:
km.dtype

dtype('int64')

### A partir de datos externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [12]:
km = np.loadtxt(fname= 'carros-km.txt', dtype = int)

In [13]:
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

In [14]:
km.dtype

dtype('int64')

### Arrays con dos dimensiones

In [15]:
datos = [ 
    ['Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático', 'Asientos de cuero', 'Aire acondicionado', 'Sensor de estacionamiento', 'Sensor de crepúsculo', 'Sensor de lluvia'],
    ['Central multimedia', 'Techo panorámico', 'Frenos ABS', '4 X 4', 'Panel digital', 'Piloto automático', 'Asientos de cuero', 'Cámara de estacionamiento'],
    ['Piloto automático', 'Control de estabilidad', 'Sensor crepuscular', 'Frenos ABS', 'Transmisión automática', 'Asientos de cuero', 'Central multimedia', 'Ventanas eléctricas']
]
datos

[['Llantas de aleación',
  'Cerraduras eléctricas',
  'Piloto automático',
  'Asientos de cuero',
  'Aire acondicionado',
  'Sensor de estacionamiento',
  'Sensor de crepúsculo',
  'Sensor de lluvia'],
 ['Central multimedia',
  'Techo panorámico',
  'Frenos ABS',
  '4 X 4',
  'Panel digital',
  'Piloto automático',
  'Asientos de cuero',
  'Cámara de estacionamiento'],
 ['Piloto automático',
  'Control de estabilidad',
  'Sensor crepuscular',
  'Frenos ABS',
  'Transmisión automática',
  'Asientos de cuero',
  'Central multimedia',
  'Ventanas eléctricas']]

In [16]:
Accesorios = np.array(datos)

In [17]:
Accesorios

array([['Llantas de aleación', 'Cerraduras eléctricas',
        'Piloto automático', 'Asientos de cuero', 'Aire acondicionado',
        'Sensor de estacionamiento', 'Sensor de crepúsculo',
        'Sensor de lluvia'],
       ['Central multimedia', 'Techo panorámico', 'Frenos ABS', '4 X 4',
        'Panel digital', 'Piloto automático', 'Asientos de cuero',
        'Cámara de estacionamiento'],
       ['Piloto automático', 'Control de estabilidad',
        'Sensor crepuscular', 'Frenos ABS', 'Transmisión automática',
        'Asientos de cuero', 'Central multimedia', 'Ventanas eléctricas']],
      dtype='<U25')

In [18]:
km.shape

(258,)

In [19]:
Accesorios.shape

(3, 8)

### Comparando desempeño con listas

In [20]:
np_array = np.arange(1000000)

In [21]:
py_list = list(range(1000000))

In [22]:
%time for _ in range(100): np_array *=2

CPU times: user 69.2 ms, sys: 0 ns, total: 69.2 ms
Wall time: 73.3 ms


In [23]:
%time for _ in range(100): py_list = [x*2 for x in py_list]

CPU times: user 9.59 s, sys: 3.09 s, total: 12.7 s
Wall time: 12.8 s


# 5.2 Operaciones aritméticas con arrays Numpy

### Operaciones entre arrays y constantes

In [24]:
km = [44410., 5712., 37123., 0., 25757.]
años = [2003, 1991, 1990, 2019, 2006]

In [25]:
edad = 2020 - años

TypeError: ignored

In [26]:
km = np.array([44410., 5712., 37123., 0., 25757.])
años = np.array([2003, 1991, 1990, 2019, 2006])

In [27]:
edad = 2020 - años

In [28]:
edad

array([17, 29, 30,  1, 14])

### Operaciones entre arrays

In [29]:
km_media = km / edad

In [30]:
km_media

array([2612.35294118,  196.96551724, 1237.43333333,    0.        ,
       1839.78571429])

In [31]:
44410. / 17

2612.3529411764707

### Operaciones con arrays de dos dimensiones

In [32]:
datos = np.array([km, años])

In [33]:
datos

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [34]:
datos.shape

(2, 5)

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [35]:
datos[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [36]:
datos[1]

array([2003., 1991., 1990., 2019., 2006.])

In [37]:
km_media = datos[0] / (2020-datos[1])
km_media

array([2612.35294118,  196.96551724, 1237.43333333,    0.        ,
       1839.78571429])

# 5.3 Selecciones con arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [38]:
datos

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexación 

<font color=red>**Observación:**</font> La indexación tiene inicio en cero.

In [39]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [40]:
contador[0]

0

In [41]:
contador[9]

9

In [42]:
contador[-1]

9

In [43]:
datos[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [44]:
datos[1]

array([2003., 1991., 1990., 2019., 2006.])

## <font color=green>**Consejo:**</font>
### *ndarray[ linea ][ columna ]* o *ndarray[ linea, columna ]*

In [45]:
datos[1][2]

1990.0

In [46]:
datos[1, 2]

1990.0

 ### Particiones
 
La sintaxis para realizar particiones en un array Numpy es $i : j : k$ donde $i$ es el índice inicial, $j$ es el índice final, y $k$ es el indicador de intervalo ($k\neq0$)
 
<font color=red>**Observación:**</font> En las particiones (*slices*) el objeto con índice i es **incluído** y el objeto con índice j **no es incluído** en el resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [47]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [48]:
contador[1:4:]

array([1, 2, 3])

In [49]:
contador[1:8:2]

array([1, 3, 5, 7])

In [50]:
contador[::2]

array([0, 2, 4, 6, 8])

In [51]:
contador[1::2]

array([1, 3, 5, 7, 9])

In [52]:
datos

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [53]:
datos[::, 1:3:]

array([[ 5712., 37123.],
       [ 1991.,  1990.]])

In [54]:
datos[::, 1:3:][0]/ (2020 - datos[::, 1:3:][1])

array([ 196.96551724, 1237.43333333])

In [55]:
datos[0]/ (2020-datos[1])

array([2612.35294118,  196.96551724, 1237.43333333,    0.        ,
       1839.78571429])

### Indexación con array booleano

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas siguiendo las etiquetas o un array booleano.

In [56]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [57]:
contador > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [58]:
contador[contador > 5]

array([6, 7, 8, 9])

In [59]:
datos

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [60]:
datos[1]>2000

array([ True, False, False,  True,  True])

In [61]:
datos[::,datos[1]>2000]

array([[44410.,     0., 25757.],
       [ 2003.,  2019.,  2006.]])

# 5.4 Atributos y métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

In [62]:
datos

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

## *ndarray.shape*

Devuelve una tupla con las dimensiones del array.

In [63]:
datos.shape

(2, 5)

## *ndarray.ndim*

Devuelve el número de dimensiones del array.

In [64]:
datos.ndim

2

## *ndarray.size*

Devuelve el número de elementos del array.

In [65]:
datos.size

10

## *ndarray.dtype*

Devuelve el tipo de datos de los elementos del array.

In [66]:
datos.dtype

dtype('float64')

## *ndarray.T*

Devuelve el array transpuesto, es decir, convierte líneas en columnas y viceversa.

In [67]:
datos.T

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

In [68]:
datos.transpose()

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Devuelve el array como una lista Python.

In [69]:
datos.tolist()

[[44410.0, 5712.0, 37123.0, 0.0, 25757.0],
 [2003.0, 1991.0, 1990.0, 2019.0, 2006.0]]

## *ndarray.reshape(shape[, order])*

Devuelve un array que contiene los mismos datos con una nueva forma.

In [70]:
contador=np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
contador.reshape((5, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [72]:
contador.reshape((5, 2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [73]:
contador.reshape((5, 2), order='F')

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [74]:
km = [44410, 5712, 37123, 0, 25757]
años = [2003, 1991, 1990, 2019, 2006]

In [75]:
info_carros = km+años
info_carros

[44410, 5712, 37123, 0, 25757, 2003, 1991, 1990, 2019, 2006]

In [76]:
np.array(info_carros).reshape((2, 5))

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

In [77]:
np.array(info_carros).reshape((5, 2), order ='F')

array([[44410,  2003],
       [ 5712,  1991],
       [37123,  1990],
       [    0,  2019],
       [25757,  2006]])

## *ndarray.resize(new_shape[, refcheck])*

Cambia la forma y el tamaño del array.

In [78]:
datos_new = datos.copy()
datos_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [79]:
datos_new.resize((3, 5), refcheck=False)

In [80]:
datos_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.],
       [    0.,     0.,     0.,     0.,     0.]])

In [81]:
datos_new[2]= datos_new[0]/(2020-datos_new[1])

In [82]:
datos_new

array([[44410.        ,  5712.        , 37123.        ,     0.        ,
        25757.        ],
       [ 2003.        ,  1991.        ,  1990.        ,  2019.        ,
         2006.        ],
       [ 2612.35294118,   196.96551724,  1237.43333333,     0.        ,
         1839.78571429]])

# 5.5 Estadísticas con arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

y

https://numpy.org/doc/1.16/reference/routines.statistics.html

y

https://numpy.org/doc/1.16/reference/routines.math.html

In [83]:
años = np.loadtxt(fname = "carros-años.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [84]:
años.shape

(258,)

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [None]:
dataset = np.column_stack((años, km, valor))
dataset

In [86]:
dataset.shape

(258, 3)

## *np.mean()*

Devuelve el promedio de los elementos del array a lo largo del eje especificado.

In [87]:
np.mean(dataset, axis = 0)

array([ 2007.74806202, 44499.41472868, 98960.51310078])

In [None]:
np.mean(dataset, axis = 1)

In [89]:
np.mean(dataset[::, 1])

44499.41472868217

In [90]:
np.mean(dataset[::, 2])

98960.51310077519

## *np.std()*

Devuelve la desviación estándar de los elementos del array a lo largo del eje especificado.

In [91]:
np.std(dataset[::, 2])

29754.101150388564

## *ndarray.sum()*

Devuelve la suma de los elementos del array a lo largo del eje especificado.

In [92]:
dataset.sum(axis = 0)

array([  517999.        , 11480849.        , 25531812.37999999])

In [93]:
dataset[::,1].sum()

11480849.0

## *np.sum()*

Devuelve la suma de los elementos del array a lo largo del eje especificado.

In [94]:
np.sum(dataset, axis = 0)

array([  517999.        , 11480849.        , 25531812.37999999])

In [95]:
np.sum(dataset[::, 2])

25531812.38

In [96]:
import pandas as pd

df = pd.DataFrame(data=dataset, columns=["años", "km", "valor"])
result = df.groupby('años').mean()
print(result)

                  km          valor
años                               
1990.0  72083.666667   96116.206667
1991.0  47036.444444   93420.658889
1992.0  51283.000000   90670.667500
1993.0  55384.250000   93357.635000
1994.0  70260.777778   96623.326667
1995.0  71289.714286   86117.702857
1996.0  50926.100000   98619.528000
1997.0  71897.000000   96852.883333
1998.0  71828.000000   97801.913333
1999.0  39075.500000   98675.220000
2000.0  98921.000000  112101.906667
2001.0  69583.750000  105120.757500
2002.0  59268.545455   89327.512727
2003.0  56926.571429  111672.687143
2004.0  62735.800000   82253.320000
2005.0  58052.500000  117836.888333
2006.0  45569.750000   91200.577500
2007.0  59986.750000  101135.170000
2008.0  61647.833333  103123.380000
2009.0  48694.000000  110470.614286
2010.0  79227.333333   98001.035000
2011.0  53031.000000  106613.244000
2012.0  40817.500000   89212.192500
2013.0  39021.777778  105672.001111
2014.0  57461.500000   87228.613333
2015.0  61032.125000  103795