# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUCCIÓN A PYTHON
---

# 1.1 Introducción

> Python es un lenguaje de programación de alto nivel con soporte a múltiples paradigmas de programación. Es un proyecto *open source* y desde su aparición en 1991, viene convirtiéndose en uno de los lenguajes de programación interpretados más populares.
>
> En los últimos años Python ha desarrollado una comunidad activa de procesamiento científico y análisis de datos y viene destacándose como uno de los lenguajes más relevantes cuando el asunto es ciencia de datos y machine learning, tanto en el entorno académico como también en el entorno laboral.

# 1.2 Instalación y entorno de trabajo

### Instalación Local

### https://www.python.org/downloads/
### o
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versión

In [None]:
!python -V

Python 3.10.12


# 1.3 Trabajando con datos

In [None]:
import pandas as pd
#set max rows para ver
pd.set_option('display.max_rows', 10)
#set max columms para ver
pd.set_option('display.max_columns', 10)

In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
#objeto pandas
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [None]:
#tipos de datos
dataset.dtypes

Nombre          object
Motor           object
Año              int64
Kilometraje    float64
Cero_km           bool
Accesorios      object
Valor          float64
dtype: object

In [None]:
#traer estadistica de columnas
dataset[['Kilometraje', 'Valor']].describe()

Unnamed: 0,Kilometraje,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [None]:
#info data set
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Nombre       258 non-null    object 
 1   Motor        258 non-null    object 
 2   Año          258 non-null    int64  
 3   Kilometraje  197 non-null    float64
 4   Cero_km      258 non-null    bool   
 5   Accesorios   258 non-null    object 
 6   Valor        258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABAJANDO CON TUPLAS
---

# 2.1 Creando tuplas

Tuplas son secuencias **inmutables** que son utilizadas para guardar colecciones de objetos, geralmente heterogéneos. Pueden ser construídas de varias formas:
```
- Utilizando un par de paréntesis: ( )
- Utilizando una coma a la derecha: x,
- Utilizando un par de paréntesis con objetos separados por comas: ( x, y, z )
- Utilizando: tuple() o tuple(iterador)
```

In [None]:
()

()

In [None]:
1, 2, 3

(1, 2, 3)

In [None]:
nombre = 'Passat'
valor = 153000
(nombre, valor)

('Passat', 153000)

In [None]:
['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [None]:
tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
nombre_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombre_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
type(nombre_carros)

tuple

# 2.2 Selecciones en tuplas

In [None]:
nombre_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombre_carros

In [None]:
#nombre_carros[posicion]
nombre_carros[0]

'Jetta Variant'

In [None]:
nombre_carros[1]

'Passat'

In [None]:
nombre_carros[-1]

'DS5'

In [None]:
#cortes de tuplas
#nombres_carros[inicio:fin], siempre considerar el indice final menos 1
nombres_carros[1:3]

('Passat', 'Crossfox')

In [None]:
#tuplas dentro de tuplas
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [None]:
nombres_carros[-1]

('Fusca', 'Gol', 'C4')

In [None]:
#acceder a elemento dentro de tupla anidada en tupla
#nombres_carros[posicion tupla anidada][posision de elemento en tupla anidada]
nombres_carros[-1][1]

'Gol'

In [None]:
#ejemplo alura
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimedia', 'Techo panoramico', 'Frenos ABS')
    )
)
carros

(('Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  False,
  ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')),
 ('Passat',
  'Motor Diesel',
  1991,
  True,
  ('Central multimedia', 'Techo panoramico', 'Frenos ABS')))

In [None]:
carros[0][3]

False

In [None]:
carros[-1][-1][-1]

'Frenos ABS'

In [None]:
carros[0][-1][:2]

('Llantas de aleación', 'Cerraduras eléctricas')

# 2.3 Iterando en tuplas

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
for item in nombres_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacando tuplas

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
#desempacando tupla
carro_1, carro_2, carro_3, carro_4 = nombres_carros

In [None]:
carro_1

'Jetta Variant'

In [None]:
carro_2

'Passat'

In [None]:
carro_3

'Crossfox'

In [None]:
carro_4

'DS5'

In [None]:
#especificando tuplas
#se pone el _ para ignorar el espacio
_, A, _, B = nombres_carros

In [None]:
A

'Passat'

In [None]:
B

'DS5'

In [None]:
#ignorar mas facil elementos
#se pone el *
_, C, *_ = nombres_carros

In [None]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [None]:
#creando iterador
zip(carros, valores)

<zip at 0x7fe42abc8e40>

In [None]:
#visualizando iterador
list(zip(carros, valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [None]:
for item in zip(carros, valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [None]:
#desenpacando tupla creada con iterador
for carro, valor in zip(carros, valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [None]:
#vehiculos de mas de 100000
for carro, valor in zip(carros, valores):
  if (valor > 100000):
    print(carro)

Passat
DS5


In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimedia', 'Techo panoramico', 'Frenos ABS')
    )
)

In [None]:
#se usa el segundo ciclo for(item) para iterar las tuplas de segundo nivel (tupla[-1])
for tupla in carros:
  for item in tupla[-1]:
    print(item)

Llantas de aleación
Cerraduras eléctricas
Piloto automático
Central multimedia
Techo panoramico
Frenos ABS


##heramienta ZIP

In [None]:
nombre, valor = ('Passat', 100000.0)
#La función zip() permite generar un iterador de tuplas, como en el siguiente ejemplo:

In [None]:
nombres = ['Passat', 'Crossfox']
valores = [100000.0, 75000.0]
list(zip(nombres, valores))

[('Passat', 100000.0), ('Crossfox', 75000.0)]

In [None]:
#ejemplo practico
nombres = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [None]:
#Y utilizando las herramientas presentadas anteriormente,
#selecciona la alternativa con el código que permite imprimir
#los nombres de los vehículos con kilometraje inferior a 20.000 km.

In [None]:
for nombre, km in zip(nombres, kms):
    if(km < 20000):
        print(nombre)
#¡Alternativa correcta! Observa que, en la construcción del bucle for (primera línea del código),
#usamos el desempaquetado de tuplas y la función zip(). El output de este código debería ser el siguiente:

Passat
Crossfox
C4


# <font color=green> 3. TRABAJANDO CON DICCIONARIOS
---

# 3.1 Creando diccionarios

Listas son colecciones secuenciales, es decir, los elementos de estas secuencias están ordenados y utilizan índices (números enteros) para acceder a los valores.

Los diccionarios son colecciones ligeramente diferentes. Son estructuras de datos que representan un tipo de mapeo. Los mapeos son colecciones de asociaciones entre pares de valores donde el primer elemento del par se conoce como llave (*key*) y el segundo como valor (*value*).

```
diccionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [None]:
carros[1]

'Passat'

In [None]:
#saber index
carros.index('Passat')
#retorna el indice

1

In [None]:
valores[carros.index('Passat')]

106161.94

In [None]:
datos = {'Jetta Variant':88078.64, 'Passat':106161.94, 'Crossfox':72832.16}
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [None]:
datos['Passat']

106161.94

In [None]:
type(datos)

dict

### Creando diccionarios con *zip()*

In [None]:
carros, valores

(['Jetta Variant', 'Passat', 'Crossfox'], [88078.64, 106161.94, 72832.16])

In [None]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [None]:
#con la built-in function dict covertimos la lista zip en un diccionario
dict(zip(carros, valores))

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [None]:
datos = dict(zip(carros, valores))
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [None]:
## ejemplo alura
nombres = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]
#cree un diccionaario con los siguientes datos

In [None]:
nombres, kms

(['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta'],
 [15000, 12000, 32000, 8000, 50000])

In [None]:
dict(zip(nombres, kms))

{'Passat': 15000, 'Crossfox': 12000, 'DS5': 32000, 'C4': 8000, 'Jetta': 50000}

# 3.2 Operaciones con diccionarios

In [None]:
datos = {'Jetta Variant':88078.64, 'Passat':106161.94, 'Crossfox':72832.16}
datos

## *dict[ key ]*

Devuelve el valor correspondiente a la llave (*key*) en el diccionario.

In [None]:
#para llamar un dato de mi diccinario
#datos['llave']
datos['Passat']

106161.94

## *key in dict*

Devuelve **True** si la llave (*key*) es encontrada en el diccionario.

In [None]:
#buscar llave en diccinario
'Passat' in datos
#nos devuelve un true si existe,nos devuelve un false de no existir

True

In [None]:
'Fusca' in datos

False

In [None]:
#pregunando de manera negativa', para que nos devuelva un true
'Fusca' not in datos

True

## *len(dict)*

Devuelve el número de itens del diccionario.

In [None]:
#tamaño del diccionario
len(datos)

4

## *dict[ key ] = value*

Incluye un item al diccionario.

In [None]:
#adiccionar valor a diccionario
datos['DS5']=124687.3
datos

{'Jetta Variant': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124687.3}

## *del dict[ key ]*

Borra el item de llave (*key*) del diccionario.

In [None]:
#eliminar elemento del diccionario
del datos['Passat']
datos

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124687.3}

In [None]:
#ejemplo alura
datos = {
    'Passat': {
        'año': 2012,
        'km': 50000,
        'valor': 75000,
        'accesorios': ['Airbag', 'ABS']
    },
    'Crossfox': {
        'año': 2015,
        'km': 35000,
        'valor': 25000
    }
}


In [None]:
datos['Passat']

{'año': 2012, 'km': 50000, 'valor': 75000, 'accesorios': ['Airbag', 'ABS']}

In [None]:
'accesorios' in datos['Passat']

True

In [None]:
datos['Passat']['accesorios']

['Airbag', 'ABS']

In [None]:
datos['Passat']['accesorios'][0]

'Airbag'

In [None]:
datos={'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124687.3}
datos

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124687.3}

# 3.3 Métodos de diccionarios

## *dict.update()*

Actualiza el diccionario.

In [None]:
#metodos disponibles dentro de un diccionario
datos

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124687.3}

In [None]:
datos.update({'Passat':106161.94})
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.94}

In [None]:
#modificar elemento dentro del diccionario
datos.update({'Passat':106161.95, 'Fusca': 150000})
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.95,
 'Fusca': 150000}

## *dict.copy()*

Crea una copia del diccionario.

In [None]:
datosCopy = datos
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.95,
 'Fusca': 150000}

In [None]:
datosCopy = datos.copy()
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.95,
 'Fusca': 150000}

In [None]:
del datosCopy['Fusca']

KeyError: ignored

In [None]:
datosCopy, datos

({'Jetta Variant': 88078.64,
  'Crossfox': 72832.16,
  'DS5': 124687.3,
  'Passat': 106161.95},
 {'Jetta Variant': 88078.64,
  'Crossfox': 72832.16,
  'DS5': 124687.3,
  'Passat': 106161.95,
  'Fusca': 150000})

## *dict.pop(key[, default ])*

Si la llave se encuentra en el diccionario, el elemento se elimina y se devuelve su valor. De lo contrario, se devuelve el valor especificado como *default*. Si no se proporciona el valor *default* y la llave no se encuentra en el diccionario, se generará un error.

In [None]:
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.95}

In [None]:
datosCopy.pop('Passat')

106161.95

In [None]:
datosCopy

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124687.3}

In [None]:
datosCopy.pop('Passat')

KeyError: ignored

In [None]:
#evitar que aparezca error
datosCopy.pop('Passat', 'Llave no encontrada')

'Llave no encontrada'

In [None]:
#si la llave es encontrada, resultado default
datosCopy.pop('DS5', 'Llave no encontrada')

124687.3

In [None]:
datosCopy

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16}

## *dict.clear()*

Borra todos los itens del diccionario.

In [None]:
#elimina todo del diccionario
datosCopy.clear()

In [None]:
datosCopy

{}

# 3.4 Iterando en diccionarios

In [None]:
datos={'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.95,
 'Fusca': 150000}
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124687.3,
 'Passat': 106161.95,
 'Fusca': 150000}

## *dict.keys()*

Devuelve una lista con las llaves (*keys*) del diccionario.

In [None]:
datos.keys()

dict_keys(['Jetta Variant', 'Crossfox', 'DS5', 'Passat', 'Fusca'])

In [None]:
items=datos.keys()
items
for key in datos.keys():
  print(key)

Jetta Variant
Crossfox
DS5
Passat
Fusca


## *dict.values()*

Devuelve una lista con todos los valores (*values*) del diccionario.

In [None]:
datos.values()

dict_values([88078.64, 72832.16, 124687.3, 106161.95, 150000])

## *dict.items()*

Devuelve una lista con una tupla para cada par llave-valor (*key-value*) del diccionario.

In [None]:
datos.items()

dict_items([('Jetta Variant', 88078.64), ('Crossfox', 72832.16), ('DS5', 124687.3), ('Passat', 106161.95), ('Fusca', 150000)])

In [None]:
for item in datos.items():
  print(item)

('Jetta Variant', 88078.64)
('Crossfox', 72832.16)
('DS5', 124687.3)
('Passat', 106161.95)
('Fusca', 150000)


In [None]:
#separando valores de la tupla
for key,value in datos.items():
  print(key,'->',value)

Jetta Variant -> 88078.64
Crossfox -> 72832.16
DS5 -> 124687.3
Passat -> 106161.95
Fusca -> 150000


In [None]:
for key,value in datos.items():
  if (value) > 100000:
    print(key)

DS5
Passat
Fusca


In [None]:
#ejemplo alura
datosE = {
    'Crossfox': {'valor': 72000, 'año': 2005},
    'DS5': {'valor': 125000, 'año': 2015},
    'Fusca': {'valor': 150000, 'año': 1976},
    'Jetta': {'valor': 88000, 'año': 2010},
    'Passat': {'valor': 106000, 'año': 1998}
}
datosE

{'Crossfox': {'valor': 72000, 'año': 2005},
 'DS5': {'valor': 125000, 'año': 2015},
 'Fusca': {'valor': 150000, 'año': 1976},
 'Jetta': {'valor': 88000, 'año': 2010},
 'Passat': {'valor': 106000, 'año': 1998}}

In [None]:
datosE['Crossfox']['año']

2005

In [None]:
for item in datosE.items():
  if(item[1]['año'] >= 2000):
        print(item[0])

Crossfox
DS5
Jetta


In [None]:
for item in datosE.items():
    print(item)

('Crossfox', {'valor': 72000, 'año': 2005})
('DS5', {'valor': 125000, 'año': 2015})
('Fusca', {'valor': 150000, 'año': 1976})
('Jetta', {'valor': 88000, 'año': 2010})
('Passat', {'valor': 106000, 'año': 1998})


# <font color=green> 4. FUNCIONES Y PAQUETES
---

Funciones son unidades de código reutilizables que realizan una tarea específica, pueden recibir alguna entrada y también pueden devolver algún resultado.

# 4.1 Built-in function

El lenguaje Python tiene varias funciones integradas que siempre están accesibles. Algunas ya las usamos en nuestro entrenamiento:
type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
datos = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [None]:
#extraer valores
valores = []
for valor in datos.values():
  valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [None]:
suma = 0
for valor in datos.values():
  suma+=valor
suma

267072.74

In [None]:
#con built function
list(datos.values())

[88078.64, 106161.94, 72832.16]

In [None]:
sum(datos.values())

267072.74

In [None]:
#AGRANDOLE UN 100000
sum(datos.values(),1000000)

1267072.7399999998

In [None]:
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



In [None]:
print?

# 4.2 Definiendo funciones sin y con parámetros

### Funciones sin parámetros

#### Formato estándar

```
def <nombre>():
    <instrucciones>
```

In [None]:
def media():
  valor = (1+2+3)/3
  print(valor)

In [None]:
media()

2.0


### Funciones con parámetros

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
```

In [None]:
def media(number_1,number_2, number_3):
  valor = (number_1 + number_2 + number_3)/3
  print(valor)

In [None]:
media(1,2,3)

2.0


In [None]:
media(13,22,2001)

678.6666666666666


In [None]:
#funcion que  recibe N numeros
def media(number_1,number_2, number_3):
  valor = (number_1 + number_2 + number_3)/3
  print(valor)

In [None]:
#recibe una lista
def media(lista):
  valor = sum(lista)/len(lista)
  print(valor)

In [None]:
media([2,5,6,9,7,33,25,46])

16.625


In [None]:
#asignando a variable
resultado = media([2,5,6,9,7,33,25,46])

16.625


In [None]:
resultado

In [None]:
type(resultado)

NoneType

In [63]:
datosE = {
    'Crossfox': {'km': 35000, 'año': 2005},
    'DS5': {'km': 17000, 'año': 2015},
    'Fusca': {'km': 130000, 'año': 1979},
    'Jetta': {'km': 56000, 'año': 2011},
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
items=datosE.items()

In [None]:
def kmedia(sheet, año):
  for item in sheet.items():
    result = item[1]['km'] / (año - item[1]['año'])
    print(result)

In [None]:
resultado = kmedia(datosE, 2019)

2500.0
4250.0
3250.0
7000.0
3100.0


In [None]:
resultado()

TypeError: ignored

In [66]:
def kmedia(sheet, año):
  result = {}
  for item in sheet.items():
    media = item[1]['km'] / (año - item[1]['año'])
    result.update({ item[0]: media })
  return result

In [67]:
kmedia(datosE,2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

# 4.3 Definiendo funciones que devuelven valores

### Funciones que devuelven un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return <resultado>
```

In [None]:
#modificando funcion media, para que devuelva valores
def media(lista):
  valor = sum(lista)/len(lista)
  return(valor)

In [None]:
media([1,2,3,4,5,6,7,8,9])

5.0

In [None]:
resultado = media([1,2,3,4,5,6,7,8,9])

In [None]:
type(resultado)

float

### Funciones que devuelven más de un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  return(valor, len(lista))

In [None]:
media([1,2,3,4,5,6,7,8,9])

(5.0, 9)

In [None]:
#unpack tupla
resultado, n = media([1,2,3,4,5,6,7,8,9])

In [None]:
resultado

5.0

In [57]:
n

9

In [68]:
##ejemplo alura
def kmedia(sheet, año):
  result = {}
  for item in sheet.items():
    media = item[1]['km'] / (año - item[1]['año'])
    result.update({ item[0]: media })
  return result

In [69]:
kmedia(datosE,2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

In [70]:
##ejemplo alura
def kmedia(sheet, año):
  result = {}
  for item in sheet.items():
    media = item[1]['km'] / (año - item[1]['año'])
    item[1].update({'km_media': media})
    result.update({ item[0]: item[1] })
  return result

In [95]:
kmedia(datosE,2019)

{'Crossfox': {'km': 35000, 'año': 2005, 'km_media': 2500.0},
 'DS5': {'km': 17000, 'año': 2015, 'km_media': 4250.0},
 'Fusca': {'km': 130000, 'año': 1979, 'km_media': 3250.0},
 'Jetta': {'km': 56000, 'año': 2011, 'km_media': 7000.0},
 'Passat': {'km': 62000, 'año': 1999, 'km_media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versión: 1.1.0**

Pandas es una herramienta de manipulación de datos de alto nivel, construida sobre la base del paquete Numpy. El paquete pandas tiene estructuras de datos muy interesantes para la manipulación de datos y, por esto, es ampliamente utilizado por los científicos de datos.


## Estructuras de Datos

### Series

Series son arrays unidimensionales etiquetados capaces de almacenar cualquier tipo de dato. Las etiquetas de las líneas se denominan **index**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy o una constante.

### DataFrames

DataFrame es una estructura de datos tabular bidimensional con etiquetas de fila y columna. Como la Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy, una Series y otro DataFrame.

**Documentación:** https://pandas.pydata.org/pandas-docs/version/1.1.0/

# 5.1 Estructuras de datos

In [6]:
#importando pandas
import pandas as pd

### Creando una Series a partir de una lista

In [73]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [76]:
#convirtiendo a series
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Creando un DataFrame a partir de una lista de diccionarios

In [77]:
#elemento bidimencional
datos = [
    {'Nombre': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Año': 2003, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Passat', 'Motor': 'Motor Diesel', 'Año': 1991, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Año': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

In [79]:
#transformando a dataframe
dataset = pd.DataFrame(datos)

In [80]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [83]:
#modificando orden de colums
#dataset[['Nombre', 'Motor', 'Año', 'Kilometraje', 'Cero_km', 'Valor']]
dataset[['Nombre', 'Año', 'Motor', 'Kilometraje', 'Cero_km', 'Valor']]

Unnamed: 0,Nombre,Año,Motor,Kilometraje,Cero_km,Valor
0,Jetta Variant,2003,Motor 4.0 Turbo,44410.0,False,88078.64
1,Passat,1991,Motor Diesel,5712.0,False,106161.94
2,Crossfox,1990,Motor Diesel V8,37123.0,False,72832.16


### Creando un DataFrame a partir de un diccionario

In [84]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Año': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [87]:
#diccionario a dataframe
dataset = pd.DataFrame(datos)

In [88]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Creando un DataFrame a partir de un archivo externo

In [90]:
#leyendo datos desde archivo externo
pd.read_csv('db.csv', sep = ';')

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [7]:
#asignando a variable
dataset = pd.read_csv('db.csv', sep = ';')

In [92]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [93]:
#indicando indice distinto
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0 )

In [94]:
dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [103]:
#ejemplo alura
carros = pd.DataFrame(kmedia(datosE, 2019)).T

In [104]:
carros

Unnamed: 0,km,año,km_media
Crossfox,35000.0,2005.0,2500.0
DS5,17000.0,2015.0,4250.0
Fusca,130000.0,1979.0,3250.0
Jetta,56000.0,2011.0,7000.0
Passat,62000.0,1999.0,3100.0


# 5.2 Selecciones con DataFrames

### Seleccionando columnas

In [107]:
#muestra las primeras filas
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [110]:
dataset['Valor']
#output en series

Nombre
Jetta Variant             88078.64
Passat                   106161.94
Crossfox                  72832.16
DS5                      124549.07
Aston Martin DB4          92612.10
                           ...    
Phantom 2013              51759.58
Cadillac Ciel concept     51667.06
Classe GLK                68934.03
Aston Martin DB5         122110.90
Macan                     90381.47
Name: Valor, Length: 258, dtype: float64

In [111]:
type(dataset['Valor'])

pandas.core.series.Series

In [113]:
#formato de resultado en dataframe
dataset[['Valor']]

Unnamed: 0_level_0,Valor
Nombre,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.10
...,...
Phantom 2013,51759.58
Cadillac Ciel concept,51667.06
Classe GLK,68934.03
Aston Martin DB5,122110.90


In [114]:
type(dataset[['Valor']])

pandas.core.frame.DataFrame

### Seleccionando lineas - [ i : j ]

<font color=red>**Observación:**</font> La indexación tiene origen en cero y en las particiones(*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

In [116]:
#seleccionar intervalo de filas
dataset[0:3]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16


### Utilizando .loc para selecciones

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según las etiquetas o una matriz booleana.

In [117]:
#busquedas por filas
dataset.loc['Passat']

Motor                                               Motor Diesel
Año                                                         1991
Kilometraje                                               5712.0
Cero_km                                                    False
Accesorios     ['Central multimedia', 'Techo panorámico', 'Fr...
Valor                                                  106161.94
Name: Passat, dtype: object

In [120]:
#importante poner el [], de no ser asi da error
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07


In [122]:
##ver columnas especficas
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [123]:
#ver todas las filas
dataset.loc[:, ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.10
...,...,...
Phantom 2013,Motor V8,51759.58
Cadillac Ciel concept,Motor V8,51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03
Aston Martin DB5,Motor Diesel,122110.90


### Utilizando .iloc para selecciones

<font color=red>**Observación:**</font> Selecciona con base en los índices, es decir, utiliza la posición de las informaciones.

In [133]:
#busca por indices
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [127]:
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94


In [128]:
#1 a 4
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07


In [129]:
#colums en especifico
dataset.iloc[1:4, [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [130]:
#algunas filas
dataset.iloc[[1, 42, 22], [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


In [131]:
#mostrar filas completas
dataset.iloc[:, [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64,44410.0
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,
Aston Martin DB4,Motor 2.4 Turbo,92612.10,25757.0
...,...,...,...
Phantom 2013,Motor V8,51759.58,27505.0
Cadillac Ciel concept,Motor V8,51667.06,29981.0
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03,52637.0
Aston Martin DB5,Motor Diesel,122110.90,7685.0


In [136]:
#ejemplo alura
datosE = {
   'Nombre': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'],
   'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Año': [2019, 2003, 1991, 2019, 1990],
    'Kilometraje': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Cero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

In [137]:
datasetE = pd.DataFrame(datosE)

In [138]:
datasetE

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
2,Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0
4,Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [139]:

datasetE[['Nombre', 'Año', 'Kilometraje', 'Valor']][1:3]

Unnamed: 0,Nombre,Año,Kilometraje,Valor
1,Passat,2003,5712.0,106000.0
2,Crossfox,1991,37123.0,72000.0


In [140]:
dataset.iloc[[1, 3], [0, -1]]

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [141]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


# 5.3 Consultas en DataFrames

In [143]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [144]:
#cuando no hay espacios
dataset.Motor

Nombre
Jetta Variant                  Motor 4.0 Turbo
Passat                            Motor Diesel
Crossfox                       Motor Diesel V8
DS5                            Motor 2.4 Turbo
Aston Martin DB4               Motor 2.4 Turbo
                                 ...          
Phantom 2013                          Motor V8
Cadillac Ciel concept                 Motor V8
Classe GLK               Motor 5.0 V8 Bi-Turbo
Aston Martin DB5                  Motor Diesel
Macan                          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

In [145]:
#buscando con espacio
dataset.Motor == 'Motor Diesel'

Nombre
Jetta Variant            False
Passat                    True
Crossfox                 False
DS5                      False
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5          True
Macan                    False
Name: Motor, Length: 258, dtype: bool

In [146]:
type(dataset.Motor == 'Motor Diesel')

pandas.core.series.Series

In [147]:
dataset[dataset.Motor == 'Motor Diesel']

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Control de estabilidad', 'Panel digital', 'V...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamiento', 'Cerraduras elec...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Asientos de cuero', 'Transmisión automática'...",146716.91
Fit,Motor Diesel,2013,44329.0,False,"['Frenos ABS', 'Cámara de estacionamiento', 'T...",77836.23
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
A4 Sedan,Motor Diesel,2002,30511.0,False,"['Cámara de estacionamiento', '4 X 4', 'Cerrad...",96369.04
A4 Avant,Motor Diesel,2014,17357.0,False,"['Techo panorámico', '4 X 4', 'Asientos de cue...",138946.88


In [149]:
#buscando mas resultado como cero km
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True )]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Camry,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Llantas de aleación...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Control de tracción...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Ventanas eléctricas', 'Cerraduras electricas...",67539.79


### Utilizando el método query

In [150]:
#querry
dataset.query('Motor == "Motor Diesel" and Cero_km == True')

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Camry,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Llantas de aleación...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Control de tracción...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Ventanas eléctricas', 'Cerraduras electricas...",67539.79


In [153]:
#ejemplo alura
datasetE

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
2,Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0
4,Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [160]:
#metodo 1
datasetE.query('Motor == "Motor Diesel" | Cero_km == True')
#¡Alternativa correcta! El método query() acepta las 2 formas de utilización de operadores lógicos.
#En el caso del operador lógico O, tenemos el or y el carácter |. Para el operador lógico Y, tenemos el and y el carácter &.

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0


In [157]:
#metodo 2
datasetE[(datasetE.Motor == 'Motor Diesel') | (datasetE.Cero_km == True)]
#¡Alternativa correcta! En la construcción de la matriz booleana que utilizamos para realizar la consulta,
#fue utilizado el operador lógico O, que en el caso del código anterior está representado por el carácter |.

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0


In [158]:
#metodo 3
datasetE.query('Motor == "Motor Diesel" or Cero_km == True')
#¡Alternativa correcta! El método query() acepta las 2 formas de utilización de operadores lógicos.
#En el caso del operador lógico O, tenemos el or y el carácter |. Para el operador lógico Y, tenemos el and y el carácter &.

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0


# 5.4 Iterando con DataFrames

In [161]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [164]:
#solo ver colunmas dataframe
for item in dataset:
  print(item)

Motor
Año
Kilometraje
Cero_km
Accesorios
Valor


In [167]:
#convirtiendo en lista
list(dataset.iterrows())
#nos devuelve una tupla

[('Jetta Variant',
  Motor                                            Motor 4.0 Turbo
  Año                                                         2003
  Kilometraje                                              44410.0
  Cero_km                                                    False
  Accesorios     ['Llantas de aleación', 'Cerraduras electricas...
  Valor                                                   88078.64
  Name: Jetta Variant, dtype: object),
 ('Passat',
  Motor                                               Motor Diesel
  Año                                                         1991
  Kilometraje                                               5712.0
  Cero_km                                                    False
  Accesorios     ['Central multimedia', 'Techo panorámico', 'Fr...
  Valor                                                  106161.94
  Name: Passat, dtype: object),
 ('Crossfox',
  Motor                                            Motor Diesel V8
  Año        

In [171]:
#desempacando tupla
for index, row in dataset.iterrows():
  if(2020 - row.Año != 0):
    dataset.loc[index, 'km_media'] = row.Kilometraje / (2020 - row.Año)
  else:
    dataset.loc[index, 'km_media'] = 0

dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1839.785714
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,4584.166667
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,1033.827586
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2924.277778
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,320.208333


In [173]:
dataset.itertuples()

<map at 0x7df49834fa60>

# 5.5 Tratamiento de datos

In [175]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1,1839.785714


In [176]:
#informacion del dataframe
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Motor        258 non-null    object 
 1   Año          258 non-null    int64  
 2   Kilometraje  197 non-null    float64
 3   Cero_km      258 non-null    bool   
 4   Accesorios   258 non-null    object 
 5   Valor        258 non-null    float64
 6   km_media     197 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 22.5+ KB


In [177]:
#investigar con metodo isna
dataset.Kilometraje.isna()

Nombre
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                       True
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Name: Kilometraje, Length: 258, dtype: bool

In [180]:
dataset[dataset.Kilometraje.isna()]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
A5,Motor 4.0 Turbo,2019,,True,"['Transmisión automática', 'Cámara de estacion...",56445.20,
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Panel digital', 'Llant...",53183.38,
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,
Série 1 M,Motor V8,2019,,True,"['Control de estabilidad', 'Central multimedia...",94564.40,
...,...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Control de tracción', 'Aire condicionado', '...",67664.86,
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Transmisión automática...",126247.84,
Uno,Motor Diesel V6,2019,,True,"['Central multimedia', 'Sensor crepuscular', '...",128852.21,
Santa Fe,Motor 3.0 32v,2019,,True,"['Cerraduras electricas', 'Aire condicionado',...",129415.33,


In [179]:
#sustituye los nulos por un valor que le especifiquemos
dataset.fillna(0)

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1839.785714
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,4584.166667
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,1033.827586
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2924.277778
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,320.208333


In [9]:
#sustituir de verad
dataset.fillna(0, inplace = True)

In [10]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [11]:
#query cero kilometros
dataset.query('Cero_km == True')

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
6,A5,Motor 4.0 Turbo,2019,0.0,True,"['Transmisión automática', 'Cámara de estacion...",56445.20
13,J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Panel digital', 'Llant...",53183.38
17,A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
21,Série 1 M,Motor V8,2019,0.0,True,"['Control de estabilidad', 'Central multimedia...",94564.40
...,...,...,...,...,...,...,...
238,Lamborghini Reventón,Motor 4.0 Turbo,2019,0.0,True,"['Control de tracción', 'Aire condicionado', '...",67664.86
242,Benni Mini,Motor V8,2019,0.0,True,"['Sensor crepuscular', 'Transmisión automática...",126247.84
243,Uno,Motor Diesel V6,2019,0.0,True,"['Central multimedia', 'Sensor crepuscular', '...",128852.21
245,Santa Fe,Motor 3.0 32v,2019,0.0,True,"['Cerraduras electricas', 'Aire condicionado',...",129415.33


In [13]:
#eliminando metodos
#cargando nuevamente datashet
dataset = pd.read_csv('db.csv', sep = ';')

In [14]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [15]:
#metodo drop para eliminar Na
dataset.dropna(subset = ['Kilometraje'], inplace = True )

In [17]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamiento', 'Techo panorámic...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90
