# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUCCIÓN A PYTHON
---

# 1.1 Introducción

> Python es un lenguaje de programación de alto nivel con soporte a múltiples paradigmas de programación. Es un proyecto *open source* y desde su aparición en 1991, viene convirtiéndose en uno de los lenguajes de programación interpretados más populares. 
>
> En los últimos años Python ha desarrollado una comunidad activa de procesamiento científico y análisis de datos y viene destacándose como uno de los lenguajes más relevantes cuando el asunto es ciencia de datos y machine learning, tanto en el entorno académico como también en el entorno laboral.

# 1.2 Instalación y entorno de trabajo

### Instalación Local

### https://www.python.org/downloads/
### o
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versión

In [None]:
!python -V

Python 3.7.13


# 1.3 Trabajando con datos

In [None]:
import pandas as pd
# pd.set_option('display.max_rows', 100)
# pd.set_option('display.max_columns', 10)

In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [None]:
dataset.dtypes

Nombre          object
Motor           object
Año              int64
Kilometraje    float64
Cero_km           bool
Accesorios      object
Valor          float64
dtype: object

In [None]:
dataset[['Kilometraje', 'Valor']].describe()

Unnamed: 0,Kilometraje,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Nombre       258 non-null    object 
 1   Motor        258 non-null    object 
 2   Año          258 non-null    int64  
 3   Kilometraje  197 non-null    float64
 4   Cero_km      258 non-null    bool   
 5   Accesorios   258 non-null    object 
 6   Valor        258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABAJANDO CON TUPLAS
---

# 2.1 Creando tuplas

Tuplas son secuencias **inmutables** que son utilizadas para guardar colecciones de objetos, geralmente heterogéneos. Pueden ser construídas de varias formas:
```
- Utilizando un par de paréntesis: ( )
- Utilizando una coma a la derecha: x,
- Utilizando un par de paréntesis con objetos separados por comas: ( x, y, z )
- Utilizando: tuple() o tuple(iterador)
```

In [None]:
()

()

In [None]:
1, 2, 3

(1, 2, 3)

In [None]:
nombre = 'Passat'
valor = 153000
(nombre, valor)

('Passat', 153000)

In [None]:
nombres_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
type(nombres_carros)

tuple

# 2.2 Selecciones en tuplas

In [None]:
nombres_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
nombres_carros[0]

'Jetta Variant'

In [None]:
nombres_carros[1]

'Passat'

In [None]:
nombres_carros[-1]

'DS5'

In [None]:
nombres_carros[1:3]

('Passat', 'Crossfox')

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [None]:
nombres_carros[-1]

('Fusca', 'Gol', 'C4')

In [None]:
nombres_carros[-1][1]

'Gol'

# 2.3 Iterando en tuplas

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
for item in nombres_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacando tuplas

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

In [None]:
carro_1, carro_2, carro_3, carro_4 = nombres_carros

In [None]:
carro_1

'Jetta Variant'

In [None]:
carro_2

'Passat'

In [None]:
carro_3

'Crossfox'

In [None]:
carro_4

'DS5'

In [None]:
_, A, _, B = nombres_carros # _ no asigna el valor a una variable

In [None]:
A

'Passat'

In [None]:
B

'DS5'

In [None]:
_, C, *_ = nombres_carros

In [None]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [None]:
list(zip(carros, valores)) # zip para relacionar variables

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [None]:
for item in zip(carros, valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [None]:
for item in zip(carros, valores):
  print(item)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [None]:
for carro, valor in zip(carros, valores):
  if(valor > 100000):
    print(carro)

Passat
DS5


# Ejercicio - Bucles con tuplas

In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimedia', 'Techo panoramico', 'Frenos ABS')
    )
)

In [None]:
for tupla in carros:
    for item in tupla[-1]:
        print(item)

Llantas de aleación
Cerraduras eléctricas
Piloto automático
Central multimedia
Techo panoramico
Frenos ABS


# Ejercicio funcion zip()

In [None]:
nombres = ['Passat', 'Crossfox']
valores = [100000.0, 75000.0]
list(zip(nombres, valores))

[('Passat', 100000.0), ('Crossfox', 75000.0)]

In [None]:
nombres = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [None]:
for nombre, km in zip(nombres, kms):
    if(km < 20000):
        print(nombre)

Passat
Crossfox
C4


# <font color=green> 3. TRABAJANDO CON DICCIONARIOS
---

# 3.1 Creando diccionarios

Listas son colecciones secuenciales, es decir, los elementos de estas secuencias están ordenados y utilizan índices (números enteros) para acceder a los valores.

Los diccionarios son colecciones ligeramente diferentes. Son estructuras de datos que representan un tipo de mapeo. Los mapeos son colecciones de asociaciones entre pares de valores donde el primer elemento del par se conoce como llave (*key*) y el segundo como valor (*value*).

```
diccionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [None]:
carros.index('Passat')

1

In [None]:
valores[carros.index('Passat')]

106161.94

In [None]:
datos = {'Jetta Variant':88078.64,'Passat':106161.94,'Crossfox':72832.16}
datos

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
type(datos)

dict

### Creando diccionarios con *zip()*

In [None]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [None]:
datos = dict(zip(carros, valores))
datos

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

# 3.2 Operaciones con diccionarios

In [None]:
datos = {'Jetta Variant':88078.64,'Passat':106161.94,'Crossfox':72832.16}
datos

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

## *dict[ key ]*

Devuelve el valor correspondiente a la llave (*key*) en el diccionario.

In [None]:
datos['Passat']

106161.94

## *key in dict*

Devuelve **True** si la llave (*key*) es encontrada en el diccionario.

In [None]:
'Passat' in datos

True

In [None]:
'Mustang' in datos

False

In [None]:
'Mustang' not in datos

True

## *len(dict)*

Devuelve el número de itens del diccionario.

In [None]:
len(datos)

3

## *dict[ key ] = value*

Incluye un item al diccionario.

In [None]:
# Agregar elementos
datos['Corvette'] = 150000
datos

{'Corvette': 150000,
 'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

## *del dict[ key ]*

Borra el item de llave (*key*) del diccionario.

In [None]:
# Eliminar elementos
del datos['Passat']

In [None]:
datos

{'Corvette': 150000, 'Crossfox': 72832.16, 'Jetta Variant': 88078.64}

# Ejercicio 

In [None]:
datos = {
    'Passat': {
        'año': 2012,
        'km': 50000,
        'valor': 75000,
        'accesorios': ['Airbag', 'ABS']
    }, 
    'Crossfox': {
        'año': 2015,
        'km': 35000,
        'valor': 25000
    }
}

In [None]:
'accesorios' in datos['Crossfox']

False

In [None]:
'accesorios' in datos['Passat']

True

In [None]:
datos['Crossfox']['valor']

25000

In [None]:
datos['Passat']['accesorios'][-1]

'ABS'

# 3.3 Métodos de diccionarios

## *dict.update()*

Actualiza el diccionario.

In [None]:
datos = {'Jetta Variant':88078.64,'Passat':106161.94,'Crossfox':72832.16}
datos

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
datos

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
datos.update({'Mustang': 150000})
datos

{'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 150000,
 'Passat': 106161.94}

In [None]:
datos.update({'Mustang': 160000, 'Corvette': 175000})
datos

{'Corvette': 175000,
 'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 160000,
 'Passat': 106161.94}

## *dict.copy()*

Crea una copia del diccionario.

In [None]:
datosCopy = datos.copy()

In [None]:
datosCopy

{'Corvette': 175000,
 'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 160000,
 'Passat': 106161.94}

In [None]:
del datosCopy['Corvette']
datosCopy

{'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 160000,
 'Passat': 106161.94}

In [None]:
datos

{'Corvette': 175000,
 'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 160000,
 'Passat': 106161.94}

## *dict.pop(key[, default ])*

Si la llave se encuentra en el diccionario, el elemento se elimina y se devuelve su valor. De lo contrario, se devuelve el valor especificado como *default*. Si no se proporciona el valor *default* y la llave no se encuentra en el diccionario, se generará un error.

In [None]:
datosCopy

{'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 160000,
 'Passat': 106161.94}

In [None]:
datosCopy.pop('Passat')

106161.94

In [None]:
datosCopy

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Mustang': 160000}

In [None]:
datosCopy.pop('Passat')

KeyError: ignored

In [None]:
datosCopy.pop('Passat', 'Llave no fue encontrada')

'Llave no fue encontrada'

In [None]:
datosCopy.pop('Mustang')

160000

In [None]:
datosCopy

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64}

## *dict.clear()*

Borra todos los itens del diccionario.

In [None]:
datosCopy.clear()

In [None]:
datosCopy

{}

# 3.4 Iterando en diccionarios

In [None]:
datos = {'Jetta Variant':88078.64,'Passat':106161.94,'Crossfox':72832.16, 'Mustang': 150000, 'Corvette': 175000}
datos

{'Corvette': 175000,
 'Crossfox': 72832.16,
 'Jetta Variant': 88078.64,
 'Mustang': 150000,
 'Passat': 106161.94}

## *dict.keys()*

Devuelve una lista con las llaves (*keys*) del diccionario.

In [None]:
datos.keys()

dict_keys(['Jetta Variant', 'Passat', 'Crossfox', 'Mustang', 'Corvette'])

In [None]:
for key in datos.keys():
  print(key)

Jetta Variant
Passat
Crossfox
Mustang
Corvette


## *dict.values()*

Devuelve una lista con todos los valores (*values*) del diccionario.

In [None]:
datos.values()

dict_values([88078.64, 106161.94, 72832.16, 150000, 175000])

In [None]:
for value in datos.values():
  print(value)

88078.64
106161.94
72832.16
150000
175000


## *dict.items()*

Devuelve una lista con una tupla para cada par llave-valor (*key-value*) del diccionario.

In [None]:
datos.items()

dict_items([('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16), ('Mustang', 150000), ('Corvette', 175000)])

In [None]:
for item in datos.items():
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('Mustang', 150000)
('Corvette', 175000)


In [None]:
for key, value in datos.items():
  print(key, '->', value)

Jetta Variant -> 88078.64
Passat -> 106161.94
Crossfox -> 72832.16
Mustang -> 150000
Corvette -> 175000


In [None]:
for key, value in datos.items():
  if(value) > 100000:
    print(key)

Passat
Mustang
Corvette


# Ejercicio - Iterando en diccionarios de diccionarios

In [None]:
# Cuales carros tienen año de fabricacion mayor o igual a 2000 
datos = {
    'Crossfox': {'valor': 72000, 'año': 2005}, 
    'DS5': {'valor': 125000, 'año': 2015}, 
    'Fusca': {'valor': 150000, 'año': 1976}, 
    'Jetta': {'valor': 88000, 'año': 2010}, 
    'Passat': {'valor': 106000, 'año': 1998}
}

In [None]:
for item in datos.items():
    if(item[1]['año'] >= 2000):
        print(item[0])

Crossfox
DS5
Jetta


# <font color=green> 4. FUNCIONES Y PAQUETES
---

Funciones son unidades de código reutilizables que realizan una tarea específica, pueden recibir alguna entrada y también pueden devolver algún resultado.

# 4.1 Built-in function

El lenguaje Python tiene varias funciones integradas que siempre están accesibles. Algunas ya las usamos en nuestro entrenamiento:
type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
datos = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
datos

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
valores = []
for valor in datos.values():
  valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [None]:
suma = 0
for valor in datos.values():
  suma += valor
suma

267072.74

In [None]:
list(datos.values())

[88078.64, 106161.94, 72832.16]

In [None]:
# Se puede iniciar con una cantidad ya establecida o solo lo requerido
sum(datos.values(), 1000000)

1267072.7399999998

In [None]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, start=0, /)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In [None]:
sum?

# 4.2 Definiendo funciones sin y con parámetros

### Funciones sin parámetros

#### Formato estándar

```
def <nombre>():
    <instrucciones>
```

In [None]:
def media():
  valor = (1+2+3)/3
  print(valor)

In [None]:
media()

2.0


### Funciones con parámetros

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
```

In [None]:
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2 + number_3)/3
  print(valor)

In [None]:
media(25,35,30)

30.0


In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  print(valor)

In [None]:
resultado = media([12,25,34,45])

29.0


In [None]:
resultado

In [None]:
type(resultado)

NoneType

# Ejercicio - kilometraje promedio de un vehiculo

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005}, 
    'DS5': {'km': 17000, 'año': 2015}, 
    'Fusca': {'km': 130000, 'año': 1979}, 
    'Jetta': {'km': 56000, 'año': 2011}, 
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, anho_actual):
  for item in dataset.items():
    result = item[1]['km'] / (anho_actual - item[1]['año'])
  print(result)

In [None]:
km_media(datos, 2019)

3100.0


# 4.3 Definiendo funciones que devuelven valores

### Funciones que devuelven un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return <resultado>
```

In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  return(valor)

In [None]:
media([15,45,32,87])

44.75

In [None]:
resultado = media([15,45,32,87])

In [None]:
resultado

44.75

### Funciones que devuelven más de un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  return(valor, len(lista))

In [None]:
media([15,64,34,72,3])

(37.6, 5)

In [None]:
resultado, n = media([15,64,34,72,3,15])

In [None]:
resultado

33.833333333333336

In [None]:
n

6

# Ejercicio - Mejorando funcion

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005}, 
    'DS5': {'km': 17000, 'año': 2015}, 
    'Fusca': {'km': 130000, 'año': 1979}, 
    'Jetta': {'km': 56000, 'año': 2011}, 
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, año_actual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (año_actual - item[1]['año'])
        result.update({item[0]: media})
    return result

In [None]:
km_media(datos, 2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

In [None]:
def km_media(dataset, año_actual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (año_actual - item[1]['año'])
        item[1].update({'km_media': media})
        result.update({item[0]: item[1]})
    return result

In [None]:
km_media(datos, 2019)

{'Crossfox': {'año': 2005, 'km': 35000, 'km_media': 2500.0},
 'DS5': {'año': 2015, 'km': 17000, 'km_media': 4250.0},
 'Fusca': {'año': 1979, 'km': 130000, 'km_media': 3250.0},
 'Jetta': {'año': 2011, 'km': 56000, 'km_media': 7000.0},
 'Passat': {'año': 1999, 'km': 62000, 'km_media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versión: 1.1.0**

Pandas es una herramienta de manipulación de datos de alto nivel, construida sobre la base del paquete Numpy. El paquete pandas tiene estructuras de datos muy interesantes para la manipulación de datos y, por esto, es ampliamente utilizado por los científicos de datos.


## Estructuras de Datos

### Series

Series son arrays unidimensionales etiquetados capaces de almacenar cualquier tipo de dato. Las etiquetas de las líneas se denominan **index**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy o una constante.

### DataFrames

DataFrame es una estructura de datos tabular bidimensional con etiquetas de fila y columna. Como la Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy, una Series y otro DataFrame.

**Documentación:** https://pandas.pydata.org/pandas-docs/version/1.1.0/

# 5.1 Estructuras de datos

In [None]:
import pandas as pd

### Creando una Series a partir de una lista

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Creando un DataFrame a partir de una lista de diccionarios

In [None]:
datos = [
    {'Nombre': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Año': 2003, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Passat', 'Motor': 'Motor Diesel', 'Año': 1991, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Año': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [None]:
dataset[['Nombre', 'Año', 'Motor', 'Kilometraje', 'Cero_km', 'Valor']]

Unnamed: 0,Nombre,Año,Motor,Kilometraje,Cero_km,Valor
0,Jetta Variant,2003,Motor 4.0 Turbo,44410.0,False,88078.64
1,Passat,1991,Motor Diesel,5712.0,False,106161.94
2,Crossfox,1990,Motor Diesel V8,37123.0,False,72832.16


### Creando un DataFrame a partir de un diccionario

In [None]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Año': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Creando un DataFrame a partir de un archivo externo

In [None]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [None]:
dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


# Ejercicio

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005}, 
    'DS5': {'km': 17000, 'año': 2015}, 
    'Fusca': {'km': 130000, 'año': 1979}, 
    'Jetta': {'km': 56000, 'año': 2011}, 
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, año_actual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (año_actual - item[1]['año'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [None]:
import pandas as pd
carros = pd.DataFrame(km_media(datos, 2019)).T

# ndarray.T: Devuelve la matriz transpuesta, es decir, convierte filas en columnas y viceversa.

In [None]:
carros

Unnamed: 0,km,año,km_media
Crossfox,35000.0,2005.0,2500.0
DS5,17000.0,2015.0,4250.0
Fusca,130000.0,1979.0,3250.0
Jetta,56000.0,2011.0,7000.0
Passat,62000.0,1999.0,3100.0


# 5.2 Selecciones con DataFrames


### Seleccionando columnas

In [None]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [None]:
dataset['Valor'] 
# Para seleccionar una columna especifica en formato series

Nombre
Jetta Variant             88078.64
Passat                   106161.94
Crossfox                  72832.16
DS5                      124549.07
Aston Martin DB4          92612.10
                           ...    
Phantom 2013              51759.58
Cadillac Ciel concept     51667.06
Classe GLK                68934.03
Aston Martin DB5         122110.90
Macan                     90381.47
Name: Valor, Length: 258, dtype: float64

In [None]:
type(dataset['Valor'])

pandas.core.series.Series

In [None]:
dataset[['Valor']]
# EL doble corchete para transformarlo en dataframe

Unnamed: 0_level_0,Valor
Nombre,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.10
...,...
Phantom 2013,51759.58
Cadillac Ciel concept,51667.06
Classe GLK,68934.03
Aston Martin DB5,122110.90


In [None]:
type(dataset[['Valor']])

pandas.core.frame.DataFrame

### Seleccionando lineas - [ i : j ] 

<font color=red>**Observación:**</font> La indexación tiene origen en cero y en las particiones(*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

In [None]:
dataset[0:3]
# Seleccionar por filas

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16


### Utilizando .loc para selecciones

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según las etiquetas o una matriz booleana.

In [None]:
dataset.loc['Passat']
# Para seleccionar un objeto especifico, mediante etiquetas

Motor                                               Motor Diesel
Año                                                         1991
Kilometraje                                               5712.0
Cero_km                                                    False
Accesorios     ['Central multimedia', 'Techo panorámico', 'Fr...
Valor                                                  106161.94
Name: Passat, dtype: object

In [None]:
dataset.loc[['Passat', 'DS5', 'Crossfox']]
# Para seleccionar mas de 1, se ingresan en dobles corchetes

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16


In [None]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]
# Para hacer una busqueda mas especifica, se separan mediante otro grupo de corchetes

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [None]:
dataset.loc[:, ['Motor', 'Valor']]
# : para seleccionar todas las filas de documento

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.10
...,...,...
Phantom 2013,Motor V8,51759.58
Cadillac Ciel concept,Motor V8,51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03
Aston Martin DB5,Motor Diesel,122110.90


### Utilizando .iloc para selecciones

<font color=red>**Observación:**</font> Selecciona con base en los índices, es decir, utiliza la posición de las informaciones.

In [None]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [None]:
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94


In [None]:
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07


Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [None]:
dataset.iloc[[1,42,22], [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


In [None]:
dataset.iloc[:, [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64,44410.0
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,
Aston Martin DB4,Motor 2.4 Turbo,92612.10,25757.0
...,...,...,...
Phantom 2013,Motor V8,51759.58,27505.0
Cadillac Ciel concept,Motor V8,51667.06,29981.0
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03,52637.0
Aston Martin DB5,Motor Diesel,122110.90,7685.0


# Ejercicio

In [None]:
# Solo seleccionar Passat y Crossfox, con los valores de Nombre, Año, Kilometraje y Valor

In [None]:
import pandas as pd

datos = {
   'Nombre': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'], 
   'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Año': [2019, 2003, 1991, 2019, 1990],
    'Kilometraje': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Cero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(datos)

In [None]:
dataset[['Nombre', 'Año', 'Kilometraje', 'Valor']][1:3]

Unnamed: 0,Nombre,Año,Kilometraje,Valor
1,Passat,2003,5712.0,106000.0
2,Crossfox,1991,37123.0,72000.0


In [None]:
# Crear un DataFrame de Passat y DS5 con los valores de Motor y Valor

In [None]:
datos = {
   'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
   'Año': [2019, 2003, 1991, 2019, 1990],
   'Kilometraje': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
   'Cero_km': [True, False, False, True, False],
   'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(datos, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [None]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


In [None]:
dataset.iloc[[1, 3], [0, -1]]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


# 5.3 Consultas en DataFrames

In [54]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [55]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [56]:
dataset.Motor

Nombre
Jetta Variant                  Motor 4.0 Turbo
Passat                            Motor Diesel
Crossfox                       Motor Diesel V8
DS5                            Motor 2.4 Turbo
Aston Martin DB4               Motor 2.4 Turbo
                                 ...          
Phantom 2013                          Motor V8
Cadillac Ciel concept                 Motor V8
Classe GLK               Motor 5.0 V8 Bi-Turbo
Aston Martin DB5                  Motor Diesel
Macan                          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

In [58]:
dataset.Motor == 'Motor Diesel'

Nombre
Jetta Variant            False
Passat                    True
Crossfox                 False
DS5                      False
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5          True
Macan                    False
Name: Motor, Length: 258, dtype: bool

In [59]:
type(dataset.Motor == 'Motor Diesel')

pandas.core.series.Series

In [61]:
dataset[dataset.Motor == 'Motor Diesel']
# Muestra la consulta en DataFrame con el parametro elegido

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Control de estabilidad', 'Panel digital', 'V...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamiento', 'Cerraduras elec...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Asientos de cuero', 'Transmisión automática'...",146716.91
Fit,Motor Diesel,2013,44329.0,False,"['Frenos ABS', 'Cámara de estacionamiento', 'T...",77836.23
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
A4 Sedan,Motor Diesel,2002,30511.0,False,"['Cámara de estacionamiento', '4 X 4', 'Cerrad...",96369.04
A4 Avant,Motor Diesel,2014,17357.0,False,"['Techo panorámico', '4 X 4', 'Asientos de cue...",138946.88


In [65]:
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True)]
# Se pueden hacer miltiples consultas

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Camry,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Llantas de aleación...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Control de tracción...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Ventanas eléctricas', 'Cerraduras electricas...",67539.79


### Utilizando el método query

In [66]:
dataset.query('Motor == "Motor Diesel" and Cero_km == True')

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Camry,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Llantas de aleación...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Control de tracción...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Ventanas eléctricas', 'Cerraduras electricas...",67539.79


# Ejercicio

In [68]:
import pandas as pd

datos = {
  'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor Diesel', 'Motor 1.6'],
    'Año': [2019, 2003, 1991, 2019, 1990],
    'Kilometraje': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Cero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(datos, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [70]:
dataset.query('Motor == "Motor Diesel" | Cero_km == True')

Unnamed: 0,Motor,Año,Kilometraje,Cero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


In [71]:
dataset[(dataset.Motor == 'Motor Diesel') | (dataset.Cero_km == True)]

Unnamed: 0,Motor,Año,Kilometraje,Cero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


In [72]:
dataset.query('Motor == "Motor Diesel" or Cero_km == True')

Unnamed: 0,Motor,Año,Kilometraje,Cero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


# 5.4 Iterando con DataFrames

In [74]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [75]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [77]:
for item in dataset:
  print(item)

Motor
Año
Kilometraje
Cero_km
Accesorios
Valor


In [78]:
list(dataset.iterrows())

[('Jetta Variant',
  Motor                                            Motor 4.0 Turbo
  Año                                                         2003
  Kilometraje                                              44410.0
  Cero_km                                                    False
  Accesorios     ['Llantas de aleación', 'Cerraduras electricas...
  Valor                                                   88078.64
  Name: Jetta Variant, dtype: object),
 ('Passat', Motor                                               Motor Diesel
  Año                                                         1991
  Kilometraje                                               5712.0
  Cero_km                                                    False
  Accesorios     ['Central multimedia', 'Techo panorámico', 'Fr...
  Valor                                                  106161.94
  Name: Passat, dtype: object),
 ('Crossfox', Motor                                            Motor Diesel V8
  Año            

In [82]:
# Desempaquetar 
for index, row in dataset.iterrows():
  if(2022 - row.Año != 0):
    dataset.loc[index, 'km_media'] = row.Kilometraje / (2022 - row.Año)
  else:
    dataset.loc[index, 'km_media'] = 0

dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2337.368421
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,184.258065
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1160.093750
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1609.812500
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,3438.125000
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,967.129032
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2631.850000
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,295.576923


# 5.5 Tratamiento de datos

In [83]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2337.368421
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,184.258065
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1160.09375
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1,1609.8125


In [84]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Motor        258 non-null    object 
 1   Año          258 non-null    int64  
 2   Kilometraje  197 non-null    float64
 3   Cero_km      258 non-null    bool   
 4   Accesorios   258 non-null    object 
 5   Valor        258 non-null    float64
 6   km_media     197 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 22.5+ KB


In [85]:
dataset.Kilometraje.isna()
# Saber cuales valores son nulos

Nombre
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                       True
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Name: Kilometraje, Length: 258, dtype: bool

In [86]:
dataset[dataset.Kilometraje.isna()]
# Muestra el dataframe con los parametros asignados

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
A5,Motor 4.0 Turbo,2019,,True,"['Transmisión automática', 'Cámara de estacion...",56445.20,
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Panel digital', 'Llant...",53183.38,
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,
Série 1 M,Motor V8,2019,,True,"['Control de estabilidad', 'Central multimedia...",94564.40,
...,...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Control de tracción', 'Aire condicionado', '...",67664.86,
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Transmisión automática...",126247.84,
Uno,Motor Diesel V6,2019,,True,"['Central multimedia', 'Sensor crepuscular', '...",128852.21,
Santa Fe,Motor 3.0 32v,2019,,True,"['Cerraduras electricas', 'Aire condicionado',...",129415.33,


In [89]:
dataset.fillna(0)
# Sustituye los valores NaN por 0

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2337.368421
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,184.258065
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1160.093750
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1609.812500
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,3438.125000
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,967.129032
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2631.850000
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,295.576923


In [90]:
dataset.fillna(0, inplace = True)
# Para asignar el valor en el dataframe

In [91]:
dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2337.368421
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,184.258065
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1160.093750
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1609.812500
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,3438.125000
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,967.129032
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2631.850000
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,295.576923


In [92]:
dataset.query('Cero_km == True')

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_media
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,0.0,True,"['Transmisión automática', 'Cámara de estacion...",56445.20,0.0
J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Panel digital', 'Llant...",53183.38,0.0
A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,0.0,True,"['Control de estabilidad', 'Central multimedia...",94564.40,0.0
...,...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,0.0,True,"['Control de tracción', 'Aire condicionado', '...",67664.86,0.0
Benni Mini,Motor V8,2019,0.0,True,"['Sensor crepuscular', 'Transmisión automática...",126247.84,0.0
Uno,Motor Diesel V6,2019,0.0,True,"['Central multimedia', 'Sensor crepuscular', '...",128852.21,0.0
Santa Fe,Motor 3.0 32v,2019,0.0,True,"['Cerraduras electricas', 'Aire condicionado',...",129415.33,0.0


In [None]:
# Volver a cargar el archivo original para mostrar que hacer cuando no se pueden remplazar los datos nulos

In [94]:
dataset = pd.read_csv('db.csv', sep = ';')

In [95]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [96]:
dataset.dropna(subset = ['Kilometraje'], inplace = True)
# Elimina los datos nulos

In [97]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamiento', 'Techo panorámic...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90
