<a href="https://colab.research.google.com/github/Alfonio/Alfonio/blob/main/Python_para_Data_Science_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUCCIÓN A PYTHON
---

# 1.1 Introducción

> Python es un lenguaje de programación de alto nivel con soporte a múltiples paradigmas de programación. Es un proyecto *open source* y desde su aparición en 1991, viene convirtiéndose en uno de los lenguajes de programación interpretados más populares.
>
> En los últimos años Python ha desarrollado una comunidad activa de procesamiento científico y análisis de datos y viene destacándose como uno de los lenguajes más relevantes cuando el asunto es ciencia de datos y machine learning, tanto en el entorno académico como también en el entorno laboral.

# 1.2 Instalación y entorno de trabajo

### Instalación Local

### https://www.python.org/downloads/
### o
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versión

In [None]:
!python -V

Python 3.10.12


# 1.3 Trabajando con datos

In [None]:
#Importamos la biblioteca de pandas como pd
import pandas as pd
#Para mostrar toda la tabla y no solo 10 filas, ponemos lo siguiente, el valor numerico son la cantidad de filas o columnas que quiera reemplazando el 10
pd.set_option("display.max.rows",1000)
pd.set_option("display.max.columns",10)

A continuacion, lee el archivo CSV llamado "db.csv" y lo carga en un DataFrame llamado "dataset". read_csv() es una función de pandas que permite leer datos de un archivo CSV y crear un DataFrame. El parámetro "sep" se establece en ";" para indicar que el separador de campos en el archivo CSV es el punto y coma.

In [None]:
dataset = pd.read_csv("db.csv", sep = ";")

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamiento', 'Techo panorámic...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Transmisión automática', 'Cámara de estacion...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Control de estabilidad', 'Sensor crepuscular...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Ventanas eléctricas', 'Piloto automático', '...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Aire condicionado', 'Panel digital', 'Centra...",76566.49


In [None]:
#Para saber el tipo de dato que tiene cada columna utilizamos lo siguiente
dataset.dtypes

Nombre          object
Motor           object
Año              int64
Kilometraje    float64
Cero_km           bool
Accesorios      object
Valor          float64
dtype: object

In [None]:
#llamar a las estadisticas por variables
dataset[["Kilometraje","Valor"]].describe()
#count: cantidad de encuentros de datos
#mean: es el valor de la mediana
#std: desviacion estandar
#min: valor minimo
#25%, 50%, 75%: porcerntajes de datos
#max: son los datos maximos registrados

Unnamed: 0,Kilometraje,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [None]:
#Para obtener informacion de nuestro dataset
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Nombre       258 non-null    object 
 1   Motor        258 non-null    object 
 2   Año          258 non-null    int64  
 3   Kilometraje  197 non-null    float64
 4   Cero_km      258 non-null    bool   
 5   Accesorios   258 non-null    object 
 6   Valor        258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABAJANDO CON TUPLAS
---

# 2.1 Creando tuplas

Tuplas son secuencias **inmutables** que son utilizadas para guardar colecciones de objetos, geralmente heterogéneos. Pueden ser construídas de varias formas:
```
- Utilizando un par de paréntesis: ( )
- Utilizando una coma a la derecha: x,
- Utilizando un par de paréntesis con objetos separados por comas: ( x, y, z )
- Utilizando: tuple() o tuple(iterador)
```

In [None]:
#tupla vacia
()

()

In [None]:
1,2,3

(1, 2, 3)

In [None]:
nombre = "ecosport"
valor = 15000
(nombre,valor)

('ecosport', 15000)

In [None]:
#convertir array en tupla, utilizo tuple()
nombres_autos = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombres_autos

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
type(nombres_autos)

tuple

# 2.2 Selecciones en tuplas

In [None]:
nombres_autos = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombres_autos

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
nombres_autos[0]

'Jetta Variant'

In [None]:
nombres_autos[1]

'Passat'

In [None]:
nombres_autos[-1]

'DS5'

In [None]:
#realizar cortes en nuestras tuplas nombres_autos[inicio:fin]. Indice final +1 para obtener ese valor
#si quiero el valor hasta el 2do valor, pongo 2+1=3
nombres_autos[1:3]

('Passat', 'Crossfox')

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [None]:
#acceder a una tupla adentro de otra segun el indice
nombres_carros[-1]

('Fusca', 'Gol', 'C4')

In [None]:
#acceder a una valor de tupla adentro de otra tupla segun el indice
nombres_carros[-1][1]

'Gol'

#**Ejercicio**

In [None]:
#ejercicio
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimedia', 'Techo panoramico', 'Frenos ABS')
    )
)

In [None]:
carros

(('Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  False,
  ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')),
 ('Passat',
  'Motor Diesel',
  1991,
  True,
  ('Central multimedia', 'Techo panoramico', 'Frenos ABS')))

In [None]:
carros[0][3]

False

In [None]:
carros[-1][-1][-1]

'Frenos ABS'

In [None]:
#fin del ejercicio
carros[0][-1][:2]

('Llantas de aleación', 'Cerraduras eléctricas')

# 2.3 Iterando en tuplas

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
for item in nombres_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacando tuplas

In [None]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
#imprime utilizando variables separadas
auto_1,auto_2,auto_3,auto_4 = nombres_carros

In [None]:
auto_1

'Jetta Variant'

In [None]:
auto_2

'Passat'

In [None]:
auto_3

'Crossfox'

In [None]:
auto_4

'DS5'

In [None]:
#por si yo quiero una variable especifica y no quiero las demas, las que no quiero van con _ . las que quiero le pongo nombre
_,var1,_,var2 = nombres_carros


In [None]:
var1

'Passat'

In [None]:
var2

'DS5'

In [None]:
#Para trabajar con grandes cantidades de codigo y tengo que ignorar una parte, pongo el *
# donde quiera finalizar la lectura. Es un truquito para BIG-DATA
_,var3,*_ = nombres_carros

In [None]:
var3

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

Se utiliza para combinar elementos de iterables diferentes en una sola estructura de datos conocida como un objeto zip. Toma como entrada dos o más iterables, como listas, tuplas o cadenas, y devuelve un iterador que genera tuplas que contienen elementos de los iterables originales en paralelo. Osea poner 2 listas juntas

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [None]:
#para verla
list(zip(carros, valores))
#si queremos saber la ubicacion guardada ponemos zip nada mas y los 2 arrays

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [None]:
#si lo queremos ver como tupla y no como tupla adentro de array
for item in zip(carros, valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [None]:
#Para desempaquetar todo
for carro,valor in zip(carros, valores):
  print(carro,valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [None]:
for carro,valor in zip(carros, valores):
  if (valor > 100000):
   print(carro,"Valor =",valor)

Passat Valor = 106161.94
DS5 Valor = 124549.07


# **Ejercicio**

In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Llantas de aleación', 'Cerraduras eléctricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimedia', 'Techo panoramico', 'Frenos ABS')
    )
)

In [None]:
for tupla in carros:
    for item in tupla[-1]:
        print(item)

Llantas de aleación
Cerraduras eléctricas
Piloto automático
Central multimedia
Techo panoramico
Frenos ABS


# **Ejercicio**

In [None]:
nombre, valor = ('Passat', 100000.0)

In [None]:
nombres = ['Passat', 'Crossfox']
valores = [100000.0, 75000.0]
list(zip(nombres, valores))

[('Passat', 100000.0), ('Crossfox', 75000.0)]

In [None]:
nombres = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [None]:
for nombre, km in zip(nombres, kms):
    if(km < 20000):
        print(nombre)

Passat
Crossfox
C4


# <font color=green> 3. TRABAJANDO CON DICCIONARIOS
---

# 3.1 Creando diccionarios

Listas son colecciones secuenciales, es decir, los elementos de estas secuencias están ordenados y utilizan índices (números enteros) para acceder a los valores.

Los diccionarios son colecciones ligeramente diferentes. Son estructuras de datos que representan un tipo de mapeo. Los mapeos son colecciones de asociaciones entre pares de valores donde el primer elemento del par se conoce como llave (*key*) y el segundo como valor (*value*).

```
diccionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [None]:
carros.index("Passat")

1

In [None]:
valores[carros.index("Passat")]

106161.94

In [None]:
#Creamos un diccionario para agilizar y no escribir lo de arriba
datos = {'Jetta Variant':88078.64,'Passat':106161.94,'Crossfox':72832.16}
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [None]:
type(datos)

dict

### Creando diccionarios con *zip()*

In [None]:
list(zip(carros,valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [None]:
#Pasar de una build de array de tuplas a una build de diccionario
datos = dict(zip(carros,valores))
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

# **Ejercicio**

In [None]:
nombres = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [None]:
dict(zip(nombres, kms))

{'Passat': 15000, 'Crossfox': 12000, 'DS5': 32000, 'C4': 8000, 'Jetta': 50000}

# 3.2 Operaciones con diccionarios

In [None]:
nombres = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [None]:
datos = {'Jetta Variant':88078.64,'Passat':106161.94,'Crossfox':72832.16}
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

## *dict[ key ]*

Devuelve el valor correspondiente a la llave (*key*) en el diccionario.

In [None]:
#Devuelve el valor del vehiculo
datos["Passat"]

106161.94

## *key in dict*

Devuelve **True** si la llave (*key*) es encontrada en el diccionario. Sino devuelve **False**

In [None]:
"Passat" in datos

True

In [None]:
"Ford-Focus" in datos

False

In [None]:
"Ford-Focus" not in datos

True

## *len(dict)*

Devuelve el número de items del diccionario.

In [None]:
len(datos)

3

## *dict[ key ] = value*

Incluye un item al diccionario.

In [None]:
datos["Ford-Ranger"] = 1440245.02
datos

{'Jetta Variant': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'Ford-Ranger': 1440245.02}

## *del dict[ key ]*

Borra el item de llave (*key*) del diccionario.

In [None]:
#Fijarse porque si devuelve un error significa que no existe
#en nuestro diccionario
del datos["Passat"]

In [None]:
#Elimino el elemento "Passat"
datos

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'Ford-Ranger': 1440245.02}

# **Ejercicio**

In [None]:
datos = {
    'Passat': {
        'año': 2012,
        'km': 50000,
        'valor': 75000,
        'accesorios': ['Airbag', 'ABS']
    },
    'Crossfox': {
        'año': 2015,
        'km': 35000,
        'valor': 25000
    }
}


In [None]:
'accesorios' in datos['Crossfox']

'accesorios' in 'Passat'

datos['Crossfox']['valor']

datos['Passat']['accesorios'][-1]

'ABS'

In [None]:
#Otra Posivilidad (acceder a Airbag)
datos['Passat']

{'año': 2012, 'km': 50000, 'valor': 75000, 'accesorios': ['Airbag', 'ABS']}

In [None]:
datos['Passat']['accesorios']

['Airbag', 'ABS']

In [None]:
datos['Passat']['accesorios'][0]

'Airbag'

# 3.3 Métodos de diccionarios

## *dict.update()*

Actualiza el diccionario.

In [None]:
datos

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'Ford-Ranger': 1440245.02}

In [None]:
#Restablecer,modificar o incluir otro elemento que saque con del
datos.update({'Passat':106161.94})
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'Ford-Ranger': 1440245.02,
 'Passat': 106161.94}

In [None]:
datos.update({'Passat':500000.45, "Renault 8":150000.25})
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'Ford-Ranger': 1440245.02,
 'Passat': 500000.45,
 'Renault 8': 150000.25}

## *dict.copy()*

Crea una copia del diccionario.

In [None]:
#Podemos copiar el contenido de nuestro diccionario en otro diccionario
datosCopy = datos.copy()
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'Ford-Ranger': 1440245.02,
 'Passat': 500000.45,
 'Renault 8': 150000.25}

In [None]:
del datosCopy['Ford-Ranger']
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'Passat': 500000.45,
 'Renault 8': 150000.25}

In [None]:
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'Ford-Ranger': 1440245.02,
 'Passat': 500000.45,
 'Renault 8': 150000.25}

## *dict.pop(key[, default ])*

Si la llave se encuentra en el diccionario, el elemento se elimina y se devuelve su valor. De lo contrario, se devuelve el valor especificado como *default*. Si no se proporciona el valor *default* y la llave no se encuentra en el diccionario, se generará un error.

In [None]:
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'Passat': 500000.45,
 'Renault 8': 150000.25}

In [None]:
datosCopy.pop("Passat")

500000.45

In [None]:
datosCopy

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'Renault 8': 150000.25}

In [None]:
#si ya no existe nos sale un error
#datosCopy.pop("Passat")

In [None]:
#Podemos personalizar el error si es que no se encuentra el dato
datosCopy.pop("Passat","La Llave no se encontro")

'La Llave no se encontro'

In [None]:
datosCopy.pop("Crossfox","La Llave no se encontro")

72832.16

In [None]:
datosCopy

{'Jetta Variant': 88078.64, 'Renault 8': 150000.25}

## *dict.clear()*

Borra todos los items del diccionario.

In [None]:
datosCopy

{'Jetta Variant': 88078.64, 'Renault 8': 150000.25}

In [None]:
datosCopy.clear()

In [None]:
datosCopy

{}

# **Ejercicio**

In [None]:
#Tengo mi diccionario
datosej = {'Jetta': 88000, 'Crossfox': 72000, 'DS5': 124000}

In [None]:
 #Agrego 2 autos con sus valores
 datosej.update({'Passat': 85000, 'Fusca': 150000})

In [None]:
#Cambio el valor de los autos nuevos agregados y los mustro
datosej.update(Passat = 95000, Fusca = 160000)
datosej

{'Jetta': 88000,
 'Crossfox': 72000,
 'DS5': 124000,
 'Passat': 95000,
 'Fusca': 160000}

# 3.4 Iterando en diccionarios

In [None]:
datos = {'Jetta Variant':88078.64, 'Ford-Ranger': 1440245.02, "Renault 8": 150000.25,'Passat':106161.94,'Crossfox':72832.16}
datos

{'Jetta Variant': 88078.64,
 'Ford-Ranger': 1440245.02,
 'Renault 8': 150000.25,
 'Passat': 106161.94,
 'Crossfox': 72832.16}

## *dict.keys()*

Devuelve una lista con las llaves (*keys*) del diccionario.

In [None]:
datos.keys()

dict_keys(['Jetta Variant', 'Ford-Ranger', 'Renault 8', 'Passat', 'Crossfox'])

In [None]:
for key in datos.keys():
  print(key)

Jetta Variant
Ford-Ranger
Renault 8
Passat
Crossfox


## *dict.values()*

Devuelve una lista con todos los valores (*values*) del diccionario.

In [None]:
datos.values()

dict_values([88078.64, 1440245.02, 150000.25, 106161.94, 72832.16])

In [None]:
for values in datos.values():
  print(values)

88078.64
1440245.02
150000.25
106161.94
72832.16


## *dict.items()*

Devuelve una lista con una tupla para cada par llave-valor (*key-value*) del diccionario.

In [None]:
datos.items()

dict_items([('Jetta Variant', 88078.64), ('Ford-Ranger', 1440245.02), ('Renault 8', 150000.25), ('Passat', 106161.94), ('Crossfox', 72832.16)])

In [None]:
for items in datos.items():
  print(items)

('Jetta Variant', 88078.64)
('Ford-Ranger', 1440245.02)
('Renault 8', 150000.25)
('Passat', 106161.94)
('Crossfox', 72832.16)


In [None]:
for key,value in datos.items():
  print(key,"-->",value)

Jetta Variant --> 88078.64
Ford-Ranger --> 1440245.02
Renault 8 --> 150000.25
Passat --> 106161.94
Crossfox --> 72832.16


In [None]:
for key,value in datos.items():
  if(value)>100000:
   print(key)

Ford-Ranger
Renault 8
Passat


# **Ejercicio**

Selecciona la alternativa que muestre el código que imprima sólo los nombres de los vehículos que tengan el año de fabricación mayor o igual a 2000.

In [None]:
datos = {
    'Crossfox': {'valor': 72000, 'año': 2005},
    'DS5': {'valor': 125000, 'año': 2015},
    'Fusca': {'valor': 150000, 'año': 1976},
    'Jetta': {'valor': 88000, 'año': 2010},
    'Passat': {'valor': 106000, 'año': 1998}
}

Para acceder a la clave del diccionario, basta utilizar item[0], y para acceder al valor, basta usar item[1]. Para acceder el año dentro del diccionario, usamos item[1] ['año'].

In [None]:
for item in datos.items():
    if(item[1]['año'] >= 2000):
        print(item[0])

Crossfox
DS5
Jetta


# <font color=green> 4. FUNCIONES Y PAQUETES
---

Funciones son unidades de código reutilizables que realizan una tarea específica, pueden recibir alguna entrada y también pueden devolver algún resultado.

# 4.1 Built-in function

El lenguaje Python tiene varias funciones integradas que siempre están accesibles. Algunas ya las usamos en nuestro entrenamiento:
type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

MANERA DIFICIL: SIN **built-in functions**

In [None]:
#Que tenemos que hacer para sumar los valores sin
#las build functions
datos = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [None]:
#Transformo el diccionario en una array
valores = []
for valor in datos.values():
   valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [None]:
#Sumo los valores del array
suma = 0
for valor in datos.values():
   valores.append(valor)
   suma+=valor
suma

267072.74

MANERA FACIL: CON **built-in functions**

In [None]:
#Transformo el diccionario en una array
list(datos.values())

[88078.64, 106161.94, 72832.16]

In [None]:
#Sumo los valores del array
#Puedo poner ,x (en el 0) donde x es el valor inicial al que se le suma
sum(datos.values(),0)

267072.74

In [None]:
list(datos.values())
#Se le suma datos.values() a 200000.00
sum(datos.values(),200000.00)

467072.74

Pedir ayuda o informacion de la **built-in functions**

In [None]:
#ponemos help(y aca adentro la function)
help(print)

In [None]:
#Ponemos la function y un ? seguidamente
print?

# 4.2 Definiendo funciones sin y con parámetros

### Funciones sin parámetros

#### Formato estándar

```
def <nombre>():
    <instrucciones>
```

In [None]:
def media():
  valor = (1+2+3)/3
  print(valor)

In [None]:
media()

2.0


### Funciones con parámetros

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
```

In [None]:
def media(numero1,numero2,numero3):
  valor = (numero1+numero2+numero3)/3
  print(valor)

In [None]:
media(1,2,3)

2.0


In [None]:
media(50,100,150)

100.0


**FUNCION DE N NUMEROS POR N CALCULOS**

In [None]:
#Esta funcion muestra por pantalla pero no retorna ningun valor
def media(lista):
  valor = (sum(lista))/len(lista)
  print(valor)

In [None]:
resultado = media([1,2,3,4,5,6,7,8,9])

In [None]:
resultado

In [None]:
#No retorna ningun valor al resultado
type(resultado)

NoneType

# **EJERCICIO**

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005},
    'DS5': {'km': 17000, 'año': 2015},
    'Fusca': {'km': 130000, 'año': 1979},
    'Jetta': {'km': 56000, 'año': 2011},
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, año_actual):
    for item in dataset.items():
        result = item[1]['km'] / (año_actual - item[1]['año'])
        print(result)

In [None]:
km_media(datos, 2019)

2500.0
4250.0
3250.0
7000.0
3100.0


# 4.3 Definiendo funciones que devuelven valores

### Funciones que devuelven un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return <resultado>
```

In [None]:
def media(lista):
  valor = (sum(lista))/len(lista)
  return(valor)

In [None]:
media([1,2,3,4,5,6,7,8,9])

5.0

In [None]:
resultado = media([1,2,3,4,5,6,7,8,9])

In [None]:
resultado

5.0

### Funciones que devuelven más de un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
#Que devuelva el promedio y la longitud de la lista
def media(lista):
  valor = (sum(lista))/len(lista)
  return(valor,len(lista))

In [None]:
#Devuelve una tupla
media([1,2,3,4,5,6,7,8,9])

(5.0, 9)

In [None]:
resultado, n = media([1,2,3,4,5,6,7,8,9])

In [None]:
resultado

5.0

In [None]:
n

9

# **Ejercicio**

La siguiente estructura es la definición de una función que calcula el kilometraje promedio anual de cada vehículo y devuelve un diccionario con los nombres de los vehículos como llaves y el kilometraje promedio como valores:

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005},
    'DS5': {'km': 17000, 'año': 2015},
    'Fusca': {'km': 130000, 'año': 1979},
    'Jetta': {'km': 56000, 'año': 2011},
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, año_actual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (año_actual - item[1]['año'])
        result.update({ item[0]: media })
    return result

In [None]:
km_media(datos, 2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

# **Ejercicio**

La siguiente estructura es la definición de una función que calcula el kilometraje promedio anual de cada vehículo, actualiza el diccionario de entrada y devuelve este diccionario:

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005},
    'DS5': {'km': 17000, 'año': 2015},
    'Fusca': {'km': 130000, 'año': 1979},
    'Jetta': {'km': 56000, 'año': 2011},
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, año_actual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (año_actual - item[1]['año'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })
    return result

In [None]:
km_media(datos, 2019)

{'Crossfox': {'km': 35000, 'año': 2005, 'km_media': 2500.0},
 'DS5': {'km': 17000, 'año': 2015, 'km_media': 4250.0},
 'Fusca': {'km': 130000, 'año': 1979, 'km_media': 3250.0},
 'Jetta': {'km': 56000, 'año': 2011, 'km_media': 7000.0},
 'Passat': {'km': 62000, 'año': 1999, 'km_media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versión: 1.1.0**

Pandas es una herramienta de manipulación de datos de alto nivel, construida sobre la base del paquete Numpy. El paquete pandas tiene estructuras de datos muy interesantes para la manipulación de datos y, por esto, es ampliamente utilizado por los científicos de datos.


## Estructuras de Datos

### Series

Series son arrays unidimensionales etiquetados capaces de almacenar cualquier tipo de dato. Las etiquetas de las líneas se denominan **index**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy o una constante.

### DataFrames

DataFrame es una estructura de datos tabular bidimensional con etiquetas de fila y columna. Como la Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy, una Series y otro DataFrame.

**Documentación:** https://pandas.pydata.org/pandas-docs/version/1.1.0/

# 5.1 Estructuras de datos

Series()

In [None]:
import pandas as pd

### Creando una Series a partir de una lista

In [None]:
autos = ["Dodge Viper","Ford Mustang","Lamborghini"]
autos

['Dodge Viper', 'Ford Mustang', 'Lamborghini']

In [None]:
pd.Series(autos)

0     Dodge Viper
1    Ford Mustang
2     Lamborghini
dtype: object

### Creando un DataFrame a partir de una lista de diccionarios

In [None]:
datos = [
    {'Nombre': 'Dodge Viper', 'Motor': 'Motor 4.0 Turbo', 'Año': 2003, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Ford Mustang', 'Motor': 'Motor Diesel', 'Año': 1991, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Lamborghini', 'Motor': 'Motor Diesel V8', 'Año': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

In [None]:
#Creamos un DataFrame()
dataset = pd.DataFrame(datos)

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Dodge Viper,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Ford Mustang,Motor Diesel,1991,5712.0,False,106161.94
2,Lamborghini,Motor Diesel V8,1990,37123.0,False,72832.16


In [None]:
#Por si yo quiero cambiar el orden en el que se muestran los datos del DataFrame
dataset[["Nombre","Año","Cero_km","Kilometraje","Motor","Valor"]]

Unnamed: 0,Nombre,Año,Cero_km,Kilometraje,Motor,Valor
0,Dodge Viper,2003,False,44410.0,Motor 4.0 Turbo,88078.64
1,Ford Mustang,1991,False,5712.0,Motor Diesel,106161.94
2,Lamborghini,1990,False,37123.0,Motor Diesel V8,72832.16


### Creando un DataFrame a partir de un diccionario

In [None]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Año': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Creando un DataFrame a partir de un archivo externo

In [None]:
#Poner el archivo de excel "db.csv" adentro de las carpetas
#En sep(algo), puedo poner "\t" , ";" . Poner siempre ; mejor
#adentro de sep() puedo poner ,index_col = x y hace referencia a ese valor
dataset = pd.read_csv("db.csv", sep =";")

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


# **Ejercicio**

In [None]:
datos = {
    'Crossfox': {'km': 35000, 'año': 2005},
    'DS5': {'km': 17000, 'año': 2015},
    'Fusca': {'km': 130000, 'año': 1979},
    'Jetta': {'km': 56000, 'año': 2011},
    'Passat': {'km': 62000, 'año': 1999}
}

In [None]:
def km_media(dataset, año_actual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (año_actual - item[1]['año'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [None]:
km_media(datos, 2019)

{'Crossfox': {'km': 35000, 'año': 2005, 'km_media': 2500.0},
 'DS5': {'km': 17000, 'año': 2015, 'km_media': 4250.0},
 'Fusca': {'km': 130000, 'año': 1979, 'km_media': 3250.0},
 'Jetta': {'km': 56000, 'año': 2011, 'km_media': 7000.0},
 'Passat': {'km': 62000, 'año': 1999, 'km_media': 3100.0}}

In [None]:
import pandas as pd
carros = pd.DataFrame(km_media(datos, 2019)).T

In [None]:
carros

Unnamed: 0,km,año,km_media
Crossfox,35000.0,2005.0,2500.0
DS5,17000.0,2015.0,4250.0
Fusca,130000.0,1979.0,3250.0
Jetta,56000.0,2011.0,7000.0
Passat,62000.0,1999.0,3100.0


# 5.2 Selecciones con DataFrames

### Seleccionando columnas

In [None]:
dataset = pd.read_csv("db.csv", sep =";",index_col=0)

In [None]:
#dataset.head(x), da vista previa de x filas
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [None]:
#Da nombre y balor de cada uno
dataset["Valor"]

Nombre
Jetta Variant             88078.64
Passat                   106161.94
Crossfox                  72832.16
DS5                      124549.07
Aston Martin DB4          92612.10
                           ...    
Phantom 2013              51759.58
Cadillac Ciel concept     51667.06
Classe GLK                68934.03
Aston Martin DB5         122110.90
Macan                     90381.47
Name: Valor, Length: 258, dtype: float64

In [None]:
#El tipo de dato es un archivo de tipo series
type(dataset["Valor"])

pandas.core.series.Series

In [None]:
#Lo mismo pero en un DataFrame
dataset[["Valor"]]

Unnamed: 0_level_0,Valor
Nombre,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.10
...,...
Phantom 2013,51759.58
Cadillac Ciel concept,51667.06
Classe GLK,68934.03
Aston Martin DB5,122110.90


In [None]:
#El tipo de dato es un archivo de tipo DataFrame
type(dataset[["Valor"]])

pandas.core.frame.DataFrame

### Seleccionando lineas - [ i : j ]

<font color=red>**Observación:**</font> La indexación tiene origen en cero y en las particiones(*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

In [None]:
# X,Y  X es desde tal fila, Y es hasta tal fila
dataset[0:5]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


### Utilizando .loc para selecciones

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según las etiquetas o una matriz booleana.

In [None]:
#Basicamente buscas las caracteristicas por nombre
dataset.loc['Passat']

Motor                                               Motor Diesel
Año                                                         1991
Kilometraje                                               5712.0
Cero_km                                                    False
Accesorios     ['Central multimedia', 'Techo panorámico', 'Fr...
Valor                                                  106161.94
Name: Passat, dtype: object

In [None]:
#Si yo lo quiero en un DataFrame
dataset.loc[['Passat']]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94


In [None]:
#Si yo quiero un tipo de dato especifico solo pongo ,"tipo de dato que quiera"
dataset.loc['Passat','Valor']

106161.94

In [None]:
#Si yo quiero mas de un index de busqueda
dataset.loc[['Passat','DS5']]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07


In [None]:
#Si yo quiero ver una columna especifica
dataset.loc[['Passat','DS5'],['Motor','Valor']]

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [None]:
#Si quiero ver todos los index pongo : nada mas y no un nombre
dataset.loc[:,['Motor','Valor']]

Unnamed: 0_level_0,Motor,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.10
...,...,...
Phantom 2013,Motor V8,51759.58
Cadillac Ciel concept,Motor V8,51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03
Aston Martin DB5,Motor Diesel,122110.90


### Utilizando .iloc para selecciones

<font color=red>**Observación:**</font> Selecciona con base en los índices, es decir, utiliza la posición de las informaciones.

In [None]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [None]:
#Buscar por pocision y no por index/nombre
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94


In [None]:
#Si yo quiero mostrar un intervalo de posiciones, uso un solo[]
#Empieza en 0 y termina en n-1
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07


In [None]:
#Poner las columnas como yo quiera. ejemplo Motor,Valor,Kilometraje
dataset.iloc[1:4,[0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [None]:
#Las filas que yo quiera, ejemplo [1,42,22]
dataset.iloc[[1,42,22],[0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


In [None]:
#Para que muestre todas ponemos :
dataset.iloc[:,[0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Kilometraje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64,44410.0
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,
Aston Martin DB4,Motor 2.4 Turbo,92612.10,25757.0
...,...,...,...
Phantom 2013,Motor V8,51759.58,27505.0
Cadillac Ciel concept,Motor V8,51667.06,29981.0
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03,52637.0
Aston Martin DB5,Motor Diesel,122110.90,7685.0


# **Ejercicio**

Elige la alternativa que contenga el código que selecciona solamente las informaciones de Nombre, Año, Kilometraje y Valor de los vehículos Passat y Crossfox.

In [None]:
import pandas as pd

datos = {
   'Nombre': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'],
   'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Año': [2019, 2003, 1991, 2019, 1990],
    'Kilometraje': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Cero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(datos)

In [None]:
dataset[['Nombre', 'Año', 'Kilometraje', 'Valor']][1:3]




Unnamed: 0,Nombre,Año,Kilometraje,Valor
1,Passat,2003,5712.0,106000.0
2,Crossfox,1991,37123.0,72000.0


# **Ejercicio**

In [None]:
import pandas as pd

datos = {
   'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
   'Año': [2019, 2003, 1991, 2019, 1990],
   'Kilometraje': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
   'Cero_km': [True, False, False, True, False],
   'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(datos, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [None]:
dataset.iloc[[1, 3], [0, -1]]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


In [None]:
# dataset.loc[['Passat','DS5'], ['Motor','Valor']]

# 5.3 Consultas en DataFrames
queries/query

In [None]:
#Cuando no tienen nombres para buscar
dataset.Motor

Nombre
Jetta Variant                  Motor 4.0 Turbo
Passat                            Motor Diesel
Crossfox                       Motor Diesel V8
DS5                            Motor 2.4 Turbo
Aston Martin DB4               Motor 2.4 Turbo
                                 ...          
Phantom 2013                          Motor V8
Cadillac Ciel concept                 Motor V8
Classe GLK               Motor 5.0 V8 Bi-Turbo
Aston Martin DB5                  Motor Diesel
Macan                          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

In [None]:
#Quiero buscar los motores que digan Motor Diesel
dataset.Motor == "Motor Diesel"

Nombre
Jetta Variant            False
Passat                    True
Crossfox                 False
DS5                      False
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5          True
Macan                    False
Name: Motor, Length: 258, dtype: bool

In [None]:
#Es una serie booleana
type(dataset.Motor == "Motor Diesel")

pandas.core.series.Series

In [None]:
#Va a devolver solo las que tengan True
dataset[dataset.Motor == "Motor Diesel"]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Control de estabilidad', 'Panel digital', 'V...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamiento', 'Cerraduras elec...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Asientos de cuero', 'Transmisión automática'...",146716.91
Fit,Motor Diesel,2013,44329.0,False,"['Frenos ABS', 'Cámara de estacionamiento', 'T...",77836.23
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
A4 Sedan,Motor Diesel,2002,30511.0,False,"['Cámara de estacionamiento', '4 X 4', 'Cerrad...",96369.04
A4 Avant,Motor Diesel,2014,17357.0,False,"['Techo panorámico', '4 X 4', 'Asientos de cue...",138946.88


In [None]:
#Hago la condiccion que tenga motor diesel y que sea un cero kilometro
dataset[(dataset.Motor == "Motor Diesel") & (dataset.Cero_km == True)]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Camry,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Llantas de aleación...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Control de tracción...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Ventanas eléctricas', 'Cerraduras electricas...",67539.79


### Utilizando el método query

In [None]:
#Otra manera mas facil de hacer lo mismo que arriba
dataset.query('Motor == "Motor Diesel" and Cero_km == True')

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de lluvia', 'Cámara de estacionamient...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Panel digital', 'Central multimedia', 'Cámar...",145197.7
Camry,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Llantas de aleación...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Cerraduras electricas', 'Control de tracción...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Ventanas eléctricas', 'Cerraduras electricas...",67539.79


# 5.4 Iterando con DataFrames

In [None]:
for item in dataset:
  print(item)

Motor
Año
Kilometraje
Cero_km
Accesorios
Valor


In [None]:
list(dataset.iterrows())

[('Jetta Variant',
  Motor                                            Motor 4.0 Turbo
  Año                                                         2003
  Kilometraje                                              44410.0
  Cero_km                                                    False
  Accesorios     ['Llantas de aleación', 'Cerraduras electricas...
  Valor                                                   88078.64
  km_promedio                                          2612.352941
  Name: Jetta Variant, dtype: object),
 ('Passat',
  Motor                                               Motor Diesel
  Año                                                         1991
  Kilometraje                                               5712.0
  Cero_km                                                    False
  Accesorios     ['Central multimedia', 'Techo panorámico', 'Fr...
  Valor                                                  106161.94
  km_promedio                                           196

In [None]:
for index, row in dataset.iterrows():
  if(2020 - row.Año != 0):
    dataset.loc[index,'km_promedio'] = row.Kilometraje / (2020 - row.Año)
  else:
    dataset.loc[index,'km_promedio'] = 0

In [None]:
 dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1839.785714
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,4584.166667
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,1033.827586
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2924.277778
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,320.208333


# 5.5 Tratamiento de datos

In [None]:
dataset.head()

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1,1839.785714


In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Motor        258 non-null    object 
 1   Año          258 non-null    int64  
 2   Kilometraje  197 non-null    float64
 3   Cero_km      258 non-null    bool   
 4   Accesorios   258 non-null    object 
 5   Valor        258 non-null    float64
 6   km_promedio  197 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 22.5+ KB


In [None]:
dataset.Kilometraje.isna()

Nombre
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                       True
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Name: Kilometraje, Length: 258, dtype: bool

In [None]:
dataset[dataset.Kilometraje.isna()]

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
A5,Motor 4.0 Turbo,2019,,True,"['Transmisión automática', 'Cámara de estacion...",56445.20,
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Panel digital', 'Llant...",53183.38,
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,
Série 1 M,Motor V8,2019,,True,"['Control de estabilidad', 'Central multimedia...",94564.40,
...,...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Control de tracción', 'Aire condicionado', '...",67664.86,
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Transmisión automática...",126247.84,
Uno,Motor Diesel V6,2019,,True,"['Central multimedia', 'Sensor crepuscular', '...",128852.21,
Santa Fe,Motor 3.0 32v,2019,,True,"['Cerraduras electricas', 'Aire condicionado',...",129415.33,


In [None]:
dataset.fillna(0)

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1839.785714
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,4584.166667
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,1033.827586
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2924.277778
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,320.208333


In [None]:
dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1839.785714
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,4584.166667
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,1033.827586
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2924.277778
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,320.208333


In [None]:
#Esto lo reemplaza al NaN
dataset.fillna(0, inplace = True)

In [None]:
dataset

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64,2612.352941
Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94,196.965517
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16,1237.433333
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10,1839.785714
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58,4584.166667
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06,1033.827586
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03,2924.277778
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90,320.208333


In [None]:
dataset.query('Cero_km == True')

Unnamed: 0_level_0,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor,km_promedio
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,0.0,True,"['Transmisión automática', 'Cámara de estacion...",56445.20,0.0
J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Panel digital', 'Llant...",53183.38,0.0
A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,0.0,True,"['Control de estabilidad', 'Central multimedia...",94564.40,0.0
...,...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,0.0,True,"['Control de tracción', 'Aire condicionado', '...",67664.86,0.0
Benni Mini,Motor V8,2019,0.0,True,"['Sensor crepuscular', 'Transmisión automática...",126247.84,0.0
Uno,Motor Diesel V6,2019,0.0,True,"['Central multimedia', 'Sensor crepuscular', '...",128852.21,0.0
Santa Fe,Motor 3.0 32v,2019,0.0,True,"['Cerraduras electricas', 'Aire condicionado',...",129415.33,0.0


In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


In [None]:
#Elimitarlo directamente
dataset.dropna(subset = ['Kilometraje'], inplace = True)

In [None]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamiento', 'Techo panorámic...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90
