# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUCCIÓN A PYTHON
---

# 1.1 Introducción

> Python es un lenguaje de programación de alto nivel con soporte a múltiples paradigmas de programación. Es un proyecto *open source* y desde su aparición en 1991, viene convirtiéndose en uno de los lenguajes de programación interpretados más populares. 
>
> En los últimos años Python ha desarrollado una comunidad activa de procesamiento científico y análisis de datos y viene destacándose como uno de los lenguajes más relevantes cuando el asunto es ciencia de datos y machine learning, tanto en el entorno académico como también en el entorno laboral.

# 1.2 Instalación y entorno de trabajo

### Instalación Local

### https://www.python.org/downloads/
### o
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versión

In [99]:
!python -V

Python 3.11.5


# 1.3 Trabajando con datos

In [100]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [101]:
df = pd.read_csv('./data/db.csv', sep=';')
df.head()

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.1


In [102]:
df.fillna(0,inplace=True)

In [103]:
df[['Nombre','Año','Kilometraje','Valor']].head(5)

Unnamed: 0,Nombre,Año,Kilometraje,Valor
0,Jetta Variant,2003,44410.0,88078.64
1,Passat,1991,5712.0,106161.94
2,Crossfox,1990,37123.0,72832.16
3,DS5,2019,0.0,124549.07
4,Aston Martin DB4,2006,25757.0,92612.1


In [104]:
round(df[['Kilometraje','Valor']].describe(), 2)

Unnamed: 0,Kilometraje,Valor
count,258.0,258.0
mean,44499.41,98960.51
std,39937.3,29811.93
min,0.0,50742.1
25%,2453.0,70743.51
50%,37104.5,97724.38
75%,81532.75,124633.3
max,119945.0,149489.92


In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Nombre       258 non-null    object 
 1   Motor        258 non-null    object 
 2   Año          258 non-null    int64  
 3   Kilometraje  258 non-null    float64
 4   Cero_km      258 non-null    bool   
 5   Accesorios   258 non-null    object 
 6   Valor        258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


En esta aula aprendimos:

Los ambientes de desarrollo para el lenguaje Python.
A crear DataFrames con el paquete pandas, utilizando datos externos.
Cómo obtener informaciones básicas de un DataFrame.
Cómo obtener estadísticas descriptivas de los datos de un DataFrame.

# <font color=green> 2. TRABAJANDO CON TUPLAS
---

# 2.1 Creando tuplas

Tuplas son secuencias **inmutables** que son utilizadas para guardar colecciones de objetos, geralmente heterogéneos. Pueden ser construídas de varias formas:
```
- Utilizando un par de paréntesis: ( )
- Utilizando una coma a la derecha: x,
- Utilizando un par de paréntesis con objetos separados por comas: ( x, y, z )
- Utilizando: tuple() o tuple(iterador)
```

In [106]:
()

()

In [107]:
('Hola','Mundo')

('Hola', 'Mundo')

In [108]:
1,2,3,4,5,6

(1, 2, 3, 4, 5, 6)

In [109]:
nombre = 'Passat'
valor = 153000
(nombre,valor)

('Passat', 153000)

In [110]:
autos = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
autos

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [111]:
type(autos)

tuple

# 2.2 Selecciones en tuplas

In [112]:

autos[0]

'Jetta Variant'

In [113]:
i = -1
for auto in autos:
    i += 1
    print(f'Auto: {auto} posición: {i}')

Auto: Jetta Variant posición: 0
Auto: Passat posición: 1
Auto: Crossfox posición: 2
Auto: DS5 posición: 3


In [114]:
i = -1
for auto in autos[1:3]:
    i += 1
    print(f'Auto: {auto} posición: {i}')

Auto: Passat posición: 0
Auto: Crossfox posición: 1


In [115]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nombres_carros[-1]

('Fusca', 'Gol', 'C4')

In [116]:
nombres_carros[-1][1]

'Gol'

# 2.3 Iterando en tuplas

In [117]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [118]:
i = -1
for auto in autos:
    i += 1
    print(f'Auto: {auto} posición: {i}')

Auto: Jetta Variant posición: 0
Auto: Passat posición: 1
Auto: Crossfox posición: 2
Auto: DS5 posición: 3


In [119]:
i = -1
for auto in autos[1:3]:
    i += 1
    print(f'Auto: {auto} posición: {i}')

Auto: Passat posición: 0
Auto: Crossfox posición: 1


In [120]:
auto1, auto2 , auto3, auto4 = autos

In [121]:
print(f'''
      Los valores dentro de la tupla son los siguientes:
      {auto1}
      {auto2}
      {auto3}
      {auto4}
      ''')


      Los valores dentro de la tupla son los siguientes:
      Jetta Variant
      Passat
      Crossfox
      DS5
      


In [122]:
a, _ , b, _ = autos

In [123]:
print(f'''
      Los valores dentro de la tupla son los siguientes:
      {a}
      {b}
      ''')


      Los valores dentro de la tupla son los siguientes:
      Jetta Variant
      Crossfox
      


In [124]:
a, *_= autos

In [125]:
a

'Jetta Variant'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [126]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [127]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [128]:
list(zip(carros,valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [129]:
for i in zip(carros,valores):
    print(i)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [130]:
for i, x in zip(carros,valores):
    print(f'Auto marca: {i} Precio: {x}')

Auto marca: Jetta Variant Precio: 88078.64
Auto marca: Passat Precio: 106161.94
Auto marca: Crossfox Precio: 72832.16
Auto marca: DS5 Precio: 124549.07


In [131]:
for i, x in zip(carros,valores):
    if x >= 100000:
        print(f'Auto marca: {i} Precio: {x}')

Auto marca: Passat Precio: 106161.94
Auto marca: DS5 Precio: 124549.07


En esta aula aprendimos:

Qué son las tuplas.
Formas de crear una tupla.
Técnicas de selección de elementos y particionamiento con tuplas de Python.
Formas de iterar una tupla.
La técnica conocida como desempaquetado de tuplas.
A utilizar la built-in function zip().

# <font color=green> 3. TRABAJANDO CON DICCIONARIOS
---

# 3.1 Creando diccionarios

Listas son colecciones secuenciales, es decir, los elementos de estas secuencias están ordenados y utilizan índices (números enteros) para acceder a los valores.

Los diccionarios son colecciones ligeramente diferentes. Son estructuras de datos que representan un tipo de mapeo. Los mapeos son colecciones de asociaciones entre pares de valores donde el primer elemento del par se conoce como llave (*key*) y el segundo como valor (*value*).

```
diccionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

['Jetta Variant', 'Passat', 'Crossfox']

In [133]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [134]:
carros.index('Passat')

1

In [135]:
valores[carros.index('Passat')]

106161.94

In [156]:
datos = {
        'Jetta Variant':88078.6,
         'Passat':106161.94,
         'Crossfox':72832.16
         }
datos

{'Jetta Variant': 88078.6, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [137]:
type(datos)

dict

### Creando diccionarios con *zip()*

In [162]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [163]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [165]:
zip(carros, valores)

<zip at 0x19d2d655200>

In [None]:
# datos = dict(zip(carros , valores))
# dict

In [175]:
datos = {
        'Jetta Variant':88078.6,
         'Passat':106161.94,
         'Crossfox':72832.16
         }
datos

{'Jetta Variant': 88078.6, 'Passat': 106161.94, 'Crossfox': 72832.16}

# 3.2 Operaciones con diccionarios

## *dict[ key ]*

Devuelve el valor correspondiente a la llave (*key*) en el diccionario.

In [178]:
valor_total_autos = datos['Passat'] + datos['Crossfox'] + datos['Jetta Variant']
valor_total_autos

267072.7

## *key in dict*

Devuelve **True** si la llave (*key*) es encontrada en el diccionario.

In [180]:
'Passat' in datos

True

In [181]:
'Peugeot' in datos

False

In [183]:
'Peugeot' not in datos

True

## *len(dict)*

Devuelve el número de itens del diccionario.

In [184]:
len(datos)

3

## *dict[ key ] = value*

Incluye un item al diccionario.

In [186]:
datos['Peugeot'] = 777777

In [188]:
datos['Audi'] = 666666

In [189]:
datos

{'Jetta Variant': 153000,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 666666}

## *del dict[ key ]*

Borra el item de llave (*key*) del diccionario.

In [190]:
del datos['Passat']

In [191]:
datos

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 666666}

# 3.3 Métodos de diccionarios

## *dict.update()*

Actualiza el diccionario.

In [195]:
datos.update({'Passat': 444444})

In [196]:
datos

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 666666,
 'Passat': 444444}

In [197]:
datos.update({'Fiat': 333333})

In [198]:
datos

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 666666,
 'Passat': 444444,
 'Fiat': 333333}

In [199]:
datos.update({'Fiat': 555555})

In [200]:
datos

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 666666,
 'Passat': 444444,
 'Fiat': 555555}

In [201]:
datos.update({'Audi': 111111})

In [202]:
datos

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 111111,
 'Passat': 444444,
 'Fiat': 555555}

## *dict.copy()*

Crea una copia del diccionario.

In [203]:
datosCopy = datos.copy()
datosCopy

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 111111,
 'Passat': 444444,
 'Fiat': 555555}

In [204]:
del datosCopy['Audi']

In [207]:
del datosCopy['Fiat']

In [208]:
datosCopy

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Passat': 444444}

In [209]:
datos

{'Jetta Variant': 153000,
 'Crossfox': 72832.16,
 'Peugeot': 777777,
 'Audi': 111111,
 'Passat': 444444,
 'Fiat': 555555}

## *dict.pop(key[, default ])*

Si la llave se encuentra en el diccionario, el elemento se elimina y se devuelve su valor. De lo contrario, se devuelve el valor especificado como *default*. Si no se proporciona el valor *default* y la llave no se encuentra en el diccionario, se generará un error.

## *dict.clear()*

Borra todos los itens del diccionario.

# 3.4 Iterando en diccionarios

## *dict.keys()*

Devuelve una lista con las llaves (*keys*) del diccionario.

## *dict.values()*

Devuelve una lista con todos los valores (*values*) del diccionario.

## *dict.items()*

Devuelve una lista con una tupla para cada par llave-valor (*key-value*) del diccionario.

# <font color=green> 4. FUNCIONES Y PAQUETES
---

Funciones son unidades de código reutilizables que realizan una tarea específica, pueden recibir alguna entrada y también pueden devolver algún resultado.

# 4.1 Built-in function

El lenguaje Python tiene varias funciones integradas que siempre están accesibles. Algunas ya las usamos en nuestro entrenamiento:
type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
datos = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
datos

# 4.2 Definiendo funciones sin y con parámetros

### Funciones sin parámetros

#### Formato estándar

```
def <nombre>():
    <instrucciones>
```

### Funciones con parámetros

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
```

# 4.3 Definiendo funciones que devuelven valores

### Funciones que devuelven un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return <resultado>
```

### Funciones que devuelven más de un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

# <font color=green> 5. PANDAS BÁSICO
---

**versión: 1.1.0**

Pandas es una herramienta de manipulación de datos de alto nivel, construida sobre la base del paquete Numpy. El paquete pandas tiene estructuras de datos muy interesantes para la manipulación de datos y, por esto, es ampliamente utilizado por los científicos de datos.


## Estructuras de Datos

### Series

Series son arrays unidimensionales etiquetados capaces de almacenar cualquier tipo de dato. Las etiquetas de las líneas se denominan **index**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy o una constante.

### DataFrames

DataFrame es una estructura de datos tabular bidimensional con etiquetas de fila y columna. Como la Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy, una Series y otro DataFrame.

**Documentación:** https://pandas.pydata.org/pandas-docs/version/1.1.0/

# 5.1 Estructuras de datos

### Creando una Series a partir de una lista

### Creando un DataFrame a partir de una lista de diccionarios

In [None]:
datos = [
    {'Nombre': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Año': 2003, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Passat', 'Motor': 'Motor Diesel', 'Año': 1991, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Año': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

### Creando un DataFrame a partir de un diccionario

In [None]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Año': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

### Creando un DataFrame a partir de un archivo externo

# 5.2 Selecciones con DataFrames

### Seleccionando columnas

### Seleccionando lineas - [ i : j ] 

<font color=red>**Observación:**</font> La indexación tiene origen en cero y en las particiones(*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

### Utilizando .loc para selecciones

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según las etiquetas o una matriz booleana.

### Utilizando .iloc para selecciones

<font color=red>**Observación:**</font> Selecciona con base en los índices, es decir, utiliza la posición de las informaciones.

# 5.3 Consultas en DataFrames

### Utilizando el método query

# 5.4 Iterando con DataFrames

# 5.5 Tratamiento de datos