# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUCCIÓN A PYTHON
---

# 1.1 Introducción

> Python es un lenguaje de programación de alto nivel con soporte a múltiples paradigmas de programación. Es un proyecto *open source* y desde su aparición en 1991, viene convirtiéndose en uno de los lenguajes de programación interpretados más populares.
>
> En los últimos años Python ha desarrollado una comunidad activa de procesamiento científico y análisis de datos y viene destacándose como uno de los lenguajes más relevantes cuando el asunto es ciencia de datos y machine learning, tanto en el entorno académico como también en el entorno laboral.

# 1.2 Instalación y entorno de trabajo

### Instalación Local

### https://www.python.org/downloads/
### o
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versión

In [21]:
!python -V

Python 3.10.12


# 1.3 Trabajando con datos

Comando para importar archivos externos (primero debe importarse la biblioteca pandas).

In [22]:
import pandas as pd
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)

In [23]:
dataset = pd.read_csv('db.csv', sep = ';')

In [24]:
dataset

Unnamed: 0,Nombre,Motor,Año,Kilometraje,Cero_km,Accesorios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Llantas de aleación', 'Cerraduras electricas...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimedia', 'Techo panorámico', 'Fr...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Control de estabilidad'...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Cerraduras electricas', '4 X 4', 'Ventanas e...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Llantas de aleación', '4 X 4', 'Central mult...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Control de estabilidad', 'Piloto automático'...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Asientos de cuero', 'Panel digital', 'Sensor...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Llantas de aleación', 'Control de tracción',...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Aire condicionado', '4 X 4', 'Transmisión au...",122110.90


Mostrar tipos de datos.

In [25]:
dataset.dtypes

Nombre          object
Motor           object
Año              int64
Kilometraje    float64
Cero_km           bool
Accesorios      object
Valor          float64
dtype: object

In [26]:
dataset[['Kilometraje', 'Valor']].describe()

Unnamed: 0,Kilometraje,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


Mostar información del dataset

In [27]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Nombre       258 non-null    object 
 1   Motor        258 non-null    object 
 2   Año          258 non-null    int64  
 3   Kilometraje  197 non-null    float64
 4   Cero_km      258 non-null    bool   
 5   Accesorios   258 non-null    object 
 6   Valor        258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


El DataFrame te permite almacenar y manipular datos tabulados en filas de observaciones y columnas de variables.

# <font color=green> 2. TRABAJANDO CON TUPLAS
---

# 2.1 Creando tuplas

Tuplas son secuencias **inmutables** que son utilizadas para guardar colecciones de objetos, geralmente heterogéneos. Pueden ser construídas de varias formas:
```
- Utilizando un par de paréntesis: ( )
- Utilizando una coma a la derecha: x,
- Utilizando un par de paréntesis con objetos separados por comas: ( x, y, z )
- Utilizando: tuple() o tuple(iterador)
```

In [28]:
()

()

In [29]:
1, 2, 3

(1, 2, 3)

In [30]:
nombre = 'Passat'
valor = 153000

(nombre, valor)

('Passat', 153000)

In [31]:
nombres_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [32]:
type(nombres_carros)

tuple

# 2.2 Selecciones en tuplas

In [33]:
nombres_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

Para acceder a los elementos se debe poner la posición del índice, según corresponda.

In [34]:
nombres_carros[0]

'Jetta Variant'

In [35]:
nombres_carros[1]

'Passat'

In [36]:
nombres_carros[-1]

'DS5'

Selección de rango

In [37]:
nombres_carros[1:3]

('Passat', 'Crossfox')

In [38]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

El último elemento es una tupla entera.

In [39]:
nombres_carros[-1]

('Fusca', 'Gol', 'C4')

Forma de acceder a un elemento de dentro de una tupla que se encuentra dentro de otra tupla.

In [40]:
nombres_carros[-1][1]

'Gol'

# 2.3 Iterando en tuplas

In [41]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [42]:
for item in nombres_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacando tuplas

In [43]:
nombres_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nombres_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

Se crean cuatro variables a través de una tupla.

In [44]:
carro_1, carro_2, carro_3, carro_4 = nombres_carros

In [45]:
carro_1

'Jetta Variant'

In [46]:
carro_2

'Passat'

In [47]:
carro_3

'Crossfox'

In [48]:
carro_4

'DS5'

Para ignorar elementos de una tupla, al crear múltiples variables, se utiliza underscore "_".

In [49]:
_, A, _, B = nombres_carros

In [50]:
A

'Passat'

In [51]:
B

'DS5'

Para ignorar los demás elementos a partir de cierto elemento se utiliza "*_"

In [52]:
_, C, *_ = nombres_carros

In [53]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [54]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [55]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

Combinación de elementos entre tuplas.

In [56]:
list(zip(carros,valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [57]:
for item in zip(carros,valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


for con varios elementos a imprimir.

In [58]:
for carro, valor in zip(carros,valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [59]:
for carro, valor in zip(carros,valores):
  if (valor > 100000):
    print(carro)

Passat
DS5


# <font color=green> 3. TRABAJANDO CON DICCIONARIOS
---

# 3.1 Creando diccionarios

Listas son colecciones secuenciales, es decir, los elementos de estas secuencias están ordenados y utilizan índices (números enteros) para acceder a los valores.

Los diccionarios son colecciones ligeramente diferentes. Son estructuras de datos que representan un tipo de mapeo. Los mapeos son colecciones de asociaciones entre pares de valores donde el primer elemento del par se conoce como llave (*key*) y el segundo como valor (*value*).

```
diccionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [60]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [61]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

Forma de saber el índice donde se encuentra un determinado elemento.

In [62]:
carros.index('Passat')

1

In [63]:
valores[carros.index('Passat')]

106161.94

Creación de diccionario nombre_variable = {llave: valor}

In [64]:
datos = {'Jetta Variant':88078.64, 'Passat':106161.94, 'Crossfox':72832.16}
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [65]:
type(datos)

dict

### Creando diccionarios con *zip()*

In [66]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [67]:
datos = dict(zip(carros, valores))
datos

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

# 3.2 Operaciones con diccionarios

## *dict[ key ]*

Devuelve el valor correspondiente a la llave (*key*) en el diccionario.

In [68]:
datos['Passat']

106161.94

## *key in dict*

Devuelve **True** si la llave (*key*) es encontrada en el diccionario.

In [69]:
'Passat' in datos

True

In [70]:
'Fusca' in datos

False

In [71]:
'Fusca' not in datos

True

## *len(dict)*

Devuelve el número de items del diccionario.

In [72]:
len(datos)

3

## *dict[ key ] = value*

Incluye un item al diccionario.

In [73]:
datos['DS5'] = 124549.07
datos

{'Jetta Variant': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07}

## *del dict[ key ]*

Borra el item de llave (*key*) del diccionario.

In [74]:
del datos['Passat']

In [75]:
datos

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124549.07}

# 3.3 Métodos de diccionarios

## *dict.update()*

Actualiza el diccionario.

In [76]:
datos.update({'Passat': 106161.94})

In [77]:
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Passat': 106161.94}

Modificar elementos del diccionario.

In [78]:
datos.update({'Passat': 106161.95, 'Fusca': 150000})
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Passat': 106161.95,
 'Fusca': 150000}

## *dict.copy()*

Crea una copia del diccionario.

In [79]:
datosCopy = datos.copy()

In [80]:
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Passat': 106161.95,
 'Fusca': 150000}

In [81]:
del datosCopy['Fusca']
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Passat': 106161.95}

In [82]:
datos

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Passat': 106161.95,
 'Fusca': 150000}

## *dict.pop(key[, default ])*

Si la llave se encuentra en el diccionario, el elemento se elimina y se devuelve su valor. De lo contrario, se devuelve el valor especificado como *default*. Si no se proporciona el valor *default* y la llave no se encuentra en el diccionario, se generará un error.

In [83]:
datosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Passat': 106161.95}

In [84]:
datosCopy.pop('Passat')

106161.95

In [85]:
datosCopy

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 124549.07}

In [86]:
datosCopy.pop('Passat')

KeyError: ignored

Cambiar el mnesaje de erro, añadiendo otro parámetro al método pop.

In [None]:
datosCopy.pop('Passat', 'LLave no fue encontrada')

In [None]:
datosCopy.pop('DS5', 'LLave no fue encontrada')

In [None]:
datosCopy

## *dict.clear()*

Borra todos los itens del diccionario.

In [None]:
datosCopy.clear()

In [None]:
datosCopy

# 3.4 Iterando en diccionarios

## *dict.keys()*

Devuelve una lista con las llaves (*keys*) del diccionario.

In [None]:
datos = {'Crossfox':72832.16, 'DS5': 124549.07, 'Fusca': 150000, 'Jetta Variant': 88078.64, 'Passat': 106161.65}
datos

In [None]:
datos.keys()

In [None]:
for key in datos.keys():
  print(key)

## *dict.values()*

Devuelve una lista con todos los valores (*values*) del diccionario.

In [None]:
datos.values()

## *dict.items()*

Devuelve una lista con una tupla para cada par llave-valor (*key-value*) del diccionario.

In [None]:
datos.items()

In [None]:
for item in datos.items():
  print(item)

In [None]:
for key, value in datos.items():
  print(key, '->', value)

In [None]:
for key, value in datos.items():
  if (value) > 100000:
    print(key)

# <font color=green> 4. FUNCIONES Y PAQUETES
---

Funciones son unidades de código reutilizables que realizan una tarea específica, pueden recibir alguna entrada y también pueden devolver algún resultado.

# 4.1 Built-in function

El lenguaje Python tiene varias funciones integradas que siempre están accesibles. Algunas ya las usamos en nuestro entrenamiento:
type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
datos = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
datos

In [None]:
valores = []
for valor in datos.values():
  valores.append(valor)
valores

Realizar suma sin función built-in

In [None]:
suma = 0
for valor in datos.values():
  suma+=valor
suma

In [None]:
sum(datos.values())

Con el parámetro start, la suma inicia desde ese número.

In [None]:
sum(datos.values(),1000000)

Manera de obtener información acerca de determinadas funciones.

In [None]:
help(print)

In [None]:
print?

# 4.2 Definiendo funciones sin y con parámetros

### Funciones sin parámetros

#### Formato estándar

```
def <nombre>():
    <instrucciones>
```

In [None]:
def media():
  valor = (1+2+3)/3
  print(valor)

In [None]:
media()

### Funciones con parámetros

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
```

In [None]:
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2 + number_3)/3
  print(valor)

In [None]:
media(1,2,3)

In [None]:
media(23,45,67)

In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  print(valor)

In [None]:
resultado = media([1,2,3,4,5,6,7,8])

In [None]:
resultado

Debido a que la función no retorna valores.

In [None]:
type(resultado)

# 4.3 Definiendo funciones que devuelven valores

### Funciones que devuelven un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return <resultado>
```

In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  return(valor)

In [None]:
media([1,2,3,4,5,6,7,8])

In [None]:
resultado = media([1,2,3,4,5,6,7,8])

In [None]:
resultado

### Funciones que devuelven más de un valor

#### Formato estándar

```
def <nombre>(<param_1>, <param_2>, ..., <param_n>):
    <instrucciones>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
def media(lista):
  valor = sum(lista)/len(lista)
  return(valor, len(lista))

Si retorna más de un valor, retorna una tupla.

In [None]:
media([1,2,3,4,5,6,7,8])

Se puede realizar a través de múltiples variables.

In [None]:
resultado, n = media([1,2,3,4,5,6,7,8])

In [None]:
resultado

In [None]:
n

# <font color=green> 5. PANDAS BÁSICO
---

**versión: 1.1.0**

Pandas es una herramienta de manipulación de datos de alto nivel, construida sobre la base del paquete Numpy. El paquete pandas tiene estructuras de datos muy interesantes para la manipulación de datos y, por esto, es ampliamente utilizado por los científicos de datos.


## Estructuras de Datos

### Series

Series son arrays unidimensionales etiquetados capaces de almacenar cualquier tipo de dato. Las etiquetas de las líneas se denominan **index**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy o una constante.

### DataFrames

DataFrame es una estructura de datos tabular bidimensional con etiquetas de fila y columna. Como la Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy, una Series y otro DataFrame.

**Documentación:** https://pandas.pydata.org/pandas-docs/version/1.1.0/

# 5.1 Estructuras de datos

In [None]:
import pandas as pd

### Creando una Series a partir de una lista

In [None]:
carros = ['Jetta Variant', 'passat', 'Crossfox']
carros

In [None]:
pd.Series(carros)

### Creando un DataFrame a partir de una lista de diccionarios

In [None]:
datos = [
    {'Nombre': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Año': 2003, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Passat', 'Motor': 'Motor Diesel', 'Año': 1991, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Año': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

In [None]:
dataset[['Nombre', 'Año', 'Motor', 'Kilometraje', 'Cero_km', 'Valor']]

### Creando un DataFrame a partir de un diccionario

In [None]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Año': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

### Creando un DataFrame a partir de un archivo externo

In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

Se puede cambiar una columna, asignándole determinado índice.

In [None]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [None]:
dataset

# 5.2 Selecciones con DataFrames

### Seleccionando columnas

In [None]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [None]:
dataset.head()

In [None]:
dataset['Valor']

Ver en Series.

In [None]:
type(dataset['Valor'])

Ver en Data Frame.

In [None]:
dataset[['Valor']]

In [None]:
type(dataset[['Valor']])

### Seleccionando lineas - [ i : j ]

<font color=red>**Observación:**</font> La indexación tiene origen en cero y en las particiones(*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

In [None]:
dataset[0:3]

### Utilizando .loc para selecciones

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según las etiquetas o una matriz booleana.

In [None]:
dataset.loc['Passat']

In [None]:
dataset.loc[['Passat', 'DS5']]

Limitar/precisar las columnas a visualizar.

In [None]:
dataset.loc[['Passat', 'DS5'],['Motor', 'Valor']]

Filtrar todas las filas.

In [None]:
dataset.loc[:,['Motor', 'Valor']]

### Utilizando .iloc para selecciones

<font color=red>**Observación:**</font> Selecciona con base en los índices, es decir, utiliza la posición de las informaciones.

In [None]:
dataset.head()

In [None]:
dataset.iloc[[1]]

In [None]:
dataset.iloc[1:4]

Seleccionar solo determinadas columnas (intervalos).

In [None]:
dataset.iloc[1:4, [0,5,2]]

In [None]:
dataset.iloc[[1,42,22], [0,5,2]]

Mostar filas completas del Data Frame.

In [None]:
dataset.iloc[:, [0,5,2]]

# 5.3 Consultas en DataFrames

In [None]:
dataset.head()

In [None]:
dataset.Motor

In [None]:
dataset.Motor == 'Motor Diesel'

In [None]:
type(dataset.Motor == 'Motor Diesel')

Buscar filas dentro del Data Frame, únicamente las que cumplen con el criterio (Parámetro)

In [None]:
dataset[dataset.Motor == 'Motor Diesel']

Búsqueda con varios criterios.

In [None]:
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True)]

### Utilizando el método query

In [None]:
dataset.query('Motor == "Motor Diesel" and Cero_km == True')

# 5.4 Iterando con DataFrames

In [None]:
dataset.head()

In [None]:
for item in dataset:
  print(item)

In [None]:
list(dataset.iterrows())

In [None]:
for index, row in dataset.iterrows():
  if(2020 - row.Año != 0):
    dataset.loc[index, 'km_media'] = row.Kilometraje / (2020 - row.Año)
  else:
    dataset.loc[index, 'km_media'] = 0
dataset

# 5.5 Tratamiento de datos

In [None]:
dataset.head()

In [None]:
dataset.info()

In [None]:
dataset.Kilometraje.isna()

isna detecta valores NaN

In [None]:
dataset[dataset.Kilometraje.isna()]

fillna sustituye valores NaN. (Aplica sólo para la visualización).

In [None]:
dataset.fillna(0)

inplace para aplicar los cambios dentro del Data Frame

In [None]:
dataset.fillna(0, inplace = True)

In [None]:
dataset

In [None]:
dataset.query('Cero_km == True')

In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

dropna eliminar valores NaN.

In [None]:
dataset.dropna(subset =['Kilometraje'], inplace = True)

In [None]:
dataset