# <font color=green> PANDAS BÁSICO
---
# Trabajando con datos

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.set_option.html

In [None]:
import pandas as pd
# pd.set_option('display.max_rows', 10)
# pd.set_option('display.max_columns', 1000)

In [None]:
# Versión
pd.__version__

In [None]:
dataset = pd.read_csv('data/db.csv', sep = ';')

In [None]:
dataset.head()

In [None]:
dataset.tail()

In [None]:
dataset

In [None]:
dataset.dtypes

In [None]:
dataset.describe()

In [None]:
dataset[['Kilometraje', 'Valor']].describe()

In [None]:
dataset['Kilometraje']

In [None]:
dataset.Kilometraje

In [None]:
dataset.info()

## Estructuras de Datos

### Series

Las series están rotuladas como matrices unidimensionales capaces de almacenar cualquier tipo de datos. Los rótulos de línea se denominan **índice**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, una matriz Numpy o una constante.

### DataFrames

DataFrame es una estructura de datos tabular bidimensional con rótulos de fila y columna. Al igual que Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, una matriz Numpy, una Series u otro DataFrame.

**Documentación:** https://pandas.pydata.org/pandas-docs/version/0.25/

### Creando una Series a partir de una lista

In [None]:
autos = ['Jetta Variant', 'Passat', 'Crossfox']
autos

In [None]:
pd.Series(autos)

### Creando un DataFrame a partir de una lista de diccionarios

In [None]:
datos = [
    {'Nombre': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Anho': 2003, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Passat', 'Motor': 'Motor Diesel', 'Anho': 1991, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Anho': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

In [None]:
dataset[['Nombre', 'Motor', 'Anho', 'Kilometraje', 'Cero_km', 'Valor']]

### Creando un DataFrame a partir de un diccionario

In [None]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Anho': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

### Creando un DataFrame a partir de un archivo externo

In [None]:
dataset = pd.read_csv('data/db.csv', sep = ';', index_col = 0)

In [None]:
data_sin_index =  pd.read_csv('data/db.csv', sep = ';')
data_sin_index

In [None]:
dataset

# Selecciones con DataFrames

In [None]:
dataset.head()

### Seleccionando columnas

In [None]:
dataset['Valor']

In [None]:
type(dataset['Valor'])

In [None]:
dataset[['Valor']]

In [None]:
type(dataset[['Valor']])

### Seleccionando líneas - [ i : j ] 

<font color=red>**Observación:**</font> La indexación comienza en cero y en las particiones (*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

In [None]:
dataset[0:3]

### Utilizando .loc para selecciones

<font color=red>**Observación:**</font> Selecciona un grupo de líneas y columnas según los rótulos o una matriz booleana (conteniendo valores booleanos).

In [None]:
dataset.loc['Passat']

In [None]:
dataset.loc[['Passat', 'DS5']]

In [None]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

In [None]:
dataset.loc[:, ['Motor', 'Valor']]

### Utilizando .iloc para selecciones

<font color=red>**Observación:**</font> Selecciona con base en los índices, o sea, se basa en la posición de las informaciones.

In [None]:
dataset.head()

In [None]:
dataset.iloc[[1]]

In [None]:
dataset.iloc[1:4]

In [None]:
dataset.iloc[1:4, [0, 5, 2]]

In [None]:
dataset.iloc[[1, 42, 22], [0, 5, 2]]

In [None]:
dataset.iloc[:, [0, 5, 2]]

# Queries con DataFrames

In [None]:
dataset.head()

In [None]:
dataset.Motor

In [None]:
select = dataset.Motor == 'Motor Diesel'

In [None]:
type(select)

In [None]:
dataset[select]

In [None]:
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True)]

In [None]:
(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True)

### Utilizando el método query

In [None]:
dataset.query('Motor == "Motor Diesel" and Cero_km == True')

# Tratamiento de datos

In [None]:
dataset.head()

In [None]:
dataset.info()

In [None]:
dataset.Kilometraje.isna()

In [None]:
dataset[dataset.Kilometraje.isna()]

In [None]:
dataset.fillna(0, inplace = True)

In [None]:
dataset.query("Cero_km == True")

In [None]:
dataset = pd.read_csv('data/db.csv', sep = ';')

In [None]:
dataset

In [None]:
dataset.dropna(subset = ['Kilometraje'], inplace = True)

In [None]:
dataset