## 1.9 Introduction to Pandas
La librería Pandas proporciona estructuras de datos y herramientas de análisis de datos fáciles de usar y optimizadas. De la misma forma que en Numpy el objeto principal era el ndarray, el objeto principal en Pandas es el **DataFrame**, que puede considerarse como una tabla alojada en memoria (como una hoja de cálculo de Excel, con nombres de columna y etiquetas de fila). Muchas funciones disponibles en Excel están disponibles mediante programación, como crear tablas dinámicas, calcular columnas basadas en otras columnas, hacer gráficos, etc. Pandas se construye por encima de Numpy, por lo que podremos aprovechar mucha de la funcionalidad y nomenclatura ya conocemos. La principal diferencia es que con Pandas vamos a poder trabajar con datos heterogéneos, mientras que en Numpy necesitamos que nuestras estructuras de datos sean siempre del mismo tipo para poder llevar a cabo operaciones. Para poder empezar a trabajar con Pandas simplemente tenemos que importarlo como cualquier otra librería

Plan:

* Data Frames
* Series
* Index
* Accessing elements
* Element-wise operations
* Filtering
* String operations
* Summarizing operations
* Missing values
* Grouping
* Getting the NumPy arrays

In [2]:
import numpy as np
import pandas as pd

💡Es común importar Pandas con el nombre pd. Recuerda que si no tienes instalada la librería puedes hacerlo con pip install pandas o bien conda install pandas si instalaste Python con Anaconda.

## DataFrames

In [3]:
data = [
    ['Nissan', 'Stanza', 1991, 138, 4, 'MANUAL', 'sedan', 2000],
    ['Hyundai', 'Sonata', 2017, None, 4, 'AUTOMATIC', 'Sedan', 27150],
    ['Lotus', 'Elise', 2010, 218, 4, 'MANUAL', 'convertible', 54990],
    ['GMC', 'Acadia',  2017, 194, 4, 'AUTOMATIC', '4dr SUV', 34450],
    ['Nissan', 'Frontier', 2017, 261, 6, 'MANUAL', 'Pickup', 32340],
]

columns = [
    'Make', 'Model', 'Year', 'Engine HP', 'Engine Cylinders',
    'Transmission Type', 'Vehicle_Style', 'MSRP'
]

In [4]:
df = pd.DataFrame(data, columns=columns)

In [5]:
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340


In [6]:
data = [
    {
        "Make": "Nissan",
        "Model": "Stanza",
        "Year": 1991,
        "Engine HP": 138.0,
        "Engine Cylinders": 4,
        "Transmission Type": "MANUAL",
        "Vehicle_Style": "sedan",
        "MSRP": 2000
    },
    {
        "Make": "Hyundai",
        "Model": "Sonata",
        "Year": 2017,
        "Engine HP": None,
        "Engine Cylinders": 4,
        "Transmission Type": "AUTOMATIC",
        "Vehicle_Style": "Sedan",
        "MSRP": 27150
    },
    {
        "Make": "Lotus",
        "Model": "Elise",
        "Year": 2010,
        "Engine HP": 218.0,
        "Engine Cylinders": 4,
        "Transmission Type": "MANUAL",
        "Vehicle_Style": "convertible",
        "MSRP": 54990
    },
    {
        "Make": "GMC",
        "Model": "Acadia",
        "Year": 2017,
        "Engine HP": 194.0,
        "Engine Cylinders": 4,
        "Transmission Type": "AUTOMATIC",
        "Vehicle_Style": "4dr SUV",
        "MSRP": 34450
    },
    {
        "Make": "Nissan",
        "Model": "Frontier",
        "Year": 2017,
        "Engine HP": 261.0,
        "Engine Cylinders": 6,
        "Transmission Type": "MANUAL",
        "Vehicle_Style": "Pickup",
        "MSRP": 32340
    }
]

In [7]:
df = pd.DataFrame(data)
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340


In [8]:
df.head(n=2)

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150


## Series
Si bien el objeto principal en Pandas hemos dicho que es el DataFrame, un DataFrame está formado por una colección de Series. Una Serie es un objeto unidimensional similar a una lista o un array que contiene una secuencia de valores del mismo tipo. Cada elemento en la Serie tiene también una etiqueta asociada, llamada índice. Podemos crear una Serie de la siguiente manera.

In [12]:
df.Engine HP

SyntaxError: invalid syntax (ipython-input-1897567212.py, line 1)

In [20]:
df['Engine HP']

Unnamed: 0,Engine HP
0,138.0
1,
2,218.0
3,194.0
4,261.0


In [14]:
df[['Make', 'Model', 'MSRP']]

Unnamed: 0,Make,Model,MSRP
0,Nissan,Stanza,2000
1,Hyundai,Sonata,27150
2,Lotus,Elise,54990
3,GMC,Acadia,34450
4,Nissan,Frontier,32340


In [15]:
df['id'] = [1, 2, 3, 4, 5]

In [16]:
df['id'] = [10, 20, 30, 40, 50]

In [17]:
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP,id
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000,10
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150,20
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990,30
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450,40
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340,50


In [18]:
del df['id']

In [19]:
df

Unnamed: 0,Make,Model,Year,Engine HP,Engine Cylinders,Transmission Type,Vehicle_Style,MSRP
0,Nissan,Stanza,1991,138.0,4,MANUAL,sedan,2000
1,Hyundai,Sonata,2017,,4,AUTOMATIC,Sedan,27150
2,Lotus,Elise,2010,218.0,4,MANUAL,convertible,54990
3,GMC,Acadia,2017,194.0,4,AUTOMATIC,4dr SUV,34450
4,Nissan,Frontier,2017,261.0,6,MANUAL,Pickup,32340


## Index


In [21]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [22]:
df.Make.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
df.index = ['a', 'b', 'c', 'd', 'e']

In [None]:
df

In [None]:
df.iloc[[1, 2, 4]]

In [None]:
df = df.reset_index(drop=True)

In [None]:
df

## Accessing elements

## Element-wise operations

In [None]:
df['Engine HP'] * 2

In [None]:
df['Year'] >= 2015

## Filtering

In [None]:
df[
    df['Make'] == 'Nissan'
]

In [None]:
df[
    (df['Make'] == 'Nissan') & (df['Year'] >= 2015)
]

## String operations

In [None]:
'machine learning'.replace(' ', '_')

In [None]:
df['Vehicle_Style'].str.lower()

In [None]:
df['Vehicle_Style'] = df['Vehicle_Style'].str.replace(' ', '_').str.lower()

In [None]:
df

## Summarizing operations

In [None]:
df.describe().round(2)

In [None]:
df.nunique()

## Missing values


In [None]:
df.isnull().sum()

## Grouping


```
SELECT
    transmission_type,
    AVG(MSRP)
FROM
    cars
GROUP BY
    transmission_type
```

In [None]:
df.groupby('Transmission Type').MSRP.max()

## Getting the NumPy arrays

In [None]:
df.MSRP.values

In [None]:
df.to_dict(orient='records')