# Introducción a Pandas

En este notebook doy los primeros pasos para entender el funcionamiento de la biblioteca _Pandas_. 

NB hecho por **Nico Quijada**

In [1]:
import pandas as pd
import numpy as np

_Series_ es una estructura de datos. En este caso guardamos un solo tipo de número. 

In [2]:
#La primera estructura de datos

una_serie = pd.Series([10, 20, 12, 0.4])

Tiene propiedad _nombre_

In [3]:
una_serie.name = "Una serie"

El tipo de datos que estamos guardando

In [4]:
una_serie.dtype

dtype('float64')

Podemos imprimir los valores

In [5]:
una_serie.values

array([10. , 20. , 12. ,  0.4])

In [6]:
una_serie

0    10.0
1    20.0
2    12.0
3     0.4
Name: Una serie, dtype: float64

Tenemos índices

In [7]:
una_serie[1]

20.0

Podemos modificar de manera arbitraria cuáles son los índices:

In [8]:
una_serie.index = [
    "Primero",
    "Segundo",
    "Tercero",
    "Cuarto"
]

In [9]:
una_serie

Primero    10.0
Segundo    20.0
Tercero    12.0
Cuarto      0.4
Name: Una serie, dtype: float64

Aunque parece un diccionario, no lo es. Esta estructura de datos sí está ordenada y tenemos la ventaja de tener _keys_ para las entradas. Más aún, podemos crearlo desde el inicio y de manera directa.

In [11]:
otra = pd.Series({"Yo": 1, "Tú": 2, "Él": 3}, name = "Tres pronombres")

In [12]:
print(otra)

Yo    1
Tú    2
Él    3
Name: Tres pronombres, dtype: int64


In [13]:
mas = pd.Series(["esta", "es", "una", "oración"], index = [1, 2, 3, 4], name = "Oración")

In [14]:
print(mas)

1       esta
2         es
3        una
4    oración
Name: Oración, dtype: object


In [16]:
mas[1]

'esta'

Podemos obtener los elementos de acuerdo con su ubicación en el objeto. También podemos pasar múltiples índices o locaciones.

In [19]:
mas.iloc[[-1, 0]]

4    oración
1       esta
Name: Oración, dtype: object

Con pandas también podemos cortar nuestros objetos pero aquí _sí_ consideramos el límite superior de nuestra serie.

In [28]:
otra["Yo": "Él"]

Yo    1
Tú    2
Él    3
Name: Tres pronombres, dtype: int64

Podemos realizar operaciones sobre las series

In [30]:
#Definimos una serie de millones de habitantes

g7_pop = pd.Series({"Canada": 35.467, 
                    "Francia": 63.951, 
                    "Alemania": 80.940, 
                    "Italia": 60.665, 
                    "Japón": 127.061, 
                    "Reino Unido": 64.511, 
                    "Estados Unidos": 318.523}, 
                     name = "Poblaciones del G7 en millones")

Multiplicamos por un millón

In [31]:
g7_pop * 1_000_000

Canada             35467000.0
Francia            63951000.0
Alemania           80940000.0
Italia             60665000.0
Japón             127061000.0
Reino Unido        64511000.0
Estados Unidos    318523000.0
Name: Poblaciones del G7 en millones, dtype: float64

## Operaciones booleanas

In [33]:
g7_pop > 70

#Obtenemos cuáles son los países que tienen más de 70 millones de habitantes

Canada            False
Francia           False
Alemania           True
Italia            False
Japón              True
Reino Unido       False
Estados Unidos     True
Name: Poblaciones del G7 en millones, dtype: bool

In [34]:
#Podemos seleccionar con booleanos

g7_pop[g7_pop > 70]

Alemania           80.940
Japón             127.061
Estados Unidos    318.523
Name: Poblaciones del G7 en millones, dtype: float64

In [35]:
g7_pop.mean()

107.30257142857144

In [36]:
g7_pop[g7_pop > 70]

Alemania           80.940
Japón             127.061
Estados Unidos    318.523
Name: Poblaciones del G7 en millones, dtype: float64

Tenemos operadores booleanos:

- ~ significa _no_
- | significa _o_
- & significa _y_

In [39]:
g7_pop[(g7_pop > g7_pop.mean()) | (g7_pop < g7_pop.mean()/2)]

#Esta celda nos da cuáles son los países que quedan por encima de la media o bien, que quedan por debajo de la mitad 
#de la media

Canada             35.467
Japón             127.061
Estados Unidos    318.523
Name: Poblaciones del G7 en millones, dtype: float64

## Operaciones

También podemos realizar operaciones sobre los datos 

media, logaritmo, desviación estándar y otras funciones tradicionales de numpy

In [41]:
#También podemos modificar las series

g7_pop["Canada"] = 40.5
g7_pop.iloc[-1] = 500

In [42]:
g7_pop

Canada             40.500
Francia            63.951
Alemania           80.940
Italia             60.665
Japón             127.061
Reino Unido        64.511
Estados Unidos    500.000
Name: Poblaciones del G7 en millones, dtype: float64

In [45]:
g7_pop[g7_pop < 70] = 99.99

#También podemos modificar los valores utilizando los booleanos

In [44]:
g7_pop

Canada             99.990
Francia            99.990
Alemania           80.940
Italia             99.990
Japón             127.061
Reino Unido        99.990
Estados Unidos    500.000
Name: Poblaciones del G7 en millones, dtype: float64