# Tutorial básico de Pandas

El objetivo de este notebook es recopilar un compendio de funciones de uso cotidiano en Pandas.

## Import

Importamos `pandas` y le ponemos el nickname `pd`.

In [1]:
import pandas as pd

# Objetos `pandas`
La librería tiene varios objetos con los cuales podemos trabajar:
* `Series`: son prácticamente iguales a un numpy array. Se refieren a los valores que toma una columna en una hoja de cálculo.
* `DataFrame` Tabla de dos entradas. 
* `Panel` Prácticamente no se usa, asi que no le vamos a dar bola.

## Crear una `Serie`

In [2]:
s = pd.Series([1,1,2,3,5,86,24,356,49,36,234,45,59,45])
print(s)

0       1
1       1
2       2
3       3
4       5
5      86
6      24
7     356
8      49
9      36
10    234
11     45
12     59
13     45
dtype: int64


In [8]:
type(s)

pandas.core.series.Series

# Operaciones en `Series`


Los objetos `series` se pueden operar al igual que arrays de numpys

In [13]:
import numpy as np
print(np.exp(s) + 19900) ### Le sumo un valor a toda la serie

0      1.990272e+04
1      1.990272e+04
2      1.990739e+04
3      1.992009e+04
4      2.004841e+04
5      2.235247e+37
6      2.648914e+10
7     4.062895e+154
8      1.907347e+21
9      4.311232e+15
10    4.216079e+101
11     3.493427e+19
12     4.201210e+25
13     3.493427e+19
dtype: float64


In [17]:
### Sumo miembro a miembro
print(np.exp(s) + [1,1,1,1,1,0,0,0,0,0,0,0,0,0])

0      3.718282e+00
1      3.718282e+00
2      8.389056e+00
3      2.108554e+01
4      1.494132e+02
5      2.235247e+37
6      2.648912e+10
7     4.062895e+154
8      1.907347e+21
9      4.311232e+15
10    4.216079e+101
11     3.493427e+19
12     4.201210e+25
13     3.493427e+19
dtype: float64


## Guardo la `Serie`

In [85]:
import os ## liberia para paths agnositco de sistema operativo 

## OJO QUE EN WINDOWS HAY QUE PONER DOBLE BARRAS "//"
path = os.path.abspath("datasets") ## hay que tener esta carpeta
print(path)
### Como csv
s.to_csv(path+"/mi_serie.csv")

### Como pickle
s.to_pickle(path+"/mi_serie.pkl")

### Como pickle
s.to_excel(path+"/mi_serie.xlsx")

### como markdown, por si lo queremos presentar en un texto
s.to_markdown(path+"/mi_serie.md")



/home/martin/DOC/ML_Fundamentals/MLFundamentals-profes/notebooks/Notebooks_demo/Tutorials/datasets


## Cargo una `Serie`

In [86]:
path = os.path.abspath("datasets") ## hay que tener esta carpeta

s = pd.read_csv(path + "/mi_serie.csv")
s = pd.read_pickle(path + "/mi_serie.pkl")
s = pd.read_excel(path + "/mi_serie.xlsx")



## Índices y acceso

In [87]:
### Se puede hacer una asociación de un string a cada valor
s2 = pd.Series([68, 83, 112, 68], index=["alice", "bob", "charles", "darwin"])

### Para acceder escribo
s2["alice"]

68

In [88]:
## Si quiero acceder con el índice, sin atribuirle un string
print(s2.iloc[2])
print("\nImprimo más de uno")
print(s2.iloc[2:4])

112

Imprimo más de uno
charles    112
darwin      68
dtype: int64


# Objetos `DataFrame`

Los objetos `DataFrame` son los más frecuentes. Escencialmente es una composición de `Series`. 

In [12]:
people_dict = {
    "peso": pd.Series([68, 83, 112], index=["Anabella", "Bobby", "Charly"]),
    "año": pd.Series([1984, 1985, 1992], index=["Bobby", "Anabella", "Charly"], name="year"),
    "hijxs": pd.Series([0, 3], index=["Charly", "Anabella"]),
    "hobby": pd.Series(["Bici", "Rappear"], index=["Anabella", "Bobby"]),
}
people = pd.DataFrame(people_dict)
type(people)

pandas.core.frame.DataFrame

## Veo de tipo de datos son

In [68]:
print(people.info())

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, Anabella to Charly
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   peso    3 non-null      int64  
 1   año     3 non-null      int64  
 2   hijxs   2 non-null      float64
 3   hobby   2 non-null      object 
dtypes: float64(1), int64(2), object(1)
memory usage: 228.0+ bytes
None


## Miro los primeros 10 datos

In [46]:
people.head()

Unnamed: 0,peso,año,hijxs,hobby
Anabella,68,1985,3.0,Bici
Bobby,83,1984,,Rappear
Charly,112,1992,0.0,


## Descripción estadística

In [19]:
# En este caso no es muy descriptivo pero en general lo es
print(people.describe)

<bound method NDFrame.describe of           peso   año  hijxs    hobby
Anabella    68  1985    3.0     Bici
Bobby       83  1984    NaN  Rappear
Charly     112  1992    0.0      NaN>


## Acceso a columnas

In [53]:
## Podemos acceder a una columna con el nombre
print(people["año"])
print("\n")

## También podemos ver sólo algunas columnas
print(people[["año","hijxs"]])


Anabella    1985
Bobby       1984
Charly      1992
Name: año, dtype: int64


           año  hijxs
Anabella  1985    3.0
Bobby     1984    NaN
Charly    1992    0.0


## Veamos las opciones posibles en Hobby (categórica)

In [69]:
print(people["hobby"].value_counts())

Bici       1
Rappear    1
Name: hobby, dtype: int64


## Eliminar Filas o Columnas

In [66]:
# Elimino la columna "año"
people.drop(["año"],axis = 1)

Unnamed: 0,peso,hijxs,hobby
Anabella,68,3.0,Bici
Bobby,83,,Rappear
Charly,112,0.0,


In [67]:
# Elimino la fila "Bobby"
people.drop(["Bobby"],axis =0)

Unnamed: 0,peso,año,hijxs,hobby
Anabella,68,1985,3.0,Bici
Charly,112,1992,0.0,


# NaNs

In [73]:
## Elimino Columnas con Nans
people.dropna(axis=1)#, how="all")

Unnamed: 0,peso,año
Anabella,68,1985
Bobby,83,1984
Charly,112,1992


In [74]:
## Elimino Filas con Nans
people.dropna(axis=0)#, how="all")

Unnamed: 0,peso,año,hijxs,hobby
Anabella,68,1985,3.0,Bici


In [75]:
## LLeno los nans con otros valores
people.fillna(0)


Unnamed: 0,peso,año,hijxs,hobby
Anabella,68,1985,3.0,Bici
Bobby,83,1984,0.0,Rappear
Charly,112,1992,0.0,0
