<a href="https://colab.research.google.com/github/NatyEsquenazi/Met-Camp-Data-2022/blob/main/Python_An%C3%A1lisis_de_datos_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python: Manipulación de datos con Pandas

**Pandas** es una librería que se utiliza para trabajar con conjuntos de datos. Esta librería incorpora muchas funcionalidades que nos permiten analizar, limpiar y manipular datos de manera rápida y simple.

In [1]:
import pandas as pd
import numpy as np

### Series y DataFrames

> Una **`Serie`** es una estructura de datos de una dimensión. Es como una columna de una tabla que contiene una lista de valores asociados a un índice (por defecto es numérico y comienza en 0).

In [2]:
serie = pd.Series([1, 4, 6, 2, 6, 7])
serie

0    1
1    4
2    6
3    2
4    6
5    7
dtype: int64

Como vemos, la primer columna nos indica el número de fila o índice (0, 1, ...) y la segunda columna los valores que contiene la serie.

> Un **`DataFrame`** es una estructura de datos de dos dimensiones. Podemos decir que es nuestra tabla completa o un conjunto de series.

Existen distintas formas de crear un DataFrame, una de ellas es crearlos a partir de un diccionario de Python, en donde se indican las columnas y sus respectivos valores. El índice por defecto es numérico y comienza en 0.

In [3]:
df = pd.DataFrame({
    "Texto": ["A1", "A2", "A3", "A4", "A5", "A6"],
    "Entero": [1, 4, 10, 4, 6, 0],
    "Decimal": [22.6, 55.0, 3.8, 89.9, 4.8, 95.7],
    "Datetime": [
        "2022-09-01 00:00:00",
        "2022-09-01 10:00:00",
        "2022-09-03 14:30:00",
        "2022-09-02 00:00:00",
        "2022-09-11 20:40:00",
        "2022-09-06 00:40:00"
    ]
})

### Tipos de datos

Cada Serie tiene asociado el tipo de dato que contiene: si es numérica, un texto, una fecha; el cual nos va a permitir o limitar los cálculos que podemos realizar sobre estas columnas.

| Pandas | Python | Descripción |
|-|-|-|
| object | str o mixed | Texto o datos mixtos (numéricos y no numéricos).
| int64 | int | Números enteros
| float64 |	float |	Números decimales
| bool 	| bool | True/False
| datetime64 | NA | Fecha y hora
| timedelta[ns] | NA | Diferencia entre dos datetimes
| category | NA | Lista finita de valores

Podemos observar los tipos accediendo al atributo `dtypes` del DataFrame.

In [4]:
df.dtypes

Texto        object
Entero        int64
Decimal     float64
Datetime     object
dtype: object

Por defecto, Pandas infiere el tipo de dato que creamos. Sin embargo, podemos transformarlo.

In [6]:
# queremos que la columna B sea interpretada como
# número flotante y no como entero

# Permite especificar el tipo de flotante pero no maneja errores en los datos
df["Entero"] = df["Entero"].astype(np.float64)

# Maneja mejor los datos con error pero no permite especificar el tipo
df["Entero"] = pd.to_numeric(df["Entero"], errors="coerce")
df.dtypes

Texto        object
Entero      float64
Decimal     float64
Datetime     object
dtype: object

In [7]:
# Convertimos la última columna en datetime
df["Datetime"] = pd.to_datetime(df["Datetime"])
df.dtypes

Texto               object
Entero             float64
Decimal            float64
Datetime    datetime64[ns]
dtype: object

❓ **Actividad**: Convertir la serie `Entero`, nuevamente a tipo `int`.

### Observando el DataFrame

Con `df.head()` podemos inspeccionar los primeros resultados, con `df.tail()`, los últimos.

In [8]:
df.head()

Unnamed: 0,Texto,Entero,Decimal,Datetime
0,A1,1.0,22.6,2022-09-01 00:00:00
1,A2,4.0,55.0,2022-09-01 10:00:00
2,A3,10.0,3.8,2022-09-03 14:30:00
3,A4,4.0,89.9,2022-09-02 00:00:00
4,A5,6.0,4.8,2022-09-11 20:40:00


In [9]:
df.tail()

Unnamed: 0,Texto,Entero,Decimal,Datetime
1,A2,4.0,55.0,2022-09-01 10:00:00
2,A3,10.0,3.8,2022-09-03 14:30:00
3,A4,4.0,89.9,2022-09-02 00:00:00
4,A5,6.0,4.8,2022-09-11 20:40:00
5,A6,0.0,95.7,2022-09-06 00:40:00


#### Accediendo a las columnas
Para acceder a los datos de una de las series (o columna), debemos llamarla por su nombre.

In [10]:
# Obtenemos una serie
df["Texto"]

0    A1
1    A2
2    A3
3    A4
4    A5
5    A6
Name: Texto, dtype: object

Si queremos obtener dos o más series:

In [11]:
# Obtenermos un dataframe
df[["Texto", "Decimal"]]

Unnamed: 0,Texto,Decimal
0,A1,22.6
1,A2,55.0
2,A3,3.8
3,A4,89.9
4,A5,4.8
5,A6,95.7


*❗ Observar que utilizamos doble corchete (`[[`) en lugar de uno si queremos acceder a dos o más series.*

Podemos ver las columnas que tenemos con el atributo `columns`.

In [12]:
df.columns

Index(['Texto', 'Entero', 'Decimal', 'Datetime'], dtype='object')

#### Accediendo a las filas

Con `loc[X]` podemos observar una fila. El número que se indica dentro es **el valor del índice de la fila**. Con `iloc[X]` accedemos a **la posición del índice de la fila**.

In [13]:
# Creamos una fila más para observar la diferencia entre ambos métodos.
df.loc[9] = pd.Series({ 
    "Texto": "A9", 
    "Entero": 9,
    "Datetime": "2022-09-07 00:40:00"
})
df.loc[11] = pd.Series({ 
    "Texto": "A11", 
    "Entero": 9,
    "Datetime": "2022-09-07 00:50:00"
})
df["Datetime"] = pd.to_datetime(df["Datetime"])
df

Unnamed: 0,Texto,Entero,Decimal,Datetime
0,A1,1.0,22.6,2022-09-01 00:00:00
1,A2,4.0,55.0,2022-09-01 10:00:00
2,A3,10.0,3.8,2022-09-03 14:30:00
3,A4,4.0,89.9,2022-09-02 00:00:00
4,A5,6.0,4.8,2022-09-11 20:40:00
5,A6,0.0,95.7,2022-09-06 00:40:00
9,A9,9.0,,2022-09-07 00:40:00
11,A11,9.0,,2022-09-07 00:50:00


In [None]:
df.loc[9]

Texto                        A9
Entero                      9.0
Decimal                     NaN
Datetime    2022-09-07 00:40:00
Name: 9, dtype: object

In [None]:
df.iloc[6]

Texto                        A9
Entero                      9.0
Decimal                     NaN
Datetime    2022-09-07 00:40:00
Name: 9, dtype: object

❓ ¿Qué fila obtenemos?

In [None]:
df.iloc[7]

También podemos ver varias filas.

In [None]:
# Al utilizar un slice (:) estamos accediendo a las filas (como iloc), 
# si escribiéramos df[3] (sin :) estaríamos queriendo acceder a una columna
# (llamada 3, la cual no existe)
# Equivalente a df.iloc[:3]
df[:3]

Unnamed: 0,A,B,C,D
0,A1,1.0,22.6,2022-09-01 00:00:00
1,A2,4.0,55.0,2022-09-01 10:00:00
2,A3,10.0,3.8,2022-09-03 14:30:00


In [None]:
df.loc[8:]

Unnamed: 0,A,B,C,D
9,A9,9.0,,2022-09-07 00:40:00


In [None]:
df[8:]

Unnamed: 0,A,B,C,D


### Índices
El índice por defecto de un DataFrame es numérico comenzando por 0. Sin embargo, podemos hacer que otra de nuestras columnas sea el nuevo índice.

*`inplace=True` modifica el dataset. De lo contrario, sólo se muestra el resultado en pantalla.*

In [14]:
df.set_index("Datetime", inplace=True)
df

Unnamed: 0_level_0,Texto,Entero,Decimal
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022-09-01 00:00:00,A1,1.0,22.6
2022-09-01 10:00:00,A2,4.0,55.0
2022-09-03 14:30:00,A3,10.0,3.8
2022-09-02 00:00:00,A4,4.0,89.9
2022-09-11 20:40:00,A5,6.0,4.8
2022-09-06 00:40:00,A6,0.0,95.7
2022-09-07 00:40:00,A9,9.0,
2022-09-07 00:50:00,A11,9.0,


### Orden de columnas

Podemos ordenar el DataFrame tanto por el índice, como por otras columnas.

In [17]:
# Orden por índice
df.sort_index(inplace=True)
df

Unnamed: 0_level_0,Texto,Entero,Decimal
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022-09-01 00:00:00,A1,1.0,22.6
2022-09-01 10:00:00,A2,4.0,55.0
2022-09-02 00:00:00,A4,4.0,89.9
2022-09-03 14:30:00,A3,10.0,3.8
2022-09-06 00:40:00,A6,0.0,95.7
2022-09-07 00:40:00,A9,9.0,
2022-09-07 00:50:00,A11,9.0,
2022-09-11 20:40:00,A5,6.0,4.8


In [18]:
# Orden por columna de forma descendente
df.sort_values(by="Entero", ascending=False, inplace=True)
df

Unnamed: 0_level_0,Texto,Entero,Decimal
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022-09-03 14:30:00,A3,10.0,3.8
2022-09-07 00:40:00,A9,9.0,
2022-09-07 00:50:00,A11,9.0,
2022-09-11 20:40:00,A5,6.0,4.8
2022-09-01 10:00:00,A2,4.0,55.0
2022-09-02 00:00:00,A4,4.0,89.9
2022-09-01 00:00:00,A1,1.0,22.6
2022-09-06 00:40:00,A6,0.0,95.7


### Merge DataFrames

Podemos unir dos DataFrames distintos a través de una columna clave usando `merge`. Es equivalente a hacer `JOIN` en SQL.

In [15]:
# Creamos un dataframe para unir
df2 = pd.DataFrame({
    "Texto": ["A2", "A3", "A8", "A9", "A9"],
    "Color": ["rojo", "azul", "amarillo", "verde", "rojo"],
})
df2

Unnamed: 0,Texto,Color
0,A2,rojo
1,A3,azul
2,A8,amarillo
3,A9,verde
4,A9,rojo


In [16]:
# Por defecto es un inner join
df_merged = df.merge(
    df2,
    on="Texto"
)
df_merged

Unnamed: 0,Texto,Entero,Decimal,Color
0,A2,4.0,55.0,rojo
1,A3,10.0,3.8,azul
2,A9,9.0,,verde
3,A9,9.0,,rojo


In [19]:
df_merged = df.merge(
    df2,
    on="Texto",
    how="outer"
)
df_merged

Unnamed: 0,Texto,Entero,Decimal,Color
0,A3,10.0,3.8,azul
1,A9,9.0,,verde
2,A9,9.0,,rojo
3,A11,9.0,,
4,A5,6.0,4.8,
5,A2,4.0,55.0,rojo
6,A4,4.0,89.9,
7,A1,1.0,22.6,
8,A6,0.0,95.7,
9,A8,,,amarillo


❗Observar que al usar el merge perdemos el index original. Debemos convertirlo nuevamente en columna con `reset_index()`.

In [20]:
df_merged = df.reset_index().merge(
    df2,
    on="Texto",
    how="outer"
)
df_merged

Unnamed: 0,Datetime,Texto,Entero,Decimal,Color
0,2022-09-03 14:30:00,A3,10.0,3.8,azul
1,2022-09-07 00:40:00,A9,9.0,,verde
2,2022-09-07 00:40:00,A9,9.0,,rojo
3,2022-09-07 00:50:00,A11,9.0,,
4,2022-09-11 20:40:00,A5,6.0,4.8,
5,2022-09-01 10:00:00,A2,4.0,55.0,rojo
6,2022-09-02 00:00:00,A4,4.0,89.9,
7,2022-09-01 00:00:00,A1,1.0,22.6,
8,2022-09-06 00:40:00,A6,0.0,95.7,
9,NaT,A8,,,amarillo


### Filtrado de datos
Podemos observar una parte de nuestros datos filtrando por algunas condiciones. Cuando hacemos comparaciones obtenemos una series con tipo de dato Bool, esto nos permite luego filtrar el dataframe por esta condición.

In [21]:
df_merged["Entero"] > 5 

0     True
1     True
2     True
3     True
4     True
5    False
6    False
7    False
8    False
9    False
Name: Entero, dtype: bool

In [22]:
# Ahora filtramos
df_merged[df_merged["Entero"] > 5]

Unnamed: 0,Datetime,Texto,Entero,Decimal,Color
0,2022-09-03 14:30:00,A3,10.0,3.8,azul
1,2022-09-07 00:40:00,A9,9.0,,verde
2,2022-09-07 00:40:00,A9,9.0,,rojo
3,2022-09-07 00:50:00,A11,9.0,,
4,2022-09-11 20:40:00,A5,6.0,4.8,


La función anterior devuelve un dataframe nuevo, **no modifica los datos**. Si queremos mantener este filtrado, debemos asignarlo a una variable.

In [23]:
# Veamos que nuestros datos no han sido modificados
df_merged

Unnamed: 0,Datetime,Texto,Entero,Decimal,Color
0,2022-09-03 14:30:00,A3,10.0,3.8,azul
1,2022-09-07 00:40:00,A9,9.0,,verde
2,2022-09-07 00:40:00,A9,9.0,,rojo
3,2022-09-07 00:50:00,A11,9.0,,
4,2022-09-11 20:40:00,A5,6.0,4.8,
5,2022-09-01 10:00:00,A2,4.0,55.0,rojo
6,2022-09-02 00:00:00,A4,4.0,89.9,
7,2022-09-01 00:00:00,A1,1.0,22.6,
8,2022-09-06 00:40:00,A6,0.0,95.7,
9,NaT,A8,,,amarillo


Para filtrar por dos o más condiciones, agregamos los statements entre paréntesis `()` conectados por un operador binario.

In [24]:
df_merged[(df_merged["Entero"] > 5) & (df_merged["Decimal"].isna())]

Unnamed: 0,Datetime,Texto,Entero,Decimal,Color
1,2022-09-07 00:40:00,A9,9.0,,verde
2,2022-09-07 00:40:00,A9,9.0,,rojo
3,2022-09-07 00:50:00,A11,9.0,,


Operadores binarios:

|Operador|Función|Ejemplo|
|-|-|-|
|&|And| `df[(df["A"]) & (df["B"])]`|
|\||Or| `df[(df["A"]) \| (df["B"])]`|
|~|Not| `df[~df["A"]]`|

In [25]:
# Debemos utilizar operadores binarios, de lo contrario obtenemos un error
df_merged[(df_merged["Entero"] > 5) and (df_merged["Decimal"].isna())]

ValueError: ignored

❓ **Actividad**: Filtar el dataframe anterior por aquellos que tengan el valor "Rojo" en la serie `Color`.

### Descriptores estadísticos

Analizamos algunas de las funciones que utilizaremos para obtener los estadísticos de la variables de interés.

Una función bastante utilizada al iniciar cualquier EDA es usar `describe()` para ver de una sola vez varios resultados sobre las variables numéricas.

In [26]:
df_merged.describe()

Unnamed: 0,Entero,Decimal
count,9.0,6.0
mean,5.777778,45.3
std,3.734226,41.233967
min,0.0,3.8
25%,4.0,9.25
50%,6.0,38.8
75%,9.0,81.175
max,10.0,95.7


Luego podemos aplicar distintas funciones a las series dependiendo del tipo de dato que tengamos. 

In [27]:
df_merged["Entero"].mean()

5.777777777777778

In [28]:
df_merged["Entero"].median()

6.0

In [29]:
df_merged["Color"].value_counts()

rojo        2
azul        1
verde       1
amarillo    1
Name: Color, dtype: int64

In [30]:
df_merged.corr()

Unnamed: 0,Entero,Decimal
Entero,1.0,-0.624325
Decimal,-0.624325,1.0
