# Pandas I
*Autor: José Chávez*

En esta primera clase estudiaremos las estructuras de datos fundamentales en Pandas. Para ello, iniciamos importando la librería Pandas.

In [None]:
import pandas as pd
import numpy as np

## Series

![](https://pandas.pydata.org/docs/_images/01_table_series.svg)

Una *serie* es un array unidimensional. Este puede contener cualquier tipo de dato (enteros, cadenas, números decimales, etc.). La creación de una serie se hace de la siguiente manera:

<br>
$\texttt{s = pd.Series(data, index=index)}$
<br>

Donde $\texttt{data}$ puede ser:

* Un diccionario en Python
* Una lista en Python
* Un array en Numpy
* Un escalar


El argumento $\texttt{index}$ es una lista de etiquetas de cada valor.


In [None]:
A = np.random.randn(3)
print(A)

In [None]:
s = pd.Series(A)

print(s)

In [None]:
s = pd.Series(A, index=["a", "b", "c"])

print(s)

Podemos visualiar los índices de la serie

In [None]:
s.index

También podemos crear una serie sin la necesidad de ingresar los índices.

In [None]:
s = pd.Series(np.random.randn(3))

print(s)

Las series también pueden ser creadas con un Diccionario. En un diccionario los elementos estan asociados en a una clave y valor.

In [None]:
d = {3:'Norma',2:'Julio',1:'Ricardo',4:'Milton'}

# Un Diccionario en Python
# ======================================================
#
# 1,2,3 y 4 son la claves
# 'Norma', 'Julio', 'Ricardo', 'Milton' son los valores
#  respectivos para cada llave

print(d[1])
print(d[2])
print(d[3])
print(d[4])

In [None]:
pd.Series(data=d)

Yo puedo hacer que los índices esten ordenados.

In [None]:
pd.Series(data=d, index=[1,2,3,4])

Puedo crear una serie a través de una lista.

In [None]:
L = ['Norma','Julio','Ricardo','Milton']

In [None]:
s = pd.Series(L)

print(s)

Puedo modicar un elemento de la serie accediendo a su índice.

In [None]:
s.iloc[0] = 'Manuel'

print(s)

In [None]:
s[0] = 'Juan'

print(s)

Puede mostrar los primeros 3 elementos de la serie.

In [None]:
s[:3] # los primero 3 elementos de s

Por último, también puedo crear una serie a partir de un escalar.

In [None]:
pd.Series(5.0, index=[0, 1, 2])

## Categorical

Pandas también admite variables categoricas, y además permite la conversión a su forma numérica para un posterior análisis.

In [None]:
L = ['azul','VERDE','AZuL','AMaRILLO','verde','VERDE','ROJO']
L

In [None]:
L_mayusc = [palabra.upper() for palabra in L]

print(L_mayusc)

In [None]:
s = pd.Categorical(L_mayusc)
s

In [None]:
s.categories

In [None]:
s.codes

# DataFrame

Un *DataFrame* es una estructura de datos bidimensional. Un DataFrame acepta múltiples tipos de entrada:

* Un diccionario de arrays 1D, listas, o Series
* Arrays 2D
* Una Serie
* Un DataFrame


![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

La creación de un DataFrame es sencilla. Utilizando un diccionario sería:

In [None]:
df = pd.DataFrame({
        "Nombre": ["Juan", "Pedro", "Julia", "María"],
        "Edad"  : [20, 31, 52, 17],
        "Altura": [1.85, 1.55, 1.5, 1.6]})

In [None]:
df

Puede obtener el tamaño del DataFrame

In [None]:
df.shape

Puedo ver el tipo de datos de cada columna

In [None]:
df.dtypes

Puedo generar una pequeña descripción del DataFrame y así obtener algunas estadisticas.

In [None]:
df.describe()

Puedo forzar la descripción para todas las columnas.

In [None]:
df.describe(include="all")

Puedo obtener las etiquetas para las columnas

In [None]:
df.columns

Puedo obtener las etiquetas para los índices.

In [None]:
df.index

## Estadisticas

Pandas me permite obtener estadisticas para cada columna del DataFrame.

In [None]:
df["Edad"].mean()  # Con df["Edad"] ingresamos a la columna 'Edad'

In [None]:
df["Edad"].min()

In [None]:
df["Altura"].std()

In [None]:
df["Altura"].max()

In [None]:
df

## Ordenamiento de DataFrames

Puedo ordenar un DataFrame con respecto a una columna.

In [None]:
df

In [None]:
df.sort_values("Edad", ascending=True)

In [None]:
df.sort_values("Altura", ascending=False)

## Filtrado de DataFrames

Puedo filtrar datos del DataFrame de acuerdo a algún umbral en alguna columna

In [None]:
df

In [None]:
df["Altura"] > 1.58

De acuerdo a los datos booleanos ($\texttt{True}$, $\texttt{False}$).

In [None]:
df[df["Altura"] > 1.58]   # Vamos a extraer las muestras que cumple la condicion 'df["Altura"] > 1.58'

Puedo filtrar a las personas mayores a 19 años.

In [None]:
df

In [None]:
df[df["Edad"]>19]

Puedo combinar expresiones booleanas

* &: and
* |: or

In [None]:
df[(df["Edad"]>19) & (df["Altura"]<1.70)]

## Modificar elementos de un DataFrame

También se puden modificar los elementos de una DataFrame.

In [None]:
df

In [None]:
df.at[0,"Altura"] = 1.7
df

Otra forma de asignar valores es con $\texttt{df.loc}$

In [None]:
df.loc[0, "Altura"] = 1.71
df

## Valores $\texttt{NaN}$ (Not a Number)

El concepto de $\texttt{NaN}$ se genera en el campo de la ciencia de la computación, haciendo referencia a aqueños valores que no son numéricos. Un valor NaN puede indicar que una variable que tendría que ser numérica esta comrrupta.

In [None]:
import numpy as np

df = pd.DataFrame({
        "Nombre": ["Juan", "Pedro", "Julia", "María"],
        "Edad"  : [20, 31, 52, 17],
        "Altura": [1.85, 1.55, 1.5, 1.6]})

In [None]:
df

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20,1.85
1,Pedro,31,1.55
2,Julia,52,1.5
3,María,17,1.6


In [None]:
df.at[2,"Altura"] = np.nan
df

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20,1.85
1,Pedro,31,1.55
2,Julia,52,
3,María,17,1.6


In [None]:
df.at[0,"Altura"] = np.nan
df

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20,
1,Pedro,31,1.55
2,Julia,52,
3,María,17,1.6


In [None]:
df.loc[3,'Edad'] = np.nan
df

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20.0,
1,Pedro,31.0,1.55
2,Julia,52.0,
3,María,,1.6


Pandas me permite detectar que valores son $\texttt{NaN}$ en mi DataFrame.

In [None]:
df.isna()

Unnamed: 0,Nombre,Edad,Altura
0,False,False,True
1,False,False,False
2,False,False,True
3,False,True,False


Puedo visualizar los datos que contienen valores $\texttt{NaN}$ en la columna *Altura*.

In [None]:
df["Altura"].isna()

0     True
1    False
2     True
3    False
Name: Altura, dtype: bool

In [None]:
df[df["Altura"].isna()] # Muestras que tengan 'NaN' en la columna 'Altura'

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20.0,
2,Julia,52.0,


También puedo visualizar los datos que **no contienen** valores $\texttt{NaN}$ en la columna *Altura*.

In [None]:
df[df["Altura"].isna()==False]

Unnamed: 0,Nombre,Edad,Altura
1,Pedro,31.0,1.55
3,María,,1.6


Puedo estimar cuantos valores son $\texttt{NaN}$ por columna.

In [None]:
df.isna()

Unnamed: 0,Nombre,Edad,Altura
0,False,False,True
1,False,False,False
2,False,False,True
3,False,True,False


In [None]:
df.isna().sum()

Nombre    0
Edad      1
Altura    2
dtype: int64

Por último, puedo estimar cuantos valores son $\texttt{NaN}$ en mi DataFrame.

In [None]:
df.isna().sum().sum()

3

## Rellenando valores $\texttt{NaN}$ con $\texttt{df.fillna}$




Rellenar los valores $\texttt{NaN}$ con **ceros**

In [None]:
df

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20.0,
1,Pedro,31.0,1.55
2,Julia,52.0,
3,María,,1.6


In [None]:
df["Altura"] = df["Altura"].fillna(1.70)
df

Unnamed: 0,Nombre,Edad,Altura
0,Juan,20.0,1.7
1,Pedro,31.0,1.55
2,Julia,52.0,1.7
3,María,,1.6


In [None]:
df.isna().sum()

Nombre    0
Edad      1
Altura    0
dtype: int64

## Ejercicio:

Rellenar los valoes $\texttt{NaN}$ de la columna *Edad* con la *media* de los valores que no son $\texttt{NaN}$.

In [None]:
# Ingrese aquí su código
# ==================================
df

In [None]:
edad_mean = df[df["Edad"].isna()==False]["Edad"].min()
edad_mean

In [None]:
print((20+31+52)/3)

In [None]:
df["Edad"] = df["Edad"].fillna(int(edad_mean))
df

### Puedo cambiar el tipo de dato de una columna con $\texttt{df = df.astype(int)}$

In [None]:
df.dtypes

In [None]:
df["Edad"] = df["Edad"].astype(int)
df

In [None]:
df.dtypes