<font color="#CA3532"><h1 align="left">Operaciones básicas con la librería Pandas</h1></font>

**Manuel Sánchez-Montañés**

Para ejecutar una celda: seleciónala y pulsa las teclas SHIFT + ENTER

### Primero importamos la librería

In [None]:
import pandas as pd

### Cargamos datos de un fichero

In [None]:
pd.options.display.max_columns = 200
pd.options.display.max_rows = 1000

In [None]:
nombre_fichero = "../datasets/datos_ejemplo.csv"
datos = pd.read_csv(nombre_fichero, sep=";")
datos

In [None]:
datos["marital"].unique()

### Descripción de los datos

In [None]:
datos.head(3) # primeros 3 casos (filas)

In [None]:
datos.sample(20) # muestra aleatoria de 20 filas

In [None]:
datos.tail(3) # últimas 3 filas

In [None]:
type(datos)

In [None]:
# número de casos (observaciones) x número de columnas
datos.shape

In [None]:
# acceso a una columna:

#datos.age
datos["age"]

In [None]:
datos.age

In [None]:
# paso a lista de una columna:

list(datos["age"])

In [None]:
# acceso secuencial a los elementos de una columna:

for d in datos['age']:
    print(d)

In [None]:
# Selección de solo algunos campos de describe:

datos.describe()

In [None]:
datos.shape

In [None]:
aux = datos.describe().T[["count", "min", "max", "mean", "std"]]
aux.to_csv("estadisticas.csv") # paso a fichero
aux

#### Pregunta: ¿por qué algunas columnas no aparecen en esa descripción?

In [None]:
print(datos.columns)
print(len(datos.columns))

In [None]:
# tipo de cada columna
datos.dtypes

In [None]:
import numpy as np
np.unique(datos['age'])

In [None]:
datos.describe(include = object).T

In [None]:
# no recomendable:
datos.describe(include = "all").T

In [None]:
#?datos.hist

In [None]:
datos.hist(figsize=(15,20), grid=True, bins=20, layout=(5,3));

### Selección de datos

In [None]:
# indice del dataset
datos.index

In [None]:
list(datos.columns)

In [None]:
# selección de una columna
datos["job"]  # también se puede acceder con datos.job

In [None]:
datos.head(5)

In [None]:
b = datos.head(5).copy()
b = b.sort_values("age") # equivalente a b.sort_values("age", inplace=True)

In [None]:
b

In [None]:
datos.head(5).sort_values("age", ascending=False)

In [None]:
datos.sort_values(["age", "education"], ascending=[True, False])

In [None]:
datos.head(5)

In [None]:
a = datos.head(5).sort_values("age", ascending=False)
a

In [None]:
datos.set_index("education")

In [None]:
b = a.loc[[4,3],["education", "housing"]] # acceso por etiqueta
b

In [None]:
b = a.iloc[0:4:2,[3,4]] # acceso por posición
b

In [None]:
type(b)

In [None]:
# seleccion por posicion
print(datos.iloc[2])
print()
print(datos.iloc[2,3:7])

In [None]:
# seleccion por posiciones dadas por listas
print(datos.iloc[[2,3,4],0:3])
print()
print(datos.iloc[[2,3,4],2])

In [None]:
# seleccion booleana
datos[datos["age"] >= 94]

#### Selecciones booleanas complejas

In [None]:
# casos con campo con determinados valores
datos[datos["age"].isin([17, 98, 20])].sort_values("age")

In [None]:
datos[ (datos["age"] >= 94) & (datos["marital"] == "married") ]

In [None]:
len(datos)

In [None]:
len(datos[datos.age >= 94])

In [None]:
datos[(datos["age"]>=94) |
      ((datos["age"]<=21) & (datos["marital"]=="married"))]

### Estadísticas básicas

#### Valores diferentes de una columna

In [None]:
aux = datos["job"].unique()
print(aux)
print(len(aux))

In [None]:
for c in datos.columns:
    aux = sorted(datos[c].unique())
    if len(aux) <= 100:
        print("* Columna {}, {} valores únicos: {}".format(c, len(aux), aux))
    else:
        print("* Columna {}, {} valores únicos".format(c, len(aux)))

#### Frecuencias de valores

In [None]:
# Frecuencia de los valores de la columna "job"
datos["job"].value_counts()

In [None]:
# cuáles son los trabajos mas frecuentes y los menos frecuentes?
print("\n* Los dos trabajos más frecuentes son:")
print(datos["job"].value_counts().head(2))

print("\n* Los dos trabajos menos frecuentes son:")
print(datos["job"].value_counts().tail(2))

#### Mediana, media, desviación estándar etc.

In [None]:
print(datos['age'].median())
print(datos['age'].median())
print()
print(datos['age'].mean())
print(datos['age'].std())
print(datos['age'].kurtosis())

In [None]:
nombres_cols = datos.columns
nombres_cols

In [None]:
nombres_cols[3]

In [None]:
print(nombres_cols)

print(datos[nombres_cols[0]].median())

In [None]:
type(datos)

In [None]:
# ordenamos por edad
datos.sort_values(by = "age").head(10)

In [None]:
# ordenamos por edad. Dentro de la misma edad ordenamos por el campo "education"
datos.sort_values(by = ["age", "education"]).head(10)

In [None]:
# ordenamos por edad de mayor a menor
datos.sort_values(by = "age", ascending = False).head(10)

In [None]:
# edad media en cada trabajo
#datos.groupby('job').age.mean()
datos.groupby('job')["age"].mean()

#### ¿En qué trabajos hay más proporción de personas divorciadas?

In [None]:
def aux(x): # x: variable "local" (comodín)
    if x=='divorced':
        return 1
    else:
        return 0


# Equivalente a:
aux = lambda x: 1 if x=='divorced' else 0

In [None]:
aux("divorced")

In [None]:
aux("married")

In [None]:
# primero creamos una version nueva de la base de datos con una columna adicional
datos_expandidos = datos.copy()

In [None]:
datos_expandidos.head(3)

In [None]:
datos_expandidos['is_divorced_num'] = datos_expandidos['marital'].apply(aux)

In [None]:
datos_expandidos.head(14)

In [None]:
# número de personas en cada tipo de trabajo
b = datos_expandidos['job'].value_counts()
b

In [None]:
c = datos_expandidos.groupby("job")["is_divorced_num"].sum() / b
100*c.sort_values(ascending=False)

In [None]:
cols = ["job", "education"]

In [None]:
100*datos_expandidos.groupby(cols)["is_divorced_num"].mean().sort_values(ascending=False)

In [None]:
datos.groupby(["job", "marital"])[["age"]].agg("mean")

In [None]:
print("\nNúmero de personas en cada tipo de trabajo:\n", b)
a = datos_expandidos.groupby('job')["is_divorced_num"].sum()
print("\nNúmero de personas divorciadas en cada tipo de trabajo:\n", a)

In [None]:
c = 100*a/b
print("\nPorcentaje de personas divorciadas en cada tipo de trabajo:\n", c)

# porcentaje de personas divorciadas en cada tipo de trabajo ordenado de mayor a menor
print("\nPorcentaje de personas divorciadas en cada tipo de trabajo (ordenado):\n",
      c.sort_values(ascending = False))

In [None]:
# edad mínima y máxima en cada estado marital
datos.groupby('marital')["age"].agg(['min', 'max'])

In [None]:
# edad media en cada combinación posible de "education" y "marital"
datos.groupby(['education', 'marital']).age.mean() # probar a anadir "housing"

## Creación de un dataframe nuevo

Podemos crear un dataframe desde:

* otro dataframe de Pandas
* una serie de Pandas (array de una dimensión con datos de cualquier tipo donde cada elemento tiene asociada una etiqueta o un valor del índice). Por ejemplo cada columna de un dataframe es una serie.
* un ndarray de Numpy de 2 dimensiones
* un diccionario de nddarrays 1D, listas, diccionarios o series.

In [None]:
my_array = np.array([['', 'age', 'hobby'],
                     ['Row1', 17, 'soccer'],
                     ['Row2', 20, 'chess'],
                     ['Row3', 2, '']])
type(my_array)
my_array

In [None]:
df = pd.DataFrame(data=my_array[1:,1:],
                  index=my_array[1:,0],
                  columns=my_array[0,1:]
                 )

df

In [None]:
df.loc["Row1", "hobby"]

In [None]:
# Otra forma: creación de df desde un diccionario de series
my_dict = {'age' : pd.Series([17, 20, 2], index=['case 1', 'case 2', 'case 3']), 
           'hobby' : pd.Series(['chess', 'soccer'], index=['case 2', 'case 1'])}
df = pd.DataFrame(my_dict)
df

## Grabar el dataframe en un fichero csv o excel

In [None]:
df.to_csv('my_df.csv', sep=";")
df.to_excel('my_df.xls')

**Nota: obtención del listado de todas las librerías instaladas y sus versiones:**

In [None]:
!pip freeze