# **Pandas**

In [1]:
import numpy as np
import pandas as pd

### **Series**

Una Serie de Pandas es un array unidimensional de datos indexados. Se puede crear a partir de una lista o un array de la siguiente manera:  
`pd.Series(data, index = index)`

In [20]:
data = pd.Series([1.78, 1.87, 1.96, 2.05],
                 index = ["Estudiante 1", "Estudiante 2",
                          "Estudiante 3", "Estudiante 4"])
print(data)

Estudiante 1    1.78
Estudiante 2    1.87
Estudiante 3    1.96
Estudiante 4    2.05
dtype: float64


Para acceder a los datos se utilizan los atributos`.values` y `.index`

In [6]:
print(data.values)
print(data.index)

[1.78 1.87 1.96 2.05]
Index(['Estudiante 1', 'Estudiante 2', 'Estudiante 3', 'Estudiante 4'], dtype='object')


Se puede acceder a los datos mediante su índice asociado aunque esto cambiará en futuras acctualizaciones.  
Usar el método `.iloc[i]` (index localizator) o `.loc["name"]` o simplemente `nombre_variable["name"]`

In [17]:
print(data.iloc[0], data.iloc[1], data.iloc[-1])
print(data.loc["Estudiante 1"])
print(data["Estudiante 2"])

1.78 1.87 2.05
1.78
1.87


Para nombrar las series se utiliza `.name = " "`

In [14]:
data.name = "Altura de estudiantes"
print(data)

Estudiante 1    1.78
Estudiante 2    1.87
Estudiante 3    1.96
Estudiante 4    2.05
Name: Altura de estudiantes, dtype: float64


Para obtener el nombre del índice de valor máximo de una serie `.idxmax()`, para el mínimo `.idxmin()`

In [23]:
print(data.idxmax(), data.idxmin())

Estudiante 4 Estudiante 1


Convertir los valores de la serie en lista: `.to_list()`

In [24]:
print(data.to_list())

[1.78, 1.87, 1.96, 2.05]


#### **Construir una serie a partir de un diccionario**

In [25]:
population_dict = {"California": 38332521,
                   "Texas": 26448193,
                   "New York": 19651127,
                   "Florida" : 19552860,
                   "Illinois": 12882135}

In [29]:
population = pd.Series(population_dict)
print(population,)
print(population.values)
print(population.index)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
[38332521 26448193 19651127 19552860 12882135]
Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')


#### **Selección en series**

In [12]:
data = pd.Series([1,2,4,5,6,23,22], index =["a", "b", "d", "c", "e", "z", "m"])
print(data)

a     1
b     2
d     4
c     5
e     6
z    23
m    22
dtype: int64


In [8]:
# Slicing por índice específico:
data["a":"d"]    #----> Se incluyen los valores iniciales y finales.

a    1
b    2
d    4
dtype: int64

In [9]:
# Slicing por índice posicional:
data[-3:]

e     6
z    23
m    22
dtype: int64

In [11]:
# Masking
data[(data > 3) & (data < 8)]

d    4
c    5
e    6
dtype: int64

In [14]:
# Fancy indexing:
seleccion = ["a", "m", "z", "d"]
data[seleccion]   #----> Crea una subserie que devuleve solo los índices elegidos en la posición que hemos indicado

a     1
m    22
z    23
d     4
dtype: int64

`.loc[]` Hace referencia al índice explícito (el que coincide con el index de la serie)

In [16]:
data.loc["c"]

5

`.iloc` Hace referencia al índice implícito (el posicional típico de python)

In [18]:
data.iloc[3]

5

### **Data frames**

`data = pd.DataFrame(datos)`

In [37]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)

area_dict = {"California": 423967,
             "Texas" : 695662, 
             "New York" : 141297,
             "Florida" : 170312,
             "Illinois" : 149995}
area = pd.Series(area_dict)

estados = {"Poblacion" : population,
           "Superficie": area}


In [38]:
states = pd.DataFrame(estados)
states

Unnamed: 0,Poblacion,Superficie
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### **Selección en DataFrame**

In [39]:
#Los nombres de las columnas se guardan como atributos del DataFrame:
print(states.Poblacion)


California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: Poblacion, dtype: int64


In [40]:
#Para acceder a los nombres de las filas:
print("Filas:", states.index)

#Para los nombres de las columnas:
print("Columnas:", states.columns)

#Para los valores:
print(states.values)


Filas: Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')
Columnas: Index(['Poblacion', 'Superficie'], dtype='object')
[[38332521   423967]
 [26448193   695662]
 [19651127   141297]
 [19552860   170312]
 [12882135   149995]]


In [41]:
#Para acceder a los valores de una etiqueta:
print(states.loc["Florida"])

Poblacion     19552860
Superficie      170312
Name: Florida, dtype: int64


In [42]:
pd.DataFrame(data = population, columns = ["Poblacion"])

Unnamed: 0,Poblacion
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### **Generar columnas**

In [47]:
# Añadiendo nuevo valor
states["Densidad"] = states["Poblacion"] / states["Superficie"]
states

Unnamed: 0,Poblacion,Superficie,Densidad,Abrebiaturas
California,38332521,423967,90.413926,CA
Texas,26448193,695662,38.01874,TX
New York,19651127,141297,139.076746,NY
Florida,19552860,170312,114.806121,FL
Illinois,12882135,149995,85.883763,IL


In [46]:
# A partir de listas:
abrebiaturas = ["CA", "TX", "NY", "FL", "IL"]
states["Abrebiaturas"] = abrebiaturas
states

Unnamed: 0,Poblacion,Superficie,Densidad,Abrebiaturas
California,38332521,423967,90.413926,CA
Texas,26448193,695662,38.01874,TX
New York,19651127,141297,139.076746,NY
Florida,19552860,170312,114.806121,FL
Illinois,12882135,149995,85.883763,IL


#### **Transposición fila a columna**

In [49]:
#1º se obtiene una matriz Numpy del DataFrame
states.values

array([[38332521, 423967, 90.41392608386974, 'CA'],
       [26448193, 695662, 38.01874042279153, 'TX'],
       [19651127, 141297, 139.07674614464568, 'NY'],
       [19552860, 170312, 114.80612053173, 'FL'],
       [12882135, 149995, 85.88376279209307, 'IL']], dtype=object)

In [51]:
# Usar el método de transposición .T
states.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
Poblacion,38332521,26448193,19651127,19552860,12882135
Superficie,423967,695662,141297,170312,149995
Densidad,90.413926,38.01874,139.076746,114.806121,85.883763
Abrebiaturas,CA,TX,NY,FL,IL


#### **Calcular intersección y union de índices**

In [15]:
ind_1 = pd.Index([1, 3, 5, 7, 9])
ind_2 = pd.Index([2, 3, 5, 7, 11])

In [16]:
#Intersección (elementos comunes):
ind_1.intersection(ind_2)

Index([3, 5, 7], dtype='int64')

In [18]:
#Unión (concatenación de todos los índices sin repetirse):
ind_1.union(ind_2)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

#### **Selección en DataFrames**

En el indexador `.loc` podemos combinar el enmascaramiento y la indexación "de fantasía" (o selectiva) como en lo siguiente:

In [53]:
states.loc[states.Poblacion > 20000000]

Unnamed: 0,Poblacion,Superficie,Densidad,Abrebiaturas
California,38332521,423967,90.413926,CA
Texas,26448193,695662,38.01874,TX


In [54]:
states.loc[states.Poblacion > 20000000, "Densidad"]

California    90.413926
Texas         38.018740
Name: Densidad, dtype: float64

In [56]:
states.loc[states["Poblacion"] < 20000000]

Unnamed: 0,Poblacion,Superficie,Densidad,Abrebiaturas
New York,19651127,141297,139.076746,NY
Florida,19552860,170312,114.806121,FL
Illinois,12882135,149995,85.883763,IL
