## Pandas

Pandas es una biblioteca escencial en data science que ofrece herramientas en Python para trabajar con datos de manera eficiente 
permite cargar, limpiar, transformar y analizar datos de manera sencilla

In [6]:
import numpy as np
import pandas as pd

In [None]:
df_ejemplo = pd.read_excel("./data/dataset_aviones.xlxs")
df_ejemplo.head(15)

### Objetos Pandas Series

Es un nivel muy básico, los objetos Pandas pueden ser considerados como versiones mejoradas de los arrays estructurados en Numpy 
en los que filas y columnas se identifican con etiquetas en lugar de simples índices enteros

Una Serie de Pandas es un array unidimensional de datos indexados. Se puede crear a partir de una lista 
o un array de la siguiente manera:

In [9]:
##Height of class
##Create series 5 values
data = pd.Series([1.60,1.59,1.87,2.05,1.75],
                 index=["Estudiante 1","Estudiante 2",
                        "Estudiante 3","Estudiante 4",
                        "Estudiante 5"])

data

Estudiante 1    1.60
Estudiante 2    1.59
Estudiante 3    1.87
Estudiante 4    2.05
Estudiante 5    1.75
dtype: float64

Como vemos en la salida, la Serie envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos values e index. Los valores son simplemente una matriz NumPy:

In [10]:
data.values

array([1.6 , 1.59, 1.87, 2.05, 1.75])

In [11]:
data.index

Index(['Estudiante 1', 'Estudiante 2', 'Estudiante 3', 'Estudiante 4',
       'Estudiante 5'],
      dtype='object')

In [14]:
print(data.iloc[1])

1.59


In [20]:
otra_serie = data[1:4].copy()
otra_serie
otra_serie.iloc[2]=3.05

In [21]:
otra_serie

Estudiante 2    1.59
Estudiante 3    1.87
Estudiante 4    3.05
dtype: float64

In [22]:
data

Estudiante 1    1.60
Estudiante 2    1.59
Estudiante 3    1.87
Estudiante 4    2.05
Estudiante 5    1.75
dtype: float64

### Ejercicio pandas Series

In [30]:
ciudades = []
for i in range(5):
    nombre = input(f"Ingrese el nombre {i + 1}: ")
    ciudades.append(nombre)
print(ciudades)

Ingrese el nombre 1:  Madrid
Ingrese el nombre 2:  Paris
Ingrese el nombre 3:  Barcelona
Ingrese el nombre 4:  Malaga
Ingrese el nombre 5:  Londres


['Madrid', 'Paris', 'Barcelona', 'Malaga', 'Londres']


In [36]:
Ciudades = pd.Series(ciudades)
Ciudades

0       Madrid
1        Paris
2    Barcelona
3       Malaga
4      Londres
dtype: object

In [39]:
top5 = pd.Series([2923,2799,2320,2264,2071],
                 index = ["Avatar","Avengers",
                          "Avatar II","Titanic",
                          "SW VII"])

top5.name = "top5"

In [40]:
top5

Avatar       2923
Avengers     2799
Avatar II    2320
Titanic      2264
SW VII       2071
Name: top5, dtype: int64

### Series como array NumPy

Por lo que hemos visto hasta ahora, puede parecer que el objeto `Series` es básicamente intercambiable con un array unidimensional de NumPy. La diferencia esencial es la presencia del índice: mientras que el array de NumPy tiene un índice entero implícitamente definido que se utiliza para acceder a los valores, las `Series` de Pandas tienen un índice explícitamente definido asociado a los valores.

Esta definición explícita del índice proporciona al objeto `Series` capacidades adicionales. Por ejemplo, el índice no necesita ser un entero, sino que puede consistir en valores de cualquier tipo deseado. Por ejemplo, si lo deseamos, podemos utilizar cadenas como índice:

In [44]:
print(top5.iloc[2]) ##Acceder a los elementos de manera implicita

2320


In [46]:
print(top5.loc["Avatar II"]) ##Acceder a los elementos de manera explicita

2320


In [47]:
print(type(top5))

<class 'pandas.core.series.Series'>


In [48]:
top5.index

Index(['Avatar', 'Avengers', 'Avatar II', 'Titanic', 'SW VII'], dtype='object')

In [54]:
print(top5.max())
print(top5.min())
print(top5.sum())
print(top5.mean())
print(top5.argmax())
print(top5.argmin())
print(top5.idxmax())
print(top5.idxmin())


2923
2071
12377
2475.4
0
4
Avatar
SW VII


In [56]:
## Podemos convertir los valores en listas

print (top5.tolist())

[2923, 2799, 2320, 2264, 2071]


Para terminar, recordemos que, de nuevo como array, el slicing crea vistas y que si queremos copias
que no interfieran con las Series original es necesario hacer uso del metodo copy

### Series como diccionario especializado

Puedes pensar en una **Series** de Pandas como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una **Series** es una estructura que asigna claves tipificadas a un conjunto de valores tipificados. Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de un array de NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una **Serie** de Pandas la hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

In [58]:
population_dict = {"California":38332521, 
                   "Texas":26448193,
                   "New York":19651127,
                   "Florida":19552860,
                   "Illinois":12882125}

In [60]:
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
dtype: int64

In [61]:
population.values


array([38332521, 26448193, 19651127, 19552860, 12882125])

In [62]:
population.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Por defecto, se creará una Series donde el índice  se extrae de  las claves ordenadas.
A partir de aquí, se puede realizar el típico acceso a los diccionarios

In [63]:
population["Illinois"]

np.int64(12882125)

Sin embargo, a diferencia de un diccionario, Series  también admite operaciones matriciales, como corte o slicing

In [64]:
population["California":"Florida"]

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

### Construyendo objetos Series

Ya hemos visto algunas formas de construir una **Series** de Pandas desde cero; todas ellas son alguna versión de lo siguiente:

**pd.Series(data, index=index)**  
donde `index` es un argumento opcional, y `data` puede ser una de muchas entidades.

Por ejemplo, `data` puede ser una lista o un array de NumPy, en cuyo caso `index` es por defecto una secuencia de enteros:

In [66]:
serie_ejemplo = pd.Series ([2,4,6])
serie_ejemplo.index

RangeIndex(start=0, stop=3, step=1)

data puede ser un escalar, que se repite para llenar el índice especificado:

In [68]:
serie_repetida = pd.Series("Casa",index = [100,200,300])
serie_repetida

100    Casa
200    Casa
300    Casa
dtype: object

In [71]:
serie_dict = pd.Series({2: "a", 4:"b", 6:"c"})
serie_dict

2    a
4    b
6    c
dtype: object

En cada caso, el índice puede estblecerse explícitamente si se prefiere un resultado diferente:

In [75]:
serie_dict_alt=pd.Series({2: "a", 4:"b", 6:"c"},
                          index=[2,6])

serie_dict_alt

2    a
6    c
dtype: object