## Introducción a Pandas

Pandas (nombre derivado de panel data, término usado para referirse a conjuntos de datos estructurados multidimensionales).

Los principales objetos ofrecidos por pandas son el **dataframe**, estructura tabular bidimensional y la **serie**, ambas basadas en el array multidimensional de NumPy.

Pandas, y en particular sus objetos Series y DataFrame, se basa en la estructura de matrices de NumPy y proporciona un acceso eficiente a este tipo de tareas de "manipulación de datos" que ocupan gran parte del tiempo de un científico de datos.

Así como generalmente importamos NumPy bajo el alias np, importaremos Pandas bajo el alias pd. Como se ha comentado, pandas se basa en la funcionalidad de NumPy, por lo que numerosas funciones de esta última librería son perfectamente aplicables a las series y a los dataframes. Para poder probarlas, también debemos importar la función NumPy,

In [1]:
import pandas as pd
import numpy as np

### Documentación y ayuda

Jupyter ofrece la posibilidad de explorar rápidamente el contenido de un paquete (utilizando la función de completado), así como la documentación de varias funciones (utilizando el carácter ?)

In [2]:
pd?

In [3]:
pd.read_csv?

In [4]:
pd.

SyntaxError: invalid syntax (Temp/ipykernel_1836/3133375982.py, line 1)

In [None]:
pd.read_csv?

Puede encontrar documentación más detallada, junto con tutoriales y otros recursos, en http://pandas.pydata.org/.

### El objeto Series

A un nivel muy básico, los objetos Pandas pueden considerarse como versiones mejoradas de las matrices estructuradas de NumPy en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Una Series es un array unidimensional de datos indexados. Se puede crear a partir de una lista o un array de la siguiente manera:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Como vemos en la salida, la Serie envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos **values** e **index**. Los valores son simplemente una matriz NumPy:

In [None]:
print(data.values)
print(type(data.values))

In [None]:
type(data.index

Al igual que con un array de NumPy, se puede acceder a los datos por el índice asociado mediante la conocida notación de corchetes de Python

In [None]:
data[1]

In [None]:
data[1:3]

#### Diferencias con el array de numpy

La diferencia esencial es la presencia del índice: mientras que la matriz Numpy tiene un índice entero definido implícitamente que se utiliza para acceder a los valores, la serie Pandas tiene un índice definido explícitamente asociado a los valores.

Esta definición explícita del índice proporciona al objeto Series capacidades adicionales. Por ejemplo, no es necesario que el índice sea un número entero, sino que puede consistir en valores de cualquier tipo deseado. Por ejemplo, si lo deseamos, podemos utilizar cadenas como índice:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

Y para acceder...

In [None]:
data['b']

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

In [None]:
data[5]

#### De diccionarios a Series

Se puede pensar en una Serie de Pandas como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que asigna claves tipificadas a un conjunto de valores tipificados. 

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

In [None]:
population['California']

Sin embargo, a diferencia de un diccionario, la Serie también admite operaciones de tipo matriz, como el 'slicing':

In [None]:
population['California':'Florida']

### El objeto Pandas DataFrame

Al igual que el objeto Series discutido en la sección anterior, el DataFrame puede pensarse como una generalización de un array NumPy, o como una particularización de un diccionario Python.

se puede pensar en un DataFrame como una secuencia de objetos Series alineados. Por "alineados" entendemos que comparten el mismo índice.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" alt="drawing" width="500"/>

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

Ahora que tenemos esto junto con las series de población de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [None]:
print(population)

In [None]:
print(area)

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Al igual que el objeto Series, el DataFrame tiene un atributo de índice que da acceso a las etiquetas de índice:

In [None]:
states.index

Además, el DataFrame tiene un atributo columns, que es un objeto Index que contiene las etiquetas de las columnas:

In [None]:
states.columns

Por lo tanto, el DataFrame puede pensarse como una generalización de un array NumPy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

El DataFrame asigna un nombre de columna a una Serie. Por ejemplo, al pedir el atributo "area" se devuelve el objeto Serie que contiene las áreas que vimos anteriormente:

In [None]:
states['area']

#### Formas de construir DataFrames

In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

In [None]:
pd.DataFrame(population, columns=['population'])

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

### Indexers: loc, iloc

Estas convenciones de 'slicing' e indexación pueden ser una fuente de confusión. Por ejemplo, si tu Serie tiene un índice entero explícito, una operación de indexación como data[1] utilizará los índices explícitos, mientras que una operación de corte como data[1:3] utilizará el índice implícito de estilo Python.

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
# explicit index when indexing
data[1]

In [None]:
# implicit index when slicing
data[1:3]

Debido a esta potencial confusión en el caso de los índices enteros, Pandas proporciona algunos atributos especiales de indexadores que exponen explícitamente ciertos esquemas de indexación. No se trata de métodos funcionales, sino de atributos que exponen una interfaz de 'slicing' particular a los datos de la Serie.

En primer lugar, el atributo loc permite la indexación y el corte que siempre hace referencia al índice explícito:

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

El atributo iloc permite la indexación y el corte que siempre hace referencia al índice implícito de estilo Python:

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

#### En DataFrames

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
#Acceder a Columnas
data['area']

In [None]:
data.area

In [None]:
#Crear una nueva columna
data['density'] = data['pop'] / data['area']
data

In [None]:
#usando iloc
data.iloc[:3, :2]

In [None]:
#usando loc
data.loc[:'Illinois', :'pop']

Dentro de estos indexadores se puede utilizar cualquiera de los patrones de acceso a datos conocidos del estilo de NumPy. Por ejemplo, en el indexador loc podemos combinar el enmascaramiento y la indexación como en lo siguiente:

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; esto se hace de la manera estándar a la que puede estar acostumbrado de trabajar con NumPy

In [None]:
data.iloc[0, 2] = 90
data

In [None]:
data[data.density > 100]

In [None]:
data[data['density'] > 5]

### Droppigng

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
new_obj = obj.drop('c')
new_obj

In [None]:
#tambien varios
obj.drop(['d', 'c'])

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),index=['Ohio', 'Colorado', 'Utah', 'New York'],columns=['one', 'two', 'three', 'four'])

In [None]:
data

In [None]:
#index
data.drop(['Colorado', 'Ohio'])

In [None]:
#columns
data.drop('two', axis=1)

Muchas funciones, como drop, que modifican el tamaño o la forma de una Serie o DataFrame
pueden manipular un objeto en su lugar sin devolver un nuevo objeto:

In [None]:
obj.drop('c', inplace=True)

### Renaming

In [None]:
data.rename(index={'OHIO': 'INDIANA'},columns={'three': 'peekaboo'})

In [None]:
data.rename(index=str.title, columns=str.upper)

In [None]:
data.rename(index={'Ohio': 'INDIANA'})

### Usar funciones para transformar

In [None]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
....: 'Pastrami', 'corned beef', 'Bacon',
....: 'pastrami', 'honey ham', 'nova lox'],
....: 'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})

In [None]:
data

In [None]:
data["food"]=data["food"].str.lower()

In [None]:
data

In [None]:
meat_to_animal = {
'bacon': 'pig',
'pulled pork': 'pig',
'pastrami': 'cow',
'corned beef': 'cow',
'honey ham': 'pig',
'nova lox': 'salmon'
}

El método map de una Serie acepta una función o un objeto tipo dict que contiene un mapeo,

In [None]:
data["animal"]=data["food"].map(meat_to_animal)

In [None]:
data

### Los duplicados....

In [None]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
....: 'k2': [1, 1, 2, 3, 3, 4, 4]})

In [None]:
data

In [None]:
data.duplicated()

In [None]:
data.drop_duplicates()

### Combinaciones

Ahora, parte principal de la manipulación de los dataframes es la creacion o concatenación de columnas adicionales o la copias sobre las mismas. Esto, porque siempre estaremos se estará añadiendo información adicional que ayude sobre nuestros analísis.

In [None]:
df1 = pd.DataFrame({
'column_a':[1,2,3,4],
'column_b':['a','b','c','d'],
'column_c':[True,True,False,True]
})

df1

In [None]:
df2 = pd.DataFrame({
'column_a':[1,2,9,10],
'column_b':['a','k','l','m'],
'column_c':[False,False,False,True]
})

df2

Una forma de combinar o concatenar DataFrames es la función concat(). Puede utilizarse para concatenar DataFrames a lo largo de filas o columnas cambiando el parámetro del eje. El valor por defecto del parámetro del eje es 0, que indica la combinación a lo largo de las filas.

In [None]:
df = pd.concat([df1,df2])
df

In [None]:
df = pd.concat([df1,df2], axis=1)
df

Como pueden ver en la primera figura de arriba, los índices de los DataFrames individuales se mantienen. Para cambiarlo y volver a indexar el DataFrame combinado, el parámetro ignore_index se establece como True.

In [None]:
df = pd.concat([df1,df2], ignore_index=True)
df

El parámetro join de la función concat() determina cómo combinar los DataFrames. El valor por defecto es 'outer' y devuelve todos los índices de ambos DataFrames. Si se selecciona la opción 'inner', sólo se devuelven las filas con índices compartidos. A cotinuación diferencia entre 'inner' y 'outer'. 

In [None]:
df2 = pd.DataFrame({
'column_b':['y','q','n','a','k','l','m'],
'column_c':[False,False,False,False,False,False,True]
})
df2 = df2.drop([0,1,2])
df2

In [None]:
df = pd.concat([df1,df2], axis=1, join='inner')
df

In [None]:
df = pd.concat([df1,df2], axis=1, join='outer')
df

La función append() también se utiliza para combinar DataFrames. Se puede ver como un caso particular de la función concat() (axis=0 y join='outer').

In [None]:
df = df1.append(df2)
df

Otra función muy utilizada para combinar DataFrames es merge(). La función Concat() simplemente añade los DataFrames uno encima del otro o los añade uno al lado del otro. Es más bien una forma de añadir DataFrames. Merge() combina los DataFrames basándose en los valores de las columnas compartidas. La función Merge() ofrece más flexibilidad que la función concat(). Se verá claramente cuando vea los ejemplos.

In [None]:
df1 = pd.DataFrame({
'column_a':[1,2,3,4],
'column_b':['a','b','c','d'],
'column_c':[True,True,False,True]
})

df1

In [None]:
df2 = pd.DataFrame({
'column_a':[1,2,9,10],
'column_b':['a','k','l','m'],
'column_c':[False,False,False,True]
})

df2

In [None]:
df_merge = pd.merge(df1, df2, on='column_a')
df_merge

Los nombres de las columnas no tienen por qué ser los mismos. Nuestro objetivo son los valores de las columnas. Supongamos que dos DataFrames tienen valores comunes en una columna que desea utilizar para fusionar estos DataFrames pero los nombres de las columnas son diferentes. En este caso, en lugar del parámetro on, puede utilizar los parámetros left_on y right_on. Para mostrar la diferencia, cambiaré el nombre de la columna en df2 y luego usaré merge:

In [None]:
df2.rename(columns={'column_a':'new_column_a'}, inplace=True)
df2

In [None]:
df_merge = pd.merge(df1, df2, left_on='column_a', right_on='new_column_a')
df_merge

También puede pasar múltiples valores al parámetro on. El DataFrame devuelto sólo incluye las filas que tienen los mismos valores en todas las columnas pasadas al parámetro on.

In [None]:
df2.rename(columns={'new_column_a':'column_a'}, inplace=True)
df_merge = pd.merge(df1, df2, on=['column_a','column_b'])
df_merge

### Lectura

En la mayoría de los casos, leemos datos de un fichero y los convertimos en un DataFrame. Pandas proporciona funciones para leer datos de muchos tipos de archivos diferentes. La más utilizada es read_csv. También existen otros tipos como read_excel, read_json, read_html, etc. Vamos a ver un ejemplo usando read_csv:

In [None]:
df = pd.read_csv("boston.csv")
df.head()

Observemos las dimensiones del dataset...

In [None]:
df.shape

In [None]:
#columnsa y tipo de datos
df.info()

In [None]:
#Primeras filas
df.head()

In [None]:
# primeras 10 filas
df.head(10)

In [None]:
#Ultimas filas
df.tail()

In [None]:
#ultimas 10 filas 
df.tail(10)

Con el uso de describe también podemos tener una vista genera de nuestros datos. Podemos obtener una información básica sobre ellos sin tener que indagar a analizar cada columna por aparte.

In [None]:
df.describe()

In [None]:
df.CHAS.value_counts()

Podemos tener información sobre los diferentes tipos de datos que tenemos. En este caso podemos evidencia que CHAS solo varía entre el uso de variables enteras int64 mientrás que las demás solo funcionan con variables de tipo decimal o de punto flotante float64.

Podemos tener información sobre los diferentes tipos de datos que tenemos. En este caso podemos evidencia que CHAS solo varía entre el uso de variables enteras int64 mientrás que las demás solo funcionan con variables de tipo decimal o de punto flotante float64.

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 ,None, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', '--', np.nan, 'd'],
'column_d':[True, True, np.nan, None, False, True, False]
})
df

En muchas ocasiones nos encontraremos con bases de datos con datos faltantes, en este caso descritos como NaN. Esto es muy común verlo entre grandes cantidades de datos. Dichos datos pueden generar algún tipo de ruido o imprecisión sobre nuestro análisis. Por tanto, aprenderémos a como identificarlos e eliminarlos en caso de ser necesario.

In [None]:
df.isna()

Con isNa tenemos información sobre que variables que tenemos dentro de nuestro dataframe. Podemos ver notna caso contrario al anterior visto.

In [None]:
df.isna().sum()

Podemos sumar la cantidad de NaN o datos faltantes por columnas.

In [None]:
df.replace(['?','--'],np.nan, inplace=True)
df

Podemos remplazar otros valores como el ? o el -- por NaN. Para tener una normalización de datos faltantes.

In [None]:
df.dropna(axis=0)

O, eliminar de la base de datos registros completos en caso de tener un valor NaN. Caos más utilizado para no generar algún tipo de ruido en los datos. El axis = 0 indica que haga el análisis tomando en cuenta las columnas como criterio de decisión de eliminación. En caso de que fuera axis = 1, estaría buscando por columna donde exista algún NaN, y eliminaría toda la columna, como se muestra a continuación.

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Dataframe ahora con columna D sin ningún NaN

In [None]:
df.dropna(axis=1)

Resultado final solo teniendo en cuenta que la columna D cumple con no tener ningún NaN

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Podemos también rellenar un NaN con un valor escalar o valor fijo

In [None]:
df.fillna(1.0)

O podemos rellenarlo con algo más común como una media de la columna

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

In [None]:
mean = df.column_a.mean()
df.column_a.fillna(mean)

También podemos rellenarlo según e dato anterior presentado con df.fillna(axis=0,method="ffill") ffill refenriendóse a forward fill.

### Referencias



*   https://interactivechaos.com/es/manual/tutorial-de-pandas/union-de-series-y-dataframes
*   https://jakevdp.github.io/PythonDataScienceHandbook/index.html

* Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. Wes McKinney

