## Introducción a Pandas

Pandas (nombre derivado de panel data, término usado para referirse a conjuntos de datos estructurados multidimensionales).

Los principales objetos ofrecidos por pandas son el **dataframe**, estructura tabular bidimensional y la **serie**, ambas basadas en el array multidimensional de NumPy.

Pandas, y en particular sus objetos Series y DataFrame, se basa en la estructura de matrices de NumPy y proporciona un acceso eficiente a este tipo de tareas de "manipulación de datos" que ocupan gran parte del tiempo de un científico de datos.

Así como generalmente importamos NumPy bajo el alias np, importaremos Pandas bajo el alias pd. Como se ha comentado, pandas se basa en la funcionalidad de NumPy, por lo que numerosas funciones de esta última librería son perfectamente aplicables a las series y a los dataframes. Para poder probarlas, también debemos importar la función NumPy,

In [1]:
import pandas as pd
import numpy as np

### Documentación y ayuda

Jupyter ofrece la posibilidad de explorar rápidamente el contenido de un paquete (utilizando la función de completado), así como la documentación de varias funciones (utilizando el carácter ?)

In [5]:
pd?

In [3]:
pd.read_csv?

In [8]:
pd.

SyntaxError: invalid syntax (Temp/ipykernel_1836/1167902247.py, line 1)

In [7]:
pd.read_csv?

Puede encontrar documentación más detallada, junto con tutoriales y otros recursos, en http://pandas.pydata.org/.

### El objeto Series

A un nivel muy básico, los objetos Pandas pueden considerarse como versiones mejoradas de las matrices estructuradas de NumPy en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Una Series es un array unidimensional de datos indexados. Se puede crear a partir de una lista o un array de la siguiente manera:

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en la salida, la Serie envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos **values** e **index**. Los valores son simplemente una matriz NumPy:

In [11]:
print(data.values)
print(type(data.values))

[0.25 0.5  0.75 1.  ]
<class 'numpy.ndarray'>


In [14]:
type(data.index)

pandas.core.indexes.range.RangeIndex

Al igual que con un array de NumPy, se puede acceder a los datos por el índice asociado mediante la conocida notación de corchetes de Python

In [15]:
data[1]

0.5

In [16]:
data[1:3]

1    0.50
2    0.75
dtype: float64

#### Diferencias con el array de numpy

La diferencia esencial es la presencia del índice: mientras que la matriz Numpy tiene un índice entero definido implícitamente que se utiliza para acceder a los valores, la serie Pandas tiene un índice definido explícitamente asociado a los valores.

Esta definición explícita del índice proporciona al objeto Series capacidades adicionales. Por ejemplo, no es necesario que el índice sea un número entero, sino que puede consistir en valores de cualquier tipo deseado. Por ejemplo, si lo deseamos, podemos utilizar cadenas como índice:

In [17]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Y para acceder...

In [18]:
data['b']

0.5

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [19]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [20]:
data[5]

0.5

#### De diccionarios a Series

Se puede pensar en una Serie de Pandas como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que asigna claves tipificadas a un conjunto de valores tipificados. 

In [21]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [22]:
population['California']

38332521

Sin embargo, a diferencia de un diccionario, la Serie también admite operaciones de tipo matriz, como el 'slicing':

In [23]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

### El objeto Pandas DataFrame

Al igual que el objeto Series discutido en la sección anterior, el DataFrame puede pensarse como una generalización de un array NumPy, o como una particularización de un diccionario Python.

se puede pensar en un DataFrame como una secuencia de objetos Series alineados. Por "alineados" entendemos que comparten el mismo índice.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" alt="drawing" width="500"/>

In [24]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Ahora que tenemos esto junto con las series de población de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [25]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [26]:
print(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64


In [27]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Al igual que el objeto Series, el DataFrame tiene un atributo de índice que da acceso a las etiquetas de índice:

In [28]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, el DataFrame tiene un atributo columns, que es un objeto Index que contiene las etiquetas de las columnas:

In [29]:
states.columns

Index(['population', 'area'], dtype='object')

Por lo tanto, el DataFrame puede pensarse como una generalización de un array NumPy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

El DataFrame asigna un nombre de columna a una Serie. Por ejemplo, al pedir el atributo "area" se devuelve el objeto Serie que contiene las áreas que vimos anteriormente:

In [30]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

#### Formas de construir DataFrames

In [31]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.734822,0.893573
b,0.944318,0.38349
c,0.685239,0.71772


In [32]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [33]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


### Indexers: loc, iloc

Estas convenciones de 'slicing' e indexación pueden ser una fuente de confusión. Por ejemplo, si tu Serie tiene un índice entero explícito, una operación de indexación como data[1] utilizará los índices explícitos, mientras que una operación de corte como data[1:3] utilizará el índice implícito de estilo Python.

In [34]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [35]:
# explicit index when indexing
data[1]

'a'

In [36]:
# implicit index when slicing
data[1:3]

3    b
5    c
dtype: object

Debido a esta potencial confusión en el caso de los índices enteros, Pandas proporciona algunos atributos especiales de indexadores que exponen explícitamente ciertos esquemas de indexación. No se trata de métodos funcionales, sino de atributos que exponen una interfaz de 'slicing' particular a los datos de la Serie.

En primer lugar, el atributo loc permite la indexación y el corte que siempre hace referencia al índice explícito:

In [37]:
data.loc[1]

'a'

In [38]:
data.loc[1:3]

1    a
3    b
dtype: object

El atributo iloc permite la indexación y el corte que siempre hace referencia al índice implícito de estilo Python:

In [39]:
data.iloc[1]

'b'

In [40]:
data.iloc[1:3]

3    b
5    c
dtype: object

#### En DataFrames

In [41]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [42]:
#Acceder a Columnas
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [43]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [44]:
#Crear una nueva columna
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [45]:
#usando iloc
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [46]:
#usando loc
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Dentro de estos indexadores se puede utilizar cualquiera de los patrones de acceso a datos conocidos del estilo de NumPy. Por ejemplo, en el indexador loc podemos combinar el enmascaramiento y la indexación como en lo siguiente:

In [47]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; esto se hace de la manera estándar a la que puede estar acostumbrado de trabajar con NumPy

In [48]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [49]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


In [50]:
data[data['density'] > 5]

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Droppigng

In [51]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [52]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [53]:
#tambien varios
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [54]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),index=['Ohio', 'Colorado', 'Utah', 'New York'],columns=['one', 'two', 'three', 'four'])

In [55]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [56]:
#index
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [57]:
#columns
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


Muchas funciones, como drop, que modifican el tamaño o la forma de una Serie o DataFrame
pueden manipular un objeto en su lugar sin devolver un nuevo objeto:

In [58]:
obj.drop('c', inplace=True)

### Renaming

In [59]:
data.rename(index={'OHIO': 'INDIANA'},columns={'three': 'peekaboo'})

Unnamed: 0,one,two,peekaboo,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [60]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [61]:
data.rename(index={'Ohio': 'INDIANA'})

Unnamed: 0,one,two,three,four
INDIANA,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### Usar funciones para transformar

In [62]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
....: 'Pastrami', 'corned beef', 'Bacon',
....: 'pastrami', 'honey ham', 'nova lox'],
....: 'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})

In [63]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [64]:
data["food"]=data["food"].str.lower()

In [65]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [66]:
meat_to_animal = {
'bacon': 'pig',
'pulled pork': 'pig',
'pastrami': 'cow',
'corned beef': 'cow',
'honey ham': 'pig',
'nova lox': 'salmon'
}

El método map de una Serie acepta una función o un objeto tipo dict que contiene un mapeo,

In [67]:
data["animal"]=data["food"].map(meat_to_animal)

In [68]:
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


### Los duplicados....

In [69]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
....: 'k2': [1, 1, 2, 3, 3, 4, 4]})

In [70]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [71]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [72]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


### Combinaciones

Ahora, parte principal de la manipulación de los dataframes es la creacion o concatenación de columnas adicionales o la copias sobre las mismas. Esto, porque siempre estaremos se estará añadiendo información adicional que ayude sobre nuestros analísis.

In [73]:
df1 = pd.DataFrame({
'column_a':[1,2,3,4],
'column_b':['a','b','c','d'],
'column_c':[True,True,False,True]
})

df1

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True


In [74]:
df2 = pd.DataFrame({
'column_a':[1,2,9,10],
'column_b':['a','k','l','m'],
'column_c':[False,False,False,True]
})

df2

Unnamed: 0,column_a,column_b,column_c
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


Una forma de combinar o concatenar DataFrames es la función concat(). Puede utilizarse para concatenar DataFrames a lo largo de filas o columnas cambiando el parámetro del eje. El valor por defecto del parámetro del eje es 0, que indica la combinación a lo largo de las filas.

In [75]:
df = pd.concat([df1,df2])
df

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


In [76]:
df = pd.concat([df1,df2], axis=1)
df

Unnamed: 0,column_a,column_b,column_c,column_a.1,column_b.1,column_c.1
0,1,a,True,1,a,False
1,2,b,True,2,k,False
2,3,c,False,9,l,False
3,4,d,True,10,m,True


Como pueden ver en la primera figura de arriba, los índices de los DataFrames individuales se mantienen. Para cambiarlo y volver a indexar el DataFrame combinado, el parámetro ignore_index se establece como True.

In [77]:
df = pd.concat([df1,df2], ignore_index=True)
df

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True
4,1,a,False
5,2,k,False
6,9,l,False
7,10,m,True


El parámetro join de la función concat() determina cómo combinar los DataFrames. El valor por defecto es 'outer' y devuelve todos los índices de ambos DataFrames. Si se selecciona la opción 'inner', sólo se devuelven las filas con índices compartidos. A cotinuación diferencia entre 'inner' y 'outer'. 

In [78]:
df2 = pd.DataFrame({
'column_b':['y','q','n','a','k','l','m'],
'column_c':[False,False,False,False,False,False,True]
})
df2 = df2.drop([0,1,2])
df2

Unnamed: 0,column_b,column_c
3,a,False
4,k,False
5,l,False
6,m,True


In [79]:
df = pd.concat([df1,df2], axis=1, join='inner')
df

Unnamed: 0,column_a,column_b,column_c,column_b.1,column_c.1
3,4,d,True,a,False


In [80]:
df = pd.concat([df1,df2], axis=1, join='outer')
df

Unnamed: 0,column_a,column_b,column_c,column_b.1,column_c.1
0,1.0,a,True,,
1,2.0,b,True,,
2,3.0,c,False,,
3,4.0,d,True,a,False
4,,,,k,False
5,,,,l,False
6,,,,m,True


La función append() también se utiliza para combinar DataFrames. Se puede ver como un caso particular de la función concat() (axis=0 y join='outer').

In [81]:
df = df1.append(df2)
df

  df = df1.append(df2)


Unnamed: 0,column_a,column_b,column_c
0,1.0,a,True
1,2.0,b,True
2,3.0,c,False
3,4.0,d,True
3,,a,False
4,,k,False
5,,l,False
6,,m,True


Otra función muy utilizada para combinar DataFrames es merge(). La función Concat() simplemente añade los DataFrames uno encima del otro o los añade uno al lado del otro. Es más bien una forma de añadir DataFrames. Merge() combina los DataFrames basándose en los valores de las columnas compartidas. La función Merge() ofrece más flexibilidad que la función concat(). Se verá claramente cuando vea los ejemplos.

In [82]:
df1 = pd.DataFrame({
'column_a':[1,2,3,4],
'column_b':['a','b','c','d'],
'column_c':[True,True,False,True]
})

df1

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True


In [83]:
df2 = pd.DataFrame({
'column_a':[1,2,9,10],
'column_b':['a','k','l','m'],
'column_c':[False,False,False,True]
})

df2

Unnamed: 0,column_a,column_b,column_c
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


In [84]:
df_merge = pd.merge(df1, df2, on='column_a')
df_merge

Unnamed: 0,column_a,column_b_x,column_c_x,column_b_y,column_c_y
0,1,a,True,a,False
1,2,b,True,k,False


Los nombres de las columnas no tienen por qué ser los mismos. Nuestro objetivo son los valores de las columnas. Supongamos que dos DataFrames tienen valores comunes en una columna que desea utilizar para fusionar estos DataFrames pero los nombres de las columnas son diferentes. En este caso, en lugar del parámetro on, puede utilizar los parámetros left_on y right_on. Para mostrar la diferencia, cambiaré el nombre de la columna en df2 y luego usaré merge:

In [85]:
df2.rename(columns={'column_a':'new_column_a'}, inplace=True)
df2

Unnamed: 0,new_column_a,column_b,column_c
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


In [86]:
df_merge = pd.merge(df1, df2, left_on='column_a', right_on='new_column_a')
df_merge

Unnamed: 0,column_a,column_b_x,column_c_x,new_column_a,column_b_y,column_c_y
0,1,a,True,1,a,False
1,2,b,True,2,k,False


También puede pasar múltiples valores al parámetro on. El DataFrame devuelto sólo incluye las filas que tienen los mismos valores en todas las columnas pasadas al parámetro on.

In [87]:
df2.rename(columns={'new_column_a':'column_a'}, inplace=True)
df_merge = pd.merge(df1, df2, on=['column_a','column_b'])
df_merge

Unnamed: 0,column_a,column_b,column_c_x,column_c_y
0,1,a,True,False


### Lectura

En la mayoría de los casos, leemos datos de un fichero y los convertimos en un DataFrame. Pandas proporciona funciones para leer datos de muchos tipos de archivos diferentes. La más utilizada es read_csv. También existen otros tipos como read_excel, read_json, read_html, etc. Vamos a ver un ejemplo usando read_csv:

In [101]:
df = pd.read_csv("boston.csv")
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


Observemos las dimensiones del dataset...

In [103]:
df.shape

(506, 14)

In [104]:
#columnsa y tipo de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    int64  
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  MEDV     506 non-null    float64
dtypes: float64(12), int64(2)
memory usage: 55.5 KB


In [105]:
#Primeras filas
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [106]:
# primeras 10 filas
df.head(10)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2
5,0.02985,0.0,2.18,0,0.458,6.43,58.7,6.0622,3,222.0,18.7,394.12,5.21,28.7
6,0.08829,12.5,7.87,0,0.524,6.012,66.6,5.5605,5,311.0,15.2,395.6,12.43,22.9
7,0.14455,12.5,7.87,0,0.524,6.172,96.1,5.9505,5,311.0,15.2,396.9,19.15,27.1
8,0.21124,12.5,7.87,0,0.524,5.631,100.0,6.0821,5,311.0,15.2,386.63,29.93,16.5
9,0.17004,12.5,7.87,0,0.524,6.004,85.9,6.5921,5,311.0,15.2,386.71,17.1,18.9


In [107]:
#Ultimas filas
df.tail()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.12,76.7,2.2875,1,273.0,21.0,396.9,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.9,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,22.0
505,0.04741,0.0,11.93,0,0.573,6.03,80.8,2.505,1,273.0,21.0,396.9,7.88,11.9


In [108]:
#ultimas 10 filas 
df.tail(10)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
496,0.2896,0.0,9.69,0,0.585,5.39,72.9,2.7986,6,391.0,19.2,396.9,21.14,19.7
497,0.26838,0.0,9.69,0,0.585,5.794,70.6,2.8927,6,391.0,19.2,396.9,14.1,18.3
498,0.23912,0.0,9.69,0,0.585,6.019,65.3,2.4091,6,391.0,19.2,396.9,12.92,21.2
499,0.17783,0.0,9.69,0,0.585,5.569,73.5,2.3999,6,391.0,19.2,395.77,15.1,17.5
500,0.22438,0.0,9.69,0,0.585,6.027,79.7,2.4982,6,391.0,19.2,396.9,14.33,16.8
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.12,76.7,2.2875,1,273.0,21.0,396.9,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.9,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,22.0
505,0.04741,0.0,11.93,0,0.573,6.03,80.8,2.505,1,273.0,21.0,396.9,7.88,11.9


Con el uso de describe también podemos tener una vista genera de nuestros datos. Podemos obtener una información básica sobre ellos sin tener que indagar a analizar cada columna por aparte.

In [109]:
df.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [None]:
df.CHAS.value_counts()

Podemos tener información sobre los diferentes tipos de datos que tenemos. En este caso podemos evidencia que CHAS solo varía entre el uso de variables enteras int64 mientrás que las demás solo funcionan con variables de tipo decimal o de punto flotante float64.

Podemos tener información sobre los diferentes tipos de datos que tenemos. En este caso podemos evidencia que CHAS solo varía entre el uso de variables enteras int64 mientrás que las demás solo funcionan con variables de tipo decimal o de punto flotante float64.

In [90]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 ,None, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', '--', np.nan, 'd'],
'column_d':[True, True, np.nan, None, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,
3,4.0,6.2,d,
4,,,--,False
5,,1.1,,True
6,6.0,4.3,d,False


En muchas ocasiones nos encontraremos con bases de datos con datos faltantes, en este caso descritos como NaN. Esto es muy común verlo entre grandes cantidades de datos. Dichos datos pueden generar algún tipo de ruido o imprecisión sobre nuestro análisis. Por tanto, aprenderémos a como identificarlos e eliminarlos en caso de ser necesario.

In [91]:
df.isna()

Unnamed: 0,column_a,column_b,column_c,column_d
0,False,False,False,False
1,False,False,False,False
2,False,True,False,True
3,False,False,False,True
4,True,True,False,False
5,True,False,True,False
6,False,False,False,False


Con isNa tenemos información sobre que variables que tenemos dentro de nuestro dataframe. Podemos ver notna caso contrario al anterior visto.

In [92]:
df.isna().sum()

column_a    2
column_b    2
column_c    1
column_d    2
dtype: int64

Podemos sumar la cantidad de NaN o datos faltantes por columnas.

In [93]:
df.replace(['?','--'],np.nan, inplace=True)
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,,True
2,4.0,,c,
3,4.0,6.2,d,
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


Podemos remplazar otros valores como el ? o el -- por NaN. Para tener una normalización de datos faltantes.

In [94]:
df.dropna(axis=0)

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
6,6.0,4.3,d,False


O, eliminar de la base de datos registros completos en caso de tener un valor NaN. Caos más utilizado para no generar algún tipo de ruido en los datos. El axis = 0 indica que haga el análisis tomando en cuenta las columnas como criterio de decisión de eliminación. En caso de que fuera axis = 1, estaría buscando por columna donde exista algún NaN, y eliminaría toda la columna, como se muestra a continuación.

In [95]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,False
3,4.0,6.2,d,True
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


Dataframe ahora con columna D sin ningún NaN

In [96]:
df.dropna(axis=1)

Unnamed: 0,column_d
0,True
1,True
2,False
3,True
4,False
5,True
6,False


Resultado final solo teniendo en cuenta que la columna D cumple con no tener ningún NaN

In [97]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,False
3,4.0,6.2,d,True
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


Podemos también rellenar un NaN con un valor escalar o valor fijo

In [98]:
df.fillna(1.0)

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,1.0,c,False
3,4.0,6.2,d,True
4,1.0,1.0,1.0,False
5,1.0,1.1,1.0,True
6,6.0,4.3,d,False


O podemos rellenarlo con algo más común como una media de la columna

In [99]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,False
3,4.0,6.2,d,True
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


In [100]:
mean = df.column_a.mean()
df.column_a.fillna(mean)

0    1.0
1    2.0
2    4.0
3    4.0
4    3.4
5    3.4
6    6.0
Name: column_a, dtype: float64

También podemos rellenarlo según e dato anterior presentado con df.fillna(axis=0,method="ffill") ffill refenriendóse a forward fill.

### Referencias



*   https://interactivechaos.com/es/manual/tutorial-de-pandas/union-de-series-y-dataframes
*   https://jakevdp.github.io/PythonDataScienceHandbook/index.html

* Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. Wes McKinney

