# 4.2 Análisis Exploratorio de Datos con Pandas.

El primer paso de un proceso de análisis es entender mi problema a resolver. El segundo, conseguir datos de calidad. ¿El tercero? Conocer esos datos, con el fin de empezar a idear qué puedo realiar con ellos para resolver el problema, el alcance que puedo alcanzar y determinar si voy a necesitaro o no más datos.

A ese proceso de conocimiento de mis datos le llamo **Análisis Exploratorio**.

Hay muchísimas cosas que puedo hacer, a continuación, comparto algunas:

In [8]:
import pandas as pd
import numpy as np
import seaborn as sns # seaborn es un paquete para hacer gráficas en Python. Ahorita, sólo lo usaremos para cargar datos.

In [11]:
df = sns.load_dataset('iris')
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [14]:
## Conocer el tamaño de mi dataset
df.shape

(150, 5)

In [15]:
## Conocer valores únicos de alguna columna.
df['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [27]:
## Ver la lista de columnas
df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

### Calcular medidas de tendencia central.

¿Recuerdas los ejes y cómo se calculaban con NumPy? Pues es muy parecido...

In [19]:
df.mean(axis=0)

sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64

In [20]:
df.mean(axis=1)

0      2.550
1      2.375
2      2.350
3      2.350
4      2.550
5      2.850
6      2.425
7      2.525
8      2.225
9      2.400
10     2.700
11     2.500
12     2.325
13     2.125
14     2.800
15     3.000
16     2.750
17     2.575
18     2.875
19     2.675
20     2.675
21     2.675
22     2.350
23     2.650
24     2.575
25     2.450
26     2.600
27     2.600
28     2.550
29     2.425
       ...  
120    4.525
121    3.825
122    4.800
123    3.925
124    4.450
125    4.550
126    3.900
127    3.950
128    4.225
129    4.400
130    4.550
131    5.025
132    4.250
133    3.925
134    3.925
135    4.775
136    4.425
137    4.200
138    3.900
139    4.375
140    4.450
141    4.350
142    3.875
143    4.550
144    4.550
145    4.300
146    3.925
147    4.175
148    4.325
149    3.950
Length: 150, dtype: float64

¡Nota cómo ese cálculo ignoró los valores que no eran numéricos!

In [22]:
df.median(0)

sepal_length    5.80
sepal_width     3.00
petal_length    4.35
petal_width     1.30
dtype: float64

Si sólo me interesan los resultados de una columna, puedo seleccionarla de antemano, ¡y ya no será necesario especificar el eje!

In [26]:
df['sepal_length'].median()

5.8

Y para contar datos (y poder conocer la _Moda_)...

In [29]:
df['species'].value_counts()

setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

## Extraer (filtrar) datos
Existen varias formas de hacerlo:

#### 1. Cuando sólo quiero filtrar algunas columnas.

In [35]:
# Escribo, con doble corchete, las columnas separadas por coma

df[['petal_length', 'species']]

Unnamed: 0,petal_length,species
0,1.4,setosa
1,1.4,setosa
2,1.3,setosa
3,1.5,setosa
4,1.4,setosa
5,1.7,setosa
6,1.4,setosa
7,1.5,setosa
8,1.4,setosa
9,1.5,setosa


#### 2. Cuando quiero filtar rangos de columnas y de filas.

In [37]:
# Uso el método .loc. Primero especifico las filas (hacia abajo), y luego las columnas (hacia la derecha).

df.loc[105, 'species']

'virginica'

In [40]:
# Si son más de una, escribo una lista con,las columnas o con las hileras que quiero ver...

df.loc[105, ['sepal_width', 'species']]

sepal_width            3
species        virginica
Name: 145, dtype: object

In [41]:
# O incluso, puedo especificar un rango, usando dos puntos...

df.loc[95:105, ['sepal_width', 'species']]

Unnamed: 0,sepal_width,species
95,3.0,versicolor
96,2.9,versicolor
97,2.9,versicolor
98,2.5,versicolor
99,2.8,versicolor
100,3.3,virginica
101,2.7,virginica
102,3.0,virginica
103,2.9,virginica
104,3.0,virginica


#### 3. Cuando quiero filtrar hileras y columnas, pero usando el número de columna en vez del nombre.


In [43]:
## Uso el método .iloc, que funciona igual al anterior, pero sólo acepta valores numéricos. 

df.iloc[95:105, [1, 4]]

Unnamed: 0,sepal_width,species
95,3.0,versicolor
96,2.9,versicolor
97,2.9,versicolor
98,2.5,versicolor
99,2.8,versicolor
100,3.3,virginica
101,2.7,virginica
102,3.0,virginica
103,2.9,virginica
104,3.0,virginica


#### 4. Cuando quiero filtrar usando una regla. Por ejemplo, sólo aquellos con sepal_length menor a 5.

In [47]:
# Primero, veamos qué pasa cuando le pregunto cuáles son esos valores.

df['sepal_length'] < 5

0      False
1       True
2       True
3       True
4      False
5      False
6       True
7      False
8       True
9       True
10     False
11      True
12      True
13      True
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22      True
23     False
24      True
25     False
26     False
27     False
28     False
29      True
       ...  
120    False
121    False
122    False
123    False
124    False
125    False
126    False
127    False
128    False
129    False
130    False
131    False
132    False
133    False
134    False
135    False
136    False
137    False
138    False
139    False
140    False
141    False
142    False
143    False
144    False
145    False
146    False
147    False
148    False
149    False
Name: sepal_length, Length: 150, dtype: bool

In [50]:
# ¡Sólo tengo valores True y False, que me indican cuáles son! 
# Pero, para verlos, vamos a pasarlos como argumento dentro del .loc, cuando especifico las hileras.

df.loc[df['sepal_length'] < 5, :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
6,4.6,3.4,1.4,0.3,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa
11,4.8,3.4,1.6,0.2,setosa
12,4.8,3.0,1.4,0.1,setosa
13,4.3,3.0,1.1,0.1,setosa
22,4.6,3.6,1.0,0.2,setosa
