# 4.- De paneles de datos al DataFrame

* Un Data Frame es una estructura bidimensional de datos que tiene filas y columnas.
* Es parecido a un spreadsheet de Excel.
* Cada columna tiene sus nombres y cada fila un index que lo puedes personalizar.

In [1]:
import pandas as pd
import numpy as np

dict_data = {'CO':300, 'MX':400, 'CH':200}

#Lo hacemos serie
pd.Series(dict_data)

CO    300
MX    400
CH    200
dtype: int64

In [2]:
#Ahora hagamos un Data Frame, que es más complejo que una serie
dict_data = {'CH': [100, 800, 200], 'CO': [100, 200, 300], 'MX': [300, 500, 400]}
pd.DataFrame(dict_data)

Unnamed: 0,CH,CO,MX
0,100,100,300
1,800,200,500
2,200,300,400


### Analizando datos de un Data Frame

* Veamos qué operaciones podemos hacer para extraer datos.

In [20]:
dict_data = {
    'edad' :     [ 10, 9, 13, 14, 12, 11, 12],
    'cm' : [ 115, 110, 130, 155, 125, 120, 125],
    'pais' :    [ 'co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
    'genero' :  [ 'M', 'F', 'F', 'M', 'M', 'M', 'F'],
    'Q1' : [ 5, 10, 8, np.nan, 7, 8, 3],
    'Q2' : [ 7, 9, 9, 8, 8, 8, 9.]
}

dict_data

{'edad': [10, 9, 13, 14, 12, 11, 12],
 'cm': [115, 110, 130, 155, 125, 120, 125],
 'pais': ['co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
 'genero': ['M', 'F', 'F', 'M', 'M', 'M', 'F'],
 'Q1': [5, 10, 8, nan, 7, 8, 3],
 'Q2': [7, 9, 9, 8, 8, 8, 9.0]}

A diferencia del diccionario al hacer una serie, al convertir un dicionario a una dataframe, los keys serán los titulos de las columnas, y los values (en formato lista) serán los valores de dicha columna

In [24]:
df=pd.DataFrame(dict_data)
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


In [27]:
df = pd.DataFrame(dict_data, index=['ana','benito','camilo','daniel','erika','fabian','gabriela'])
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
benito,9,110,mx,F,10.0,9.0
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [25]:
df.describe() # datos estadísticos de las variables cuantitativas

Unnamed: 0,edad,cm,Q1,Q2
count,7.0,7.0,6.0,7.0
mean,11.571429,125.714286,6.833333,8.285714
std,1.718249,14.556949,2.483277,0.755929
min,9.0,110.0,3.0,7.0
25%,10.5,117.5,5.5,8.0
50%,12.0,125.0,7.5,8.0
75%,12.5,127.5,8.0,9.0
max,14.0,155.0,10.0,9.0


*  `df.index` devuelve un rango si el índice es numérico, los nombres de los índicessi el indice es personalizado
* `df.columns` devuelve nombres de las columnas.
* Los valores con `df.values`.

In [26]:
df.index

RangeIndex(start=0, stop=7, step=1)

In [6]:
df.columns

Index(['edad', 'cm', 'pais', 'genero', 'Q1', 'Q2'], dtype='object')

In [None]:
df.values

array([[10, 115, 'co', 'M', 5.0, 7.0],
       [9, 110, 'mx', 'F', 10.0, 9.0],
       [13, 130, 'co', 'F', 8.0, 9.0],
       [14, 155, 'mx', 'M', nan, 8.0],
       [12, 125, 'mx', 'M', 7.0, 8.0],
       [11, 120, 'ch', 'M', 8.0, 8.0],
       [12, 125, 'ch', 'F', 3.0, 9.0]], dtype=object)

* También puedes acceder a los valores de una columna en específico.
* al usar solo un corchete obtenemos un objeto tipo serie

In [7]:
df['edad']

ana         10
benito       9
camilo      13
daniel      14
erika       12
fabian      11
gabriela    12
Name: edad, dtype: int64

* Al usar doble corchete s obtiene un Data Frame.
* Para el caso anterior sería `df[['edad']]`

In [28]:
df[['edad']]

Unnamed: 0,edad
ana,10
benito,9
camilo,13
daniel,14
erika,12
fabian,11
gabriela,12


In [11]:
df[['edad','cm','Q1']]

Unnamed: 0,edad,cm,Q1
ana,10,115,5.0
benito,9,110,10.0
camilo,13,130,8.0
daniel,14,155,
erika,12,125,7.0
fabian,11,120,8.0
gabriela,12,125,3.0


* También puedes acceder a datos puntuales.
* Puedes acceder con el índice y nombre de la columna usando el método `loc`.
* Puedes acceder con las posiciones del índice y columna con el método `iloc`.

In [29]:
# [[filas]],[[columnas]]
df.loc[['ana', 'gabriela'], ['edad', 'cm', 'Q1']]

Unnamed: 0,edad,cm,Q1
ana,10,115,5.0
gabriela,12,125,3.0


In [37]:
type(df.iloc[[0, 6], [0, 1, 4]])

pandas.core.frame.DataFrame

In [13]:
df.iloc[[0, 6], [0, 1, 4]]

Unnamed: 0,edad,cm,Q1
ana,10,115,5.0
gabriela,12,125,3.0


In [33]:
#toda la columna entera
df.iloc[:,[1,3]]

Unnamed: 0,cm,genero
ana,115,M
benito,110,F
camilo,130,F
daniel,155,M
erika,125,M
fabian,120,M
gabriela,125,F


* Tambíen puedes aplicar condicionales para hacer consultas.
* Puedes usar el método `query` que es el más prolijo o el método 'manual'.

In [34]:
df[df['edad']>=12]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
camilo,13,130,co,F,8.0,9.0
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [35]:
#Veamos el método 'manual'
#en pandas a diferencia de python las condicionales son remplazadas por &, |
df[(df['edad'] >= 12) & (df['pais'] == 'mx')]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0


In [36]:
#El método query es más prolijo
df.query('edad >= 12 & pais == "mx"')

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0


In [38]:
type(df.query('edad >= 12 & pais == "mx"'))

pandas.core.frame.DataFrame

In [20]:
df[df['Q2']>=df['Q1']]

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
camilo,13,130,co,F,8.0,9.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [46]:
# la fila con variables NaN no aparece pues nopuede ser comparada
df.query('Q2 >= Q1')

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
ana,10,115,co,M,5.0,7.0
camilo,13,130,co,F,8.0,9.0
erika,12,125,mx,M,7.0,8.0
fabian,11,120,ch,M,8.0,8.0
gabriela,12,125,ch,F,3.0,9.0


In [45]:
df.query('edad>=12 & pais=="mx"')

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
daniel,14,155,mx,M,,8.0
erika,12,125,mx,M,7.0,8.0


algunas funciones muy útiles cuando arrancas a analizar un set de datos luego de tenerlo como un dataframe(df) son:
* `df.info()`  devuelve un resumen con la estructura de las variables y el tipo de datos que contienen.
* `df.describe()`  devuelve un summary() del set de datos. 
Si tienes variables numericas te devolvera: minimo. maximo, media,std,…etc de las columnas numericas.


* Haz hecho tu primer análisis de datos con Pandas. 🐼

In [22]:
#para saber los valores repetidos
df['edad'].value_counts()

12    2
14    1
13    1
11    1
10    1
9     1
Name: edad, dtype: int64

In [23]:
#rango de valores
df['edad'].unique()

array([10,  9, 13, 14, 12, 11])

# 5.- Indexado y manejo de archivos CSV

* Dependiendo de donde estés trabajando puedes crear archivos y carpetas.
* En Deepnote, por ejemplo, cada proyecto tiene sus carpetas, cuadernos jupyter y archivos. Todos se conectan.
en google drive
```
from google.colab import drive
drive.mount('/content/drive')
```
podemos usar comandos de terminal
% es el shell
```
%cd '/content/drive/MyDrive/Colab Notebooks'
!ls
```


[Notebook de la clase](https://colab.research.google.com/drive/1CLg-GZb2szTh041PStS6O2umJV1g2YCv)

In [47]:
import pandas as pd
import numpy as np 

dict_data = {
    'edad' :     [ 10, 9, 13, 14, 12, 11, 12],
    'cm' : [ 115, 110, 130, 155, 125, 120, 125],
    'pais' :    [ 'co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
    'genero' :  [ 'M', 'F', 'F', 'M', 'M', 'M', 'F'],
    'Q1' : [ 5, 10, 8, np.nan, 7, 8, 3],
    'Q2' : [ 7, 9, 9, 8, 8, 8, 9.]
}

df = pd.DataFrame(dict_data)
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


* A este Data Frame lo puedes guardar en un archivo .csv (o cualquier otro).
* Para hacerlo usas `pd.to_csv()`.
* Debes pasar la ruta donde vas a guardar como argumento obligatorio y si el index es false como opcional.

`ìndex=False` no inluir la columna de índices

In [49]:
dir_pandas = 'datasets/{}'.format('test.csv')   #Ruta donde vamos a generar el archivo
df.to_csv(dir_pandas, index=False)  #index=False indica que no queremos el index

* Ahora, a este archivo que acabamos de generar lo podemos abrir en modo lectura en nuestro cuaderno que estamos trabajando.
* Usamos el método `pd.read_csv()` y le pasas como argumento el directorio.

In [50]:
df_read = pd.read_csv(dir_pandas)
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


* Ten en cuenta que un archivo .csv separa las columnas por defecto con una coma.
* También se le puede indicar el separador, ejemplo: `sep='\t`.
* De la misma forma, al leer un archivo con separación distinta a una coma, debemos indicar el caracter separador.

In [51]:
dir_pandas = 'datasets/{}'.format('test2.csv') 
df.to_csv(dir_pandas, sep='|', index=False)
df_read = pd.read_csv(dir_pandas, sep='|') #Si no indicamos la separación, no lo identifica.
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


## Conexión con bases de datos tipo SQL

* Si lo haces desde otro ambiente como Google Colab o VSC, debes instalar las libererías, importar y ejecutar código.
* Puedes leer cómo hacerlo en [esta clase](https://platzi.com/clases/1794-pandas/27915-conexion-con-bases-de-datos-tipo-sql/).