![Picture title](image-20220204-173805.png)

![Picture title](image-20220204-160939.png)

## ¿Qué es Pandas?

Pandas es una librería de Python que se usa para manipular datos de alto nivel. Está construida sobre NumPy.

Principalmente funciona con una estructura de datos que guarda la información de manera tabular llamada **DataFrame**. Esencialmente esto es una tabla como las que veríamos en bases de datos SQL o archivos de Excel.

## ¿Por qué usar Pandas?

Para analizar datos es muy común tener que trabajar con ellos en forma tabular y con Pandas podemos hacerlo.

Una diferencia que tiene Pandas a trabajar con hojas de cálculo en Excel es que es mucho más rápida y potente, podemos trabajar con cantidades de datos más grandes.

## Comenzar a usar Pandas

Para empezar a utilizar Pandas dentro de Jupyter Notebooks en la nube como Google Colab o Deepnote no necesitas hacer ninguna instalación. Simplemente escribe la siguiente línea en una celda de código y ejecútala.

In [None]:
import pandas as pd

## DataFrames y Series

Pandas trabaja con **DataFrames** que son la estructura de datos principal con la que almacena y manipula datos tabulados.

Cada fila dentro de un DataFrame lleva un índice que indica su posición.





![Picture title](image-20220204-161955.png)

Otras estructuras de datos comunes en Pandas son las **Series**. Son de una sola dimensión como una lista de Python o un NumPy array. Esencialmente son una columna de datos y un índice que indica su posición.

![Picture title](image-20220204-162354.png)

## Crear un DataFrame

Existen diferentes maneras de crear DataFrames. Veamos algunas.

### Diccionario de listas

In [None]:
students_dict = {
    "name": ["Miguel", "Juan David", "Carmen", "Facundo", "Romina"],
    "age": [29, 19, 24, 22, 25],
    "career path":  ["Data Analyst", "Data Scientist", "Data Analyst", "Data Engineer", "ML Engineer" ],
}

students_df = pd.DataFrame(students_dict)
students_df

Unnamed: 0,name,age,career path
0,Miguel,29,Data Analyst
1,Juan David,19,Data Scientist
2,Carmen,24,Data Analyst
3,Facundo,22,Data Engineer
4,Romina,25,ML Engineer


### Lista de diccionarios (fila por fila)

In [None]:
students_list = [
    {"name": "Miguel", "age": 29, "career path": "Data Analyst"},
    {"name": "Juan David", "age": 19, "career path": "Data Scientist"},
    {"name": "Carmen", "age": 24, "career path": "Data Analyst"},
]

students_df_2 = pd.DataFrame(students_list)
students_df_2

Unnamed: 0,name,age,career path
0,Miguel,29,Data Analyst
1,Juan David,19,Data Scientist
2,Carmen,24,Data Analyst


Utilizando el método `.dtype` podemos conocer cuál es el tipo de dato que hay dentro de cada columna del DataFrame.

Utiliza ese método en cada uno de los DataFrames que creamos.

In [None]:
students_df.dtypes

name           object
age             int64
career path    object
dtype: object

In [None]:
students_df_2.dtypes

name           object
age             int64
career path    object
dtype: object

### Reto: crea nuevos DataFrames

1. Crea otro diccionario con listas y con él crea un nuevo DataFrame. Utiliza los datos que quieras.

2. También crea otra lista con diccionarios y crea otro nuevo DataFrame con los mismos datos que tenías en tu diccionario.

Comparte tus resultados en los comentarios.

---
Muy bien, ya conoces qué es Pandas y hemos comenzado a crear nuestros primeros DataFrames, pero esta es solo una base.

Crear DataFrames llenando los datos de forma manual no es como comúnmente se hace. Para ello necesitamos importar datos desde diferentes tipos de archivos.

## Importar datos de archivos con Pandas

En Pandas es común importar datos de archivos CSV, JSON, Excel y SQL para crear DataFrames con ellos.

Para esto utilizamos el método `pd.read_{file_type}('path')`. Donde `file_type` es el tipo de archivo que puede ser CSV. `'path'` se refiere a la dirección que tiene el archivo desde la computadora local o dentro del entorno en la nube que utilicemos.

### Importar datos desde CSV con Pandas

Conozcamos la forma más común de crear DataFrames con archivos CSV.

Primero descarga [aquí](https://static.platzi.com/media/public/uploads/studentsperformance_f29e92e5-811f-4cf9-9504-91644b0ecc35.csv) un dataset de desempeño de estudiantes en exámenes. Este dataset es un archivo CSV que viene de este [proyecto en Kaggle](https://www.kaggle.com/spscientist/students-performance-in-exams).

Una vez que tengas descargado el archivo CSV, súbelo dentro de tu proyecto en Deepnote para que puedas utilizarlo. Como recordaras, esto se hace en la zona izquierda dentro de Deepnote y deberá verse similar a esto:

![Picture title](image-20220204-173614.png)

Ya que tengas el archivo cargado en tu proyecto de Deepnote, copia su dirección como se muestra a continuación dando clic en los tres puntos del archivo y seleccionando la opción **Copy path to clipboard**:

![Picture title](image-20220204-174137.png)

Este path pégalo dentro del método `pd.read_csv('path')` como se muestra a continuación:

In [None]:
df = pd.read_csv('/work/StudentsPerformance.csv')
df

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


Excelente, has creado tu primer DataFrame desde un archivo CSV. 💪

Para conocer qué hay dentro del DataFrame solemos utilizar el método `.head()`.

In [None]:
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Este método nos permite conocer las 5 primeras filas del DataFrame y nos da una mirada inicial a lo que hay dentro de él.

### Reto: crea otro DataFrame desde un CSV

1. Explora Kaggle.com y busca algún otro dataset en archivo CSV.

2. Carga ese archivo a un DataFrame.

3. Comparte en los comentarios una captura de pantalla de lo que observas al ejecutar el método `.head()`.

---

Increíble, ya cargaste tus primeros datasets desde archivos y comenzaste a explorarlos. 

Este es solo el primer paso de la exploración. Necesitamos conocer diferentes métodos para inspeccionar con más detalle nuestro DataFrame.

## Explorar un DataFrame

Para analizar datos dentro de un DataFrame primero debemos hacer una inspección. Esto nos sirve para conocer su forma, tener algunas estadísticas descriptivas, ver sus últimos o primeros registros, etc.

Para ello existen métodos de Pandas que conoceremos a continuación.

### .head()

`df.head()` lo conociste en la clase anterior y retorna las 5 primeras filas. También podemos darle un entero como parámetro y devolverá esa cantidad de primeras filas dentro del notebook.



In [None]:
df.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


### .tail()

`df.tail()` retorna las 5 últimas  filas. También podemos darle un entero como parámetro y devolverá esa cantidad de últimas filas.


In [None]:
df.tail()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


### .sample()

`df.sample()` retorna filas como los dos métodos anteriores, pero toma muestras al azar del DataFrame y es necesario espeficiar en el parámetro la cantidad de filas.

In [None]:
df.sample(7)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
85,female,group C,some college,standard,none,73,80,82
646,female,group D,associate's degree,standard,none,59,70,65
115,male,group C,high school,standard,none,84,77,74
474,female,group B,associate's degree,standard,completed,90,90,91
446,male,group D,some college,free/reduced,none,69,66,60
469,male,group C,some college,standard,none,91,74,76
79,female,group E,master's degree,standard,none,62,68,68


### .shape

`df.shape` retorna la cantidad de filas y columnas que tiene el DataFrame en ese orden.

In [None]:
df.shape

(1000, 8)

### .size

`df.size` multiplica las filas y columnas y te da el total de datos del DataFrame.

In [None]:
df.size

8000

### .info()

`df.info()` da la cuenta de valores no nulos, el tipo de dato de cada columna (recuerda que solo puede haber un único tipo de dato por columna) y el uso de memoria.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


### .describe()

`df.describe()` calcula algunas estadísticas descriptivas para cada columna.

In [None]:
df.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


## Seleccionar datos de una sola columna

Para trabajar con datos de una sola columna utilizaremos código como `df['nombre_columna']`.

Para ver las columnas de un DafaFrame usamos el método `df.columns`.

In [None]:
df.columns

Index(['gender', 'race/ethnicity', 'parental level of education', 'lunch',
       'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

Usemos la columna `'math score'` y veamos sus datos.

In [None]:
df['math score']

0      72
1      69
2      90
3      47
4      76
       ..
995    88
996    62
997    59
998    68
999    77
Name: math score, Length: 1000, dtype: int64

Sobre esta columna podemos usar métodos donde uno a uno podemos ver estadísticas descriptivas solamente de esa columna.

In [None]:
df['math score'].mean()

66.089

In [None]:
df['math score'].median()

66.0

In [None]:
df['math score'].std()

15.16308009600945

Más adelante en las clases de estadística descriptiva profundizaremos en estos métodos y su aplicación. 

---
Hemos llegado al final de esta introducción a Pandas. Todavía queda mucho por conocer de esta librería.

Para seguir tu aprendizaje en data science te comparto esta [Guía definitiva para dominar Pandas](https://platzi.com/blog/pandas/) y el [Curso de Manipulación y Análisis de Datos con Pandas y Python](https://platzi.com/cursos/pandas/). 🐼🤓

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=edc68bfa-8df4-47a4-8622-860ebb931fe9' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>