<a href="https://colab.research.google.com/github/Nacho2904/orga_de_datos/blob/main/apunte_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/lrargerich/7506/master/Notebooks/Encuestas/encuesta.csv"

# Apunte de Pandas


## Estructuras de datos, métodos esenciales

### DataFrames

Los dataframes son estructuras de datos utilizadas para representar datasets de corto o mediano volumen en formato tabular, pudiendo por ejemplo ser importados de un csv o de una base de datos SQL.

Cada fila tiene un index, y las columnas representan los distintos **features** de nuestro dataset.

Procedemos a importar datos de las encuestas del departamento de computación:

In [None]:
df = pd.read_csv(url)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 666 entries, 0 to 665
Data columns (total 12 columns):
 #   Column                                        Non-Null Count  Dtype 
---  ------                                        --------------  ----- 
 0   Marca temporal                                666 non-null    object
 1   Curso                                         666 non-null    object
 2   Opinión General Sobre el Curso                666 non-null    object
 3   ¿Aprobó la Cursada?                           666 non-null    object
 4   ¿Cómo te Resultaron los Temas de la Materia?  666 non-null    object
 5   ¿Los Temas de la Materia Están Actualizados?  666 non-null    object
 6   Nivel de las Clases Teóricas del Curso        666 non-null    object
 7   Nivel de las Clases Prácticas del Curso       666 non-null    object
 8   Dificultad del Curso                          666 non-null    object
 9   Dificultad del TP                             666 non-null    object
 10  Co

Vemos que tirándole el método *info()* al dataframe nos da información básica sobre cada feature (conteo de no NULL, tipo de dato que contiene, nombre del feature, índice de la columna), además de describirnos la estructura del dataframe.

Utilizando el método *head()*, obtenemos las primeras filas del dataframe, para poder echar un vistazo a su estructura de forma directa

In [None]:
df.head()

Unnamed: 0,Marca temporal,Curso,Opinión General Sobre el Curso,¿Aprobó la Cursada?,¿Cómo te Resultaron los Temas de la Materia?,¿Los Temas de la Materia Están Actualizados?,Nivel de las Clases Teóricas del Curso,Nivel de las Clases Prácticas del Curso,Dificultad del Curso,Dificultad del TP,Comentarios Sobre el Curso,¿El email puede ser mostrado al docente?
0,1/19/2020 10:09:49,75.01-95.01-Computación - 1 - Strobino,Excelente,Sí,Interesantes,Sí,Excelentes,Buenas,Normal,Normal,La primera parte del curso fue más bueno que e...,Si
1,2/14/2020 11:02:35,75.01-95.01-Computación - 11 - Calvo,Excelente,Sí,Interesantes,Sí,Excelentes,Excelentes,Normal,Normal,,Si
2,2/14/2020 11:02:52,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,Sí,Muy Interesantes,Sí,Muy Buenas,Muy Buenas,Normal,Normal,,Si
3,2/14/2020 11:07:41,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,Sí,Interesantes,Sí,Muy Buenas,Excelentes,Dificil,Normal,,Si
4,2/14/2020 11:08:37,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,Sí,Interesantes,Sí,Buenas,Muy Buenas,Normal,Normal,,No


Para acceder a una columna en particular, utilizamos la sintaxis *df["nombre_de_columna"]*. Por ejemplo, podemos acceder al nombre del curso:

In [None]:
cursos = df["Curso"]
cursos

0                 75.01-95.01-Computación - 1 - Strobino
1                   75.01-95.01-Computación - 11 - Calvo
2                   75.01-95.01-Computación - 11 - Calvo
3                   75.01-95.01-Computación - 11 - Calvo
4                   75.01-95.01-Computación - 11 - Calvo
                             ...                        
661    95.13-Métodos Matemáticos y Numéricos - Cavaliere
662    95.13-Métodos Matemáticos y Numéricos - Cavaliere
663    95.59-Diseño, Operación y Gestión de Servicios...
664    95.59-Diseño, Operación y Gestión de Servicios...
665    95.59-Diseño, Operación y Gestión de Servicios...
Name: Curso, Length: 666, dtype: object

Notamos un detalle: tanto cuando pedimos información, como cuando pedimos la columna en sí, el tipo del curso, a pesar de que evidentemente es una string, es interpretado por Pandas como *object*.

In [None]:
type(cursos)

pandas.core.series.Series

Notamos que el tipo de la variable *cursos* recién creada ya no es un dataframe, si no que es una **serie**. Más abajo las definimos y explicamos

Para acceder a un índice específico usamos notación matricial:

In [None]:
df["Curso"][57]

'75.01-95.01-Computación - 3 y 10 - Perez Berro'

Para poder aplicar una transformación a cada elemento de la serie, o cada columna del dataframe, podemos aplicar el método *map*.

In [None]:
cursos.map(lambda string: string.split())[0:5]

0    [75.01-95.01-Computación, -, 1, -, Strobino]
1      [75.01-95.01-Computación, -, 11, -, Calvo]
2      [75.01-95.01-Computación, -, 11, -, Calvo]
3      [75.01-95.01-Computación, -, 11, -, Calvo]
4      [75.01-95.01-Computación, -, 11, -, Calvo]
Name: Curso, dtype: object

Mediante el método *unique* podemos obtener los valores únicos que tiene una serie.

In [None]:
len(cursos.unique())

56

Podemos observar que hay un total de 56 cursos diferentes dictados por el Departamento de Computación.

Podemos filtrar las columnas que queremos de un dataframe con la sintaxis *df[[columna_1, columna_2, ..., columna_n]]*

In [None]:
df_filtrado = df[["Curso", "Opinión General Sobre el Curso"]]
df_filtrado.head()

Unnamed: 0,Curso,Opinión General Sobre el Curso
0,75.01-95.01-Computación - 1 - Strobino,Excelente
1,75.01-95.01-Computación - 11 - Calvo,Excelente
2,75.01-95.01-Computación - 11 - Calvo,Muy Bueno
3,75.01-95.01-Computación - 11 - Calvo,Muy Bueno
4,75.01-95.01-Computación - 11 - Calvo,Muy Bueno


In [None]:
df_filtrado["Opinión General Sobre el Curso"].unique()

array(['Excelente', 'Muy Bueno', 'Bueno', 'Regular', 'Malo'], dtype=object)

Añadir una columna funciona de forma muy intuitiva

In [None]:
def convertir_opinion_a_numerico(opinion: str) -> int:
  valores_correspondientes = {
      "Excelente":5,
      "Muy Bueno":4,
      "Bueno":3,
      "Regular":2,
      "Malo":1
  }
  return valores_correspondientes[opinion]

df_filtrado["nota"] = df_filtrado["Opinión General Sobre el Curso"].map(convertir_opinion_a_numerico)
df_filtrado.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,Curso,Opinión General Sobre el Curso,nota
0,75.01-95.01-Computación - 1 - Strobino,Excelente,5
1,75.01-95.01-Computación - 11 - Calvo,Excelente,5
2,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,4
3,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,4
4,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,4


Para poder resumir variables mediante momentos estadísticos podemos aplicar el método *describe*

In [None]:
df_filtrado.describe()

Unnamed: 0,nota
count,666.0
mean,3.78979
std,1.193069
min,1.0
25%,3.0
50%,4.0
75%,5.0
max,5.0


Estamos en condición para, por ejemplo, buscar qué cursos han tenido en algún punto una opinión muy mala

In [None]:
(df_filtrado[df_filtrado["nota"] == 1])["Curso"].unique()

array(['75.01-95.01-Computación - 5 - Arriazu',
       '75.01-95.01-Computación - 6 y 9 - Jimenez Rey',
       '75.01-95.01-Computación - 7 - Cabrera',
       '75.02-95.11-Algoritmos y Programación I (Electrónica) - 1 - Cardozo',
       '75.03-95.57-Organización del Computador - 2 - Moreno',
       '75.06-95.58-Organización de Datos - Argerich',
       '75.07-95.02-Algoritmos y Programación III - Suarez',
       '75.09-95.20-Análisis de la Información / Métodos y Modelos de la Ing. del Software I - 1 - Villagra',
       '75.46-Administración y Control de Proyectos Informáticos II - Alvaro',
       '75.48-Calidad en el Desarrollo del Sistemas - Pantaleo',
       '75.69-Sistemas Automáticos de Diagnóstico y Detección de Fallas II - Merlino',
       '75.71-75.72-95.68-Seminario de Ingeniería Informática I y II/Desarrollo Con Nuevas Tecnologías - 1 - Cosso',
       '95.59-Diseño, Operación y Gestión de Servicios Informáticos'],
      dtype=object)

En vez de utilizar directamente *describe*, podemos usar cada estadística por separado mediante métodos como *mean*, *median*, *count*, etc

In [None]:
df_filtrado["nota"].median()

4.0

### Series

Las series, en esencia, son listas indexadas de forma que cada elemento de dicha lista puede ser accedido rápidamente. Podemos pensar a cada columna o fila del dataframe como una serie.

## Agrupaciones (GROUP BY)

Las agrupaciones son el equivalente del GROUP BY clause de SQL. Sirven para resumir features en base a ciertos grupos de otras features, como por ejemplo sacar el promedio de calificación por curso, sacar el porcentaje de aprobación por curso, etc.

In [None]:
df_filtrado.groupby("Curso")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f5828822050>

Notamos que, tras agrupar el dataframe por curso, Pandas crea un objeto que **no es un dataframe**, si no un objeto **GroupBy**. Con dicho tipo de objeto no se puede operar. Para efectivamente utilizar nuestro groupby, necesitamos aplicar también una **función de agregación** (tal y como hacemos en SQL).

In [None]:
notas_por_curso = df_filtrado.groupby("Curso").mean()
notas_por_curso[0:5]

Unnamed: 0_level_0,nota
Curso,Unnamed: 1_level_1
75.01-95.01-Computación - 1 - Strobino,5.0
75.01-95.01-Computación - 11 - Calvo,4.235294
75.01-95.01-Computación - 2 - Burin,3.529412
75.01-95.01-Computación - 3 y 10 - Perez Berro,4.586207
75.01-95.01-Computación - 5 - Arriazu,3.916667


Aprovechamos para introducir el muy útil método *sort*

In [None]:
notas_por_curso.sort_values(by="nota", ascending = False)[:10]

Unnamed: 0_level_0,nota
Curso,Unnamed: 1_level_1
75.01-95.01-Computación - 1 - Strobino,5.0
75.42-Taller de Programación I - 2 - Azcurra,5.0
75.15-75.28-95.05-Base de Datos - 1 - Beiro,4.777778
75.40-95.14-Algoritmos y Programación I - 3 - Mendez,4.725
75.12-95.04-95.13-Análisis Numérico I/Métodos Matemáticos y Numéricos - 2 - Tarela,4.714286
75.40-95.14-Algoritmos y Programación I - 4 - Essaya,4.681818
75.01-95.01-Computación - 3 y 10 - Perez Berro,4.586207
75.42-95.08-Taller de Programación I - 1 -Veiga,4.5
75.33-75.43-95.60-Introducción a los Sistemas Distribuidos - Carísimo,4.461538
75.41-95.15-Algoritmos y Programación II - 4 - Mendez,4.4


In [None]:
notas_por_curso.sort_values(by="nota")[:10]

Unnamed: 0_level_0,nota
Curso,Unnamed: 1_level_1
75.71-75.72-95.68-Seminario de Ingeniería Informática I y II/Desarrollo Con Nuevas Tecnologías - 1 - Cosso,1.0
75.69-Sistemas Automáticos de Diagnóstico y Detección de Fallas II - Merlino,1.0
75.01-95.01-Computación - 7 - Cabrera,1.0
75.48-Calidad en el Desarrollo del Sistemas - Pantaleo,1.0
75.09-95.20-Análisis de la Información / Métodos y Modelos de la Ing. del Software I - 1 - Villagra,1.588235
"95.59-Diseño, Operación y Gestión de Servicios Informáticos",1.666667
75.12-95.04-95.13-Análisis Numérico I/Métodos Matemáticos y Numéricos - 3 - Griggio,2.0
75.03-95.57-Organización del Computador - 1 - Benitez,2.0
75.07-95.02-Algoritmos y Programación III - Suarez,2.291667
95.13-Métodos Matemáticos y Numéricos - Cavaliere,2.875


Y de esa manera hemos obtenido un listado de los 10 cursos mejores valorados, y de los 10 cursos peores valorados

Mediante el operador *loc* podemos usar el nombre del curso como índice, y mediante *iloc* podemos utilizar el índice numérico

In [None]:
notas_por_curso.loc["75.41-95.15-Algoritmos y Programación II - 4 - Mendez"], notas_por_curso.iloc[21]

(nota    4.4
 Name: 75.41-95.15-Algoritmos y Programación II - 4 - Mendez, dtype: float64,
 nota    4.714286
 Name: 75.12-95.04-95.13-Análisis Numérico I/Métodos Matemáticos y Numéricos - 2 - Tarela, dtype: float64)

Mediante *aggregate* podemos aplicar múltiples agregaciones al mismo tiempo

In [None]:
promedio_y_mediana_por_curso = df_filtrado.groupby("Curso").agg(promedio=("nota", "mean"), mediana=("nota", "median"))
promedio_y_mediana_por_curso[:10]

Unnamed: 0_level_0,promedio,mediana
Curso,Unnamed: 1_level_1,Unnamed: 2_level_1
75.01-95.01-Computación - 1 - Strobino,5.0,5.0
75.01-95.01-Computación - 11 - Calvo,4.235294,4.0
75.01-95.01-Computación - 2 - Burin,3.529412,4.0
75.01-95.01-Computación - 3 y 10 - Perez Berro,4.586207,5.0
75.01-95.01-Computación - 5 - Arriazu,3.916667,4.0
75.01-95.01-Computación - 6 y 9 - Jimenez Rey,4.268293,4.0
75.01-95.01-Computación - 7 - Cabrera,1.0,1.0
75.01-95.01-Computación - 8 - Lage,3.333333,3.0
75.02-95.11-Algoritmos y Programación I (Electrónica) - 1 - Cardozo,3.25,3.5
75.02-95.11-Algoritmos y Programación I (Electrónica) - 2 - Kuhn/Essaya,4.16,4.0


## Manejo básico de indexes

In [None]:
df_copia = df
df_copia.head()

Unnamed: 0,Marca temporal,Curso,Opinión General Sobre el Curso,¿Aprobó la Cursada?,¿Cómo te Resultaron los Temas de la Materia?,¿Los Temas de la Materia Están Actualizados?,Nivel de las Clases Teóricas del Curso,Nivel de las Clases Prácticas del Curso,Dificultad del Curso,Dificultad del TP,Comentarios Sobre el Curso,¿El email puede ser mostrado al docente?
0,1/19/2020 10:09:49,75.01-95.01-Computación - 1 - Strobino,Excelente,Sí,Interesantes,Sí,Excelentes,Buenas,Normal,Normal,La primera parte del curso fue más bueno que e...,Si
1,2/14/2020 11:02:35,75.01-95.01-Computación - 11 - Calvo,Excelente,Sí,Interesantes,Sí,Excelentes,Excelentes,Normal,Normal,,Si
2,2/14/2020 11:02:52,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,Sí,Muy Interesantes,Sí,Muy Buenas,Muy Buenas,Normal,Normal,,Si
3,2/14/2020 11:07:41,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,Sí,Interesantes,Sí,Muy Buenas,Excelentes,Dificil,Normal,,Si
4,2/14/2020 11:08:37,75.01-95.01-Computación - 11 - Calvo,Muy Bueno,Sí,Interesantes,Sí,Buenas,Muy Buenas,Normal,Normal,,No


Para ver los índices de las columnas le pedimos al dataframe su colaborador *columns*

In [None]:
df_copia.columns

Index(['Marca temporal', 'Curso', 'Opinión General Sobre el Curso',
       '¿Aprobó la Cursada?', '¿Cómo te Resultaron los Temas de la Materia?',
       '¿Los Temas de la Materia Están Actualizados?',
       'Nivel de las Clases Teóricas del Curso',
       'Nivel de las Clases Prácticas del Curso', 'Dificultad del Curso',
       'Dificultad del TP', 'Comentarios Sobre el Curso',
       '¿El email puede ser mostrado al docente?'],
      dtype='object')

Mediante el método *rename* podemos cambiar el nombre de una columna específica

In [None]:
df_copia = df_copia.rename(columns = {"Marca temporal":"Fecha y hora"})
df_copia.columns

Index(['Fecha y hora', 'Curso', 'Opinión General Sobre el Curso',
       '¿Aprobó la Cursada?', '¿Cómo te Resultaron los Temas de la Materia?',
       '¿Los Temas de la Materia Están Actualizados?',
       'Nivel de las Clases Teóricas del Curso',
       'Nivel de las Clases Prácticas del Curso', 'Dificultad del Curso',
       'Dificultad del TP', 'Comentarios Sobre el Curso',
       '¿El email puede ser mostrado al docente?'],
      dtype='object')