# Análisis de Datos con Python


## Carga de datos

Importar la librería de Python, `Pandas`:


In [116]:
import pandas as pd

Cargar el archivo CSV con los datos


In [117]:
dataFrame = pd.read_csv('archivos_entrada/datos.csv')

Imprimir los primeros (5) valores del archivo CSV cargado. Se puede definir cuantas filas mostrar con `dataFrame.head(3)` a partir del inicio, o al final del archivo `dataFrame.tail(2)`.


In [118]:
dataFrame.head()

Unnamed: 0,Course Title,Rating,Level,Duration,Schedule,Review,What you will learn,Skill gain,Modules,Instructor,Offered By,Keyword,Course Url
0,Fashion as Design,4.8,Beginner level,20 hours (approximately),Flexible schedule,"2,813 reviews",,"['Art History', 'Art', 'History', 'Creativity']","['Introduction', 'Heroes', 'Silhouettes', 'Cou...","['Anna Burckhardt', 'Paola Antonelli', 'Michel...",['The Museum of Modern Art'],Arts and Humanities,https://www.coursera.org/learn/fashion-design
1,Modern American Poetry,4.4,Beginner level,Approx. 34 hours to complete,Flexible schedule,100 reviews,,[],"['Orientation', 'Module 1', 'Module 2', 'Modul...",['Cary Nelson'],['University of Illinois at Urbana-Champaign'],Arts and Humanities,https://www.coursera.org/learn/modern-american...
2,Pixel Art for Video Games,4.5,Beginner level,9 hours (approximately),Flexible schedule,227 reviews,,[],"['Week 1: Introduction to Pixel Art', 'Week 2:...","['Andrew Dennis', 'Ricardo Guimaraes']",['Michigan State University'],Arts and Humanities,https://www.coursera.org/learn/pixel-art-video...
3,Distribución digital de la música independiente,,Beginner level,Approx. 8 hours to complete,Flexible schedule,,,[],"['Semana 1', 'Semana 2', 'Semana 3', 'Semana 4']",['Eduardo de la Vara Brown.'],['SAE Institute México'],Arts and Humanities,https://www.coursera.org/learn/distribucion-di...
4,The Blues: Understanding and Performing an Ame...,4.8,Beginner level,Approx. 11 hours to complete,Flexible schedule,582 reviews,Students will be able to describe the blues as...,"['Music', 'Chord', 'Jazz', 'Jazz Improvisation']","['Blues Progressions – Theory and Practice ', ...",['Dariusz Terefenko'],['University of Rochester'],Arts and Humanities,https://www.coursera.org/learn/the-blues


Imprimir la cantidad de registros que ha leído del archivo CSV


In [119]:
print(f"Filas: {len(dataFrame)}")

Filas: 9595


## Limpieza de datos

Ahora procedemos a hacer limpieza de datos.
Lo primero será buscar los valores `NaN` dentro del archivo, para esto se utilizarán las funciones `isna()` y `sum()` que nos de devolverán los totales de cada columna


In [120]:
dataFrame.isna().sum()

Course Title              0
Rating                 1439
Level                  1265
Duration                262
Schedule                683
Review                 1443
What you will learn    4611
Skill gain                0
Modules                   0
Instructor                0
Offered By                0
Keyword                   0
Course Url                0
dtype: int64

### Rating

Según la tabla anterior, el 15% (1439 filas) de los valores de `Rating` son `NaN` por lo que colocarles un valor de _cero_ podría romper la tendencia o distorcionar los cálculos, se optará por rellenar esos datos con la **`media`** de la columna.


In [121]:
mean_rating = round(dataFrame['Rating'].mean(), 2)
dataFrame['Rating'] = dataFrame['Rating'].fillna(mean_rating)

Ahora se podrá visualizar una nueva fila con `Rating` igual a la `media` de los valores.


In [122]:
dataFrame['Rating'].value_counts()

Rating
4.80    2180
4.70    2083
4.65    1439
4.60    1250
4.90     823
4.50     742
4.40     362
4.30     206
4.20     146
4.10      86
5.00      75
3.90      45
4.00      44
3.80      28
3.30      16
3.70      15
3.40      12
3.60      10
3.50       9
3.10       8
3.20       7
3.00       3
1.50       3
2.50       3
Name: count, dtype: int64

## Cálculos

Ahora se mostrarán algunos cálculos sobre los datos limpios


### 1. Promedio de calificación por curso


In [123]:
dataFrame.groupby('Course Title')['Rating'].mean()

Course Title
 Assisting Public Sector Decision Makers With Policy Analysis                                                          4.80
 Atención prehospitalaria del ictus agudo y selección de pacientes para tratamiento endovascular con la escala RACE    4.90
 Build a social media presence for your business using Canva                                                           4.70
 Build social awareness content for Twitter with Canva                                                                 4.65
 Comercio, Inmigración y Tipos de Cambio en un Mundo Globalizado                                                       4.90
                                                                                                                       ... 
현대 로봇공학, 강좌 2: 로봇 기구학                                                                                                  4.65
현대 로봇공학, 강좌 3: 로봇 동역학                                                                                                  

### 2. Cursos con mayor y menor rating


In [124]:
sorted_rating = dataFrame.sort_values('Rating')

sorted_rating.iloc[[-1, 0]]


Unnamed: 0,Course Title,Rating,Level,Duration,Schedule,Review,What you will learn,Skill gain,Modules,Instructor,Offered By,Keyword,Course Url
4092,Compromiso del paciente: resultados clínicos s...,5.0,Beginner level,2 months at 10 hours a week,Flexible schedule,5 reviews,,"['Colaboración', 'Toma de decisiones', 'Gestió...","['Atención centrada en el paciente', 'Calidad ...","['Efrain Navarro Olivos', 'Manuel Pérez Jiméne...",['Tecnológico de Monterrey'],Health,https://www.coursera.org/specializations/compr...
5151,Build a computer vision app with Azure Cogniti...,1.5,Intermediate level,,,129 reviews,Create a Computer Vision Cognitive Services re...,"['Artificial Intelligence (AI)', 'Software Dev...",['Learn step-by-step'],['Catalin Popa'],['Microsoft'],Information Technology,https://www.coursera.org/projects/build-a-comp...


### 3. Porcentaje de cursos con horario flexible


In [125]:
flexible_schedule = len(dataFrame[dataFrame['Schedule'] == "Flexible schedule"])
total_schedule = len(dataFrame['Schedule'])

round((flexible_schedule / total_schedule) * 100, 2)

92.88