Continuando con nuestras recientes publicaciones sobre «Machine Learning» (artículo anterior sobre fundamentos), en esta oportunidad compartimos algunas cosas que hemos aprendido siguiendo el tutorial «Machine Learning in Python Step by Step«.
Para poder entender este artículo recomendamos seguir el tutorial paso a paso… no se toma más de 30 minutos.
- Anaconda: Aprendimos que se puede configurar un ambiente relativamente completo para experimentación con Machine Learning y Python usando Anaconda.
- Dataset IRIS: Existe un «Hello World» para Machine Learning basado en un dataset llamado «IRIS» 3. Este consiste en un conjunto de datos que describe tres tipos de flores Iris (setosa, virginica y versicolor) por las dimensiones de su sépalo y pétalo; se puede usar para entrenar un modelo de aprendizaje de máquina para que este infiera el tipo de flor (clasificación) con base en la combinación de parámetros.
- Arreglos: Python provee mecanismos para expresar y manipular arreglos de forma sumamente robusta. Podemos resumirlos de la siguiente manera:
-
Básicamente [a:b,c:d] donde a:b representa un rango de filas y c:d representa otro rango de columnas.
-
array[:,0:4] retorna todas las filas de la matriz y las primeras 4 columnas a partir de la columna cero.
-
array[:,4] retorna todos los elementos (filas) de la quinta columna (índice 4)
-
- Entrenamiento y Validación: El entrenamiento y validación de modelos de aprendizaje de máquinas usualmente suele dividir los datos conocidos en 80% para aprendizaje o creación del modelo y 20% para validación del modelo generado. En este tutorial se usa la función
model_selection.train_test_split(X,Y, test_size, random_state)
de la libreria sklearn. - SKLEARN LIB: Existen diversos algoritmos de clasificación en la librería sklearn:
- LogisticRegression
- LinearDiscriminationAnalysis
- KNeighborsClassifier
- DecisionTreeClassifier
- GaussianNB
- SVM/SVC
- Precisión de Los Algoritmos: Diferentes algoritmos presentan diferentes niveles de precisión dependiendo del problema a resolver. Estos se pueden evaluar usando funciones como model_selection.cross_val_score que da como resultado medidas estadísticas como la media y la desviación estandar. Esta validación se puede confirmar con gráficos de tipo box charts, scattered matrix e histogramas. Estos gráficos se generan en python usando librerías como matplotlib
- Aprender y Predecir: Una vez entrenado el modelo (con knn.fit()) se pueden generar predicciones (knn.predict())
- Matriz de Confusión: Las predicciones pueden ser validadas mediante mecanismos como confusion_matrix que provee una análisis simple de valores esperados y valores predichos de manera correcta y errónea.
- La matriz de confusión tiene un eje (x) que representa los valores conocidos, y un eje (y) que representa los valores predichos.
setosa ==> [[ 7 0 0] versicolor ==> [ 0 11 1] virginica ==> [ 0 2 9 ]] se ve vi
- Esto se interpreta así:
- Se identificaron 7 setosas adecuadamente.
- De las 12 versicolor se identificaron 11 correctamente y una como virginica
- De las 11 virginicas se identificaron 9 correctamente y 2 como versicolor.
- La matriz de confusión tiene un eje (x) que representa los valores conocidos, y un eje (y) que representa los valores predichos.
Referencias:
- Machine Learning Step by Step: https://machinelearningmastery.com/machine-learning-in-python-step-by-step/
- Confusion Matrix: http://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
- IRIS: https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos
- Iris Setosa Image: https://www.rhs.org.uk/Plants/9355/Iris-setosa/Details
Comentarios